Stage-LLM multimodaux :nouvelle voie pour la ré-identification de personnes

  • Référence: 26941134 - 2025-46983
  • Date de dépot: 08/10/2025
  • Entreprise: ORANGE
  • Site Internet ORANGE

Description

L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial.
Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité...), les femmes et les hommes de Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance.
Au sein d'Orange Innovation, vous serez intégré(e) dans une équipe de recherche ayant une double expertise en intelligence artificielle et en traitement du signal. Vous serez entouré(e) de chercheuses et chercheurs travaillant sur des sujets innovants et fondateurs pour le futur des télécommunications et en particulier pour la 6G.


La ré-identification (Re-ID) d'objets ou de personnes consiste à déterminer si deux images - souvent issues de caméras différentes - représentent la même entité.
Dans le cas des personnes, cette tâche s'effectue sans recours à la reconnaissance faciale, pour des raisons éthiques ou techniques.
Les approches classiques s'appuient sur des représentations dans des espaces sémantiques et des mesures de similarité. Elles offrent de bonnes performances en termes de rapidité et de précision, mais présentent des limites liées aux occlusions, aux variations de pose.
En parallèle, les modèles de langage multimodaux (LLM) comme GPT (OpenAI), Gemini (Google), Claude (Anthropic), LLaVA/LLaMA (Meta) ou Pixtral (Mistral) ont récemment montré une capacité croissante à comprendre finement des scènes visuelles, en intégrant raisonnement et interprétation contextuelle.
L'objectif de ce stage de recherche est d'explorer dans quelle mesure les LLM multimodaux peuvent servir d'alternative aux approches traditionnelles de ré-identification ou bien agir comme complément pour pallier leurs limitations.
Le stagiaire devra réaliser les travaux suivants:
1) État de l'art et implémentation de base
Revue des approches actuelles en ré-identification d'objets et de personnes.
Implémentation en Python/PyTorch d'un modèle de référence, notamment TransReID.
Constitution ou sélection de jeux de données adaptés.
2) Exploration des capacités image?texte des LLM multimodaux
Mise en oeuvre et test des principaux LLM multimodaux : via API (OpenAI, Google, Anthropic, etc.) et localement pour les modèles open source (LLaVA, Pixtral, etc.).
Définition de cas d'usage pertinents pour lesquels ces modèles peuvent améliorer les performances des tâches de Re-ID.
Conception d'un démonstrateur illustrant les apports et les limites de ces approches.

Profil recherché

Étudiant(e) en dernière année d'école d'ingénieur ou de master en intelligence artificielle.
Bonnes compétences en Python et si possible PyTorch.
Intérêt marqué pour les modèles de deep learning et l'analyse d'image.
Curiosité pour les LLMs et les approches multimodales de dernière génération.

Informations complémentaires

Informations complémentaires
Contrat : Stage
Durée du contrat : 6 mois
Lieu de la mission : Isère Meylan
Niveau d'étude : Bac + 5 et plus : DEA, DESS, mastère, MBA...
Expérience : Débutant
Poste(s) disponible(s) : 1
Poste de cadre : Non
Début de la mission : 11/10/2025
Salaire : : .
Secteur : Informatique, Télécommunications
Postée par ORANGE le 08/10/2025