STAGE - ML Research Engineer
>> Description du stage <<
En tant que stagiaire ML Research Engineer, vous contribuerez à concevoir et déployer des solutions d’intelligence artificielle avancées, au cœur de problématiques métiers concrètes et innovantes. Vous serez acteur(trice) de projets ambitieux, à l’intersection du traitement automatique du langage, de la vision par ordinateur et de l’analyse de données hétérogènes.
Intégré(e) à une équipe pluridisciplinaire, vous collaborerez avec des experts en IA, ingénierie et sécurité pour prototyper, évaluer et industrialiser des solutions robustes, scalables et alignées sur les enjeux stratégiques de l’entreprise.
Les sujets proposés s’articulent autour de défis techniques variés, tels que l’extraction et la structuration automatique d’informations OSINT (via des modèles de Named Entity Recognition, de Relation Extraction ou de fine-tuning de LLMs), ou encore la géolocalisation automatique d’images (en combinant Vision Transformers, feature matching et apprentissage contrastif).
Vous aurez l’opportunité de travailler sur des cas d’usage concrets, en exploitant des données textuelles, visuelles ou multimodales, et en contribuant activement à l’amélioration des pipelines d’IA.
Ce stage est une occasion unique de développer vos compétences en deep learning, machine learning, en traitement de données complexes et en recherche appliquée, dans un environnement dynamique et stimulant.
>> Profil recherché <<
Formation : Nous recherchons un(e) étudiant(e) en fin d'études de Master ou en école d’ingénieurs spécialisé(e) en machine learning, deep learning, sciences des données, ou dans un domaine connexe, avec une forte motivation pour la recherche appliquée et de bonnes compétences en programmation.
>> Modalités <<
Début : possible à partir de début Mars, avec flexibilité selon vos disponibilités.
Durée : 5 à 6 mois
>> Déroulé du processus de recrutement <<
- un échange en visio avec Mélodie de notre équipe RH | Ça sera le moment de préciser le sujet qui vous intéresse :)
- un échange technique avec l’équipe data
SUJETS PROPOSÉS POUR LE STAGE (en choisir un)
Sujet R&D 1 : Knowledge Graph et Agents IA
Contexte
Ce stage a pour objectif de développer une méthode d’extraction et de structuration de connaissances sous forme de graphe, puis d’étudier son exploitation pour alimenter un agent IA en informations fiables et contextualisées.
Sujet du stage
🔧 FOCUS 1 : Développement d’une méthode automatisée de la construction de Knowledge Graph
Extraction et structuration des données
Extraction d'entités et de relations : Utiliser / entraîner / fine tuner des modèles de NER et des méthodes d'extraction de relations (règles linguistiques, apprentissage supervisé/faiblement supervisé) pour identifier et structurer les informations clés (personnes, organisations, événements, lieux).
Entity Linking et désambiguïsation : Lier les entités extraites à des références uniques (Wikidata, bases internes) et résoudre les ambigüités en s'appuyant sur des ontologies pour structurer les concepts.
Construction dynamique du graphe : Concevoir un pipeline pour peupler le graphe avec les entités et relations extraites, en garantissant la cohérence et la traçabilité des données (exemple d'outils : Neo4j, ArangoDB, NetworkX).
Évaluation et optimisation
Définir des métriques de qualité (précision, rappel, cohérence) et des tests de graph completion pour évaluer la robustesse du graphe.
Optimiser le pipeline pour une mise à jour automatique et une scalabilité face à des volumes importants de données.
🤖 FOCUS 2 : Exploitation de graphe et LLM
Intégration du graphe dans un système RAG
Agent de récupération d'information : Développer un agent capable d'interroger le graphe pour extraire des informations pertinentes en réponse à une requête utilisateur ou un prompt de LLM.
Filtrage des hallucinations : Utiliser le graphe comme source de vérité pour valider les réponses générées par un LLM, en croisant les informations avec les données structurées.
Pondération et pertinence : Implémenter des scores de confiance pour prioriser les informations les plus fiables et contextualisées avant leur intégration dans un prompt de LLM.
Application à un cas d'usage concret
Scénarios d'utilisation :
Répondre à des questions complexes en s'appuyant sur le graphe.
Générer des résumés ou rapports automatisés en combinant les données du graphe avec un LLM.
Combinaison avec des techniques de QA : Associer le graphe à des modèles de Question Answering pour fournir des réponses précises, sourcées et explicables.
Approches few-shot : Adapter le système pour générer des réponses contextualisées à partir d'exemples tirés du graphe, améliorant ainsi la pertinence des résultats.
💡 INNOVATION ET IMPACT
Réduction des hallucinations : Le graphe agit comme un filtre pour les réponses générées par les LLMs.
Automatisation intelligente : L'agent IA exploite le graphe pour enrichir dynamiquement les prompts d'un LLM, améliorant la qualité et la fiabilité des réponses.
Profil recherché
Pas de pression : vous n'avez pas besoin de tout maîtriser dès le départ ! Nous recherchons des profils motivés, curieux et prêts à apprendre. Voici ce qui est important pour nous :
Compétences techniques : Python, NLP, Deep Learning (bases solides requises), Familiarité avec les LLM, Hugging Face, LangChain, LangGraph, une expérience en fine-tuning de modèles.
Qualités humaines essentielles : Autonomie, curiosité, et goût pour la R&D appliquée. Intérêt pour l'OSINT, la recherche d'information, ou les systèmes hybrides (comme le RAG). Ce stage est une opportunité pour apprendre et grandir dans un environnement stimulant. Nous vous accompagnerons pour monter en compétences sur les outils et technologies clés (NetworkX, Hugging Face, etc.).
Quelques papiers de recherches en rapport avec le sujet du stage
Extraction et structuration des données
LLM-empowered knowledge graph construction: A survey (arXiv, 2025) : Survey sur l’utilisation des LLM pour construire des knowledge graphs, incluant l’extraction d’entités/relations et l’ontologie automatisée. Frameworks comme GraphRAG et OntoRAG sont analysés, avec un focus sur la qualité et la réduction des hallucinations. https://arxiv.org/html/2510.20345v1
The construction and refined extraction techniques of knowledge graph based on large language models (Scientific Reports, 2026) : Méthodes de prompt engineering et LLM pour extraire et structurer des connaissances, en abordant la désambiguïsation et la qualité des triples. nature.com
KGGen: Extracting Knowledge Graphs from Plain Text with Language Models (arXiv, 2025) : Framework Microsoft (GraphRAG) pour générer des knowledge graphs à partir de texte, avec discussion sur les limites (bruit, incomplétude) et solutions d’amélioration. https://arxiv.org/html/2502.09956v1
Efficient Knowledge Graph Construction and Retrieval from Unstructured Text for Large-Scale RAG Systems (arXiv, 2025) : Stratégies d’indexation et de récupération dynamique de graphes à grande échelle, utilisant HyperTree Planning et RGL. https://arxiv.org/html/2507.03226v2
Intégration du graphe dans un système RAG
MEGA-RAG (PMC, 2025) : Framework RAG utilisant des knowledge graphs pour valider les réponses et réduire les hallucinations via des preuves multiples. https://pmc.ncbi.nlm.nih.gov/articles/PMC12540348/
Mitigating Hallucination in LLMs (arXiv, 2025) : Survey sur les solutions anti-hallucinations (RAG, raisonnement, agents IA) et l’ancrage des réponses dans des données structurées. arxiv.org
GraphRAG (GitHub/ACL, 2025) : Framework open-source améliorant la précision des réponses en RAG grâce à des graphes, avec applications en finance et santé. https://aclanthology.org/2025.genaik-1.6.pdf
Hallucination Mitigation for RAG (MDPI, 2025) : Revue des limites du RAG classique et du rôle des knowledge graphs pour valider les réponses. https://www.mdpi.com/2227-7390/13/5/856
Sujet R&D 2: Géolocalisation Automatique d'Images (Geo-Guessing AI)
Contexte
La géolocalisation d'images sans métadonnées est un enjeu majeur pour l'OSINT, la vérification d'informations et la sécurité. Ce stage a pour objectif de développer une solution d'IA capable d'estimer la localisation d'une image en combinant vision par ordinateur, feature matching et apprentissage multimodal.
Plan du stage
Revue de l'état de l'art : Étudier les méthodes existantes (Deep learning, apprentissage contrastif, multimodal learning, etc.).
Expérimentation : Tester et adapter les approches identifiées pour géolocaliser des images issues de sources OSINT.
Benchmark : Évaluer les performances des modèles (précision, robustesse, temps de calcul) sur des jeux de données variés.
Propositions d'améliorations et implémentations: Identifier les limites des solutions actuelles, suggérer des pistes innovantes pour les dépasser et implémenter.
💡 INNOVATION
Combinaison de techniques avancées pour une géolocalisation plus précise et fiable.
Développement de méthodes hybrides (vision + texte) pour enrichir les prédictions.
Profil recherché
Pas de pression : vous n'avez pas besoin de tout maîtriser dès le départ ! Nous recherchons des profils motivés, curieux et prêts à apprendre. Voici ce qui est important pour nous :
Compétences techniques: Python, traitement d'images, Deep Learning (bases solides requises), une expérience en fine-tuning de modèles.
Atouts : Connaissance en géolocalisation ou bases de données géographiques.
Qualités : Autonomie, curiosité, intérêt pour la recherche appliquée et l'OSINT.
Quelques papiers de recherches en rapport avec le sujet du stage
Méthodes avancées : Deep Learning, Apprentissage Contrastif, Multimodal
“GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models” (2025): Ce récent papier explore comment affiner de grands modèles multimodaux pour la tâche de géolocalisation visuelle avec un dataset restreint mais diversifié, illustrant une direction différente centrée sur la supervision fine-tuned. https://arxiv.org/abs/2506.01277
"PIGEON et PIGEOTTO" (2024) : Ces modèles combinent l’apprentissage contrastif multitâche, le pré-entraînement avec CLIP (Contrastive Language-Image Pre-Training), et une segmentation sémantique en géocellules. Ils ont été entraînés sur 400 000 images issues de Geoguessr, permettant une géolocalisation mondiale précise même sans métadonnées. L’approche utilise une fonction de perte innovante pour affiner la prédiction de localisation, avec une robustesse accrue face à la diversité des paysages. https://arxiv.org/abs/2307.05845
"GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization” (2023): Ce papier étend les idées de CLIP à la géolocalisation en alignant les images directement avec leurs coordonnées GPS, en représentant la Terre comme une fonction continue. https://arxiv.org/abs/2309.16020
- Département
- Engineering
- Localisations
- Paris
- Statut à distance
- Hybride
À propos de Sahar
L'entreprise a été créée en 2019 par Antoine Franz et Gauthier Schweitzer, deux ingénieurs français passionnés par l'intelligence artificielle et l'intérêt commun.
Sahar accompagne les secteurs public et privé dans le développement et le déploiement de produits technologiques stratégiques.