STAGE - LLMs et Graphes de Connaissances
Amélioration de la méthode RAG pour les LLMs avec Graphes de Connaissances, Ontologies et Techniques Avancées
SAHAR est une entreprise technologique française spécialisée dans la collecte, le traitement et la visualisation de données en sources ouvertes. Constituée d’une équipe jeune, mixte et en croissance, SAHAR est implantée dans le secteur public auprès de ministères régaliens et s’engage pour la défense de la souveraineté technologique française en ayant à cœur de mener des projets stimulants et innovants au service de l’État.
Descriptif du poste :
Nous recherchons un(e) stagiaire motivé(e) pour participer à un projet innovant visant à améliorer la méthode de Retrieval-Augmented Generation (RAG) pour les modèles LLMs. Ce projet explore des solutions avancées, notamment l'intégration des graphes de connaissances, des ontologies, et d’autres techniques d'optimisation pour enrichir la précision, la pertinence et l’adaptabilité des réponses générées.
Sujet du stage :
Ce stage propose une recherche appliquée pour améliorer la combinaison des modèles de langage et des méthodes de récupération d’information. En s’appuyant sur la littérature, le/la stagiaire explorera des approches novatrices pour RAG, notamment :
- Graphes de Connaissances et Ontologies
> Intégration de graphes de connaissances pour fournir une contextualisation factuelle.
> Utilisation d’ontologies pour structurer, relier les concepts, améliorer la désambiguïsation et la récupération d’informations
- Pondération Basée sur la Pertinence
> Évaluer la pertinence des passages récupérés avant leur intégration dans la génération, pour renforcer la qualité et la cohérence des réponses.
> Appliquer des scores de similarité et de confiance pour prioriser les sources d'information les plus fiables.
- Filtrage des Hallucinations
> Développer des mécanismes pour vérifier la véracité des réponses en croisant plusieurs sources, limitant ainsi les affirmations incorrectes générées par les LLMs.
>Combinaison avec des Techniques de QA (Question Answering)
- Associer le RAG à des techniques de QA pour une génération de réponses plus précises et factuelles.
> Intégrer des modèles de recherche de passages pour aligner les réponses sur des informations vérifiées et pertinentes.
- Utilisation de Modèles Similaires au Few-Shot Learning
> Adapter le RAG à des approches few-shot pour générer des réponses contextualisées et adaptées aux questions en utilisant des exemples précis.
Plan du Stage :
-
Revue de la Littérature
Étudier les méthodes de Retrieval-Augmented Generation (RAG) et les approches complémentaires, en s’appuyant sur les publications scientifiques et ressources récentes. Identifier les avantages et limites de chaque approche pour constituer une base solide.
-
Essai et Évaluation des Méthodes de la Littérature
Implémenter et tester les méthodes les plus prometteuses identifiées dans la littérature, avec un focus sur les graphes de connaissances, ontologies, pondération de pertinence, filtrage des hallucinations, techniques de QA, et few-shot learning. Évaluer leurs performances sur des critères prédéfinis
-
Combinaison de Plusieurs Méthodes de la Littérature
Expérimenter différentes combinaisons de méthodes pour évaluer l'impact de leur intégration sur la qualité des réponses générées par RAG, en optimisant la pertinence et la véracité des réponses.
-
Proposition et Implémentation de Méthodes
Sur la base des résultats obtenus, concevoir et implémenter une ou plusieurs approches améliorées en intégrant les éléments les plus efficaces. Documenter et tester ces nouvelles méthodes pour mesurer les gains de performance.
Profil recherché
-
Formation : Nous recherchons un(e) étudiant(e) en fin d'études de Master ou en école d’ingénieurs spécialisé(e) en intelligence artificielle, sciences des données, ou dans un domaine connexe, avec une forte motivation pour la recherche appliquée et de bonnes compétences en programmation.
Compétences souhaitées :
- Solides compétences en programmation : Maîtrise des langages de programmation et des bibliothèques couramment utilisés en IA et NLP (Python, PyTorch, Hugging Face, etc.). Pouvoir justifier d’un projet mené en Python.
- Lecture et compréhension de publications scientifiques en anglais : Intérêt pour la recherche, avec capacité à lire, synthétiser et appliquer des avancées scientifiques pour proposer des solutions innovantes.
Le plus :
- Bonne compréhension des concepts de LLMs et RAG : Connaissance approfondie des modèles de langage de grande taille (LLMs) et des techniques de Retrieval-Augmented Generation (RAG).
- Expérience en graphes de connaissances et ontologies : Familiarité avec les méthodes de modélisation et d'intégration des connaissances structurées, pour améliorer la précision et la pertinence des réponses.
- Connaissance des techniques de Question Answering (QA) et du few-shot learning : Capacité à implémenter et optimiser des techniques de QA et de few-shot learning pour adapter les réponses aux besoins des utilisateurs.
Autre : Curiosité, rigueur dans le travail, bonne communication, sens aigu de la discrétion.
Modalités
- Contact : cau+recrutement@sahar.fr
- Début : possible à partir de janvier, avec flexibilité selon vos disponibilités.
- Durée : 5 à 6 mois
- Équipe : au sein de l’équipe data, sous la direction d’un ML Research Engineer (MVA)
Quelques papiers de recherches en rapport avec le sujet du stage :
- Graphes de Connaissances et Ontologies o "Unifying Large Language Models and Knowledge Graphs: A Roadmap"
Wang, H., et al., 2023. arXiv preprint arXiv:2306.08302 o "Towards Open-Domain Question Answering with Knowledge Graph Embeddings" [Sun, S., et al., 2018. Proceedings of the 2018 Conference on Empirical Methods in
Natural Language Processing (EMNLP)] o "Enhancing Ontology-Based Information Retrieval with Conceptual Semantics"
[Ji, S., et al., 2019. Journal of Web Semantics]
- "Linked Data and Ontology Alignment for Knowledge Graphs: An Evaluation" [Zhu, H., et al., 2021. International Journal on Semantic Web and Information Systems (IJSWIS)]
- "Dense Passage Retrieval for Open-Domain Question Answering"
[Karpukhin, V., et al., 2020. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)]
- "Multi-Passage BERT: A Dual Encoding Model for Open-Domain Question Answering" [Wang, W., et al., 2019. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL)]
- "Learning to Rank for Information Retrieval and Natural Language Processing"
[Liu, T.-Y., 2009. Foundations and Trends in Information Retrieval] o "RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"
[Lewis, P., et al., 2020. Advances in Neural Information Processing Systems (NeurIPS)]
- Filtrage des Hallucinations
- "Fact Verification Using Evidence from Multiple Documents"
[Thorne, J., et al., 2018. Proceedings of the 2018 Conference of the North American
Chapter of the Association for Computational Linguistics (NAACL)] o "Reducing Hallucination in Neural Machine Translation: A Model-Free Approach"
[Zhang, B., et al., 2020. arXiv preprint arXiv:2002.05140]
- Combinaison avec des Techniques de QA (Question Answering) o "A Survey on Open-Domain Question Answering: Challenges and Techniques"
[Diefenbach, D., et al., 2018. Digital Signal Processing]
- "EfficientQA: A Benchmark for Efficient Open-Domain Question Answering" [Min, S., et al., 2021. Proceedings of the 2021 Conference of the North American
Chapter of the Association for Computational Linguistics (NAACL)]
- "REALM: Retrieval-Augmented Language Model Pre-Training"
[Guu, K., et al., 2020. International Conference on Machine Learning (ICML)]
- Utilisation de Modèles Similaires au Few-Shot Learning
- "Language Models are Few-Shot Learners" [Brown, T., et al., 2020. Advances in Neural Information Processing Systems (NeurIPS)] o "An Empirical Study of Few-Shot Knowledge Probing for Pretrained Language Models" [Petroni, F., et al., 2020. Proceedings of the 2020 Conference on Empirical Methods in
Natural Language Processing (EMNLP)]
À propos de Sahar
L'entreprise a été créée en 2019 par Antoine Franz et Gauthier Schweitzer, deux ingénieurs français passionnés par l'intelligence artificielle et l'intérêt commun.
Sahar accompagne les secteurs public et privé dans le développement et le déploiement de produits technologiques stratégiques.
STAGE - LLMs et Graphes de Connaissances
Téléchargement du formulaire de candidature