Gestion des données et accès à l’information

Responsable : Olivier Schwander

Objectif : Ce cours s’articule en deux grandes parties. La première s’intéresse aux bases de données, un domaine esssentiel de la mise en pratique des méthodes de statistiques, de sciences des données ou d’apprentissage : nous étudierons les principes et les outils qui permettent de stocker et d’accéder efficacement aux données utilisées pour des analyses ou des entraînements. La deuxième partie aborde les méthodes neuronales basées sur les gros modèles de langue (LLM) pour manipuler et représenter l’information : nous étudierons la représentation de documents à l’aide de LLM et les moyens d’augmenter leur factualité (ou de réduire les hallucinations) en leur donnant l’accès à des données externes.

Prérequis : Bases de programmation Python, apprentissage statistique

Thèmes abordés :

  • Bases de données relationnelles (conception de schéma, langage SQL)
  • Bases de données noSQL (motivation, systèmes de fichiers distribués, big data, MongoDB, Spark)
  • Recherche d’information neuronale et Retrieval-Augmented Generation (représentation et indexation des documents, accès d’un LLM à une base de données, IA agentique)
  • Bases de données vectorielles (embeddings, plus proche voisin)
  • Accès aux modèles de langue (API et modèles sur le cloud, LLM locaux)

Ressources : Moodle