Analyse de données large échelle

Responsable : Mohamed Amine Baazizi

Objectif : Ce cours aborde les problèmes et les solutions liés au “big data” avec comme objectif d’aborder tous les aspects permettant le développement d’un pipeline de données efficace allant de la préparation et la représentation des données jusqu’à leur analyse. Le cours aborde les deux axes suivants. 1) Gestion des données : paradigmes de programmation parallèle avec des données large échelle (MapReduce, Pregel), optimisation des data pipelines, qualité des données, stockage optimisé des données massives. 2) Analyse des données : analyse de données complexes (graphes de données et de connaissances, texte), in-database ML, bases de données vectorielles, integration de données (datalake). Les travaux pratiques permettent d’aborder les langages et les technologies suivantes : SQL, MapReduce, Pregel, Cypher, Spark, Delta, MLLib, GraphX.

Prérequis : UE DEEP-L

Thèmes abordés :

Introduction à la programmation parallèle et fonctionnelle sur Scala
Données multidimensionnelles et entrepôts de données
Paradigme Map-Reduce : modèle de calcul et implantation dans Spark
Evaluation des requêtes distribuées
Paradigme BSP (Bulk Synchronous Programming) et application pour l’analyse des graphes

Ressources : Site du Master MIND