Méthodes régularisées pour les données en grande dimension : de la théorie à la pratique

Responsables : Sarah Ouadah et Laure Sansonnet

Objectif : Les méthodes pénalisées ou régularisées permettent de faire l’inférence, la prédiction ou la sélection de variables dans des modèles en grande dimension. Ces modèles interviennent dans de nombreux domaines d’applications, comme les sciences du vivant (écologie, climat, génétique, …), et ont un rôle clé pour comprendre et expliquer des mécanismes particuliers. Ce cours a pour but de présenter des méthodes régularisées et leurs propriétés théoriques, leur implémentation et leurs limites, dans des modèles simples (modèles linéaires gaussiens) et plus complexes (modèles linéaires multivariées avec prise en compte de la dépendance dans les réponses). Afin de bien les maîtriser, ces méthodes seront appliquées sur des exemples simples en TP et des jeux de données réelles via un projet.

Prérequis : Notions fondamentales de probabilités et statistique, connaissance du logiciel R

Thèmes abordés :

  • Méthodes régularisées (e.g. Lasso et ses variantes) et de réduction de dimension (e.g. PLS) : propriétés théoriques, aspects algorithmiques, mise en œuvre sur R
  • Sélection de variables dans les modèles linéaires, les modèles linéaires généralisées et des modèles linéaires multivariées
  • Prise en compte de la dépendance dans les données avec l’estimation de matrice de covariance en grande dimension
  • Application de ces méthodes à des données réelles

Ressources : Moodle