Nicolas Hubert

Titre de la thèse

Fouille de données, apprentissage statistique et système de recommandation pour l’éducation : vers un outil d’aide à la décision dans l’orientation scolair

## Résumé

Le projet de thèse s’inscrit dans le dispositif AILES (Accompagnement à l’Intégration des Lycéens dans l’Enseignement Supérieur), désigné PIA (Programme d’Investissements d’Avenir). Le projet AILES vise à faciliter l’orientation et l’intégration des lycéens dans l’enseignement supérieur et ce, quels que soient ses projets, compétences et origines sociales.

L’objectif de ce projet de thèse est d’élaborer un système de recommandation pour faciliter l’orientation scolaire des élèves et étudiants de Bac -3 à Bac +3. Ce système d’aide à la décision sera alimenté par une multitude de sources de données hétérogènes (données d’experts, données académiques, données déclaratives, etc.). Ce dernier se basera sur un algorithme d’apprentissage statistique (davantage connu sous l’appellation anglaise, Machine Learning) qui sera capable d’inférer des relations et motifs intéressants dans les données, afin de suggérer des voies de parcours qui correspondent le mieux possible aux attentes, appétences et au niveau de l’élève.

Ce projet de thèse soulève plusieurs enjeux tant scientifiques qu’applicatifs. En effet, le système de recommandation construit devra s’adapter à un environnement dynamique : entrée de nouveaux étudiants dans la base de données, ajout (ou suppression) de formations proposées à l’université, etc. D’un point de vue purement scientifique, plusieurs verrous sont à lever. Le premier concerne l’identification des facteurs d’influence dans l’orientation scolaire : est-ce que certains sont directement observables ? Pour ceux qui ne le sont pas, peuvent-ils être détectés et appris par un algorithme d’apprentissage statistique ?

Ensuite, il s’agira de travailler dans un contexte de données multiples et hétérogènes; les sources de données devront faire l’objet d’une attention particulière, tout comme l’importance (i.e. le poids) accordé à chaque variable d’étude. L’éventuelle mais très probable parcimonie des données disponibles constitue un troisième enjeu de taille : il arrivera de manquer de données pour représenter fidèlement une situation donnée, de même que pour certaines situations, aucune donnée ne sera disponible.

Par ailleurs, la problématique de la séquentialité des recommandations sera étudiée : s’agit-il de faire une recommandation unique ? Ou des recommandations “sur-demande” ? Dans le second cas, le système devra intégrer les précédentes décisions dans la formulation de ses prochaines recommandations. Enfin, la notion d’explicabilité d’un système de recommandation est un thème de plus en plus abordé dans la littérature. Il sera au centre des recherches, dans la mesure où chaque recommandation faite à un étudiant doit être expliquée dans un langage compréhensible et impartial, afin que ce dernier puisse faire des choix éclairés.