Intitulé de l’UE et de l’EP : UE B3 Analyse et valorisation de données, EP Fouille de données
- Niveau et semestre : M2, S3
- Nom de la mention : Humanités Numériques
- Nom du parcours type : Tronc commun
- Composante gestionnaire : Lyon 2, ICOM
- Nom du responsable : Julien VELCIN
- Statut du responsable (MCF, PR, PRCE, PRAG) : MCF
Description
Objectifs
L’objectif de cet enseignement est de donner un aperçu des possibilités offertes aujourd’hui par des approches de fouille de données (data mining), puis d’inculquer les notions essentielles pour réaliser une analyse exploratoire (approche dite non supervisée) ou prédictive (approche dite supervisée). L’enseignement théorique est complété par une mise en application des principales méthodes de classification automatique à des données numériques, puis des données textuelles omniprésentes dans le champ des Humanités Numériques.
Connaissances à acquérir
- Principaux défis de la fouille de données (en particulier textuelles), enjeux et applications
- Concepts de base en apprentissage automatique : principe inductif, approches de classification non supervisée (clustering) et supervisée, comment évaluer les résultats des algorithmes
- Principales approches utiles pour la classification
Capacités et compétences à acquérir
- Charger un jeu de données (par ex. disponible dans l’open data)
- Réaliser des premières analyses exploratoires sur ces données : statistiques descriptives, ACP…
- Mettre en place un processus complet de classification sur ces données
- Rendre compte des résultats obtenus à l’aide des algorithmes de fouille de données
Modalités pédagogiques
Le cours est divisé en quatre parties : a) introduction générale à la fouille de données, b) méthodes de classification non supervisée, c) méthodes de classification supervisée, d) fouille de données textuelles. Les cours magistraux sont ponctués par des expérimentations réalisées directement par les étudiants qui essaient d’abord de reproduire les analyses faites par l’enseignant avant de réaliser un traitement complet sur des données choisies par eux.
Modalités de contrôle des connaissances (contrôle continu)
- un premier rendu sur la fouille de données numériques (rapport et implémentation)
- un second rendu sur la fouille de données textuelles (rapport et implémentation)
- épreuve écrite (questions de cours)