Université du Québec en Outaouais Département d'informatique et d'ingénierie
Sigle : INF6243  Gr. 01
Titre : Techniques d'apprentissage
Session : Automne 2018  Horaire et local
Professeur : Allili, Mohand Saïd
1. Description du cours paraissant à l'annuaire :

Objectifs

Permettre aux étudiants de maîtriser les concepts fondamentaux de l’apprentissage automatique et d’appliquer ces notions à des problèmes concrets. Leur faire acquérir des connaissances sur les techniques d’apprentissage supervisé et non supervisé, les techniques d’apprentissage pour les données textuelles, les algorithmes de classement des pages Web.

Contenu

Concepts d’apprentissage supervisé : classification et régression, frontière de décision et fonctions discriminantes; Arbres de décision et techniques de traitement du sur-apprentissage (overfitting); Apprentissage par ensemble : (bagging), (boosting) et forêt d’arbres; Machine à noyaux : dimension VC et machines à supports vectorielles; Apprentissage non supervisé : (clustering), les mélanges de loi de distribution statistique, carte de Kohonen et algorithme SOFM; Apprentissage de données multidimensionnelles : techniques de réduction de la dimension, classification non supervisée dans les sous-espaces de dimension (subspace clustering); Fouille de données textuelles : modèle TF-IDF et analyse sémantique latente; Prospection du Web : algorithmes HITS et PageRank.

2. Objectifs spécifiques du cours :

Au terme de cette activité, l'étudiant(e) aura acquis des connaissances sur :

  • Les principes de l’apprentissage automatique;
  • Les principes de l’apprentissage supervisé et non supervisé;
  • Les méthodologies de classification et de validation;
  • Les techniques de classification et de groupement de données;
  • Les applications de l’apprentissage automatique.
3. Stratégies pédagogiques :

Les formules pédagogiques suivantes seront utilisées:

  • Cours magistraux (3 heures par semaine)
  • Présentation de la théorie et des exemples
4. Heures de disponibilité ou modalités pour rendez-vous :

Bureau : B-2022

Téléphone : 819-595-3900, poste 1601

Courriel : Mohandsaid.allili@uqo.ca

5. Plan détaillé du cours sur 15 semaines :
Semaine Thèmes Dates
1   

Introduction à l'apprentissage par ordinateur

  • Données massives (Big data) et apprentissage.
  • Analyse de données et applications.
  • Rappel sur le calcul des probabilités et statistique.
07 sept. 2018 
2   

Concepts et types d'apprentissage

  • Concepts d'apprentissage supervisé.
  • Modèles linéaires pour la régression.
  • Modèles linéaires pour la classification.
  • Sur-apprentissage et validation d'apprentissage.
14 sept. 2018 
3   

Algorithmes de classification supervisée I

  • Frontières de décision et fonctions discriminantes.
  • Algorithme des K plus proches voisins (KPPV).
  • Classification par arbres de décision.
  • Classification naïve de Bayes.
21 sept. 2018 
4   

Algorithmes de classification supervisée II

  • Analyse discriminante linéaire.
  • Analyse discriminante non-linéaire.
  • Classification par régression logistique.
28 sept. 2018 
5   

Algorithmes de classification supervisée III

  • Réseaux de neurones.
  • Apprentissage profond.
  • Machine à vecteurs de support (MVS).
05 oct. 2018 
6   

Semaine d'études

12 oct. 2018 
7   

Examen de mi-session

19 oct. 2018 
8   

Algorithmes de regroupement de données

  • Algorithme des K-moyennes.
  • Modèle de mélange Gaussiens.
  • Groupement hiérarchique de données.
  • Nombre optimal de groupes.
26 oct. 2018 
9   

Réseaux Bayésiens

  • Dépendances entre variables aléatoires.
  • Modèles graphiques orientés et non-orientés.
  • Estimation par maximum de vraisemblance.
  • Exemples d’applications des Réseaux Bayésiens.
02 nov. 2018 
10   

Techniques de réduction de dimensions

  • Concept de réduction de dimensions.
  • Analyse en composantes principales.
  • Techniques de sélection de caractéristiques.
  • Classification dans les sous-espaces de dimensions.
09 nov. 2018 
11   

Analyse et classification de données textuelles et Web

  • Analyse de documents textuels.
  • Modèle TF-IDF et classification de documents textuels.
  • Modèle sac-à-mots et N-grams.
  • Recherche d’information basée sur le texte.
  • Classification de pages Web.
  • Analyse de réseaux sociaux.
16 nov. 2018 
12   

Analyse et classification de données visuelles

  • Description des images et vidéos.
  • Classification de documents visuels.
  • Détection et reconnaissance d'objets et d’activités.
  • Réseaux de neurones convolutionnels (CNN).
23 nov. 2018 
13   

Présentation des mini-projets

30 nov. 2018 
14   

Présentation des mini-projets

07 déc. 2018 
15   

Examen final

14 déc. 2018 
6. Évaluation du cours :

L’étudiant(e) dans ce cours sera évalué(e) par les examens de mi-session et final, ainsi que par des projets de session. La pondération de la note finale se fera comme suit :

  • Devoirs : 15 %
  • Projets : 25 %
  • Examen de mi-session : 30 %
  • Examen final : 30 %

Pour les projets, l’évaluation sera répartie comme suit :

  • Devoirs : 15 points

Il s'agit de tester sur la plateforme Matlab des applications basées sur des techniques d'apprentissage. La plateforme Matlab est disponible dans les laboratoires de l'UQO ou téléchargée sur le Web.

  • Projets : 25 points

Il s'agit de tester/développer des projets sur l'apprentissage par ordinateur. Ces derniers peuvent être dans l'analyse de données multimédias: texte, son, image ou Web. Quelques projets seront fournis pour le professeur. Néanmoins, les étudiants auront la liberté de choisir des projets dans des domaines d'applications qu'ils souhaitent.

L'évaluation se fera sur deux volets :

    • Un rapport entre 10 et 15 pages. Les normes de présentation de travaux (ex. page de garde, marge d'un pouce, interligne à 1,5, taille des caractères de 12 points) doivent être absolument respectées.
    • Une présentation de 15 à 20 minutes sera faite en classe. Les projets se feront individuellement ou en équipes de deux si le nombre d'étudiants inscrits dépasse 8.

Une moyenne générale inférieure à 64 % est éliminatoire et conduit automatiquement à l'échec de l’étudiant(e).

Tout retard dans la remise d'un travail entraîne une pénalité de 10 %/jour sur la note attribuée à ce travail. La qualité du français sera considérée lors de la correction des travaux.

7. Politiques départementales et institutionnelles :
8. Principales références :

  1. S. Rogers et M Girolami. A first Course in machine learning, CRC press, 2012.
  2. C. Bishop. Pattern Recognition and Machine learning. Springer 2006.
  3. R. Duda, P. Storck et D. Hart. Pattern Classification. Prentice Hall, 2002.
  4. T. Hastie and R. Tibshirani and J. Friedman. The Elements of Statistical Leaning Theory. Springer, 2009.
  5. C.D. Manning, P. Raghavan et H. Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
  6. S. Ceri, A. Bozzon, M. Brambilla,E. Della Valle,P. Fraternali et S. Quarteroni. Web Information Retrieval, Springer, 2013.
  7. E. Alpayedin. Introduction to Machine Learning. MIT Press, 2nd Edition, 2010.

http://ciml.info/
http://www.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml
http://archive.ics.uci.edu/ml/
https://work.caltech.edu/telecourse.html
http://mlg.eng.cam.ac.uk/

9. Page Web du cours :
https://moodle.uqo.ca