Université du Québec en Outaouais Département d'informatique et d'ingénierie
Sigle : INF1473  Gr. 01
Titre : Entreposage et prospection de données
Session : Hiver 2016  Horaire et local
Professeur : Yapi, Daniel
1. Description du cours paraissant à l'annuaire :

Objectifs

L'objectif du cours est de familiariser, par la pratique, l'étudiante, l'étudiant avec les techniques de recherche, traitement et diffusion de l'information et des connaissances au sein de l'entreprise en vue de la prise de décision.

Contenu

Entreposage de données : étapes de construction d'un entrepôt de données (acquisition, stockage, traitement et accès), modélisation multidimensionnelle des données et cubes de données, techniques OLAP, types d'architectures des entrepôts de données, optimisation des performances, produits et applications. Prospection de données : étapes de découverte de connaissances (prétraitement, prospection de données et interprétation des résultats), techniques de classification (arbres de décision, etc.), techniques de regroupement (treillis de concepts, classification hiérarchique), règles d'association et mesures de qualité, techniques statistiques d'analyse de données, produits et applications. Ce cours comporte des séances obligatoires de travaux dirigés (TD) de deux heures par semaine.
2. Objectifs spécifiques du cours :
  • Familiariser l’étudiant avec les techniques Business Intelligence.
  • Présenter les principales techniques de prétraitement, prospection et entreposage de données.
  • Illustrer ces techniques à l’aide du système SQL Server 2005 (ou 2008) et particulièrement les modules SSIS (SQL Server Integration Services) et SSAS (SQL Server Analysis Services).
  • Permettre à l’étudiant de mettre en pratique toutes les connaissances et techniques acquises durant le cours via des exercices et un projet de session portant sur le prétraitement, la prospection et l’entreposage de données.
3. Stratégies pédagogiques :
Les formules pédagogiques suivantes seront utilisées :

Logistique du cours

  • Accès en laboratoire à des postes de travail Windows XP, sur lesquels le client SQL 2008 est installé.
  • Accès à Moodle sur le Web pour la récupération des notes de cours, des énoncés de travaux, des consignes spécifiques et des résultats d’évaluation.

Plan synthétisé du cours

Les thèmes suivants seront étudiés :

  • Introduction à la veille économique (Business intelligence)
  • Techniques de prétraitement de données : 1- Épuration. 2 - Intégration et transformation. 3 - Sélection et réduction.
  • Entreposage de données : raison d’être et concepts
  • Étapes de construction d’un entrepôt de données
  • Modélisation multidimensionnelle
  • Stratégies de conception
  • Techniques OLAP
  • Architectures des entrepôts de données
  • Optimisation des performances
  • Applications et produits
  • Découverte de connaissances : raison d’être et définitions
  • Étapes du processus de découverte de connaissances
  • Survol des techniques de prospection de données et des applications courantes
  • Classification et prédiction : 1- Définitions, principaux thèmes. 2 - Comparaison entre la classification et la prédiction. 3 - Arbres de décision et règles de classification. 4 - Réseaux bayésiens. 5 - Approches statistiques de prédiction (modèles de régression).
  • Regroupement : méthodes hiérarchiques comme K-Means, analyse formelle de concepts
  • Règles d’association et mesures de qualité.
  • NOTE : Toutes les parties du cours seront illustrées aec les outils Business Intelligence de SQL Server 2008 R2
4. Heures de disponibilité ou modalités pour rendez-vous :

Sur demande. L'étudiant(e) peut m'envoyer un courriel pour fixer un rendez-vous.

Courriel : yapida01@uqo.ca

5. Plan détaillé du cours sur 15 semaines :
Semaine Thèmes Dates
1    Business Intelligence (Intelligence d'affaires)

SQL Server 2008 R2 : Survol des composantes

11 jan. 2016 
2   

Prétraitement de données (Épuration et intégration de données)

Séance de laboratoire 1 : Vendredi 22 janvier 2016

  • Travaux dirigés : Prétraitement et données.
  • 18 jan. 2016 
    3   

    Prétraitement de données (Transformation, sélection et réduction)

    Séance de laboratoire 2 : Vendredi 29 janvier 2016

  • Travaux dirigés : Prétraitement de données - SSIS.
  • 25 jan. 2016 
    4   

    Construction d’un entrepôt de données (Data Warehousing)

    Travail à remettre : 1. Prétraitement de données Pondération : 15 %

    Séance de laboratoire 3 : Vendredi 5 février 2016

  • Travaux dirigés : Modélisation de données
  • 01 fév. 2016 
    5   

    Modélisation multidimensionnelle et stratégies de conception

    Séance de laboratoire 4 : Vendredi 12 février 2016

  • Travaux dirigés : Modélisation de données.
  • 08 fév. 2016 
    6    Techniques OLAP et optimisation

    Travail à remettre : 2.1. Conception d’un entrepôt de données - Pondération : 10%

    Séance de laboratoire 5 : Vendredi 19 février 2016

  • Travaux dirigés : Chargement et manipulation des entrepôts de données - SSAS.
  • 15 fév. 2016 
    7    Examen de mi-session - Pondération: 25%

    Séance de laboratoire 6 : Vendredi 26 février 2016

  • Travaux dirigés : Création des cubes de données - SSAS.
  • 22 fév. 2016 
    8    Semaine d'études 29 fév. 2016 
    9    Produits et applications

    Séance de laboratoire 7 : Vendredi 11 mars 2016

  • Travaux dirigés : Création des cubes de données - SSAS.
  • 07 mars 2016 
    10    Découverte de connaissances (Data Mining)

    Séance de laboratoire 8 : Vendredi 18 mars 2016

  • Travaux dirigés : Manipulation des cubes de données - SSAS.
  • 14 mars 2016 
    11   

    Classification

    Travail à remettre : 2.2 Manipulation d'un entrepôt de données - Pondération : 5 %

  • Pas de séance de laboratoire : Vendredi 25 mars 2016 (Vendredi Saint)
  • Travaux dirigés: Fouille de données - arbres de décision SSAS

    21 mars 2016 
    12    Congé férié (Lundi de Pâques) 28 mars 2016 
    13    Regroupement

    Séance de laboratoire 9 : Vendredi 1er avril 2016

  • Travaux dirigés : Fouille de données – arbres de décision et regroupement - SSAS.
  • 04 avr. 2016 
    14    Règles d’association

    Travail à remettre : 3.1 Construction d’un modèle de classification - Pondération : 7 % et de règles d'associations 8 %

    Séance de laboratoire 10 : Vendredi 8 ou 15 avril 2016

  • Travaux dirigés : Fouille de données – Règles d'associations
  • 11 avr. 2016 
    15   

    Examen final - Pondération: 30 %

    Remise des derniers travaux

    18 avr. 2016 
    6. Évaluation du cours :
    L'étudiant(e) dans ce cours sera évalué(e) par les examens de mi-session et final, ainsi que par des travaux pratiques. La pondération de la note finale sera comme suit :
    • Examen de mi-session (7e) semaine : 25 %
    • Examen final (15e) semaine : 30 %
    • Travaux pratiques (3 X 15 %) : 45 %

    Les travaux pratiques comprendront les volets suivants : prétraitement, entreposage (deux sous-travaux) et prospection de données (deux sous-travaux).

    Une moyenne générale inférieure à 50 % est éliminatoire et conduit automatiquement à l'échec de l'étudiant(e). Les travaux pratiques se feront par équipes de deux. La pénalité de retard pour la remise d'un travail est de 2 points par jour (y compris les jours fériés et les fins de semaine).

    Les présences aux séances de cours et de travaux dirigés seront considérées. Un(e) étudiant(e) qui s'absente souvent et de manière injustifiée aura une diminution de la note finale d'un maximum de 5 points.

    Des consignes sur l'échéancier et la réalisation des travaux pratiques seront précisées.

    Des consultations de groupes seront organisées sur rendez-vous afin de guider et d'orienter les étudiant(e)s dans la réalisation de leurs travaux.

    7. Politiques départementales et institutionnelles :
    8. Principales références :
    1. Notes de cours disponibles sur Moodle (principale référence)
    2. Kimball, Ralph et al. The Data Warehouse Toolkit : The Definitive Guide to Dimensional Modeling, Ind., Wiley, 2013.
    3. Burquier, Bertrand (2007). Business intelligence avec SQL Server 2005. Mise en oeuvre d’un projet décisionnel, Dunod, 2007.
    4. J. Han & M. Kamber (2006). Data Mining: Concepts and Techniques, Morgan Kaufmann, 2nd edition, 2006.
    5. D. J. Hand, H. Mannila and P. Smyth (2001). Principles of Data Mining, MIT Press, 2001.
    6. W.H. Inmon (2002). Building the Data Warehouse, John Wiley, 3ème édition.
    7. R. Kimball & M. Ross (2002). Guide pratique de modélisation dimensionnelle, Vuibert informatique, Paris, 2002.
    8. R. Kimball, L. Reeves, M. Ross et W. Thornthwaite (2005). Le Data warehouse, collection Blanche, 2005.
    9. R. Lefébure & G. Venturi (2001). Le Data Mining. Eyrolles 2001.
    10. W. R. Stanek (2006). SQL Server 2005 : guide de l'administrateur, Microsoft Press, 2006.
    11. Z. Tang & J. MacLennan (2005). Data Mining with SQL Server 2005, Wiley, 2005.
    12. S. Tufféry (2005). Data mining et statistique décisionnelle- L’intelligence dans les bases de données, éditions TECHNIP, 2005.
    13. I. H. Witten & E. Frank (2005). Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005.
    9. Page Web du cours :
    https://moodle.uqo.ca