Skip to content
This repository has been archived by the owner on Jan 13, 2024. It is now read-only.

Latest commit

 

History

History
330 lines (271 loc) · 14.8 KB

route_2A_2019.rst

File metadata and controls

330 lines (271 loc) · 14.8 KB

Feuille de route 2019 (2A)

en préparation

Page principale du cours <l-td2a>

Les cours et séances se déroulent sur 9 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans l-td2a-notions. Voici les principaux thèmes abordés durant le cours :

Commun data scientist - économiste

  • Pratique des principaux problèmes de machines Learning avec scikit-learn (classification, régression, clustering, prétraitement)
  • Visualisation des données
  • Construction d'un module python
  • Traitement des données textuelles (NLP, analyse de sentiments...)

Data scientiste

  • Implémentation de modèles personnalisés avec scikit-learn
  • Déploiement de modèles de machine Learning via des API rest
  • Problèmes moins fréquents de machine learning : apprentissage par renforcement, ranking, recommandation

Economiste

  • Rappel sur les notebooks, les dataframes, pandas, numpy, manipulation de données...
  • Cartographie
  • Ethique des données
  • Webscrapping, API et expressions régulières
  • Séries temporelles

Séance 1 - 10/9 - amphi - introduction

A faire pour la prochaine fois : exécuter trois notebooks, structuresdonneesconversionrst, histogrammerapiderst, mlfeaturesmodelrst

suite à réécrire

Séance 2 - 17/9

DS - TD : régression quantile - détection d'anomalies

  • Régression quantile (correction : tdnote20172rst)
  • Wine Quality Datasets, corréler les erreurs de prédictions de plusieurs modèles avec plusieurs détection d'anomalies
  • td2aenonceclreganomalyrst (correction <td2acorrectionclreganomalyrst>)

Eco - Cours : rappels pandas numpy matplotlib début scikit-learn

  • Rappels sur le langage python, Cheat sheet: Python, variable, listes, dictionnaires, boucles, fonctions, structuresdonneesconversionrst, histogrammerapiderst, mlfeaturesmodelrst
  • Rappels sur pandas, notion de table, lecture, écriture de fichiers texte, Excel, ajout de colonne, opérations entre colonne, apply, opérations standard (sort, filter, group by, join), numpy, opérations standard, calcul matriciel, différences avec un dataframe, 2018-09-18rappelspythonrst, 2018-09-18rappelspythonpandasmatplotlibrst
  • td2ecorappels1arst
  • td2acenoncesession2arst
  • td2acorrectionsession2arst

Séance 3 - 24/9

DS

Eco

Séance 4 - 1/10

DS

Eco

Séance 5 - 8/10

DS

Eco

Séance 6 - 15/10

DS

Eco

Séance 7 - 22/10

DS

Eco

Séance 8 - 5/11

DS

Eco

Séance 9 - 12/10

DS

Eco

Prérequis

  • Voix stat : maîtrise du langage Python, connaissance des modules pandas, numpy, matplotlib, voir quelques rappels
  • Voix éco : maîtrise du langage Python, td2ecorappels1arst

Intervenants

Xavier Dupré, Anne Muller, Eliot Barril, Mayeul Picard, Frédéric Bardolle, Gaël Varoquaux.

Liens utiles et trop nombreux

Organisée comme une compétition, choisir un jeu de données sur UCI et enregister les performances. La séance commencera par le requêtage d'une API REST car la soumission se fera via une API et non via un site.

prévoir deux jeux d'apprentissage et de tests

Aborder les prétraitement comme la normalisation, la dimensionsreductionrst.

  • normalisation,
  • dimensionsreductionrst
  • traitement des catégories avec le jeu de données tiré de l'exemple Investigating dirty categories
  • comparaison de modèles, régression logistique, plus proche voisin, random forest, gradient boosting classifier, xgboost, lightgbm, catboost, Lasso, Ridge, toujours sous la forme d'une compétition
  • Ranking, détection d'anomalies, clustering, valeurs manquantes, recommandations, imbalanced classification

Toujours sous la forme d'une compétition