Feuille de route 2019 (2A)

en préparation

Page principale du cours <l-td2a>

Les cours et séances se déroulent sur 9 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans l-td2a-notions. Voici les principaux thèmes abordés durant le cours :

Commun data scientist - économiste

Pratique des principaux problèmes de machines Learning avec scikit-learn (classification, régression, clustering, prétraitement)
Visualisation des données
Construction d'un module python
Traitement des données textuelles (NLP, analyse de sentiments...)

Data scientiste

Implémentation de modèles personnalisés avec scikit-learn
Déploiement de modèles de machine Learning via des API rest
Problèmes moins fréquents de machine learning : apprentissage par renforcement, ranking, recommandation

Economiste

Rappel sur les notebooks, les dataframes, pandas, numpy, manipulation de données...
Cartographie
Ethique des données
Webscrapping, API et expressions régulières
Séries temporelles

Séance 1 - 10/9 - amphi - introduction

Précision sur le cours, évaluation, exposés, ressources, TD, amphi,
Rappels de mathématiques
td2ecorappels1arst, mlcmachinelearningproblemsrst
Support de cours, ce site, Lectures sur le machine learning, github: sdpython
Un exemple simple de régression linéaire
Base d'apprentissage et de test
Classifications et courbes ROC
Validation croisée

A faire pour la prochaine fois : exécuter trois notebooks, structuresdonneesconversionrst, histogrammerapiderst, mlfeaturesmodelrst

suite à réécrire

Séance 2 - 17/9

DS - TD : régression quantile - détection d'anomalies

Régression quantile (correction : tdnote20172rst)
Wine Quality Datasets, corréler les erreurs de prédictions de plusieurs modèles avec plusieurs détection d'anomalies
td2aenonceclreganomalyrst (correction <td2acorrectionclreganomalyrst>)

Eco - Cours : rappels pandas numpy matplotlib début scikit-learn

Rappels sur le langage python, Cheat sheet: Python, variable, listes, dictionnaires, boucles, fonctions, structuresdonneesconversionrst, histogrammerapiderst, mlfeaturesmodelrst
Rappels sur pandas, notion de table, lecture, écriture de fichiers texte, Excel, ajout de colonne, opérations entre colonne, apply, opérations standard (sort, filter, group by, join), numpy, opérations standard, calcul matriciel, différences avec un dataframe, 2018-09-18rappelspythonrst, 2018-09-18rappelspythonpandasmatplotlibrst
td2ecorappels1arst
td2acenoncesession2arst
td2acorrectionsession2arst

Séance 3 - 24/9

DS

Eco

Séance 4 - 1/10

DS

Eco

Séance 5 - 8/10

DS

Eco

Séance 6 - 15/10

DS

Eco

Séance 7 - 22/10

DS

Eco

Séance 8 - 5/11

DS

Eco

Séance 9 - 12/10

DS

Eco

Prérequis

Voix stat : maîtrise du langage Python, connaissance des modules pandas, numpy, matplotlib, voir quelques rappels
Voix éco : maîtrise du langage Python, td2ecorappels1arst

Intervenants

Xavier Dupré, Anne Muller, Eliot Barril, Mayeul Picard, Frédéric Bardolle, Gaël Varoquaux.

Liens utiles et trop nombreux

Organisée comme une compétition, choisir un jeu de données sur UCI et enregister les performances. La séance commencera par le requêtage d'une API REST car la soumission se fera via une API et non via un site.

prévoir deux jeux d'apprentissage et de tests

Aborder les prétraitement comme la normalisation, la dimensionsreductionrst.

normalisation,
dimensionsreductionrst
traitement des catégories avec le jeu de données tiré de l'exemple Investigating dirty categories
comparaison de modèles, régression logistique, plus proche voisin, random forest, gradient boosting classifier, xgboost, lightgbm, catboost, Lasso, Ridge, toujours sous la forme d'une compétition
Ranking, détection d'anomalies, clustering, valeurs manquantes, recommandations, imbalanced classification

Toujours sous la forme d'une compétition

Variables textuelles
tokenisation
de la tokenisation aux features
word2vec
l-ml2a-text-features
Propriétés des modèles mathématiques, modèles linéaires, modèles ensemblistes, modèles, dérivables, gradient, feature importance, parallélisme, boosting
Ethique, machine learning éthique (Frédéric Bardolle)
API SNCF
webscrapping
écriture de code rapide
traitement de gros volumes de données (base de données open food facts)
Notion de pipeline
Mise en production de modèles de machine learning avec docker, kubernetes...
discussion sur les projets
créer son propre modèle de machine learning en utilisant l'API de scikit-learn, Prédicteur pour chaque catégorie, 2018-09-18sklearnapirst, Contributing, sklearn.base
Understanding and diagnosing your machine-learning models
Les cours de Gaël Varoquaux l-ml-skgael, les notebooks d'exercices associées à ces lectures.
td1acenoncesession12carterst
td1acenoncesession12plotrst, td1acenoncesession12carterst, td1acenoncesession12jsrst
Etude statistique, correction
Tracer une carte en Python
l-mlbasic-anomaly
l-ml2a-ranking
l-imbalanced-classification
l-td2a-missing-values
td2aclusteringrst, td2aclusteringcorrectionrst
Ranking et système de recommandations
l-ml2a-testab (ou Test A/B sur wikipedia)
Liens entre factorisation de matrices, ACP, k-means
l-td2a-sys-recommandation
Traitement des variables catégorielles et textuelles.
td2asentimentanalysisrst, td2asentimentanalysiscorrectionrst
Regardez différentes options disponibles pour faire les graphiques et passez un peu de temps sur l'exemple td2avisualisationrst
ACP <td2acenoncesession3arst> (s'arrêter à l'exercice 1)
Régression linéaire <td2aecoregressionslineairesrst>
Logit <td2aecocompetitionmodeleslogistiquesrst>
l-td2a-ml-crypted
mltimeseriesbaserst, timeseriesssarst
l-td2a-hyperparametre et l-ml2a-autolearning
Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising
Making Contextual Decisions with Low Technical Debt
deep reinforcement learning, Alpha Go Zero
td2asentimentanalysisrst, td2asentimentanalysiscorrectionrst
td2aenoncesession4Arst, correction <td2acorrectionsession4Arst>
TD2AEcoWebScrapingrst (correction <TD2AEcoWebScrapingcorrigerst>)
td2aeco5dTravaillerdutextelesexpressionsregulieresrst (correction <td2aeco5dTravaillerdutextelesexpressionsregulierescorrectionrst>)
mlatreeoverfittingrst
correction <knnhighdimensioncorrectionrst>, Nearest Neighbours and Sparse Features
Régression linéaire par morceaux
Corrélations non linéaires
Régression logistique, diagramme de Voronoï, k-Means
AdaBoost, 2019-10-09ensemblegradientboostingrst
mlcccmachinelearninginterpretabiliterst (feature importance)
mlccmachinelearningproblems2rst
l-ml2a-selvar
XGBoost: A Scalable Tree Boosting System, sparsité et valeurs manquantes
LightGBM: A Highly Efficient Gradient Boosting Decision Tree, sélection des splits, combinaison de features sparses
CatBoost: gradient boosting with categorical features support, ajout de combinaisons de variables
Understanding and diagnosing your machine-learning models.
Réseaux de neurones
l-nolabel
Galleries de problèmes résolus ou presque
Transfer Learning
Search images with deep learning
GAN
Les fossoyeurs de l’innovation par Nicolas Colin
Tristan Harris : «Beaucoup de ficelles invisibles dans la tech nous agitent comme des marionnettes»
How AI Designers will Dictate Our Civic Future
AlgoTranspency
L'efficacité d'un logiciel censé prédire la récidive à nouveau critiquée
Google Translate biais sexiste : A doctor, a nurse traduit en un docteur, une infirmière et non une docteure, un infirmier
Serment d'Hippocrate pour Data Scientist
Un monde d'automatisation ?, avec entre autres Alexeï Grinbaum
Ethique de la vertu (Aristote, ne fais pas à autrui ce que tu ne voudrais pas qu'on te fasse), éthique utilitariste (Bentham, maximiser le plaisir, diminuer les peines en apposant une échelle de valeur, l'action est jugée sur la conséquence), éthique déontologique (Kant, impératif catégorique, je peux faire quelque chose si tout le monde peut le faire sans mettre le monde en danger, action en fonction de l'intention quelque soit le résultat),
Dilemme du tramway
L'utilitarisme et les problèmes de tramways
Théorie du développement moral de Kohlberg
knnhighdimensionrst, knnhighdimensioncorrectionrst
BJKSTrst
td2acenoncesession6Arst, td2acorrectionsession6Arst
td2acenoncesession6Brst, td2acorrectionsession6Brst
td2asentimentanalysisrst (correction <td2asentimentanalysiscorrectionrst>), lien vers le jeu de données : Project 1: Spooky Data Analysis
td2aeconlptfidfngramsldaword2vecsurdesextraitslitterairesrst
td2amltextfeaturesrst
td2asomenlprst

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

route_2A_2019.rst

route_2A_2019.rst

Feuille de route 2019 (2A)

Séance 1 - 10/9 - amphi - introduction

Séance 2 - 17/9

Séance 3 - 24/9

Séance 4 - 1/10

Séance 5 - 8/10

Séance 6 - 15/10

Séance 7 - 22/10

Séance 8 - 5/11

Séance 9 - 12/10

Prérequis

Intervenants

Liens utiles et trop nombreux

Files

route_2A_2019.rst

Latest commit

History

route_2A_2019.rst

File metadata and controls

Feuille de route 2019 (2A)

Séance 1 - 10/9 - amphi - introduction

Séance 2 - 17/9

Séance 3 - 24/9

Séance 4 - 1/10

Séance 5 - 8/10

Séance 6 - 15/10

Séance 7 - 22/10

Séance 8 - 5/11

Séance 9 - 12/10

Prérequis

Intervenants

Liens utiles et trop nombreux