en préparation
Page principale du cours <l-td2a>
Les cours et séances se déroulent sur 9 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans l-td2a-notions
. Voici les principaux thèmes abordés durant le cours :
Commun data scientist - économiste
- Pratique des principaux problèmes de machines Learning avec scikit-learn (classification, régression, clustering, prétraitement)
- Visualisation des données
- Construction d'un module python
- Traitement des données textuelles (NLP, analyse de sentiments...)
Data scientiste
- Implémentation de modèles personnalisés avec scikit-learn
- Déploiement de modèles de machine Learning via des API rest
- Problèmes moins fréquents de machine learning : apprentissage par renforcement, ranking, recommandation
Economiste
- Rappel sur les notebooks, les dataframes, pandas, numpy, manipulation de données...
- Cartographie
- Ethique des données
- Webscrapping, API et expressions régulières
- Séries temporelles
- Précision sur le cours, évaluation, exposés, ressources, TD, amphi,
- Rappels de mathématiques
td2ecorappels1arst
,mlcmachinelearningproblemsrst
- Support de cours, ce site, Lectures sur le machine learning, github:
sdpython
- Un exemple simple de régression linéaire
- Base d'apprentissage et de test
- Classifications et courbes ROC
- Validation croisée
A faire pour la prochaine fois : exécuter trois notebooks, structuresdonneesconversionrst
, histogrammerapiderst
, mlfeaturesmodelrst
suite à réécrire
DS - TD : régression quantile - détection d'anomalies
- Régression quantile (correction :
tdnote20172rst
) - Wine Quality Datasets, corréler les erreurs de prédictions de plusieurs modèles avec plusieurs détection d'anomalies
td2aenonceclreganomalyrst
(correction <td2acorrectionclreganomalyrst>
)
Eco - Cours : rappels pandas
numpy
matplotlib
début scikit-learn
- Rappels sur le langage
python
, Cheat sheet: Python, variable, listes, dictionnaires, boucles, fonctions,structuresdonneesconversionrst
,histogrammerapiderst
,mlfeaturesmodelrst
- Rappels sur
pandas
, notion de table, lecture, écriture de fichiers texte,Excel
, ajout de colonne, opérations entre colonne, apply, opérations standard (sort, filter, group by, join),numpy
, opérations standard, calcul matriciel, différences avec un dataframe,2018-09-18rappelspythonrst
,2018-09-18rappelspythonpandasmatplotlibrst
td2ecorappels1arst
td2acenoncesession2arst
td2acorrectionsession2arst
DS
Eco
DS
Eco
DS
Eco
DS
Eco
DS
Eco
DS
Eco
DS
Eco
- Voix stat : maîtrise du langage
Python
, connaissance des modulespandas
,numpy
,matplotlib
, voir quelques rappels - Voix éco : maîtrise du langage
Python
,td2ecorappels1arst
Xavier Dupré, Anne Muller, Eliot Barril, Mayeul Picard, Frédéric Bardolle, Gaël Varoquaux.
Organisée comme une compétition, choisir un jeu de données sur UCI et enregister les performances. La séance commencera par le requêtage d'une API REST car la soumission se fera via une API et non via un site.
prévoir deux jeux d'apprentissage et de tests
Aborder les prétraitement comme la normalisation, la dimensionsreductionrst
.
- normalisation,
dimensionsreductionrst
- traitement des catégories avec le jeu de données tiré de l'exemple Investigating dirty categories
- comparaison de modèles, régression logistique, plus proche voisin, random forest, gradient boosting classifier,
xgboost
,lightgbm
,catboost
, Lasso, Ridge, toujours sous la forme d'une compétition - Ranking, détection d'anomalies, clustering, valeurs manquantes, recommandations, imbalanced classification
Toujours sous la forme d'une compétition
- Variables textuelles
- tokenisation
- de la tokenisation aux features
- word2vec
l-ml2a-text-features
- Propriétés des modèles mathématiques, modèles linéaires, modèles ensemblistes, modèles, dérivables, gradient, feature importance, parallélisme, boosting
- Ethique, machine learning éthique (Frédéric Bardolle)
- API SNCF
- webscrapping
- écriture de code rapide
- traitement de gros volumes de données (base de données open food facts)
- Notion de pipeline
- Mise en production de modèles de machine learning avec
docker
,kubernetes
... - discussion sur les projets
- créer son propre modèle de machine learning en utilisant l'API de
scikit-learn
, Prédicteur pour chaque catégorie,2018-09-18sklearnapirst
, Contributing, sklearn.base - Understanding and diagnosing your machine-learning models
- Les cours de Gaël Varoquaux
l-ml-skgael
, les notebooks d'exercices associées à ces lectures. td1acenoncesession12carterst
td1acenoncesession12plotrst
,td1acenoncesession12carterst
,td1acenoncesession12jsrst
- Etude statistique, correction
- Tracer une carte en Python
l-mlbasic-anomaly
l-ml2a-ranking
l-imbalanced-classification
l-td2a-missing-values
td2aclusteringrst
,td2aclusteringcorrectionrst
- Ranking et système de recommandations
l-ml2a-testab
(ou Test A/B sur wikipedia)- Liens entre factorisation de matrices, ACP, k-means
l-td2a-sys-recommandation
- Traitement des variables catégorielles et textuelles.
td2asentimentanalysisrst
,td2asentimentanalysiscorrectionrst
- Regardez différentes options disponibles pour faire les graphiques et passez un peu de temps sur l'exemple
td2avisualisationrst
ACP <td2acenoncesession3arst>
(s'arrêter à l'exercice 1)Régression linéaire <td2aecoregressionslineairesrst>
Logit <td2aecocompetitionmodeleslogistiquesrst>
l-td2a-ml-crypted
mltimeseriesbaserst
,timeseriesssarst
l-td2a-hyperparametre
etl-ml2a-autolearning
- Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising
- Making Contextual Decisions with Low Technical Debt
- deep reinforcement learning, Alpha Go Zero
td2asentimentanalysisrst
,td2asentimentanalysiscorrectionrst
td2aenoncesession4Arst
,correction <td2acorrectionsession4Arst>
TD2AEcoWebScrapingrst
(correction <TD2AEcoWebScrapingcorrigerst>
)td2aeco5dTravaillerdutextelesexpressionsregulieresrst
(correction <td2aeco5dTravaillerdutextelesexpressionsregulierescorrectionrst>
)mlatreeoverfittingrst
correction <knnhighdimensioncorrectionrst>
, Nearest Neighbours and Sparse Features- Régression linéaire par morceaux
- Corrélations non linéaires
- Régression logistique, diagramme de Voronoï, k-Means
- AdaBoost,
2019-10-09ensemblegradientboostingrst
mlcccmachinelearninginterpretabiliterst
(feature importance)mlccmachinelearningproblems2rst
l-ml2a-selvar
- XGBoost: A Scalable Tree Boosting System, sparsité et valeurs manquantes
- LightGBM: A Highly Efficient Gradient Boosting Decision Tree, sélection des splits, combinaison de features sparses
- CatBoost: gradient boosting with categorical features support, ajout de combinaisons de variables
- Understanding and diagnosing your machine-learning models.
- Réseaux de neurones
l-nolabel
- Galleries de problèmes résolus ou presque
- Transfer Learning
- Search images with deep learning
- GAN
- Les fossoyeurs de l’innovation par Nicolas Colin
- Tristan Harris : «Beaucoup de ficelles invisibles dans la tech nous agitent comme des marionnettes»
- How AI Designers will Dictate Our Civic Future
- AlgoTranspency
- L'efficacité d'un logiciel censé prédire la récidive à nouveau critiquée
- Google Translate biais sexiste : A doctor, a nurse traduit en un docteur, une infirmière et non une docteure, un infirmier
- Serment d'Hippocrate pour Data Scientist
- Un monde d'automatisation ?, avec entre autres Alexeï Grinbaum
- Ethique de la vertu (Aristote, ne fais pas à autrui ce que tu ne voudrais pas qu'on te fasse), éthique utilitariste (Bentham, maximiser le plaisir, diminuer les peines en apposant une échelle de valeur, l'action est jugée sur la conséquence), éthique déontologique (Kant, impératif catégorique, je peux faire quelque chose si tout le monde peut le faire sans mettre le monde en danger, action en fonction de l'intention quelque soit le résultat),
- Dilemme du tramway
- L'utilitarisme et les problèmes de tramways
- Théorie du développement moral de Kohlberg
knnhighdimensionrst
,knnhighdimensioncorrectionrst
BJKSTrst
td2acenoncesession6Arst
,td2acorrectionsession6Arst
td2acenoncesession6Brst
,td2acorrectionsession6Brst
td2asentimentanalysisrst
(correction <td2asentimentanalysiscorrectionrst>
), lien vers le jeu de données : Project 1: Spooky Data Analysistd2aeconlptfidfngramsldaword2vecsurdesextraitslitterairesrst
td2amltextfeaturesrst
td2asomenlprst