Skip to content

Latest commit

 

History

History
102 lines (84 loc) · 5.32 KB

File metadata and controls

102 lines (84 loc) · 5.32 KB
title date draft weight
Introduction
2020-07-16 13:00:00 UTC
false
10

Avant de plonger dans les arcanes de la data science, cette partie d'introduction propose des éléments de configuration et des révisions pour mettre le pied à l'étrier.

En premier lieu, des notions générales sur lesquelles il ne fait pas de mal de revenir de temps en temps:

Ensuite, des rappels sur les objets structurants le langage python, nécessaires pour être autonome en python

Les notebooks d'exercices sont listés ici, visualisables via ou nbviewer ainsi que dans les différents environnements prêts à l'emploi mis à disposition Onyxia Binder Open In Colab

Pourquoi faire du python pour travailler sur des données ?

Python, par sa grande flexibilité, est devenu un langage incontournable dans le domaine de la data science. Le succès de scikit-learn et de Tensorflow dans la communauté de la Data-Science ont beaucoup contribué à l'adoption de Python. Cependant, résumer Python à quelques librairies serait réducteur tant il s'agit d'un véritable couteau-suisse pour le data-scientist, social scientist ou économiste. Comme pour R, l'intérêt de Python est son rôle central dans un écosystème plus large autour d'outils puissants, flexibles et open-source.

L'intérêt de Python pour un data scientist ou data economist va au-delà du champ du Machine Learning. Python concurrence très bien R dans son domaine de prédilection, à savoir l'analyse statistique sur des objets type dataframes. Python est bien plus complet dans certains domaines car, outre le Machine Learning, Python est mieux adapté aux données volumineuses que R. Python est également meilleur que R pour faire du webscraping. Dans le domaine de l'économétrie, Python offre l'avantage de la simplicité avec un nombre restreint de packages (scikit et statsmodels) permettant d'avoir des modèles très généraux (les generalized estimating equations) alors qu'il faut choisir parmi une grande variété de packages en R pour obtenir les modèles équivalents. Au contraire, dans certains domaines, R reste meilleur. Par exemple, R est très bien intégré au langage de publication Markdown ce qui, dans certains cas, comme la construction de ce site web basée sur R Markdown, est fort appréciable. Un des avantages comparatifs de Python par rapport à d'autres langages (notamment R et Julia) est sa dynamique, ce que montre l'explosion du nombre de questions sur Stack Overflow.

Cependant, il ne s'agit pas bêtement d'enterrer R ; au contraire, outre leur logique très proche, les deux langages sont dans une phase de convergence avec des initiatives comme reticulate. Ce dernier package permet d'exécuter des commandes python dans un document R Markdown mais crée également une correspondance entre les objets python et R. Les bonnes pratiques peuvent être transposées de manière presque transparente d'un langage à l'autre. A terme, les data-scientists et économistes utiliseront de manière presque indifférente, et en alternance, python et R. Ce cours présentera ainsi régulièrement des analogies avec R.

Structuration de cette partie

Dans un premier temps, cette introduction présente un panorama général de l'environnement familier du data scientist en Python:

Ensuite, cette partie propose quelques rappels généraux sur les concepts de base du langage: