title	date	draft	weight
Introduction	2020-07-16 13:00:00 UTC	false	10

Avant de plonger dans les arcanes de la data science, cette partie d'introduction propose des éléments de configuration et des révisions pour mettre le pied à l'étrier.

En premier lieu, des notions générales sur lesquelles il ne fait pas de mal de revenir de temps en temps:

Les éléments de configuration pour avoir un environnement propice à l'utilisation de l'écosystème python
Une présentation de l'écosystème de la data-science dont on explorera de nombreux aspects dans ce cours
Les règles de bonnes pratiques pour améliorer la qualité d'un travail s'appuyant sur python

Ensuite, des rappels sur les objets structurants le langage python, nécessaires pour être autonome en python

Des rappels généraux sur les objets en python
Des rappels sur les fonctions en python
Un TD (optionnel) sur les classes en python

Les notebooks d'exercices sont listés ici, visualisables via ou ainsi que dans les différents environnements prêts à l'emploi mis à disposition

Pourquoi faire du python pour travailler sur des données ?

Python, par sa grande flexibilité, est devenu un langage incontournable dans le domaine de la data science. Le succès de scikit-learn et de Tensorflow dans la communauté de la Data-Science ont beaucoup contribué à l'adoption de Python. Cependant, résumer Python à quelques librairies serait réducteur tant il s'agit d'un véritable couteau-suisse pour le data-scientist, social scientist ou économiste. Comme pour R, l'intérêt de Python est son rôle central dans un écosystème plus large autour d'outils puissants, flexibles et open-source.

L'intérêt de Python pour un data scientist ou data economist va au-delà du champ du Machine Learning. Python concurrence très bien R dans son domaine de prédilection, à savoir l'analyse statistique sur des objets type dataframes. Python est bien plus complet dans certains domaines car, outre le Machine Learning, Python est mieux adapté aux données volumineuses que R. Python est également meilleur que R pour faire du webscraping. Dans le domaine de l'économétrie, Python offre l'avantage de la simplicité avec un nombre restreint de packages (scikit et statsmodels) permettant d'avoir des modèles très généraux (les generalized estimating equations) alors qu'il faut choisir parmi une grande variété de packages en R pour obtenir les modèles équivalents. Au contraire, dans certains domaines, R reste meilleur. Par exemple, R est très bien intégré au langage de publication Markdown ce qui, dans certains cas, comme la construction de ce site web basée sur R Markdown, est fort appréciable. Un des avantages comparatifs de Python par rapport à d'autres langages (notamment R et Julia) est sa dynamique, ce que montre l'explosion du nombre de questions sur Stack Overflow.

Cependant, il ne s'agit pas bêtement d'enterrer R ; au contraire, outre leur logique très proche, les deux langages sont dans une phase de convergence avec des initiatives comme reticulate. Ce dernier package permet d'exécuter des commandes python dans un document R Markdown mais crée également une correspondance entre les objets python et R. Les bonnes pratiques peuvent être transposées de manière presque transparente d'un langage à l'autre. A terme, les data-scientists et économistes utiliseront de manière presque indifférente, et en alternance, python et R. Ce cours présentera ainsi régulièrement des analogies avec R.

Structuration de cette partie

Dans un premier temps, cette introduction présente un panorama général de l'environnement familier du data scientist en Python:

Configurer Python
Rapide inventaire de l'écosystème de la data science
Présentation des bonnes pratiques pour les projets de data science en Python

Ensuite, cette partie propose quelques rappels généraux sur les concepts de base du langage:

Rappels sur les objets du langage de base
Rappels sur la programmation de fonctions
Rappels sur les notions de classes, méthodes, etc.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

_index.md

_index.md

Pourquoi faire du python pour travailler sur des données ?

Structuration de cette partie

Files

_index.md

Latest commit

History

_index.md

File metadata and controls

Pourquoi faire du python pour travailler sur des données ?

Structuration de cette partie