title | date | draft | weight |
---|---|---|---|
Introduction |
2020-07-16 13:00:00 UTC |
false |
10 |
Avant de plonger dans les arcanes de la data science, cette partie d'introduction propose des éléments de configuration et des révisions pour mettre le pied à l'étrier.
En premier lieu, des notions générales sur lesquelles il ne fait pas de mal de revenir de temps en temps:
- Les éléments de configuration pour avoir un environnement propice à l'utilisation de l'écosystème python
- Une présentation de l'écosystème de la data-science dont on explorera de nombreux aspects dans ce cours
- Les règles de bonnes pratiques pour améliorer la qualité
d'un travail s'appuyant sur
python
Ensuite, des rappels sur les objets structurants le langage python
,
nécessaires pour être autonome en python
- Des rappels généraux sur les objets en python
- Des rappels sur les fonctions en python
- Un TD (optionnel) sur les classes en python
Les notebooks d'exercices sont listés ici, visualisables via ou ainsi que dans les différents environnements prêts à l'emploi mis à disposition
Python, par sa grande flexibilité, est devenu un langage incontournable
dans le domaine de la data science.
Le succès de scikit-learn et
de Tensorflow dans la communauté
de la Data-Science ont beaucoup contribué à l'adoption de Python
. Cependant,
résumer Python
à quelques librairies serait réducteur tant il s'agit
d'un véritable couteau-suisse pour le data-scientist, social scientist
ou économiste.
Comme pour R
, l'intérêt de Python est son rôle central dans un
écosystème plus large autour d'outils puissants, flexibles et open-source.
L'intérêt de Python
pour un data scientist ou data economist va au-delà du champ du Machine Learning.
Python concurrence très bien R
dans son domaine de prédilection, à
savoir l'analyse statistique sur des
objets type dataframes. Python
est bien plus complet dans certains domaines
car, outre le Machine Learning,
Python
est mieux adapté aux données volumineuses que
R
. Python
est également meilleur que R
pour faire
du webscraping. Dans le domaine de l'économétrie, Python
offre
l'avantage de la simplicité avec un nombre restreint de packages (scikit
et
statsmodels
) permettant d'avoir des modèles très généraux
(les generalized estimating equations) alors qu'il faut
choisir parmi une grande variété de packages en R
pour obtenir les
modèles équivalents.
Au contraire, dans certains domaines, R
reste meilleur. Par exemple,
R
est très bien intégré au langage de publication Markdown
ce qui,
dans certains cas, comme la construction de ce site web basée sur
R Markdown
, est fort appréciable.
Un des avantages comparatifs de Python
par rapport à d'autres
langages (notamment R
et Julia
) est sa dynamique,
ce que montre l'explosion du nombre de questions
sur Stack Overflow
.
Cependant, il ne s'agit pas bêtement d'enterrer R
; au contraire, outre leur logique très proche,
les deux langages sont dans une phase de convergence avec des initiatives comme
reticulate
. Ce dernier package
permet d'exécuter des commandes python dans un document R Markdown
mais
crée également une correspondance entre les objets python
et R
. Les bonnes
pratiques peuvent être transposées de manière presque transparente d'un
langage à l'autre. A terme, les data-scientists et économistes utiliseront
de manière presque indifférente, et en alternance, python
et R
. Ce cours
présentera ainsi régulièrement des analogies avec R
.
Dans un premier temps, cette introduction présente un panorama général
de l'environnement familier du data scientist en Python
:
- Configurer Python
- Rapide inventaire de l'écosystème de la data science
- Présentation des bonnes pratiques pour les projets de data science en
Python
Ensuite, cette partie propose quelques rappels généraux sur les concepts de base du langage: