# Introduction

Lino Galiana  
2025-03-19

# 1. Introduction

<div class="alert alert-danger" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-triangle-exclamation"></i> Important</h3>

Ce cours rassemble l’ensemble du contenu du cours
***Python pour la data science*** que je donne
à l’[ENSAE](https://www.ensae.fr/courses/python-pour-le-data-scientist-pour-leconomiste/) depuis 2018.
Ce cours était auparavant donné par [Xavier Dupré](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx3/td_2a.html).
Environ 170 élèves qui suivent ce cours chaque année. L’année 2024 a permis l’arrivée progressive d’une version anglophone équivalente à
la version française visant à servir de cours d’introduction à la *data science* pour les instituts statistiques européens
grâce à un [appel à projets européen](https://cros.ec.europa.eu/dashboard/aiml4os).

Ce site ([pythonds.linogaliana.fr/](https://pythonds.linogaliana.fr)) est le point d’entrée principal du cours. Il centralise
l’ensemble des contenus faits en cours dans le cadre de travaux pratiques ou proposés en complément à des fins de formation en continue.
Ce cours est *open source*
et j’accueille avec plaisir les suggestions d’amélioration sur [`Github` ](https://github.com/linogaliana/python-datascientist) ou par le biais des commentaires en bas de chaque page. `Python` étant un langage vivant et très dynamique, les pratiques évoluent et ce cours s’adapte en continu pour tenir compte de l’écosystème mouvant de la *data science*, en essayant néanmoins de distinguer les évolutions pérennes des pratiques des effets de mode.

Quelques éléments supplémentaires sont disponibles dans
les [slides introductives](https://slidespython.linogaliana.fr/).
Des éléments plus avancés sont présents dans un autre cours consacré
à la mise en production de projets *data science*
que je donne avec Romain Avouac
en dernière année de l’ENSAE ([ensae-reproductibilite.github.io/website](https://ensae-reproductibilite.github.io/website)).

</div>

<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Architecture du site web</h3>

Ce cours présente
des tutoriels et des exercices complets.
Chaque page est structurée sous la forme
d’un problème concret et présente la
démarche générique pour résoudre ce problème général.

Vous pouvez naviguer dans l’architecture du site via la table des matières
ou par les liens vers le contenu antérieur ou postérieur à la fin de chaque
page. Certaines parties, notamment celle consacrée à la modélisation,
proposent des exemples fil-rouge pour illustrer la démarche de manière
plus extensive.

</div>

`Python`, dont le logo assez reconnaissable prend la forme de ,
est un langage qui a déjà plus de trente ans
mais qui a connu, au cours de la décennie 2010, une
nouvelle jeunesse du fait de l’engouement autour de
la *data science*.

`Python`, plus que tout autre
langage informatique, réunit des communautés aussi
diverses que des statisticiens, des développeurs,
des gestionnaires
d’applications ou d’infrastructures informatiques,
des lycéens - `Python` est au programme du bac français
depuis quelques années - ou des chercheurs
dans des champs à la fois théoriques et appliqués.

Contrairement
à beaucoup de langages informatiques qui fédèrent
une communauté assez homogène, `Python` est parvenu à réunir
largement grâce à quelques principes centraux : la lisibilité
du langage, la simplicité à utiliser des modules,
la simplicité à l’associer à des langages plus performants
pour certaines tâches données, l’énorme volume de documentation
disponible en ligne…
Être le deuxième meilleur langage pour réaliser telle ou telle
tâche
peut ainsi être une source de succès lorsque la concurrence ne dispose
pas d’un éventail aussi large d’avantages.

Le succès de `Python`, de par sa nature de
langage couteau-suisse, est indissociable
de l’émergence du profil du *data scientist*, profil
capable de s’intégrer à différents niveaux dans la valorisation
de données.
Davenport et Patil (2012), dans la *Harvard Business Review*,
ont ainsi pu parler du *“boulot le plus sexy du 21e siècle”*
et ont pu, dix ans plus tard, faire un panorama complet de l’évolution
des compétences attendues d’un *data scientist* dans
la même revue (Davenport et Patil 2022). Ce ne sont d’ailleurs pas que les
*data scientists* qui ont vocation à pratiquer `Python` ; dans le halo
des emplois autour de la donnée (*data scientist*, *data engineer*, *ML engineer*…),
`Python` fait office de tour de Babel permettant la communication entre ces
différents profils interdépendants.

La richesse de `Python` permet de l’utiliser dans toutes les phases du traitement de la donnée, de sa récupération et structuration à partir de
sources diverses à sa valorisation.
Par le prisme de la *data science*, nous verrons que `Python` est
un très bon candidat pour assister les *data scientists* dans tous
les aspects du travail de données.

Ce cours introduit différents outils qui permettent de mettre en relation
des données et des théories grâce à `Python`. Néanmoins, ce cours
va au-delà d’une simple introduction au langage et propose
des éléments plus approfondis, notamment sur les dernières
innovations permises par la *data science* dans les méthodes de travail.

# 2. Pourquoi faire du `Python`  pour l’analyse de données ?

`Python` est d’abord connu, dans le monde de la *data science*, pour avoir
fourni très tôt les outils utiles à l’entraînement d’algorithmes
de *machine learning* sur plusieurs types de données. Certes,
le succès de [`Scikit Learn`](https://scikit-learn.org/stable/)[1],
de [`Tensorflow`](https://www.tensorflow.org/)[2] ou plus
récemment de [`PyTorch`](https://pytorch.org/)[3] dans la communauté
de la *data science* ont beaucoup contribué à l’adoption de `Python`. Cependant,
réduire `Python` à quelques librairies de *machine learning*
serait réducteur tant il s’agit
d’un véritable couteau-suisse pour les *data scientists*,
les *social scientists* ou les économistes. La *success story* de `Python`
n’est pas seulement le fait d’avoir proposé des librairies de *machine learning* à un moment adéquat: ce
langage dispose de réels atouts pour de nouveaux praticiens de la donnée.

L’intérêt de `Python` est son rôle central dans un
écosystème plus large autour d’outils puissants, flexibles et *open-source*.
Il appartient, comme le langage , à cette classe
de langages pouvant servir au quotidien pour des tâches très diversifiées.
Dans de nombreux domaines explorés dans ce cours, `Python` est, de loin,
le langage informatique proposant l’écosystème le plus complet et le plus simple
d’accès.

Outre le *machine learning* dont nous avons déjà parlé, `Python` est
incontournable dès lors qu’on désire récupérer des données par le biais
d’API ou de *web scraping*[4], deux approches que nous explorerons
dans la première partie du cours. Dans les domaines de l’analyse de données tabulaires[5],
de la publication de contenu web ou de la production de graphiques, `Python` présente un écosystème
de plus en plus similaire à du fait de l’investissement croissant de [`Posit`](https://posit.co/),
l’entreprise à l’origine des principales librairies pour la *data science*, dans la
communauté `Python`.

Néanmoins, il ne s’agit pas, par ces éléments, de rentrer dans la
guéguerre stérile vs `Python`.
Ces deux langages ayant beaucoup plus de points de convergence que de divergence,
il est très simple de transposer les bonnes
pratiques d’un
langage à l’autre. Il s’agit d’un point qui est développé plus amplement
dans le cours plus avancé que je donne avec Romain Avouac en dernière année
d’ENSAE : [ensae-reproductibilite.github.io/website](https://ensae-reproductibilite.github.io/website).

A terme, les data scientists et chercheurs en sciences sociales ou
économie utiliseront de manière presque indifférente, et en alternance, ou `Python`.
Ce cours
présentera ainsi régulièrement des analogies avec pour aider les
personnes découvrant `Python`, mais connaissant déjà bien , à
mieux comprendre certains messages.

# 3. Objectifs du cours

## 3.1 Initier à la démarche de la *data science*

Ce cours s’adresse aux praticiens de la *data science*,
discipline entendue ici au sens large comme la **combinaison de techniques issues des mathématiques, de la statistique et de l’informatique pour produire de la connaissance utile à partir de données**.
Comme la *data science* n’est pas uniquement une discipline scientique mais vise également à fournir un ensemble d’outils pour répondre à des objectifs opérationnels, l’apprentissage du principal outil nécessaire à l’acquisition de connaissances en *data science*, à savoir le langage `Python` est également
l’occasion d’évoquer la démarche scientifique rigoureuse à adopter face à des données. Ce cours a pour objectif de présenter la démarche face à un jeu de données, les problèmes rencontrés, les solutions pour les surmonter et les implications que ces dernières peuvent avoir. Il ne s’agit donc pas que d’un cours sur un outil technique, désincarné de problématiques scientifiques.

<div class="alert alert-success" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-lightbulb"></i> Faut-il avoir un background en mathématiques pour ce cours ?</h3>

Ce cours présuppose qu’on désire faire un usage de `Python` intense
en données dans un cadre statistique rigoureux. Il ne
revient que de manière secondaire
sur les fondements statistiques ou algorithmiques
derrière certaines des techniques évoquées, souvent l’objet d’enseignements dédiés, notamment
à l’ENSAE.

Ne pas connaître ces notions n’empêche ainsi pas de comprendre
le contenu de ce site *web* car les concepts plus avancés sont généralement présentés à part,
dans des encadrés dédiés.
La facilité d’usage de `Python`
évite de devoir programmer soi-même un modèle, ce qui rend
possible l’application
de modèles dont on n’est pas expert. La connaissance des modèles sera
plutôt nécessaire dans l’interprétation des résultats.

Pour autant, même s’il est relativement facile d’utiliser des
modèles complexes
avec `Python`, il est fort utile d’avoir du recul sur ceux-ci avant
de se lancer dans une démarche de modélisation. Il s’agit de l’une des
raisons pour lesquelles la modélisation arrive si tardivement dans ce cours: en
plus de faire appel à des concepts statistiques avancés, il est nécessaire,
pour produire une modélisation pertinente, d’avoir appréhendé les
faits stylisés dans nos données. Bien comprendre la structure des données et leur adéquation
avec les hypothèses d’un modèle est indispensable pour construire une modélisation
de qualité.

</div>

## 3.2 Reproductibilité

Ce cours donne une place centrale à
la notion de reproductibilité. Cette exigence se traduit de diverses
manières dans cet enseignement,
en premier lieu en permettant que tous
les exemples et exercices de ce cours soient testés par le biais
de *notebooks* `Jupyter`[6].

L’ensemble du contenu du site *web* est reproductible dans des environnements
informatiques divers. Il est bien sûr possible de copier-coller les morceaux
de code présents dans ce site, grâce au bouton présent au dessus
des exemples de code:

[1] Library developed by the French public research laboratories of INRIA since 2007.

[2] Library initially used by Google for their internal needs, it was made public in 2015. Although less used now, this library had a significant influence in the 2010s by promoting the use of neural networks in research and operational applications.

[3] Library developed by Meta since 2018 and affiliated since 2022 with the [*PyTorch foundation*](https://pytorch.org/foundation).

[4] In these two areas, the most serious competitor to `Python`
is `Javascript`. However, the community around this language is more focused
on web development issues than on *data science*.

[5] Tabular data are structured data, organized,
as their name indicates, in a table format that allows matching
observations with variables. This structuring differs from other types
of more complex data: free texts, images, sounds, videos… In the domain of unstructured data,
`Python` is the hegemonic language for analysis. In the domain of tabular data, `Python`’s competitive advantage is less pronounced, particularly compared to ,
but these two languages offer a core set of fairly similar functionalities. We will
regularly draw parallels between these two languages
in the chapters dedicated to the `Pandas` library.

[6] Un *notebook* est un environnement interactif qui permet d’écrire et d’exécuter du code en direct. Il combine, dans un seul document, du texte, du code qui peut être exécuté et dont les sorties s’affichent après calculs. C’est extrêmement pratique pour l’apprentissage du langage `Python`. Pour plus de détails, consultez la [documentation officielle de Jupyter](https://jupyter.org/documentation).

In [1]:
x = "Essayez de me copier-coller"

Néanmoins, comme ce site présente de nombreux exemples, les allers et retours
entre un environnement de test de `Python` et celui-ci pourraient être
pénibles. Chaque chapitre est donc facilement récupérable sous forme de
*notebook* `Jupyter` grâce à des boutons au début de chaque page.
Voici, par exemple, ces boutons pour le tutoriel `Numpy` :

<div class="badge-container"><a href="https://github.com/linogaliana/python-datascientist-notebooks/blob/main/notebooks/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/static/v1?logo=github&label=&message=View%20on%20GitHub&color=181717" alt="View on GitHub"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/vscode-python?autoLaunch=true&name=«01_numpy»&init.personalInit=«https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-vscode.sh»&init.personalInitArgs=«manipulation%2001_numpy%20correction»" target="_blank" rel="noopener"><img src="https://custom-icon-badges.demolab.com/badge/SSP%20Cloud-Lancer_avec_VSCode-blue?logo=vsc&logoColor=white" alt="Onyxia"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&name=«01_numpy»&init.personalInit=«https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-jupyter.sh»&init.personalInitArgs=«manipulation%2001_numpy%20correction»" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSP%20Cloud-Lancer_avec_Jupyter-orange?logo=Jupyter&logoColor=orange" alt="Onyxia"></a>
<a href="https://colab.research.google.com/github/linogaliana/python-datascientist-notebooks-colab//blob/main//notebooks/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a><br></div>

Les recommandations concernant
les environnements à privilégier pour utiliser
ces notebooks sont reportées au prochain chapitre.

L’exigence de reproductibilité se manifeste également
dans le choix des exemples pris pour ce cours.
L’ensemble du contenu de ce site s’appuie sur des données
ouvertes, qu’il s’agisse de données françaises (principalement
issues de la plateforme
centralisatrice [`data.gouv`](https://www.data.gouv.fr) ou du site
*web* de l’[Insee](https://www.insee.fr)) ou de données
américaines. Les résultats sont donc reproductibles pour quelqu’un
disposant d’un environnement identique[1].

<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>

Des chercheurs américains ont pu parler de crise de la reproductibilité dans le domaine
du *machine learning* (Kapoor et Narayanan 2022). Les dérives de l’écosystème de
la publication scientifique et les enjeux économiques derrière les publications
académiques dans le domaine du *machine learning* ont une place privilégiée parmi
les facteurs pouvant l’expliquer.

Néanmoins, l’enseignement universitaire porte également une responsabilité
dans ce domaine. Les étudiants et chercheurs ne sont pas formés à ces sujets et s’ils
n’adoptent pas cette exigence tôt dans leur parcours, ils n’y seront plus forcément incités
ultérieurement. Pour cette raison, en plus de former à `Python` et à la *data science*, ce cours
introduit à l’usage du
logiciel de contrôle de version `Git` dans une partie dédiée.
Tous les projets des élèves doivent être *open source*, ce qui est l’une des meilleures manières,
pour un enseignant, de trouver une consigne pour que les élèves produisent un code de qualité.

</div>

## 3.3 Évaluation

Les élèves de l’ENSAE valident le cours grâce à
un projet approfondi.
Les éléments relatifs à l’évaluation du cours, ainsi qu’une
liste des projets déjà effectués, sont disponibles dans la
Section [Évaluation](../../content/annexes/evaluation).

# 4. Plan du cours

Ce cours est une introduction aux enjeux de la *data science* à
travers l’apprentissage du langage `Python`. Comme le terme *“data science”*
l’indique, une partie importante de ce cours est consacrée au travail sur les
données: récupération, structuration, exploration, mise en relation. C’est l’objet de la première
partie du cours
[“Manipuler des données”](../../content/manipulation/index.qmd) qui sert de fondement au reste du cours.
Malheureusement, de nombreuses formations en *data science*, statistiques appliquées ou sciences économiques et sociales,
font l’impasse sur
cette part du travail des *data scientists* qu’on appelle parfois [“data wrangling”](https://en.wikipedia.org/wiki/Data_wrangling)
ou [*“feature engineering”*](https://en.wikipedia.org/wiki/Feature_engineering).
qui, en plus de représenter une part importante du temps de travail des *data scientists*, est indispensable
pour construire un modèle pertinent.

L’objectif de cette partie est d’illustrer les enjeux liés à la récupération
de plusieurs types de sources de données et à leur exploitation par le biais de `Python`. Les exemples seront diversifiés, pour illustrer la richesse des données qui peuvent être analysées avec `Python`: statistiques d’émissions communales de $CO_2$, données de transactions immobilières, diagnostics énergétiques des logements, données de fréquentation des stations vélib…

La deuxième partie est consacrée à la production de visualisations avec `Python`. Après avoir récupéré et nettoyé des données,
on désire généralement synthétiser celles-ci par le biais de tableaux, de productions graphiques ou de cartes. Cette partie est une introduction rapide à ce sujet ([“Communiquer avec `Python`”](../../content/visualisation/index.qmd)). Assez introductive, l’objectif de cette partie est surtout de donner quelques notions qui sont consolidées par la suite.

La troisième partie est consacrée à la modélisation à travers l’exemple fil rouge de la science électorale ([“Modéliser avec `Python`”](../../content/modelisation/index.qmd)). L’objectif de cette partie est d’illustrer la démarche scientifique du *machine learning*, les choix méthodologiques et techniques afférents et ouvrir vers les enjeux suivants qui seront évoqués dans la suite du cursus universitaire.

La quatrième partie du cours fait un pas de côté pour se consacrer aux enjeux spécifiques liés à l’exploitation des données textuelles. Il s’agit du chapitre d’[“Introduction au *Natural Language Processing (NLP)”* avec `Python`”](../../content/NLP/index.qmd). Ce champ de recherche étant particulièrement actif, il ne s’agit que d’une introduction au sujet. Pour aller plus loin, se référer à Russell et Norvig (2020), chapitre 24.

# Références

Davenport, Thomas H, et DJ Patil. 2012. « Data scientist, the sexiest job of the 21st century ». *Harvard business review* 90 (5): 70‑76. <https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century>.

———. 2022. « Is data scientist still the sexiest job of the 21st century? » *Harvard Business Review* 90.

Kapoor, Sayash, et Arvind Narayanan. 2022. « Leakage and the Reproducibility Crisis in ML-based Science ». arXiv. <https://doi.org/10.48550/ARXIV.2207.07048>.

Russell, Stuart J., et Peter Norvig. 2020. *Artificial Intelligence: A Modern Approach (4th Edition)*. Pearson. <http://aima.cs.berkeley.edu/>.

[1] Le fait d’ouvrir les chapitres sous la forme de *notebooks* dans des environnements standardisés, ce qui sera proposé à partir du prochain chapitre, permet d’assurer que vous disposiez d’un environnement contrôlé. Les installations personnelles de `Python` ont toutes les chances d’avoir subies des bidouillages modifiant votre environnement et pouvant provoquer des erreurs inattendues et difficiles à comprendre: ce n’est donc pas un usage recommandé pour ce cours. Comme vous pourrez le découvrir dans le prochain chapitre, les environnements *cloud* offrent un confort en ce qui concerne la standardisation des environnements.