# pandas - partie 2

![logo pandas](https://pandas.pydata.org/docs/_static/pandas.svg)

Dans la première partie, nous avons vous l'objet qui se trouve au coeur de la librairie pandas, cousine de numpy. Pour rappel, un dataset (ou jeu de données) et la donnée brute, on la transforme en DataFrame, objet qui ressemble à un tableau excel où chaque colonne possède un nom. Ainsi, il est dit que les données d'un DataFrame sont tabulaires.

La partie 1 du TP pandas a été l'occasion de travailler avec de petits dataframes (écrits à la main), toutefois en Big Data, ce n'est pas des DataFrame de moins de 60 lignes avec lesquels nous travaillons, mais en général plus de 100 000. Bien évidemment, nous n'allons pas écrire à la main, ces gros fichiers. C'est ici qu'entre en jeu l'Open Data, notamment popularisé par le "Florida Man". L'Open Data ou Données Ouvertes permettent à tous de récupérer des données exposées par des gouvernements et autres institutions pour les exploiter. Ces données peuvent être sous plusieurs formes mais celle la plus courante est le format csv.

Et ces données, on les trouve où ? Il existe beaucoup de sources, dans le cadre de cette pratique, nous allons utiliser celui des naissances de 1900 et 2020 par département (voir lien plus bas). Mais voici quelques sites :

- [Voir site des données ouvertes du gouvernement](https://www.data.gouv.fr/)
- [Voir site des données ouvertes de l'insee](https://www.insee.fr/fr/statistiques?categorie=1)
- [Voir moteur de recherche de Google dédié aux datasets](https://datasetsearch.research.google.com/)
- [Voir site des données ouvertes de l'éducation nationale](https://data.education.gouv.fr/)
- [Voir site de données ouvertes (souvent anglophones)](https://github.com/awesomedata/awesome-public-datasets)

---
- [Voir source du fichier de données des prénoms - Fichier que nous allons utiliser pour la suite du TP](https://www.insee.fr/fr/statistiques/2540004?sommaire=4767262#consulter)
  - Pas besoin de télécharger l'archive contenant le csv par département depuis ce lien, un lien direct a été mis plus bas

Comma-separated values ou csv est un format de fichier représentant des valeurs tabulaires sous forme de valeurs séparées par des virgules, ce caractère étant celui de séparation par défaut. Chaque valeur entre virgule représentant une cellule.

![csv](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/csv.jpg)
- [En savoir plus sur le format csv (wikipedia)](https://fr.wikipedia.org/wiki/Comma-separated_values)

Il est possible de transformer un fichier tableur (.xls, .xslx, .ods...) en fichier csv, il suffit juste à la sauvegarde de préciser le format csv. 

![sauvegarde-csv](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/sauvegarde-csv.jpg)

Néanmoins pandas est très polyvalent, il est possible d'importer un fichier excel (xls/xslx), un fichier sql ou encore un tableau HTML en provenance d'un site. Pour les fichiers excel (xls/xslx), il faudra préciser le classeur que l'on souhaite charger.

- [Voir liste des types gérés par pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Dans le cadre de ce cours, nous allons principalement manipuler des fichiers csv et les charger grâce à la méthode `pd.read_csv("chemin-du-fichier.csv")` de pandas. Il faudra importer pandas (`import pandas as pd`) avant d'appeler la méthode `read_csv()`.

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour charger un fichier local, il faudra rajouter les lignes de codes suivantes :

```python
from google.colab import files
uploaded = files.upload()

import pandas as pd
import io
# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé sinon, 
# vous aurez forcément une erreur
df = pd.read_csv(io.BytesIO(uploaded['nom-du-fichier-uploader.csv']))
```
- **Ces lignes doivent être avant la manipulation d'un DataFrame et de préférence dans une cellule dédiée pour éviter d'uploader votre fichier à chaque fois**
- **Vous ne pouvez pas importer de fichiers en navigation privée**

- [Voir plus d'informations sur le chargement de fichiers externes avec Google colab - anglais](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

# Chargement d'un fichier distant

Bien que nous fassions du Python depuis Jupyter, nous avons toujours accès aux méthodes et classes natives de Python dont "request". Elle nous permet d'effectuer des rêquetes serveurs et donc de charger des fichiers

```python
from urllib import request
import pandas as pd

request.urlretrieve("https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/Parcours_data_scientist/decouvrez-les-librairies-python-pour-la-data-science/hubble_data.csv", "hubble.csv")
hubble = pd.read_csv("hubble.csv")
```

Le code ci-dessus est là à titre indicatif, nous n'aurons pas besoin d'utiliser des fichier distants dans nos pratiques.

# Phase 0 : Téléchargement du dataset
- [Télécharger dataset des prénoms](https://github.com/DanYellow/cours/blob/main/big-data-s4/datasets/naissances-par-departement-1900-2020.zip) (Cliquez sur le bouton "Télécharger / Download" sur github)
  - Décompressez l'archive

- **Petite note** : Le fichier possède plus de 3 500 000 lignes. Si on essaye d'ouvrir le fichier avec OpenOffice Calc (équivalent Open Source d'Excel), on a le droit au message suivant :

![erreur chargement](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/erreur-chargement-calc.jpg)

Heureusement, nous utilisons pandas nous allons pouvoir ouvrir le fichier sans encombres.

# Phase 1 : Récupération / Chargement du fichier

In [None]:
# Utilisateurs de Google Colab
# pensez bien à uploader le fichier dans cette cellule
# avec le code plus haut

In [3]:
# On importe pandas, pas de pandas, pas de DataFrame donc pas de manipulation de données tabulaires
import pandas as pd

# On charge le fichier dans une cellule spécifique. Pourquoi ? On veut éviter de charger ce gros fichier régulièrement.
# Si nous utilisez Google Colab, ça devrait aller plus vite.
# Le premier paramètre de notre fonction est très important, c'est le chemin vers votre fichier, comme en HTML si vous 
# changez le nom du fichier, il faudra penser à éditer le chemin dans la méthode.
liste_prenoms_source = pd.read_csv("A-REMPLACER", sep=";") # le fichier est chargé en tant que DataFrame

# La fonction "read_csv" possède plein de paramètres permettant la lecture d'un fichier csv beaucoup plus souple, on peut, par exemple, importer certaines colonnes

# Note importante sur les fichiers CSV

Le csv que nous allons utiliser utilise des point-virgules ( ; ) pour séparer les colonnes d'où le paramètre `sep=";"` dans le code, il indique le séparateur des colonnes permettant ainsi d'afficher, de manipuler correctement notre DataFrame. Si le séparateur est incorrect, une erreur peut être levée ou le DataFrame sera consititué que d'une seule colonne (voir image ci-dessous).

![mauvais séparateur de colonnes](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/dataframe-mauvais-separateur.png)

Pensez à changer le caractère de séparation des cellules de votre csv en cas de problème.

# Phase 2 : Exploration des données
Après avoir chargé un DataFrame, la première chose à faire est de l'explorer. Cette phase nous permet de savoir assez facilement et rapidement quel jeu de données on manipule, on essaye de répondre aux questions suivantes pour mieux comprendre notre DataFrame :
- A quoi ressemble notre DataFrame ? # `df.head()` ou `df.tail()` ou `display(df)` / `display(df)` équivaut à faire `df.head()` et `df.tail()` en même temps
  - Ces méthodes vont afficher les 5 premières/dernières lignes, il est possible de passer un nombre en paramètre pour en afficher plus ou moins
- Combien de lignes et colonnes possède-t-il ? # `df.shape`
- Quel est le type de chaque champ ? # `df.dtypes`
- Quels sont les noms des colonnes ? # `df.columns.values.tolist()`
- Existe-il des données absentes ou nulles / Combien il y a de données absentes ou nulles ? # `df.isnull().any()` ou `df.isna().any()` / `df.isnull().sum()` ou `df.isna().sum()`
- Quelles données statistiques ressortent de mon jeu de données ? # `df.describe()`
- Combien de valeurs uniques existe-t-il ? # `df.value_counts()`
- Quelle est valeur min/max de certaines colonnes ? # `df['colonne'].min()/.max()`
- Combien d'espace mémoire consomme mon DataFrame ? # `df.info()`
- Combien de valeurs uniques existe-t-il par colonne ? / Quelles sont ces valeurs uniques ? # `df.nunique()` / `df["nom_du_champ"].unique()`
  - Attention concernant `df["nom_du_champ"].unique()`, si vous avez beaucoup de valeurs uniques jupyter risque de ne pas tout afficher
  - Écrire `df["nom_du_champ"].unique()` pour chaque champ peut être fastideux, ainsi il est possible d'écrire à la place `pd.Series({colonne: df[colonne].unique() for colonne in df})`. Ceci affichera toutes les valeurs uniques pour chaque champs

`.values.tolist()` a été rajouté pour s'assurer que toutes les lignes soient affichées dans Jupyter, l'outil ayant tendance à tronquer l'affichage quand il y a trop de résultats.

Il n'est pas utile de répondre à toutes ces questions, toutefois, il faut au moins répondre aux questions suivantes : 
- A quoi ressemble notre DataFrame ?
  - Quels sont les noms des colonnes ?
  - Combien de lignes/colonnes possède-t-il ?
- Existe-il des données absentes / nulles ?

Ces quatre questions nous aideront beaucoup pour la phase suivante, mais répondre à plus de questions pourra encore plus nous aider.

## A vous de coder
Répondre en code aux questions posées plus haut, inutile de stocker ceci dans une variable, utiliser un simplement la fonction `display()`

In [2]:
# Codez ici - N'hésitez pas à rajouter des cellules de travail pour rendre le tout plus lisible

Qu'observez-vous ?

## Combien d'espace mémoire (RAM) consomme mon DataFrame ? # `df.info()`

Au cours de votre cursus, vous avez vu (notamment en C) que le typage des variables avait son importance quant à l'occupation de la variable dans l'espace mémoire de l'appareil. Ainsi un nombre entier n'occupera pas la même place qu'un nombre décimal et mal typer les variables peut avoir des conséquences sur les performances d'une application, ceci pouvait même conduire à un crash.
Nous avons vu précémment qu'il n'était pas utile de typer les variables en Python toutefois, ceci ne veut pas dire que c'était impossible de le faire. Avec les DataFrame, pandas (et Python par extension) devinne le type des champs, cette opération consomme de la mémoire. Bien que pandas soit bien optimisé, il est possible d'alléger sa charge de travail en indiquant explicitement le type des champs. Par exemple :

```python
pd.read_csv("fromages.csv", dtype={
    "nom": "str", # str pour "string" soit "chaîne de caractères"
    "type_de_lait": "str",
    "mois_affinage": "uint8", # uint8 pour "unsigned integer 8bits" soit "entier strictement positif sur 8bits"
    "prix": "uint8",
    "dpt_origine": "str",
})
```
En précisant le paramètre dtype (**facultatif**), on aide pandas à consommer moins de RAM. Regardez le notebook "performances-types.ipynb" (présent dans la ressource) pour en savoir plus.

On peut également alléger la consommation en RAM de notre notebook grâce à la méthode globale `del` qui nous permet de supprimer un DataFrame quand nous n'en avons plus besoin
```python
del df_inutile_maintenant
```

**Ceci est à titre indicatif, ce n'est pas obligatoire de le faire**. Par ailleurs, le typage des colonnes aura plus son importance sur les gros jeux de données.

## Pourquoi les index ?

Dans la précédente partie, nous avons vu qu'il était possible de définir des index dans un DataFrame, une fois défini, nous avions accès à la syntaxe `df.loc['mon_index']`. **Il faut comprendre que la définition de l'index a une importance quant aux performances de pandas.** Prenons le cas suivant : Nous souhaitons chercher toutes les occurences du prénom "Pauline" dans notre DataFrame. Nous pouvons écrire le code suivant.
```python
    liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"]
```
Ou nous pouvons définir la colonne "preusuel" en tant qu'index puis faire une rechercher grâce à la propriété ".loc".
```python
    liste_prenoms_source.set_index("preusuel").loc['PAULINE']
    # Note : L'opération "set_index" est coûteuse en terme de temps d'exécution
```
Comparons les deux instructions (il est possible d'exécuter plusieurs cellules en même temps). L'opération `set_index` étant coûteuse, on va effectuer trois tests et calculer le temps d'exécution :
- La recherche du prénom "PAULINE" sans index
- La recherche du prénom "PAULINE" avec la colonne "preusuel" indexée + indexation de la colonne "preusuel"
- La recherche du prénom "PAULINE" avec la colonne "preusuel" indexée

Il est également possible d'utiliser des index multiples pour hiérarchiser vos données. Ou encore que par défaut, l'index est une série de nombre qui commence à 0.

- [Plus de détails concernant les index des DataFrame](https://www.sharpsightlabs.com/blog/pandas-index/)

In [4]:
%timeit liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"]

236 ms ± 2.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [5]:
%timeit liste_prenoms_source.set_index("preusuel").loc['PAULINE']

421 ms ± 9.83 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [6]:
preusuel_index = liste_prenoms_source.set_index("preusuel")
%timeit preusuel_index.loc['PAULINE']

66.4 ms ± 1.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Quels résultats observez-vous ?

# Commandes magiques

Vous avez remarqué que dans les cellules précédentes, nous avons utilisé `%timeit`, cette syntaxe est propre à jupyter, on appelle ceci une commande magique. Elles ajoutent de nouvelles fonctionnalités aux notebooks de façon très simple, ces fonctionnalités peuvent s'appliquer sur **une seule ligne de code** comme le code ci-dessous.

```python
%ma_commande_magique mon_code_python
```

ou du code sur plusieurs lignes (remarquez bien la présence double du signe pourcentage `%%`).

```python
%%ma_commande_magique 
mon_code_python
```
Dans le cas ci-dessus la commande magique s'applique sur toute la cellule. Ainsi le code de la première cellule contenant `%timeit` aurait pu être écrit de de la façon suivante.


```python
%%timeit 
liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"]
```

**Attention :** Toutes les commandes magiques ne sont pas elligibles à la gestion multilignes.

In [7]:
# Il est possible de lister les commandes magiques avec la commande : %lsmagic
%lsmagic

# la commande %quickref affiche la documention des commandes
%quickref


IPython -- An enhanced Interactive Python - Quick Reference Card

obj?, obj??      : Get help, or more help for object (also works as
                   ?obj, ??obj).
?foo.*abc*       : List names in 'foo' containing 'abc' in them.
%magic           : Information about IPython's 'magic' % functions.

Magic functions are prefixed by % or %%, and typically take their arguments
without parentheses, quotes or even commas for convenience.  Line magics take a
single % and cell magics are prefixed with two %%.

Example magic function calls:

%alias d ls -F   : 'd' is now an alias for 'ls -F'
alias d ls -F    : Works if 'alias' not a python name
alist = %alias   : Get list of aliases to 'alist'
cd /usr/share    : Obvious. cd -<tab> to choose from visited dirs.
%cd??            : See help AND source for magic %cd
%timeit x=10     : time the 'x=10' statement with high precision.
%%timeit x=2**100
x**100           : time 'x**100' with a setup of 'x=2**100'; setup code is not
                   co

# Phase 3 : Nettoyage de données

Le nettoyage de données consiste à supprimer/modifier les mauvaises de données, elles peuvent être de plusieurs formes : 
- Une donnée manquante
- Des données dupliquées
- Une donnée au mauvais format
- Une donnée incorrecte

Il est préférable de nettoyer les données pour plusieurs raisons :
- Eviter les problèmes de calculs (données manquantes / données aberrantes = résultat incorrect)
- Eviter les affichages étranges de graphiques

### Exemples de code pour nettoyer les données

**Permet de supprimer lignes avec des données absentes**

Le paramètre "inplace" permet de faire muter le dataframe quand le paramètre est égale à "True", inplace=False renvoie un nouveau dataframe
```python 
df.dropna(inplace = True)
```

**Permet de supprimer lignes avec des données non conformes aux conditions définies**

**Renvoie** un nouveau DataFrame.
```python 
df.drop(df[<nos conditions>].index)
```

**Permet de supprimer lignes avec des données dupliquées**

**Ne renvoie pas** un nouveau DataFrame.
```python 
df.drop_duplicates(inplace = True)
```

**Permet de remplir les cases vides d'une serie, par la valeur moyenne de la serie**

La fonction retourne un nouveau dataframe, toutefois, il est possible de faire muter le dataframe en rajoutant le paramètre "inplace = True"
```python 
df['nom_de_la_colonne'].fillna(df['nom_de_la_colonne'].mean())
```

**Permet de changer le type d'une colonne**

Ceci peut permettre, notamment de diminuer/augmenter la taille en mémoire d'un dataset (`df.info(memory_usage='deep')`)
```python 
df['nom_de_la_colonne'] = df['nom_de_la_colonne'].astype(nom_du_type)
```
- [Voir liste des types - Documentation numpy](https://numpy.org/doc/stable/reference/arrays.dtypes.html)

**Permet d'appliquer une fonction sur une colonne (ne pas oublier de retourner la valeur)**
```python
def ma_fonction(val):
    return val + 2
df['nom_de_la_colonne'] = df['nom_de_la_colonne'].apply(ma_fonction)
```

Note : si la fonction est un simple calcul, il est possible d'appliquer sur la même ligne le calcul comme le code suivant :
```python
# Divise toutes les valeurs de la colonne par 2
df['nom_de_la_colonne'] = df['nom_de_la_colonne'] / 2

# ATTENTION : Il est préférable de s'assurer que sa série est bien numérique avant d'appliquer une opération arithmétique sinon pandas lèvera une erreur à coup sûr.
```

**Permet de filtrer les lignes par condition (& pour "et", | pour "ou")**
```python
df[(df["nom_de_la_colonne_1"] == "valeur") | (df["nom_de_la_colonne_2"] == "valeur")]
```
Condition plus complexe 
```python
df[
    ((df["nom_de_la_colonne_1"] == "valeur") | (df["nom_de_la_colonne_2"] == "valeur")) &
    (df["nom_de_la_colonne_3"] == "valeur")
]
```

In [None]:
# Nettoyez vos données ici... mais avant

Lorsqu'on applique des opérations sur un DataFrame, il est souvent préférable de travailler à partir d'une copie. En effet, durant cette phase de nettoyage nous allons être amené à supprimer des lignes ou encore altérer des valeurs directement sur le DataFrame (paramètre `inplace=true`), mais que ce passe-t-il si nous trompons dans nos opérations ? Nous sommes obligés de compiler toutes les cellules depuis le début, fastidieux.

De ce fait, durant cette phase de nettoyage, deux options s'offrent à nous :
- Ne pas utiliser le paramètre `inplace=true` et mettre les résultats dans des variables différentes
- Faire une copie du DataFrame originel grâce à la méthode `.copy()`. Par exemple :
```python
df_copie = df.copy()
# Application de modifications
```

In [1]:
# Nettoyez vos données ici avec le DataFrame prenoms_nettoyage, nous allons utiliser la technique de la copie
prenoms_nettoyage = liste_prenoms_source.copy()

# Pour les années, pour être sûr que toutes les valeurs sont des années, 
# nous allons faire un filtre pour retirer toutes les lignes dont la valeur pour
# pour la colonne "annais" n'est pas numérique. 
# C'est ce que fait la ligne suivante en appliquant un masque sur la colonne "annais" :

prenoms_nettoyage = prenoms_nettoyage[prenoms_nettoyage["annais"].str.isnumeric() == True]

# Toutefois, dépendamment des questions auxquelles vous voulez répondre 
# le filtre précédent peut être inutile et donc être commenté

NameError: name 'liste_prenoms_source' is not defined

# A vous de coder

A partir du DataFrame des prénoms, définir des DataFrame correspondants aux critères suivants (une ligne, un nouveau DataFrame) :

1. Contient 10 000 premières entrées concernant les naissances d'enfants de sexe féminin dans toute la France
   - 1 = garçon | 2 = fille 
2. Contient toutes les naissances d'enfants ayant votre prénom dans toute la France
3. Contient toutes les naissances de l'année de votre naissance dans le département de votre choix
4. Contient toutes les naissances de l'année de votre naissance dans la région de votre choix (plusieurs départements) 
  - Le DataFrame final doit contenir une colonne contenant le nom de la région
5. Contient toutes les naissances de l'année de votre naissance, dix avant et après votre naissance dans toute la France

N'oubliez pas que la syntaxe Python vu précédemment fonctionne également avec pandas.

In [None]:
# Question 1

In [36]:
# Question 2

In [None]:
# Question 3

In [35]:
# Question 4

In [34]:
# Question 5

# Groupons-les - Suite

Dans la partie précédente, nous avons vu qu'il était possible de grouper nos DataFrame selon un ou plusieurs colonnes. Ceci étant pratique pour récupérer un aggrégat de certaines colonnes.
Toutefois que devons-nous faire lorsque nous souhaitons récupérer les N premiers / derniers lignes de chaque groupe ? Encore une fois un groupe. Prenons la question suivante : "Quels sont les 5 prénoms les moins populaires des trois années (de votre choix) du sexe féminin ?". De prime à bord, on pourrait se dire que le code suivant pourrait fonctionner :

```python
    n_derniers_prenoms = (
            prenoms_nettoyage[prenoms_nettoyage["sexe"] == 2]
                .groupby(['preusuel', 'annais']) # On groupe par series "preusuel" et "annais"
                .sum() # On fait la somme sur les series numériques
                .sort_values(by="nombre", ascending=False) # On ordonne de façon décroissante
                [-15:] # On retourne les 15 derniers résultats (3 années x 5 derniers prénoms)
    )
```

Essayez ce code dans une cellule de code. Qu'observez-vous ? Est-ce le résultat attendu ? (pensez bien à remplacer "prenoms_feminin_df" par le nom de votre DataFrame et afficher le DataFrame)

Cette cellule est aussi l'occasion de découvrir une nouvelle syntaxe : celle des instructions multilignes. Il est suffit juste de mettre ses instructions entre parenthèses (), dedans on peut faire des retours à la ligne et donc rendre nos instructions multilignes, plus claires.

In [None]:
# Testez le code de la cellule précédente ici.

En analyse de données, notre but est de se poser des questions (ou recevoir des questions de l'équipe produit) et bien évidemment d'y répondre grâce à la donnée, pour enfin en conclure quelque chose. N'oubliez pas _qu'un problème bien posé est à moitié résolu_. Ce sont des questions qui vont piloter vos DataFrame, votre code, vos articles.

# A vous de coder

A partir du DataFrame des prénoms, répondre aux questions suivantes avec une variable ou un DataFrame :
1. Quel est le prénom masculin et féminin le plus populaire de l'année 1995 dans la France entière (Territoire d'Outre-Mer + Metropole) ?
   - Quelle part de naissances représentent ces prénoms sur la totalité des naissances de 1995 ? 
2. Combien de naissances ont lieu en moyenne par département ?
   - Il faudra donc grouper par département et appliquer la méthode `.mean()` 
3. Posez-vous une question, essayez d'y répondre avec vos connaissances de pandas

In [2]:
# Question 1

In [22]:
# Question 2

In [None]:
# Votre question, essayez d'y répondre avec vos connaissances de pandas (A REMPLACER par votre question)

# Exporter vos DataFrame

Avant de terminer, vous avez dû remarquer que consulter vos DataFrame dans Jupyter n'est pas forcément des plus pratiques notamment à cause de la troncature du rendu final. Heureusement pour vous, pandas permet d'exporter vos DataFrame sous plusieurs formats via des méthodes dédiées : .csv (to_csv), .xslx (to_excel) ou encore .sql (to_sql). 
```python
# Ceci nous permet de créer un csv nommé "mon-csv.csv"
df.to_csv("mon-csv.csv")
```

A noter que si le fichier que vous êtes en train de créer est ouvert dans un autre logiciel, l'écriture du fichier risque d'échouer.
- [Voir documentation de la méthode "to_csv"](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html?highlight=to_csv#)