# Pandas

## Pandas, pour quel genre de donn√©es ?

In [None]:
import pandas as pd

Pour charger le package pandas et commencer √† travailler, on l'importe.

La convention dans la communaut√© Python est de l'importer en tant que `pd`, donc toute la documentation pr√©sume que c'est ce que vous avez fait.

### Repr√©sentation d'une table de donn√©es pandas

![](img/01_table_dataframe.svg)

Je veux stocker les donn√©es √† propos des passagers du Titanic. Pour un certain nombre de passagers, je connais leurs noms (du texte), leur √¢ge (des entiers), et leur sexe (M/F).

In [None]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)


df

Pour cr√©er un tableau de donn√©es √† la main, on cr√©e une instance de `DataFrame`. Si on lui passe un dictionnaire python contenant des listes, les cl√©s du dictionnaire seront les noms des colonnes, et les valeurs du dictionnaire (des listes) seront le contenu des colonnes.

Une `DataFrame` est une structure de donn√©es 2D qui peut stocker diff√©rents types de donn√©es (texte, entiers, r√©els, cat√©goriques, dates‚Ä¶) dans des colonnes. C'est similaire √† un fichier tableur, une table SQL dans une base de donn√©es, ou l'objet `data.frame` du langage R.


Dans notre table,
- Il y a 3 colonnes, chacune avec son nom. Les noms sont respectivement `Name`, `Age` and `Sex`.
- La colonne `Name` contient des donn√©es texte, chaque valeur est un string. La colonne `Age` contient des nombres, et la colonne `Sex` contient aussi du texte

Dans un logiciel tableur, nos donn√©es aurait une repr√©sentation tr√®s similaire 

![](img/01_table_spreadsheet.png)

### Chaque colonne est une instance de  `Series`

![](img/01_table_series.svg)

Je m'int√©resse uniquement aux donn√©es dans la colonne `Age`

In [None]:
df["Age"]

Quand on s√©lectionne une seule colonne dans une `DataFrame`, le r√©sultat est une `pandas.Series`. Pour s√©lectionner une colonne
on utilise le nom de la colonne entre crochets `[]`.



<div class='alert alert-info'>
Si vous √™tes familiers des dictionnaires Python, la s√©lection d‚Äôune colonne unique est tr√®s similaire √† la s√©lection d'une valeur dans un dictionnaire via sa cl√©.
</div>

On peut cr√©er une Series ex-nihilo :

In [None]:
ages = pd.Series([22, 35, 58], name="Age")
ages

Une `pandas.Series` n'a pas de libell√© de colonne, mais un attribut `.name`. Elle a bien des libell√©s de ligne (par d√©faut 0, 1, 2 ‚Ä¶)

###¬†Agir sur une `pandas.Series`
Je veux conna√Ætre l‚Äô√¢ge le plus √©lev√© parmi les passagers.

On peut le trouver en s√©lectionnant la colonne `"Age"` dans notre `DataFrame` et en appliquant la m√©thode `.max()`.

In [None]:
df["Age"].max()

Idem sur une simple `Series` :

In [None]:
ages.max()

Comme illustr√© par la m√©thode `.max()`, on peut faire des choses avec une `DataFrame` ou une `Series`. 

Pandas nous offre plein de fonctionnalit√©s, sous la forme de m√©thodes √† utiliser sur une `DataFrame` ou `Series`. 

Comme les m√©thodes sont des fonctions, pensez bien √† ajouter les parenth√®ses apr√®s leur nom `()`.

### Je veux voir des statistiques de base sur mes donn√©es num√©riques 

In [None]:
df.describe()

La m√©thode `.describe()` nous donne un aper√ßu rapide des donn√©es num√©riques dans notre `DataFrame`. Comme les colonnes `Age` et `Sex` sont des donn√©es textuelles, elles sont ignor√©es par la m√©thode `.describe()`.

De nombreuses op√©rations renvoient une nouvelle `DataFrame` ou `Series`. La m√©thode `.describe()` est un exemple d‚Äôop√©ration qui renvoie une `DataFrame`.

<div class='alert alert-info'>

Ce n'est que le d√©but. Comme dans un tableur, **pandas** repr√©sente les donn√©es sous la forme d'un tableau avec des colonnes et des lignes. En plus de la repr√©sentation, les manipulations de donn√©es et les calculs que vous pouvez faire dans un tableur sont √©galement faisables avec **pandas**, et nous allons voir √ßa dans ce guide.
    
</div>

<div class='alert alert-success'>

    
**√Ä retenir:**

- On importe la biblioth√®que pandas avec `import pandas as pd`
- Un tableau de donn√©es est stock√© dans un objet `pandas.DataFrame`
- Chaque colonne dans une `DataFrame` est une `Series`
- Vous pouvez r√©aliser des op√©rations en appliquant des m√©thodes √† une`DataFrame` ou une`Series`

</div>

## Comment lire et √©crire des donn√©es tabulaires

![](img/02_io_readwrite.svg)

Je veux analyser les donn√©es des passagers du Titanic, disponibles sous la forme d'un fichier `csv`.

In [None]:
# cr√©ation d'un sous-dossier data
!mkdir data
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv > data/titanic.csv

In [None]:
# chargement du CSV dans une DataFrame
titanic = pd.read_csv("data/titanic.csv")

Pandas a une fonction `read_csv(path)` qui va lire les donn√©es dans un fichier csv et vous renvoie une `DataFrame`. Pandas peut lire la plupart des formats de fichier de donn√©es  (csv, excel, sql, json, parquet, ‚Ä¶) nativement, chacun de ces formats a sa fonction `read_*`.

Prenez le r√©flexe apr√®s avoir charg√© un jeu de donn√©es de jeter un ≈ìil √† la `DataFrame`. 

Appeler la `DataFrame` dans un notebook affiche les 5 premi√®res et les 5¬†derni√®res lignes.

In [None]:
titanic

Je veux voir les 8 premi√®res lignes de la DataFrame¬†:

In [None]:
titanic.head(8)

La m√©thode `DataFrame.head(n)` permet de regarder les `n` premi√®res lignes (par d√©faut les 5 premi√®res).

De m√™me, la m√©thode `.tail(n)` affiche les `n` derni√®res lignes, et `.sample(n)` tire `n` lignes au hasard.

Pour v√©rifier comment pandas a interpr√©t√© les donn√©es de chaque colonne, inspectez l'attribut `dtypes`.

In [None]:
titanic.dtypes

Pour chaque colonne, le type de donn√©es utilis√© est affich√©.

Ici on a : 
- des entiers (int64), 
- des r√©els (float64),
- des strings (object).

<div class='alert alert-info'>

Quand on demande `.dtypes`, il n‚Äôy a pas de parenth√®ses ! `dtypes` est un attribut des DataFrame et Series. Ce sont des variables internes, et non pas des fonctions, donc pas de parenth√®ses √† ajouter √† la fin. Les attributs sont des donn√©es internes, les m√©thodes (qui n√©cessitent des parenth√®ses) sont des fonctions, ou actions internes.

</div>

Mon coll√®gue me demande les donn√©es du Titanic, sous la forme d'un fichier tableur. Dans le doute, on va lui faire en Excel et en LibreOffice.

On a juste deux petits packages √† installer, `openpyxl` et `odfpy`.

In [None]:
# pour les utilisateurs d'anaconda
!conda install -c anaconda openpyxl 
!conda install -c conda-forge odfpy

In [None]:
# pour ceux qui utilisent pip directement
!pip install openpyxl odfpy

In [None]:
# cr√©ation d'un sous-dossier export
import os
os.makedirs("export", exist_ok=True)

# export avec la m√©thode .to_excel()
titanic.to_excel("export/titanic.xlsx", sheet_name="passengers", index=False)  

# export vers un fichier LibreOfficeS
titanic.to_excel("export/titanic.ods", sheet_name="passengers", index=False, engine="odf")  

Les fonctions `read_*` sont utilis√©es pour charger des donn√©es venant de fichiers vers une DataFrame, les fonctions `to_*` font l'oppos√©.

Dans l'exemple ci-dessus, le nom de la feuille est sp√©cifi√© (sinon ce serait b√™tement "Sheet1". L'option `index=False` fait en sorte que le libell√© de chaque ligne ne soit pas export√©.


In [None]:
# on recharge les donn√©es depuis le fichier excel
titanic = pd.read_excel("export/titanic.xlsx", sheet_name="passengers")  

In [None]:
titanic.head() #¬†est-ce que tout est bien l√† ?

### ‚ùì Je veux un r√©sum√© technique de ma `DataFrame`

In [None]:
titanic.info()

La m√©thode `.info()` me donne un r√©sum√© technique de ma DataFrame, regardons √ßa plus en d√©tail.

- C'est bien une DataFrame.
- Il y a 891 entr√©es, soit 891¬†lignes. Chaque ligne a un libell√© (appel√© l'index), avec des valeurs entre 0 et 890.
- La table a 12¬†colonnes. 
- La plupart des colonnes ont une valeur dans chaque ligne (quand il y a 891 valeurs non-nulles). 
- Mais certaines colonnes ont moins de 891 valeurs non-nulles, donc il y a des valeurs manquantes par endroits. 
- Les colonnes `Name`, `Sex`, `Cabin` et `Embarked` sont des donn√©es textuelles (strings, ici d√©sign√© en tant que "object"). 
- Les autres colonnes sont num√©riques, certaines sont des entiers, d'autres des r√©els (float).
- Une estimation de l‚Äôempreinte m√©moire de la DataFrame est indiqu√©e

<div class='alert alert-success'>

**√Ä retenir**
    
- Obtenir des donn√©es depuis diff√©rents types de fichiers est fait avec les fonctions qui commencent par `read_`.
- Exporter les donn√©es depuis pandas vers un fichier est fait par les diff√©rentes m√©thodes de DataFrame qui commencent par `to_`.
- Les m√©thodes `head`, `tail`, `info` et l'attribut `dtypes` sont utiles pour faire une premi√®re v√©rification sur les donn√©es .

</div>

##¬†S√©lectionner un sous-ensemble d'une `DataFrame`

In [None]:
# cr√©ation de la dataframe en repartant du CSV titanic
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

### ‚ùì Comment s√©lectionner certaines colonnes 

![](img/03_subset_columns.svg)

Je veux uniquement l'√¢ge des passagers

In [None]:
ages = titanic["Age"]

In [None]:
ages.head()

Pour s√©lectionner une seul colonne, on utilise des crochets `[]` avec le nom de la colonne.

Chaque colonne est un objet `Series`. Quand on s√©lectionne une seule colonne, l'objet renvoy√© est une `Series`. On peut s'en assurer avec la 
foction `type()`.

In [None]:
type(titanic["Age"])

Ou regarder la forme de cet objet :

In [None]:
titanic["Age"].shape

`.shape` est un attribut (souvenez-vous, ce n'est pas une m√©thode, pas de parenth√®ses) sur une DataFrame ou une Series, qui contient le nombre de lignes et de colonnes. 

Le r√©sultat est un `tuple` de la forme (n_lignes, n_colonnes). 

Une Series est un tableau √† 1¬†dimension, donc le tuple ne contient que le nombre de lignes.

---
Je veux m'int√©resser √† l'√¢ge et au sexe des passagers du Titanic.

In [None]:
age_sex = titanic[["Age", "Sex"]]

In [None]:
age_sex.head()

Pour s√©lectionner plusieurs colonnes, je passe une liste de noms de colonnes √† l'int√©rieur des crochets de s√©lection `[]`.



<div class='alert alert-info'>

La paire de crochets interne d√©finit une liste Python contenant des noms de colonnes, la paire de crochets externe est utilis√©e pour s√©lectionner des donn√©es dans une DataFrame comme vu pr√©c√©demment.


</div>

L'objet renvoy√© est une nouvelle DataFrame¬†:

In [None]:
type(titanic[["Age", "Sex"]])

In [None]:
titanic[["Age", "Sex"]].shape

Cette s√©lection a renvoy√© une `DataFrame` avec 891 lignes et 2¬†colonnes.

Souvenez-vous, une `DataFrame` est un objet √† 2 dimensions, les lignes et les colonnes.

###¬†‚ùì Comment s√©lectionner certaines lignes dans la `DataFrame` 

Je m'int√©resse maintenant aux passagers de plus de 35 ans.

In [None]:
above_35 = titanic[titanic["Age"] > 35]

In [None]:
above_35.head()

Pour s√©lectionner des lignes en fonction d'une expression conditionnelle, on exprime la condition dans les crochets `[]` de s√©lection.

La condition dans les crochets `titanic['Age'] > 35` v√©rifie pour quelle ligne cette condition est vraie.

In [None]:
titanic["Age"] > 35

Le retour d'une expression conditionnelle (`>`, mais aussi `==`, `<`, `!=`, `>=` auraient fonctionn√©) est une `Series` de valeurs bool√©ennes (des `True` ou `False`) avec le m√™me nombre de ligne que la `DataFrame` d'origine. 

Une telle `Series` de valeurs bool√©ennes peut √™tre utilis√©e pour filtrer une `DataFrame` en la mettant dans les crochets de s√©lection `[]`. Seules les lignes pour lesquelles la valeur bool√©enne est `True` sont s√©lectionn√©es.

Nous savons que la `DataFrame` compl√®te `titanic` contient 891¬†lignes. Regardons combien de lignes satisfont la condition `Age > 35` en regardant la forme de notre `DataFrame` filtr√©e `above_35` :

In [None]:
above_35.shape

---
Je m'int√©resse aux passagers de seconde et 3√®me classe.

In [None]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23.head()

Tout comme une expression conditionnelle, m√©thode `.isin()` renvoie `True` pour chaque ligne dont la valeur est dans liste pass√©e en argument.

√Ä nouveau, pour r√©duire une DataFrame aux lignes qui satisfont cette condition, on utilise cette m√©thode conditionnelle dans les crochets `[]` de s√©lection. 
Dans ce cas, la condition est d'avoir soit 2 soit 3 dans la colonne `Pclass`.

√áa revient, en √©tant plus concis, √† tester l'appartenance √† la classe 2, ou √† la classe 3 avec l'op√©rateur ou logique : `|`.

In [None]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

class_23.head()

<div class='alert alert-warning'>


Quand on combine plusieurs expressions conditionnelles, chaque condition doit √™tre mise entre parenth√®ses. De plus, vous ne pouvez pas utiliser directement les mots-cl√©s `or`, `and` mais devez faire appel aux op√©rateurs logiques `|` (ou), `^` (ou exclusif) et `&` (et).


</div>

---
Je veux travailler uniquement sur les passagers dont l'√¢ge est connu.

In [None]:
age_no_na = titanic[titanic["Age"].notna()]
age_no_na.head()

La m√©thode conditionnelle `notna()` renvoie `True` pour chaque ligne o√π la valeur est pr√©sente. On peut donc la combiner aux crochets de s√©lection pour filtrer notre `DataFrame`.

On peut se demander ce qui a vraiment chang√©, vu que les 5 premi√®res lignes sont les m√™mes qu‚Äôavant. Un bon moyen de v√©rifier ce qui a chang√© est de v√©rifier l‚Äôattribut `shape` :

In [None]:
age_no_na.shape

### ‚ùì Comment s√©lectionner des lignes et colonnes sp√©cifiques

![](img/03_subset_columns_rows.svg)

Je m‚Äôint√©resse aux noms des passagers de plus de 35 ans.

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

In [None]:
adult_names.head()

Dans ce cas, un sous-ensemble de lignes et colonnes est s√©lectionn√© d'un coup, et utiliser simplement les crochets de s√©lection `[]` n‚Äôest pas suffisant.

Les op√©rateurs `loc` et `.iloc` sont n√©cessaires juste avant les crochets de s√©lection. 

Quand on les utilise, la partie avant la virgule d√©signe la s√©lection de lignes, la partie apr√®s la virgule la s√©lection de colonnes.

Si vous utilisez les noms de colonnes, les noms de lignes, ou des expressions conditionnelles, utilisez l'op√©rateur `loc` avant les crochets de s√©lection.

On peut utiliser un seul nom de colonnes/ligne, une liste de noms, une expression conditionnelle ou un symbole "deux-points" `:`. Un `:` signifie qu'on s√©lectionne toutes les lignes ou colonnes.

---
Je veux s√©lectionner les lignes 9 √† 25, et les colonnes 2 √† 5. (La num√©rotation commence √† z√©ro).

In [None]:
titanic.iloc[9:25, 2:5]

√Ä nouveau, je veux s√©lectionner un sous-ensemble de lignes et colonnes d'un coup d'un seul, et l'usage direct des crochets de s√©lection est insuffisant. Comme je m'int√©resse aux lignes et colonnes en fonction de leur position (leur index), je vais utiliser l'op√©rateur `iloc` avant mes crochets de s√©lection.

Quand je s√©lectionne des lignes et colonnes avec `loc` ou `iloc`, je peux r√©assigner des valeurs dans ma `DataFrame`.
Par exemple, pour assigner le nom "anonymous" aux trois premiers √©l√©ments de la 3√®me colonne :

In [None]:
titanic.iloc[0:3, 3] = "anonymous"

In [None]:
titanic.head()

<div class='alert alert-success'>


**√Ä retenir**

- Quand on s√©lection un sous-ensemble de donn√©es, on utilise des crochets `[]`.
- √Ä l'int√©rieur, on peut sp√©cifier un simple nom de colonne, une liste de noms de colonnes, un slice de noms, une expression conditionnelle ou un `:`
- Pour s√©lectionner √† la fois des lignes et des colonnes, on utilise `loc` si on exprime la s√©lection avec des noms de lignes / colonnes
- Pour s√©lectionner √† la fois des lignes et des colonnes, on utilise `iloc` si on exprime la s√©lection avec des indices (num√©ro de position)
- On peut r√©assigner des valeurs √† la s√©lection bas√©e sur `loc`/`iloc`

</div>

## Comment faire des graphes en Pandas

In [None]:
import matplotlib.pyplot as plt

In [None]:
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2.csv > data/air_quality_no2.csv

In [None]:
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)

air_quality.head()

<div class='alert alert-info'>

Ici on a utilis√© les param√®tres `index_col` et `parse_dates` de la fonction `read_csv()` pour d√©finir que la premi√®re colonne (index 0) du fichier serait notre colonne index de la `DataFrame` √† cr√©er, et de convertir son contenu en objets `datetime`.
    
</div>

![](img/04_plot_overview.svg)

Je veux faire une rapide √©valuation visuelle de mes donn√©es.

In [None]:
air_quality.plot();

Sur une `DataFrame`, `pandas` cr√©e par d√©faut une graphe "ligne" pour chaque colonne de valeurs num√©riques.

Je ne veux tracer que la colonne correspondant aux donn√©es parisiennes.

In [None]:
air_quality["station_paris"].plot();

Pour tracer une colonne sp√©cifique, on utilise la s√©lection comme d'habitude, encha√Æn√©e avec la m√©thode `plot()`. On peut en d√©duire que la m√©thode `plot()` fonctionne aussi bien sur les `Series` que sur les `DataFrames`.

In [None]:
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5);

En plus du tra√ßage de ligne part d√©faut (`plot()`), il y a un certain nombre de fonctions de tracer alternatives. Utilisons un peu de Python pour extraire une liste de ces m√©thodes :

In [None]:
[
    method_name
    for method_name in dir(air_quality.plot)
    if not method_name.startswith("_")
]

<div class='alert alert-info'>

Dans la plupart des environnments de d√©veloppement, et dans les notebook Jupyter, utilisez la touche TAB de votre clavier apr√®s un nom d'objet pour obtenir une liste des m√©thodes accessibles. Par exemple `air_quality.plot.` + `‚å®Ô∏è TAB`

</div>

In [None]:
air_quality.plot.box();

---
Je veux chaque colonne dans un sous-graphe distinct.

In [None]:
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)

Un subplot distinct pour chaque colonne est obtenu en passant l'argument `subplots=True` aux fonctions `plot()`.

---
Je veux personnaliser encore plus le graphe, y ajouter des √©l√©ments, ou sauvegarder l'image cr√©√©e.

In [None]:
fig, ax = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=ax)
ax.set_ylabel("NO$_2$ concentration")
fig.savefig("export/no2_concentrations.png")

Chacun des objets plot cr√©√©s par `pandas` est un objet `matplotlib`. `Matplotlib` offre √©normement d'options pour personnaliser les graphes. Ce lien direct de `pandas` √† `matplotlib` vous permet de b√©n√©ficier de toute la puissance de `matplotlib`. 

Regardons plus en d√©tail l‚Äôexemple pr√©c√©dent.


In [None]:
fig, ax = plt.subplots(figsize=(12, 4))  # On cr√©e une figure et un objet Axes matplotlib 
air_quality.plot.area(ax=ax)  # On utilise pandas pour tracer le graphe `area` sur l'objet Axes cr√©√© (appel√© ax)
ax.set_ylabel("NO$_2$ concentration")  # On personnalise comme on veut l'objet ax avec ses m√©thodes
fig.savefig("export/no2_concentrations.png")  # On sauvegarde la figure finale avec la m√©thode de l'objet Figure (ici appel√© fig)

<div class="alert alert-success">

**√Ä retenir**
- Les m√©thodes `.plot.*` fonctionnent sur les Series **et** sur les DataFrames
- Par d√©faut, chaque colonne est trac√©e comme une √©l√©ment du graphe (une ligne, une bo√Æte √† moustaches‚Ä¶ selon le type de fonction plot.*)
- Tous les graphes faits par pandas sont des objets **Matplotlib**.

</div>

## Comment cr√©er de nouvelles colonnes d√©riv√©es des colonnes existantes 

![](img/05_newcolumn_1.svg)

In [None]:
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)

air_quality.head()

Je veux exprimer la concentration de $NO_2$ de la station de Londre en $mg/m^3$

*En pr√©sumant une temp√©rature de 25¬∞C et une pression de 1013 hPa, le facteur de conversion est de 1.882*


In [None]:
air_quality["london_mg_per_cubic"] = (
    air_quality["station_london"] * 1.882
)  # cr√©ation d‚Äôune nouvelle colonne √† partir d'une autre
air_quality.head()

<div class='alert alert-info'>

Le calcul des valeurs est fait ligne √† ligne. Cela signifie que chaque valeur dans la colonne "station_london" est multipli√©e par 1.882.   
Pas besoin de faire une boucle sur la colonne pour it√©rer sur chaque ligne.  
Si vous connaissez le module `numpy`, c'est le m√™me principe que la mulplication d'un vecteur par un scalaire. 


</div>

![](img/05_newcolumn_2.svg)

---
Je veux v√©rifier le ratio des valeurs de Paris divis√©es par les valeurs d'Anvers, et conserver le r√©sultat dans une nouvelle colonne.

In [None]:
air_quality["ratio_paris_antwerp"] = (
    air_quality["station_paris"] / air_quality["station_antwerp"]
)


air_quality.head()

√Ä nouveau, le calcul se fait ligne √† ligne.

Toutes les op√©rations arithm√©tiques (+, - , \*, /, ‚Ä¶) ou logiques (<, >, ==, ‚Ä¶) se font ligne √† ligne.

Si vous voulez appliquer une fonction plus complexe, vous pouvez utiliser la m√©thode `.apply()`.


---
Je veux renommer les colonnes en utilisant les identifiants des stations en vigueur sur openAQ


In [None]:
air_quality_renamed = air_quality.rename(
    columns={
        "station_antwerp": "BETR801",
        "station_paris": "FR04014",
        "station_london": "London Westminster",
    }
)

In [None]:
air_quality_renamed.head()

la m√©thode `rename()` peut √™tre utilis√©e pour les noms des lignes ou des colonnes. Passez au param√®tre `columns` ou `rows` un dictionnaire avec comme cl√© les noms actuels et comme valeurs correspondantes les nouveaux noms √† utiliser.
    
Le mapping n'est pas limit√© aux noms √©tablis, on peut utiliser une fonction qui renvoie un string √©galement, par exemple, pour convertir les noms de colonnes en minuscule, on peut passer la m√©thode de string `str.lower`. Comme c'est la fonction elle-m√™me qui est attendue, et pas son ex√©cution, on passe le nom de la m√©thode seulement, sans parenth√®ses.

In [None]:
air_quality_renamed = air_quality_renamed.rename(columns=str.lower)

air_quality_renamed.head()

<div class='alert alert-success'>

**√Ä retenir**
- on cr√©e une nouvelle colonne en assignant le r√©sultat d'une op√©ration √† un nouveau nom de colonne pass√© entre les crochets `[]`, comme pour assigner une nouvelle paire de cl√©s et valeur dans un dictionnaire python
- les calculs sont faits ligne √† ligne, pas besoin de faire une boucle sur les lignes
- la m√©thode `rename` combin√©e √† un dictionnaire ou une fonction permet de renommer les lignes ou colonnes.

</div>

## Comment calculer des statistiques sur mes donn√©es 
On recharge les donn√©es pour cette section avec notre csv titanic

In [None]:
# recr√©ons notre DataFrame titanic √† partir du csv
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

### stats aggr√©g√©es

![](img/06_aggregate.svg)

Quel est l'√¢ge moyen des passagers du Titanic ?


In [None]:
titanic["Age"].mean()

Diff√©rentes statistiques sont disponibles et peuvent √™tre appliqu√©es aux colonnes contenant des valeurs num√©riques.
Ces op√©rations ignorent les valeurs manquantes et travaillent sur l'ensemble des lignes non-vides en g√©n√©ral.


![](img/06_reduction.svg)

---
Quel sont l‚Äô√¢ge m√©dian et le tarif m√©dian pay√© par les passagers ?

In [None]:
titanic[["Age", "Fare"]].median()

La m√©thode statistique appliqu√©e √† plusieurs colonnes comme ici est calcul√©e pour chaque colonne num√©rique.

Vous vous rappelez la m√©thode `describe()` ?

In [None]:
titanic[["Age", "Fare"]].describe()

√Ä la place de ces statistiques pr√©d√©finies, vous pouvez sp√©cifier les combinaisons de statistiques aggr√©g√©es que vous voulez pour chaque colonne avec la m√©thode `.agg()`.

In [None]:
titanic.agg(
    {
        "Age": ["min", "max", "median", "skew"],
        "Fare": ["min", "max", "median", "mean"],
    }
)

## Statistiques aggr√©g√©es group√©es par cat√©gorie

![](img/06_groupby.svg)

‚ùì Quel est l‚Äô√¢ge moyen passagers, en regroupant les hommes et les femmes ?

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Comme ce qui nous int√©resse est l‚Äô√¢ge moyen par sexe, une sous-s√©lection sur ces deux colonnes est faite d'abord, avec `titanic[["Sex", "Age"]]`. Ensuite, la m√©thode `groupby()` est appliqu√©e en indiquant la colonne `"Sex"` pour faire un groupe par cat√©gorie. La moyenne des colonnes restantes (ici l'√¢ge) est calcul√©e et renvoy√©e dans une DataFrame.

Calculez une statistique donn√©e sur chaque cat√©gorie pr√©sente dans une colonne (par exemple H/F dans une colonne "Sexe") est une pratique courante. La m√©thode `groupby` est l√† pour √ßa. Plus g√©n√©ralement, c‚Äôest un exemple du sch√©ma classique "diviser / appliquer / combiner" :

- diviser les donn√©es dans des groupes
- appliquer une fonction √† chaque groupe ind√©pendamment
- combiner les r√©sultats dans une structure de donn√©es

Les √©tapes appliquer et combiner sont ici faites automatiquement par pandas.

Dans l'exemple pr√©c√©dent, nous avons explicitement s√©lectionn√© les deux colonnes en premier lieu. Sans √ßa, la m√©thode `mean()` aurait calcul√© la moyenne sur chaque colonne contenant des donn√©es num√©riques.

In [None]:
titanic.groupby("Sex").mean()

√áa n‚Äôa pas beaucoup de sens de calculer la moyenne des classes, et encore moins des num√©ros de passager. Si l‚Äô√¢ge est la seule colonne dont la moyenne nous int√©resse, on peut √©galement la s√©lectionner apr√®s avoir fait le `groupby('Sex')` :¬†

In [None]:
titanic.groupby("Sex")[["Age"]].mean()

![](img/06_groupby_select_detail.svg)

<div class='alert alert-warning'>

    
La colonne **Pclass** contient des nombres, mais qui repr√©sentent en r√©alit√© 3 cat√©gories, qui s'appellent 1, 2 et 3. Calculer des statistiques avec ces nombres n‚Äôa pas beaucoup de sens.

Du coup, pandas dispose d'un type de donn√©e **Categorical** pour g√©rer ce type de donn√©es. Plus d'information sur ce point dans [la documentation du type Categorical](https://pandas.pydata.org/docs/user_guide/categorical.html#categorical).

</div>

---
‚ùì Quel le ticket moyen pay√© par chaque combinaison de sexe et classe ?

In [None]:
titanic.groupby(["Sex", "Pclass"])[["Fare"]].mean()

Le groupement peut se faire sur plusieurs colonnes d'un coup. Donnez les noms des colonnes voulues dans une liste √† la m√©thode `groupby()`.

### Compter le nombre d‚Äôenregistrements par cat√©gorie

![](img/06_valuecounts.svg)

Quel est le nombre de passager pour chaque classe de cabines ?

In [None]:
titanic["Pclass"].value_counts()

La m√©thode `value_counts()` d√©nombre les enregistrements de chaque cat√©gorie dans une colonne.

Cette fonction est un raccourci, en r√©alit√© elle op√®re un `groupby` puis compte le nombre de lignes dans chaque groupe.

√áa revient √† :

In [None]:
titanic.groupby("Pclass")["Pclass"].count()

<div class='alert alert-info'>

les m√©thodes `size()` et `count()` peuvent toutes les deux √™tre utilis√©es sur un `groupby()`. `size()` compte toutes les lignes, y compris celles o√π les valeurs sont manquantes, tandis que `count()` ne compte que les valeurs pr√©sentes. Avec la m√©thode `value_counts()`, utilisez l'argument `dropna` pour inclure ou pas les valeurs manquantes dans le compte.
</div>

<div class='alert alert-success'>

**√Ä retenir**
        

- Les statistiques agr√©g√©es peuvent √™tre calcul√©es sur des colonnes enti√®res.
- **groupby** vous permet d'appliquer le sch√©ma "diviser / appliquer / combiner"
- **value_counts** est un raccouci pratique pour d√©nombrer chaque cat√©gorie d'une variable

    
</div>

## Comment modifier l'agencement des tables

### Donn√©es pour cette section

In [None]:
titanic = pd.read_csv("data/titanic.csv")

In [None]:
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_long.csv > data/air_quality_long.csv

In [None]:
air_quality = pd.read_csv(
    "data/air_quality_long.csv", index_col="date.utc", parse_dates=True
)

In [None]:
air_quality.head()

### Classer les lignes de la `DataFrame`

Je veux ordonner les lignes selon l'√¢ge des passagers.

In [None]:
titanic.sort_values(by="Age").head(10)

---
Je veux classer les donn√©es par classe de cabine et √¢ge en ordre d√©croissant.

In [None]:
titanic.sort_values(by=["Pclass", "Age"], ascending=False).head()

Avec `.sort_values()`, les lignes de la table sont r√©ordonn√©es selon les colonnes pass√©es dans l'argument `by`. L'index des lignes n'est pas modifi√©, ce qui permet de retrouver l'ordre originel.

### D'une table longue √† une table large

Nous allons utiliser un petit √©chantillon du jeu de donn√©es sur la qualit√© de l'air. On va r√©duire nos donn√©es et s√©lectionner seulement les 2 premi√®res mesures de chaque lieu (c√†d le `head(2)` de chaque groupe). On va appeler √ßa le `no2_subset`.

In [None]:
# on filtre sur le no2 uniquement

no2 = air_quality[air_quality["parameter"] == "no2"]

In [None]:
# on ne prend que deux lignes (head(2)) pour chaque lieu (gr√¢ce √† groupby)

no2_subset = no2.sort_index().groupby(["location"]).head(2)

In [None]:
no2_subset

![](img/07_pivot.svg)

Je veux les valeurs des 3¬†stations en tant que colonnes distinctes.

In [None]:
no2_subset.pivot(columns="location", values="value")

La fonction `pivot()` change juste la forme de nos donn√©es : il suffit d'une seule valeur pour chaque combinaison d'index et de colonne.

Comme on peut tracer plusieurs colonnes, comme vu pr√©c√©demment, la conversion d'une table longue √† une table large permer de tracer diff√©rentes s√©ries temporelles d'un coup.

In [None]:
no2.head()

In [None]:
no2.pivot(columns="location", values="value").plot();

<div class='alert alert-info'>

Si on ne pr√©cise pas de param√®tre `index` au pivot, l'index existant (le nom des lignes, ici des dates/heures) est maintenu.

</div>

### Pivoter la table

![](img/07_pivot_table.svg)


Je veux les concentrations de  $NO_2$ et $PM_{2.5}$ pour chaque station, sous la forme d'une table.

In [None]:
air_quality.pivot_table(
    values="value", index="location", columns="parameter", aggfunc="mean"
)

Quand on fait un simple `pivot()`, les donn√©es sont simplement r√©arrang√©es. Quand plusieurs valeurs doivent √™tre aggr√©g√©es (dans ce cas, des valeurs de diff√©rentes p√©riodes de temps), on peut utiliser `pivot_table()`, en passant une fonction d'aggr√©gation (par exemple la moyenne, `mean`) pour pr√©ciser comment combiner les valeurs.

Pivoter une table est un concept classique dans un tableur. Si on d√©sire aussi avoir le r√©sum√© de chaque ligne et chaque colonne, on passe `margin=True`.

In [None]:
air_quality.pivot_table(
    values="value",
    index="location",
    columns="parameter",
    aggfunc="mean",
    margins=True,
)

Au cas o√π vous vous le demandez, `pivot_table()` est bien s√ªr bas√©e sur `groupby()`.

Le meme r√©sultat peut √™tre obtenu en groupant par param√®tre et par lieu.

`air_quality.groupby(["parameter", "location"]).mean()`

In [None]:
air_quality.groupby(["parameter", "location"]).mean()

### D'une table large √† une table longue

On repart de notre table large cr√©√©e dans la section pr√©c√©dente :

In [None]:
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

no2_pivoted.head()

![](img/07_melt.svg)

Je veux ramasser toutes mes mesures de $NO_2$ en une seule colonne (format long).

In [None]:
no_2 = no2_pivoted.melt(id_vars="date.utc")
no_2.head()

La m√©thode `.melt()` sur une DataFrame converti la table du format large au format long. Les en-t√™tes de colonne deviennent les noms de variables dans une nouvelle colonne cr√©√©.

Ci-dessus, on a fait al version courte :¬†la m√©thode `melt()` va "fondre" toutes les colonnes non mentionn√©es dans l'argement `id_vars` en 2¬†colonnes :¬†une colonne avec les noms des anciennes colonnes, et une colonne avec les valeurs elles-m√™mes. Le nom de cette colonne de valeur est par d√©faut **value**.

Ci-dessous, un appel un peu plus d√©taill√© √† la m√©thode `melt()` qui pr√©cise les noms de colonne voulus dans le r√©sultat :

In [None]:
no_2 = no2_pivoted.melt(
    id_vars="date.utc",
    value_vars=["BETR801", "FR04014", "London Westminster"],
    value_name="NO_2",
    var_name="id_location",
)

no_2.head()

Le r√©sultat final est le m√™me, mais d√©fini plus en d√©tail:

- **value_vars** d√©finit explicitement quelles colonnes fondre ensemble
- **value_name** donne un nom de colonne personnalis√© pour la colonne des valeurs, au lieu de **value** par d√©faut
- **var_name** donne un nom de colonne personnalis√© pour la colonne qui rassemble les anciens noms de colonnes. Sinon par d√©faut il prend le nom de l'index.

En bref, **value_name** et **var_name** sont des noms aux choix pour les colonnes g√©n√©r√©es. Les colonnes √† fondre sont d√©finies par **id_vars** et **value_vars**.

<div class='alert alert-success'>

**√Ä retenir**

- Classer par une ou plusieurs colonnes est fait via **sort_values**
- La fonction **pivot()** est une simple restructuration des donn√©es, **pivot_table** permet de faire des aggr√©gations
- L'inverse du pivot (de long √† large) est **melt** (de large vers long)


</div>

## Comment combiner les donn√©es de plusieurs tables ?

Donn√©es pour cette section :

In [None]:
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2_long.csv > data/air_quality_no2_long.csv

### Donn√©es Nitrate

In [None]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]] # s√©lection de colonnes

air_quality_no2.head()

### Donn√©es particules



In [None]:
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_pm25_long.csv > data/air_quality_pm25_long.csv

In [None]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]] #¬†s√©lection de colonnes

air_quality_pm25.head()

### Concatenation d'objets `DataFrame`

![](img/08_concat_row.svg)

Je veux combiner les mesures de $NO_2$ et de $PM_25$, deux tables ayant une structure similaire, dans une seule table.

In [None]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0) #¬†axis 0 :¬†concat√©nation en vertical

air_quality.head() 

La fonction `concat()` concat√®ne des tables sur un axe :¬†en vertical (axis=0) ou √† l'horizontale (axis=1).

Par d√©faut, la concat√©nation est sur l'axe 0, c'est √† dire en vertical. La concat√©nation verticale de deux tables ayant les m√™mes ent√™tes de colonnes doit produire une table avec le m√™me nombre de colonnes et le cumul des lignes des tables d'origine.

On peut le v√©rifier en regardant les `shape` des tables d'origine et de la table issue de la concat√©nation.

In [None]:
print("Shape of the air_quality_pm25 table: ", air_quality_pm25.shape)

print("Shape of the air_quality_no2 table: ", air_quality_no2.shape)

print("Shape of the resulting air_quality table: ", air_quality.shape)

üòå La table concat√©n√©e a bien 1110 + 2068 soit 3178 lignes.

<div class='alert alert-success'>

Cet argument **axis** va appara√Ætre dans plusieurs m√©thodes de pandas qui peuvent s'appliquer sur un axe. Une dataframe a deux axes :
    
- le premier, **axis=0**  est vertical
- le second, **axis=1** est horizontal
    
</div>

üí° Classer la table sur la colonne des dates / heures va bien montrer la combinaison des deux jeux de donn√©es $NO_2$ et $PM_25$ :


In [None]:
air_quality = air_quality.sort_values("date.utc")
air_quality.head()

Dans cet exemple en particulier, la colonne **parameter** fournie dans les jeux de donn√©es nous permet d'identifier les tables d'origine. Ce n'est pas toujours le cas.

La fonction `concat()` a une parade tr√®s pratique, avec l'argument `keys`, qui prend une liste de cl√©s √† ajouter √† chaque ligne, selon sa table d'origine.

Par exemple :

In [None]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])
air_quality_.sample(10)

<div class='alert alert-info'>

La possibilit√© d'avoir plusieurs indices simultan√©ment pour les lignes ou les colonnes n‚Äôa pas √©t√© mentionn√©e jusqu‚Äôici, mais c'est une fonctionnalit√© avanc√©e qui est hors de propos pour cette introduction.
    
Pour le moment, retenons simplement que la methode **reset_index()** peut √™tre utilis√©e pour convertir tout niveau d'index en une colonne, par exemple :
    
    air_quality_.reset_index(level=0)

</div>

In [None]:
air_quality_.reset_index(level=0)

### Joindre des tables en utilisant un identifiant commun

![](img/08_merge_left.svg)

‚ùì Je veux ajouter les coordonn√©es des stations de mesure, fournies dans un fichier s√©par√©, aux lignes correspondantes dans la table des mesures de qualit√©.


In [None]:
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_stations.csv  > data/air_quality_stations.csv

In [None]:
stations_coord = pd.read_csv("data/air_quality_stations.csv")

stations_coord

<div class='alert alert-info'>

Les stations utilis√©es dans cet example (FR04014, BETR801 et London Westminster) sont juste 3 entr√©es parmi d'autres dans la table des m√©tadonn√©es ci-dessus. Nous voulons seulement ajouter leur coordonn√©es dans la table contenant les mesures air_quality_table, sur chaque ligne correspondante.


</div>

In [None]:
air_quality.head()

In [None]:
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

air_quality.head()

En utilisant la fonction `merge()`, pour chaque ligne de la table air_quality, les coordonn√©es correspondantes sont ajout√©es depuis la table des coordonn√©es. C'est gr√¢ce √† la colonne **location** qui existe dans les deux tables et est utilis√©e comme cl√© pour combiner les donn√©es. 

Le param√®tre **how='left'** fait que seules les stations pr√©sentes dans la table des mesures (celle de gauche dans notre jointure) finissent dans la table finale. Ces jointures sont similaires aux jointures qu'on peut faire sur des tables dans une base de donn√©es relationnelle (left, right, inner, outer).

---
‚ùì Je veux ajouter la description et le nom complet de chaque *parameter* (pm25, nO2) qui proviennent d'une autre table 

In [None]:
# t√©l√©chargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_parameters.csv  > data/air_quality_parameters.csv

In [None]:
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

air_quality_parameters.head()

In [None]:
air_quality = pd.merge(
    air_quality, air_quality_parameters, how="left", left_on="parameter", right_on="id"
)

air_quality.head()

Ici contrairement √† l'exemple pr√©c√©dent, il n‚Äôy a pas de nom de colonne en commun. Cependant, la colonne **parameter** de la table `air_quality` et la colonne **id** dans la table `air_quality_parameters` contiennent en fait le nom du param√®tre dans le m√™me format. Les param√®tres `left_on` et `right_on` dans la fonction `merge()` nous permettent d'expliciter comment faire le lien entre les deux tables pour la jointure.

<div class='alert alert-success'>


**√Ä retenir**

- plusieurs tables peuvent √™tre concat√©n√©es verticalement ou horizontalement avec la fonction **concat()**
- Pour des op√©rations de jointures similaire √† celles des bases de donn√©es, on utilise la fonction **merge()**


</div>

## Comment manipuler des donn√©es temporelles facilement

In [None]:
import matplotlib.pyplot as plt

Donn√©es utilis√©es dans cette sections (fichiers d√©j√† t√©l√©charg√©s)

In [None]:
air_quality = pd.read_csv("data/air_quality_no2_long.csv")

air_quality = air_quality.rename(columns={"date.utc": "datetime"})

air_quality.head()

In [None]:
air_quality.city.unique()

###¬†Utiliser les propri√©t√©s datetime

‚ùì Je veux travailler avec les dates dans la colonne datetime en tant qu'objets datetime plut√¥t que du simple texte.

In [None]:
air_quality["datetime"] = pd.to_datetime(air_quality["datetime"])

air_quality["datetime"]

Au d√©part, les valeurs dans la colonne `datetime` √©taient du simple texte, et ne permettaient pas de r√©aliser d'op√©rations temporelles (extraire l'ann√©e, le jour de la semaine, etc‚Ä¶). En appliquant la fonction `to_datetime()`, pandas interpr√®te le texte et le convertit en objets repr√©sentant une date et une heure. Dans pandas, ces objets, qui ressemblent beaucoup √† ceux de la biblioth√®que standard `datetime`, s‚Äôappellent des `pandas.Timestamp`.


<div class='alert alert-info'>

Comme beaucoup de jeux de donn√©es contiennent des informations repr√©sentant des dates / heures, les fonctions de lecture de pandas comme `read_csv()` et `read_json()` peuvent tenter de faire la conversion automatiquement de ces colonnes vers des objets Timestamp, il suffit de passer l'argument `parse_date=[['nom de colonne(s) avec les datetime'])` :

`pd.read_csv("../data/air_quality_no2_long.csv", parse_dates=["datetime"])`

</div>

√Ä quoi servent ces objets `Timestamp` ? Nous allons illustrer leur valeur ajout√©e avec quelques exemples.

---
‚ùì Quelle sont les dates de d√©but et de fin des mesures dont nous disposons ?


In [None]:
air_quality["datetime"].min(), air_quality["datetime"].max()

Ces objets `Timestamp` nous permettent de faire tout calcul sur des dates. Par exemple, nous pouvons d√©terminer le laps de temps couvert par nos mesures, par une simple soustraction :¬†

In [None]:
air_quality["datetime"].max() - air_quality["datetime"].min()

Le r√©sultat est un objet `pandas.Timedelta`, similaire aux objets `datetime.timedelta` de la biblioth√®que python standard datetime, √† nouveau.

Un `Timedelta` est simplement la mesure d'un laps de temps.

---
‚ùì Je veux ajouter une nouvelle colonne dans la DataFrame repr√©sentant le mois o√π la mesure a √©t√© prise

In [None]:
air_quality["month"] = air_quality["datetime"].dt.month

air_quality.sample(10)

Avec les objets Timestamp, de nombreuses propri√©t√©s temporelles sont accessible :¬†le mois, l'ann√©e, le num√©ro de la semaine, le trimestre, etc‚Ä¶ Toutes ces propri√©t√©s sont accessibles via le suffixe d'acc√®s `dt`

---
‚ùì Quel est la concentration moyenne pour chaque jour de la semaine pour chaque lieu de mesure ?

In [None]:
air_quality.groupby([air_quality["datetime"].dt.weekday, "location"])["value"].mean()

Vous vous souvenez le sch√©ma "diviser appliquer combiner" vu plus haut ? Ici nous voulons calculer une statistique (la moyenne) pour chaque jour de la semaine pour chaque lieu de mesure. Pour grouper par jour de la semaine nous utilisons la propri√©t√© dt.weekday (o√π Lundi=0 et Dimanche=6) d'un Timestamp de pandas.

Le groupby sur le jour de la semaine et la colonne "location" permet de calculer les moyennes sur chaque combinaison de jour et de lieu.





<div class='alert alert-danger'>
    
Comme nous travaillons sur une fen√™tre temporelle tr√®s courte, cette analyse ne peut pas vraiment √™tre utilis√©e pour r√©aliser des pr√©dictions.
    
    
</div>


---
‚ùì Je veux tracer la concentration de $NO_2$ durant la journ√©e, en prenant la moyenne de nos 3¬†stations de mesure. Autrement dit, quelle est la valeur moyenne pour chaque heure de la journ√©e ?

In [None]:
fig, ax = plt.subplots(figsize=(16, 8))

air_quality.groupby(air_quality["datetime"].dt.hour)["value"].mean().plot(
    kind="bar", rot=0, ax=ax
)

ax.set_xlabel("Heure de la journ√©e")
# Commande matplotlib pour donner un libell√© √† l'axe des X

ax.set_ylabel("$NO_2 (¬µg/m^3)$");

Comme dans le cas pr√©c√©dent, on calcule une statistique (la moyenne du $NO_2$) pour chaque heure de la journ√©e en appliquant notre sch√©ma "diviser / appliquer / combiner" √† nouveau.

La propri√©t√© heure est accessible via `dt.hour`.

## Datetime comme index

Dans la section sur la restructuration de donn√©es, on a vu la m√©thode `pivot()` pour mettre en colonnes distinctes les mesures de chaque lieu.



In [None]:
no_2 = air_quality.pivot(index="datetime", columns="location", values="value")

no_2.head()

<div class='alert alert-info'>

En pivotant les donn√©es, les informations de date / heure sont devenues l'index de la table. De mani√®re g√©n√©rale, donner le r√¥le d'index √† une colonne est fait avec la m√©thode `set_index()`.

</div>

Travailler avec un index d‚Äôobjets datetime est tr√®s puissant. Par exemple, nous n'avons pas besoin du suffixe `dt` pour obtenir les propri√©t√©s temporelles, nous les avons sur l'index directement :

In [None]:
no_2.index.year, no_2.index.weekday

Il y a d'autres avantages √† avoir ces objets datetime en index, comme le slicing par dates, ou la gestion des √©chelles de temps dans les graphes.

‚ùì Je veux tracer les valeurs de $NO_2$ dans les diff√©rentes stations du 20 mai √† la fin du 21 mai.

In [None]:
no_2["2019-05-20":"2019-05-21"].plot();

> En donnant une string qui peut √™tre interpr√©t√©e comme une date, un sous-ensemble de la donn√©es peut √™tre s√©lectionn√© sur un DateTimeIndex.

### R√©composer une s√©rie temporelle avec une autre fr√©quence

‚ùì Je veux aggr√©ger la s√©rie temporelle (qui a une mesure par heure) en ne retenant que la valeur maximale de chaque mois, pour chaque station.

In [None]:
monthly_max = no_2.resample("M").max()

monthly_max

> Resampler les donn√©es sur une autre fr√©quence temporelle est une des techniques avanc√©es des DataFrames ayant un Index en Datetime. On pourrait par exemple convertir des donn√©es saisies toutes les secondes en donn√©es consid√©r√©es toutes les 5¬†minutes.

La m√©thode `.resample()` est similaire √† un `groupby` :

- Elle r√©alise un groupement bas√© sur le temps, en utilisant un string (ex 'M', '5H', ‚Ä¶) qui d√©finit la fr√©quence voulue
- Elle n√©cessite une fonction d'aggr√©gation comme prendre la moyenne, prendre le maximum, etc‚Ä¶

Quand elle est d√©finie, la fr√©quence d'une s√©rie temporelle est indiqu√©e dans l'attribut `freq` :

In [None]:
monthly_max.index.freq

---
‚ùì Je veux tracer les valeurs quotidiennes moyennes pour chaque station :

In [None]:
no_2.resample("D").mean().plot(style="-o", figsize=(10, 5));

<div class='alert alert-info'>

**√Ä retenir**

- des donn√©es textes repr√©sentant des dates ou des "dates et heure" peuvent √™tre converties avec la fonction `to_datetime` ou bien via un argument dans les fonctions `read_*`
- Les objets datetime dans pandas permettent des calculs, des op√©rations logiques, et permettent l‚Äôacc√®s √† leurs attributs temporels via le suffixe `dt` (mois, jour de la semaine, etc)
- Un index en datetime, contient toutes les propri√©t√©s temporelles et permet le slicing par dates.
- `resample()` est une m√©thode puissante pour changer la fr√©quence d'une s√©rie temporelle.


</div>

## Comment manipuler des donn√©es textuelles ?

Donn√©es utilis√©e dans cette section :¬†Titanic

In [None]:
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

‚ùì Je veux transformer tous les noms en minuscule

In [None]:
titanic["Name"].str.lower()

> Pour transformer toutes les strings dans la colonne "Name" en miniscule, on s√©lectionne la colonne "Name", puis on ajoute le suffixe d'acc√®s `.str` et on applique la methode de string .`lower()`. Chaque de la colonne est convertie, une par une.


Tout comme les objets datetime ont leur suffixe d'acc√®s `.dt`, un grand nombre de m√©thodes pour les strings sont accessible via le suffixe d'acc√®s `.str`. Ces m√©thodes ont en g√©n√©ral des noms qui correspondent aux m√©thodes de base des strings Python, mais elles sont appliqu√©es √©l√©ment par √©l√©ment dans une colonne.

---
‚ùì Je veux cr√©er une nouvelle colonne "Surname" qui contienne le nom de famille des passagers en capturant le texte avant la virgule dans la colonne "Name"

In [None]:
titanic["Name"].str.split(",")

En utilisant la m√©thode `Series.str.split()`, chacune des valeurs est r√©cup√©r√©e en tant que liste de 2 √©l√©ments. Le premier √©l√©ment est la partie avant la virgule, et le second la partie qui √©tait apr√®s la virgule.

In [None]:
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)

titanic["Surname"]

Comme on s'int√©resse ici aux premiers √©l√©ments de ces listes qui contiennent les noms de famille (l'√©l√©ment 0), nous pouvons une fois de plus utiliser le suffixe d'acc√®s `.str` et appliquer la m√©thode `.str.get(n)` pour extraire ce que nous cherchions.

Et oui, on peut encha√Æner plusieurs m√©thodes `.str` d'un coup.

---
‚ùì Je veux extraire les donn√©es √† propos des comtesses √† bord du Titanic.

In [None]:
titanic["Name"].str.contains("Countess")

In [None]:
titanic[titanic["Name"].str.contains("Countess")]

ü§î (Vous voulez en savoir plus √† propos de cette comtesse¬†? Voir sa page [Wikipedia](https://fr.wikipedia.org/wiki/Lucy_No%C3%ABl_Leslie_Martha)!)

La m√©thode `Series.str.contains()` v√©rifie pour chaque valeur dans la colonne si la string contient le mot "Countess" et renvoie True ou False selon. Ce retour permet de faire une s√©lection dans notre DataFrame par indexation bool√©enne. Comme il n‚Äôy avait qu‚Äôune seule comtesse √† bord, nous obtenons une DataFrame d'une seule ligne.

<div class='alert alert-info'>
On peut r√©aliser des extractions encore plus avanc√©es en combinant certaines m√©thodes avec des expressions r√©guli√®res, mais c'est un peu trop avanc√© pour le moment.
</div>

---
‚ùì Quel passager a le nom le plus long ?

In [None]:
titanic["Name"].str.len()

Pour obtenir le nom le plus long, il nous faut d'abord calculer les longueurs de chaque nom dans la colonne "Name". 
La m√©thode `.str.len()` est appliqu√©e √† chaque nom et nous envoie une `Series` de valeurs.

In [None]:
titanic["Name"].str.len().idxmax()

Ensuite, on veut obtenir le num√©ro dans l'index correspondant au maximum, avec la m√©thode `idxmax()`. Ce n'est pas une m√©thode de string ici, donc pas de `.str`.

Enfin on r√©utilise `.loc[i, colonne]` pour extraire la valeur dans la colonne 'Name' qui √©tait la plus longue.

In [None]:
titanic.loc[titanic["Name"].str.len().idxmax(), "Name"]

---
‚ùì Dans la colonne "Sex", je veux remplacer "male" par "M" et "female" par "F".

In [None]:
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

titanic["Sex_short"]

Ici bien que `.replace()` ne soit pas sp√©cifiquement une m√©thode pour les strings, elle est tr√®s pratique pour op√©rer des substitutions ou traductions de texte en passant un mapping ou dictionnaire de traduction de la forme {"depuis": "vers"}.


<div class='alert alert-warning'>
Il existe √©galement une m√©thode `str.replace()` pour substituer des ensembles de caract√®res. Mais si on souhaite faire plusieurs substitutions, comme ici, √ßa donnerait :

`titanic["Sex_short"] = titanic["Sex"].str.replace("female", "F")`

`titanic["Sex_short"] = titanic["Sex_short"].str.replace("male", "M")`

√áa peut devenir un peu complexe et facilement entra√Æner des erreurs. Imaginez ce qui se passerait si on faisait ces deux op√©rations dans l'ordre inverse ?
</div>

<div class='alert alert-success'>

**√Ä retenir**
    
- Les m√©thodes de string sont accessibles via le suffixe d'acc√®s `.str`
- Les m√©thodes de string travaillent √©l√©ment par √©l√©ment dans les colonnes, et peuvent servir √† faire une s√©lection conditionnelle
- la m√©thode `.replace(dict)` est un moyen pratique de convertir des valeurs textes via un dictionnaire


</div>

In [None]:
# nettoyage des fichiers t√©l√©charg√©s et export√©s
import shutil
dirs = ["data", "export"]
for d in dirs:
    shutil.rmtree(d)

C'est la fin de cette introduction √† Pandas. Pour mettre en pratique, passons au premier [notebook d'exercices](exercices/pandas_exercice_1.ipynb) !