# Pandas

## Pandas, pour quel genre de données ?

In [None]:
import pandas as pd

Pour charger le package pandas et commencer à travailler, on l'importe.

La convention dans la communauté Python est de l'importer en tant que `pd`, donc toute la documentation présume que c'est ce que vous avez fait.

### Représentation d'une table de données pandas

![](img/01_table_dataframe.svg)

Je veux stocker les données à propos des passagers du Titanic. Pour un certain nombre de passagers, je connais leurs noms (du texte), leur âge (des entiers), et leur sexe (M/F).

In [None]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)


df

Pour créer un tableau de données à la main, on crée une instance de `DataFrame`. Si on lui passe un dictionnaire python contenant des listes, les clés du dictionnaire seront les noms des colonnes, et les valeurs du dictionnaire (des listes) seront le contenu des colonnes.

Une `DataFrame` est une structure de données 2D qui peut stocker différents types de données (texte, entiers, réels, catégoriques, dates…) dans des colonnes. C'est similaire à un fichier tableur, une table SQL dans une base de données, ou l'objet `data.frame` du langage R.


Dans notre table,
- Il y a 3 colonnes, chacune avec son nom. Les noms sont respectivement `Name`, `Age` and `Sex`.
- La colonne `Name` contient des données texte, chaque valeur est un string. La colonne `Age` contient des nombres, et la colonne `Sex` contient aussi du texte

Dans un logiciel tableur, nos données aurait une représentation très similaire 

![](img/01_table_spreadsheet.png)

### Chaque colonne est une instance de  `Series`

![](img/01_table_series.svg)

Je m'intéresse uniquement aux données dans la colonne `Age`

In [None]:
df["Age"]

Quand on sélectionne une seule colonne dans une `DataFrame`, le résultat est une `pandas.Series`. Pour sélectionner une colonne
on utilise le nom de la colonne entre crochets `[]`.



<div class='alert alert-info'>
Si vous êtes familiers des dictionnaires Python, la sélection d’une colonne unique est très similaire à la sélection d'une valeur dans un dictionnaire via sa clé.
</div>

On peut créer une Series ex-nihilo :

In [None]:
ages = pd.Series([22, 35, 58], name="Age")
ages

Une `pandas.Series` n'a pas de libellé de colonne, mais un attribut `.name`. Elle a bien des libellés de ligne (par défaut 0, 1, 2 …)

### Agir sur une `pandas.Series`
Je veux connaître l’âge le plus élevé parmi les passagers.

On peut le trouver en sélectionnant la colonne `"Age"` dans notre `DataFrame` et en appliquant la méthode `.max()`.

In [None]:
df["Age"].max()

Idem sur une simple `Series` :

In [None]:
ages.max()

Comme illustré par la méthode `.max()`, on peut faire des choses avec une `DataFrame` ou une `Series`. 

Pandas nous offre plein de fonctionnalités, sous la forme de méthodes à utiliser sur une `DataFrame` ou `Series`. 

Comme les méthodes sont des fonctions, pensez bien à ajouter les parenthèses après leur nom `()`.

### Je veux voir des statistiques de base sur mes données numériques 

In [None]:
df.describe()

La méthode `.describe()` nous donne un aperçu rapide des données numériques dans notre `DataFrame`. Comme les colonnes `Age` et `Sex` sont des données textuelles, elles sont ignorées par la méthode `.describe()`.

De nombreuses opérations renvoient une nouvelle `DataFrame` ou `Series`. La méthode `.describe()` est un exemple d’opération qui renvoie une `DataFrame`.

<div class='alert alert-info'>

Ce n'est que le début. Comme dans un tableur, **pandas** représente les données sous la forme d'un tableau avec des colonnes et des lignes. En plus de la représentation, les manipulations de données et les calculs que vous pouvez faire dans un tableur sont également faisables avec **pandas**, et nous allons voir ça dans ce guide.
    
</div>

<div class='alert alert-success'>

    
**À retenir:**

- On importe la bibliothèque pandas avec `import pandas as pd`
- Un tableau de données est stocké dans un objet `pandas.DataFrame`
- Chaque colonne dans une `DataFrame` est une `Series`
- Vous pouvez réaliser des opérations en appliquant des méthodes à une`DataFrame` ou une`Series`

</div>

## Comment lire et écrire des données tabulaires

![](img/02_io_readwrite.svg)

Je veux analyser les données des passagers du Titanic, disponibles sous la forme d'un fichier `csv`.

In [None]:
# création d'un sous-dossier data
!mkdir data
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv > data/titanic.csv

In [None]:
# chargement du CSV dans une DataFrame
titanic = pd.read_csv("data/titanic.csv")

Pandas a une fonction `read_csv(path)` qui va lire les données dans un fichier csv et vous renvoie une `DataFrame`. Pandas peut lire la plupart des formats de fichier de données  (csv, excel, sql, json, parquet, …) nativement, chacun de ces formats a sa fonction `read_*`.

Prenez le réflexe après avoir chargé un jeu de données de jeter un œil à la `DataFrame`. 

Appeler la `DataFrame` dans un notebook affiche les 5 premières et les 5 dernières lignes.

In [None]:
titanic

Je veux voir les 8 premières lignes de la DataFrame :

In [None]:
titanic.head(8)

La méthode `DataFrame.head(n)` permet de regarder les `n` premières lignes (par défaut les 5 premières).

De même, la méthode `.tail(n)` affiche les `n` dernières lignes, et `.sample(n)` tire `n` lignes au hasard.

Pour vérifier comment pandas a interprété les données de chaque colonne, inspectez l'attribut `dtypes`.

In [None]:
titanic.dtypes

Pour chaque colonne, le type de données utilisé est affiché.

Ici on a : 
- des entiers (int64), 
- des réels (float64),
- des strings (object).

<div class='alert alert-info'>

Quand on demande `.dtypes`, il n’y a pas de parenthèses ! `dtypes` est un attribut des DataFrame et Series. Ce sont des variables internes, et non pas des fonctions, donc pas de parenthèses à ajouter à la fin. Les attributs sont des données internes, les méthodes (qui nécessitent des parenthèses) sont des fonctions, ou actions internes.

</div>

Mon collègue me demande les données du Titanic, sous la forme d'un fichier tableur. Dans le doute, on va lui faire en Excel et en LibreOffice.

On a juste deux petits packages à installer, `openpyxl` et `odfpy`.

In [None]:
# pour les utilisateurs d'anaconda
!conda install -c anaconda openpyxl 
!conda install -c conda-forge odfpy

In [None]:
# pour ceux qui utilisent pip directement
!pip install openpyxl odfpy

In [None]:
# création d'un sous-dossier export
import os
os.makedirs("export", exist_ok=True)

# export avec la méthode .to_excel()
titanic.to_excel("export/titanic.xlsx", sheet_name="passengers", index=False)  

# export vers un fichier LibreOfficeS
titanic.to_excel("export/titanic.ods", sheet_name="passengers", index=False, engine="odf")  

Les fonctions `read_*` sont utilisées pour charger des données venant de fichiers vers une DataFrame, les fonctions `to_*` font l'opposé.

Dans l'exemple ci-dessus, le nom de la feuille est spécifié (sinon ce serait bêtement "Sheet1". L'option `index=False` fait en sorte que le libellé de chaque ligne ne soit pas exporté.


In [None]:
# on recharge les données depuis le fichier excel
titanic = pd.read_excel("export/titanic.xlsx", sheet_name="passengers")  

In [None]:
titanic.head() # est-ce que tout est bien là ?

### ❓ Je veux un résumé technique de ma `DataFrame`

In [None]:
titanic.info()

La méthode `.info()` me donne un résumé technique de ma DataFrame, regardons ça plus en détail.

- C'est bien une DataFrame.
- Il y a 891 entrées, soit 891 lignes. Chaque ligne a un libellé (appelé l'index), avec des valeurs entre 0 et 890.
- La table a 12 colonnes. 
- La plupart des colonnes ont une valeur dans chaque ligne (quand il y a 891 valeurs non-nulles). 
- Mais certaines colonnes ont moins de 891 valeurs non-nulles, donc il y a des valeurs manquantes par endroits. 
- Les colonnes `Name`, `Sex`, `Cabin` et `Embarked` sont des données textuelles (strings, ici désigné en tant que "object"). 
- Les autres colonnes sont numériques, certaines sont des entiers, d'autres des réels (float).
- Une estimation de l’empreinte mémoire de la DataFrame est indiquée

<div class='alert alert-success'>

**À retenir**
    
- Obtenir des données depuis différents types de fichiers est fait avec les fonctions qui commencent par `read_`.
- Exporter les données depuis pandas vers un fichier est fait par les différentes méthodes de DataFrame qui commencent par `to_`.
- Les méthodes `head`, `tail`, `info` et l'attribut `dtypes` sont utiles pour faire une première vérification sur les données .

</div>

## Sélectionner un sous-ensemble d'une `DataFrame`

In [None]:
# création de la dataframe en repartant du CSV titanic
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

### ❓ Comment sélectionner certaines colonnes 

![](img/03_subset_columns.svg)

Je veux uniquement l'âge des passagers

In [None]:
ages = titanic["Age"]

In [None]:
ages.head()

Pour sélectionner une seul colonne, on utilise des crochets `[]` avec le nom de la colonne.

Chaque colonne est un objet `Series`. Quand on sélectionne une seule colonne, l'objet renvoyé est une `Series`. On peut s'en assurer avec la 
foction `type()`.

In [None]:
type(titanic["Age"])

Ou regarder la forme de cet objet :

In [None]:
titanic["Age"].shape

`.shape` est un attribut (souvenez-vous, ce n'est pas une méthode, pas de parenthèses) sur une DataFrame ou une Series, qui contient le nombre de lignes et de colonnes. 

Le résultat est un `tuple` de la forme (n_lignes, n_colonnes). 

Une Series est un tableau à 1 dimension, donc le tuple ne contient que le nombre de lignes.

---
Je veux m'intéresser à l'âge et au sexe des passagers du Titanic.

In [None]:
age_sex = titanic[["Age", "Sex"]]

In [None]:
age_sex.head()

Pour sélectionner plusieurs colonnes, je passe une liste de noms de colonnes à l'intérieur des crochets de sélection `[]`.



<div class='alert alert-info'>

La paire de crochets interne définit une liste Python contenant des noms de colonnes, la paire de crochets externe est utilisée pour sélectionner des données dans une DataFrame comme vu précédemment.


</div>

L'objet renvoyé est une nouvelle DataFrame :

In [None]:
type(titanic[["Age", "Sex"]])

In [None]:
titanic[["Age", "Sex"]].shape

Cette sélection a renvoyé une `DataFrame` avec 891 lignes et 2 colonnes.

Souvenez-vous, une `DataFrame` est un objet à 2 dimensions, les lignes et les colonnes.

### ❓ Comment sélectionner certaines lignes dans la `DataFrame` 

Je m'intéresse maintenant aux passagers de plus de 35 ans.

In [None]:
above_35 = titanic[titanic["Age"] > 35]

In [None]:
above_35.head()

Pour sélectionner des lignes en fonction d'une expression conditionnelle, on exprime la condition dans les crochets `[]` de sélection.

La condition dans les crochets `titanic['Age'] > 35` vérifie pour quelle ligne cette condition est vraie.

In [None]:
titanic["Age"] > 35

Le retour d'une expression conditionnelle (`>`, mais aussi `==`, `<`, `!=`, `>=` auraient fonctionné) est une `Series` de valeurs booléennes (des `True` ou `False`) avec le même nombre de ligne que la `DataFrame` d'origine. 

Une telle `Series` de valeurs booléennes peut être utilisée pour filtrer une `DataFrame` en la mettant dans les crochets de sélection `[]`. Seules les lignes pour lesquelles la valeur booléenne est `True` sont sélectionnées.

Nous savons que la `DataFrame` complète `titanic` contient 891 lignes. Regardons combien de lignes satisfont la condition `Age > 35` en regardant la forme de notre `DataFrame` filtrée `above_35` :

In [None]:
above_35.shape

---
Je m'intéresse aux passagers de seconde et 3ème classe.

In [None]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23.head()

Tout comme une expression conditionnelle, méthode `.isin()` renvoie `True` pour chaque ligne dont la valeur est dans liste passée en argument.

À nouveau, pour réduire une DataFrame aux lignes qui satisfont cette condition, on utilise cette méthode conditionnelle dans les crochets `[]` de sélection. 
Dans ce cas, la condition est d'avoir soit 2 soit 3 dans la colonne `Pclass`.

Ça revient, en étant plus concis, à tester l'appartenance à la classe 2, ou à la classe 3 avec l'opérateur ou logique : `|`.

In [None]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

class_23.head()

<div class='alert alert-warning'>


Quand on combine plusieurs expressions conditionnelles, chaque condition doit être mise entre parenthèses. De plus, vous ne pouvez pas utiliser directement les mots-clés `or`, `and` mais devez faire appel aux opérateurs logiques `|` (ou), `^` (ou exclusif) et `&` (et).


</div>

---
Je veux travailler uniquement sur les passagers dont l'âge est connu.

In [None]:
age_no_na = titanic[titanic["Age"].notna()]
age_no_na.head()

La méthode conditionnelle `notna()` renvoie `True` pour chaque ligne où la valeur est présente. On peut donc la combiner aux crochets de sélection pour filtrer notre `DataFrame`.

On peut se demander ce qui a vraiment changé, vu que les 5 premières lignes sont les mêmes qu’avant. Un bon moyen de vérifier ce qui a changé est de vérifier l’attribut `shape` :

In [None]:
age_no_na.shape

### ❓ Comment sélectionner des lignes et colonnes spécifiques

![](img/03_subset_columns_rows.svg)

Je m’intéresse aux noms des passagers de plus de 35 ans.

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

In [None]:
adult_names.head()

Dans ce cas, un sous-ensemble de lignes et colonnes est sélectionné d'un coup, et utiliser simplement les crochets de sélection `[]` n’est pas suffisant.

Les opérateurs `loc` et `.iloc` sont nécessaires juste avant les crochets de sélection. 

Quand on les utilise, la partie avant la virgule désigne la sélection de lignes, la partie après la virgule la sélection de colonnes.

Si vous utilisez les noms de colonnes, les noms de lignes, ou des expressions conditionnelles, utilisez l'opérateur `loc` avant les crochets de sélection.

On peut utiliser un seul nom de colonnes/ligne, une liste de noms, une expression conditionnelle ou un symbole "deux-points" `:`. Un `:` signifie qu'on sélectionne toutes les lignes ou colonnes.

---
Je veux sélectionner les lignes 9 à 25, et les colonnes 2 à 5. (La numérotation commence à zéro).

In [None]:
titanic.iloc[9:25, 2:5]

À nouveau, je veux sélectionner un sous-ensemble de lignes et colonnes d'un coup d'un seul, et l'usage direct des crochets de sélection est insuffisant. Comme je m'intéresse aux lignes et colonnes en fonction de leur position (leur index), je vais utiliser l'opérateur `iloc` avant mes crochets de sélection.

Quand je sélectionne des lignes et colonnes avec `loc` ou `iloc`, je peux réassigner des valeurs dans ma `DataFrame`.
Par exemple, pour assigner le nom "anonymous" aux trois premiers éléments de la 3ème colonne :

In [None]:
titanic.iloc[0:3, 3] = "anonymous"

In [None]:
titanic.head()

<div class='alert alert-success'>


**À retenir**

- Quand on sélection un sous-ensemble de données, on utilise des crochets `[]`.
- À l'intérieur, on peut spécifier un simple nom de colonne, une liste de noms de colonnes, un slice de noms, une expression conditionnelle ou un `:`
- Pour sélectionner à la fois des lignes et des colonnes, on utilise `loc` si on exprime la sélection avec des noms de lignes / colonnes
- Pour sélectionner à la fois des lignes et des colonnes, on utilise `iloc` si on exprime la sélection avec des indices (numéro de position)
- On peut réassigner des valeurs à la sélection basée sur `loc`/`iloc`

</div>

## Comment faire des graphes en Pandas

In [None]:
import matplotlib.pyplot as plt

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2.csv > data/air_quality_no2.csv

In [None]:
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)

air_quality.head()

<div class='alert alert-info'>

Ici on a utilisé les paramètres `index_col` et `parse_dates` de la fonction `read_csv()` pour définir que la première colonne (index 0) du fichier serait notre colonne index de la `DataFrame` à créer, et de convertir son contenu en objets `datetime`.
    
</div>

![](img/04_plot_overview.svg)

Je veux faire une rapide évaluation visuelle de mes données.

In [None]:
air_quality.plot();

Sur une `DataFrame`, `pandas` crée par défaut une graphe "ligne" pour chaque colonne de valeurs numériques.

Je ne veux tracer que la colonne correspondant aux données parisiennes.

In [None]:
air_quality["station_paris"].plot();

Pour tracer une colonne spécifique, on utilise la sélection comme d'habitude, enchaînée avec la méthode `plot()`. On peut en déduire que la méthode `plot()` fonctionne aussi bien sur les `Series` que sur les `DataFrames`.

In [None]:
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5);

En plus du traçage de ligne part défaut (`plot()`), il y a un certain nombre de fonctions de tracer alternatives. Utilisons un peu de Python pour extraire une liste de ces méthodes :

In [None]:
[
    method_name
    for method_name in dir(air_quality.plot)
    if not method_name.startswith("_")
]

<div class='alert alert-info'>

Dans la plupart des environnments de développement, et dans les notebook Jupyter, utilisez la touche TAB de votre clavier après un nom d'objet pour obtenir une liste des méthodes accessibles. Par exemple `air_quality.plot.` + `⌨️ TAB`

</div>

In [None]:
air_quality.plot.box();

---
Je veux chaque colonne dans un sous-graphe distinct.

In [None]:
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)

Un subplot distinct pour chaque colonne est obtenu en passant l'argument `subplots=True` aux fonctions `plot()`.

---
Je veux personnaliser encore plus le graphe, y ajouter des éléments, ou sauvegarder l'image créée.

In [None]:
fig, ax = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=ax)
ax.set_ylabel("NO$_2$ concentration")
fig.savefig("export/no2_concentrations.png")

Chacun des objets plot créés par `pandas` est un objet `matplotlib`. `Matplotlib` offre énormement d'options pour personnaliser les graphes. Ce lien direct de `pandas` à `matplotlib` vous permet de bénéficier de toute la puissance de `matplotlib`. 

Regardons plus en détail l’exemple précédent.


In [None]:
fig, ax = plt.subplots(figsize=(12, 4))  # On crée une figure et un objet Axes matplotlib 
air_quality.plot.area(ax=ax)  # On utilise pandas pour tracer le graphe `area` sur l'objet Axes créé (appelé ax)
ax.set_ylabel("NO$_2$ concentration")  # On personnalise comme on veut l'objet ax avec ses méthodes
fig.savefig("export/no2_concentrations.png")  # On sauvegarde la figure finale avec la méthode de l'objet Figure (ici appelé fig)

<div class="alert alert-success">

**À retenir**
- Les méthodes `.plot.*` fonctionnent sur les Series **et** sur les DataFrames
- Par défaut, chaque colonne est tracée comme une élément du graphe (une ligne, une boîte à moustaches… selon le type de fonction plot.*)
- Tous les graphes faits par pandas sont des objets **Matplotlib**.

</div>

## Comment créer de nouvelles colonnes dérivées des colonnes existantes 

![](img/05_newcolumn_1.svg)

In [None]:
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)

air_quality.head()

Je veux exprimer la concentration de $NO_2$ de la station de Londre en $mg/m^3$

*En présumant une température de 25°C et une pression de 1013 hPa, le facteur de conversion est de 1.882*


In [None]:
air_quality["london_mg_per_cubic"] = (
    air_quality["station_london"] * 1.882
)  # création d’une nouvelle colonne à partir d'une autre
air_quality.head()

<div class='alert alert-info'>

Le calcul des valeurs est fait ligne à ligne. Cela signifie que chaque valeur dans la colonne "station_london" est multipliée par 1.882.   
Pas besoin de faire une boucle sur la colonne pour itérer sur chaque ligne.  
Si vous connaissez le module `numpy`, c'est le même principe que la mulplication d'un vecteur par un scalaire. 


</div>

![](img/05_newcolumn_2.svg)

---
Je veux vérifier le ratio des valeurs de Paris divisées par les valeurs d'Anvers, et conserver le résultat dans une nouvelle colonne.

In [None]:
air_quality["ratio_paris_antwerp"] = (
    air_quality["station_paris"] / air_quality["station_antwerp"]
)


air_quality.head()

À nouveau, le calcul se fait ligne à ligne.

Toutes les opérations arithmétiques (+, - , \*, /, …) ou logiques (<, >, ==, …) se font ligne à ligne.

Si vous voulez appliquer une fonction plus complexe, vous pouvez utiliser la méthode `.apply()`.


---
Je veux renommer les colonnes en utilisant les identifiants des stations en vigueur sur openAQ


In [None]:
air_quality_renamed = air_quality.rename(
    columns={
        "station_antwerp": "BETR801",
        "station_paris": "FR04014",
        "station_london": "London Westminster",
    }
)

In [None]:
air_quality_renamed.head()

la méthode `rename()` peut être utilisée pour les noms des lignes ou des colonnes. Passez au paramètre `columns` ou `rows` un dictionnaire avec comme clé les noms actuels et comme valeurs correspondantes les nouveaux noms à utiliser.
    
Le mapping n'est pas limité aux noms établis, on peut utiliser une fonction qui renvoie un string également, par exemple, pour convertir les noms de colonnes en minuscule, on peut passer la méthode de string `str.lower`. Comme c'est la fonction elle-même qui est attendue, et pas son exécution, on passe le nom de la méthode seulement, sans parenthèses.

In [None]:
air_quality_renamed = air_quality_renamed.rename(columns=str.lower)

air_quality_renamed.head()

<div class='alert alert-success'>

**À retenir**
- on crée une nouvelle colonne en assignant le résultat d'une opération à un nouveau nom de colonne passé entre les crochets `[]`, comme pour assigner une nouvelle paire de clés et valeur dans un dictionnaire python
- les calculs sont faits ligne à ligne, pas besoin de faire une boucle sur les lignes
- la méthode `rename` combinée à un dictionnaire ou une fonction permet de renommer les lignes ou colonnes.

</div>

## Comment calculer des statistiques sur mes données 
On recharge les données pour cette section avec notre csv titanic

In [None]:
# recréons notre DataFrame titanic à partir du csv
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

### stats aggrégées

![](img/06_aggregate.svg)

Quel est l'âge moyen des passagers du Titanic ?


In [None]:
titanic["Age"].mean()

Différentes statistiques sont disponibles et peuvent être appliquées aux colonnes contenant des valeurs numériques.
Ces opérations ignorent les valeurs manquantes et travaillent sur l'ensemble des lignes non-vides en général.


![](img/06_reduction.svg)

---
Quel sont l’âge médian et le tarif médian payé par les passagers ?

In [None]:
titanic[["Age", "Fare"]].median()

La méthode statistique appliquée à plusieurs colonnes comme ici est calculée pour chaque colonne numérique.

Vous vous rappelez la méthode `describe()` ?

In [None]:
titanic[["Age", "Fare"]].describe()

À la place de ces statistiques prédéfinies, vous pouvez spécifier les combinaisons de statistiques aggrégées que vous voulez pour chaque colonne avec la méthode `.agg()`.

In [None]:
titanic.agg(
    {
        "Age": ["min", "max", "median", "skew"],
        "Fare": ["min", "max", "median", "mean"],
    }
)

## Statistiques aggrégées groupées par catégorie

![](img/06_groupby.svg)

❓ Quel est l’âge moyen passagers, en regroupant les hommes et les femmes ?

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Comme ce qui nous intéresse est l’âge moyen par sexe, une sous-sélection sur ces deux colonnes est faite d'abord, avec `titanic[["Sex", "Age"]]`. Ensuite, la méthode `groupby()` est appliquée en indiquant la colonne `"Sex"` pour faire un groupe par catégorie. La moyenne des colonnes restantes (ici l'âge) est calculée et renvoyée dans une DataFrame.

Calculez une statistique donnée sur chaque catégorie présente dans une colonne (par exemple H/F dans une colonne "Sexe") est une pratique courante. La méthode `groupby` est là pour ça. Plus généralement, c’est un exemple du schéma classique "diviser / appliquer / combiner" :

- diviser les données dans des groupes
- appliquer une fonction à chaque groupe indépendamment
- combiner les résultats dans une structure de données

Les étapes appliquer et combiner sont ici faites automatiquement par pandas.

Dans l'exemple précédent, nous avons explicitement sélectionné les deux colonnes en premier lieu. Sans ça, la méthode `mean()` aurait calculé la moyenne sur chaque colonne contenant des données numériques.

In [None]:
titanic.groupby("Sex").mean()

Ça n’a pas beaucoup de sens de calculer la moyenne des classes, et encore moins des numéros de passager. Si l’âge est la seule colonne dont la moyenne nous intéresse, on peut également la sélectionner après avoir fait le `groupby('Sex')` : 

In [None]:
titanic.groupby("Sex")[["Age"]].mean()

![](img/06_groupby_select_detail.svg)

<div class='alert alert-warning'>

    
La colonne **Pclass** contient des nombres, mais qui représentent en réalité 3 catégories, qui s'appellent 1, 2 et 3. Calculer des statistiques avec ces nombres n’a pas beaucoup de sens.

Du coup, pandas dispose d'un type de donnée **Categorical** pour gérer ce type de données. Plus d'information sur ce point dans [la documentation du type Categorical](https://pandas.pydata.org/docs/user_guide/categorical.html#categorical).

</div>

---
❓ Quel le ticket moyen payé par chaque combinaison de sexe et classe ?

In [None]:
titanic.groupby(["Sex", "Pclass"])[["Fare"]].mean()

Le groupement peut se faire sur plusieurs colonnes d'un coup. Donnez les noms des colonnes voulues dans une liste à la méthode `groupby()`.

### Compter le nombre d’enregistrements par catégorie

![](img/06_valuecounts.svg)

Quel est le nombre de passager pour chaque classe de cabines ?

In [None]:
titanic["Pclass"].value_counts()

La méthode `value_counts()` dénombre les enregistrements de chaque catégorie dans une colonne.

Cette fonction est un raccourci, en réalité elle opère un `groupby` puis compte le nombre de lignes dans chaque groupe.

Ça revient à :

In [None]:
titanic.groupby("Pclass")["Pclass"].count()

<div class='alert alert-info'>

les méthodes `size()` et `count()` peuvent toutes les deux être utilisées sur un `groupby()`. `size()` compte toutes les lignes, y compris celles où les valeurs sont manquantes, tandis que `count()` ne compte que les valeurs présentes. Avec la méthode `value_counts()`, utilisez l'argument `dropna` pour inclure ou pas les valeurs manquantes dans le compte.
</div>

<div class='alert alert-success'>

**À retenir**
        

- Les statistiques agrégées peuvent être calculées sur des colonnes entières.
- **groupby** vous permet d'appliquer le schéma "diviser / appliquer / combiner"
- **value_counts** est un raccouci pratique pour dénombrer chaque catégorie d'une variable

    
</div>

## Comment modifier l'agencement des tables

### Données pour cette section

In [None]:
titanic = pd.read_csv("data/titanic.csv")

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_long.csv > data/air_quality_long.csv

In [None]:
air_quality = pd.read_csv(
    "data/air_quality_long.csv", index_col="date.utc", parse_dates=True
)

In [None]:
air_quality.head()

### Classer les lignes de la `DataFrame`

Je veux ordonner les lignes selon l'âge des passagers.

In [None]:
titanic.sort_values(by="Age").head(10)

---
Je veux classer les données par classe de cabine et âge en ordre décroissant.

In [None]:
titanic.sort_values(by=["Pclass", "Age"], ascending=False).head()

Avec `.sort_values()`, les lignes de la table sont réordonnées selon les colonnes passées dans l'argument `by`. L'index des lignes n'est pas modifié, ce qui permet de retrouver l'ordre originel.

### D'une table longue à une table large

Nous allons utiliser un petit échantillon du jeu de données sur la qualité de l'air. On va réduire nos données et sélectionner seulement les 2 premières mesures de chaque lieu (càd le `head(2)` de chaque groupe). On va appeler ça le `no2_subset`.

In [None]:
# on filtre sur le no2 uniquement

no2 = air_quality[air_quality["parameter"] == "no2"]

In [None]:
# on ne prend que deux lignes (head(2)) pour chaque lieu (grâce à groupby)

no2_subset = no2.sort_index().groupby(["location"]).head(2)

In [None]:
no2_subset

![](img/07_pivot.svg)

Je veux les valeurs des 3 stations en tant que colonnes distinctes.

In [None]:
no2_subset.pivot(columns="location", values="value")

La fonction `pivot()` change juste la forme de nos données : il suffit d'une seule valeur pour chaque combinaison d'index et de colonne.

Comme on peut tracer plusieurs colonnes, comme vu précédemment, la conversion d'une table longue à une table large permer de tracer différentes séries temporelles d'un coup.

In [None]:
no2.head()

In [None]:
no2.pivot(columns="location", values="value").plot();

<div class='alert alert-info'>

Si on ne précise pas de paramètre `index` au pivot, l'index existant (le nom des lignes, ici des dates/heures) est maintenu.

</div>

### Pivoter la table

![](img/07_pivot_table.svg)


Je veux les concentrations de  $NO_2$ et $PM_{2.5}$ pour chaque station, sous la forme d'une table.

In [None]:
air_quality.pivot_table(
    values="value", index="location", columns="parameter", aggfunc="mean"
)

Quand on fait un simple `pivot()`, les données sont simplement réarrangées. Quand plusieurs valeurs doivent être aggrégées (dans ce cas, des valeurs de différentes périodes de temps), on peut utiliser `pivot_table()`, en passant une fonction d'aggrégation (par exemple la moyenne, `mean`) pour préciser comment combiner les valeurs.

Pivoter une table est un concept classique dans un tableur. Si on désire aussi avoir le résumé de chaque ligne et chaque colonne, on passe `margin=True`.

In [None]:
air_quality.pivot_table(
    values="value",
    index="location",
    columns="parameter",
    aggfunc="mean",
    margins=True,
)

Au cas où vous vous le demandez, `pivot_table()` est bien sûr basée sur `groupby()`.

Le meme résultat peut être obtenu en groupant par paramètre et par lieu.

`air_quality.groupby(["parameter", "location"]).mean()`

In [None]:
air_quality.groupby(["parameter", "location"]).mean()

### D'une table large à une table longue

On repart de notre table large créée dans la section précédente :

In [None]:
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

no2_pivoted.head()

![](img/07_melt.svg)

Je veux ramasser toutes mes mesures de $NO_2$ en une seule colonne (format long).

In [None]:
no_2 = no2_pivoted.melt(id_vars="date.utc")
no_2.head()

La méthode `.melt()` sur une DataFrame converti la table du format large au format long. Les en-têtes de colonne deviennent les noms de variables dans une nouvelle colonne créé.

Ci-dessus, on a fait al version courte : la méthode `melt()` va "fondre" toutes les colonnes non mentionnées dans l'argement `id_vars` en 2 colonnes : une colonne avec les noms des anciennes colonnes, et une colonne avec les valeurs elles-mêmes. Le nom de cette colonne de valeur est par défaut **value**.

Ci-dessous, un appel un peu plus détaillé à la méthode `melt()` qui précise les noms de colonne voulus dans le résultat :

In [None]:
no_2 = no2_pivoted.melt(
    id_vars="date.utc",
    value_vars=["BETR801", "FR04014", "London Westminster"],
    value_name="NO_2",
    var_name="id_location",
)

no_2.head()

Le résultat final est le même, mais défini plus en détail:

- **value_vars** définit explicitement quelles colonnes fondre ensemble
- **value_name** donne un nom de colonne personnalisé pour la colonne des valeurs, au lieu de **value** par défaut
- **var_name** donne un nom de colonne personnalisé pour la colonne qui rassemble les anciens noms de colonnes. Sinon par défaut il prend le nom de l'index.

En bref, **value_name** et **var_name** sont des noms aux choix pour les colonnes générées. Les colonnes à fondre sont définies par **id_vars** et **value_vars**.

<div class='alert alert-success'>

**À retenir**

- Classer par une ou plusieurs colonnes est fait via **sort_values**
- La fonction **pivot()** est une simple restructuration des données, **pivot_table** permet de faire des aggrégations
- L'inverse du pivot (de long à large) est **melt** (de large vers long)


</div>

## Comment combiner les données de plusieurs tables ?

Données pour cette section :

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2_long.csv > data/air_quality_no2_long.csv

### Données Nitrate

In [None]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]] # sélection de colonnes

air_quality_no2.head()

### Données particules



In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_pm25_long.csv > data/air_quality_pm25_long.csv

In [None]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]] # sélection de colonnes

air_quality_pm25.head()

### Concatenation d'objets `DataFrame`

![](img/08_concat_row.svg)

Je veux combiner les mesures de $NO_2$ et de $PM_25$, deux tables ayant une structure similaire, dans une seule table.

In [None]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0) # axis 0 : concaténation en vertical

air_quality.head() 

La fonction `concat()` concatène des tables sur un axe : en vertical (axis=0) ou à l'horizontale (axis=1).

Par défaut, la concaténation est sur l'axe 0, c'est à dire en vertical. La concaténation verticale de deux tables ayant les mêmes entêtes de colonnes doit produire une table avec le même nombre de colonnes et le cumul des lignes des tables d'origine.

On peut le vérifier en regardant les `shape` des tables d'origine et de la table issue de la concaténation.

In [None]:
print("Shape of the air_quality_pm25 table: ", air_quality_pm25.shape)

print("Shape of the air_quality_no2 table: ", air_quality_no2.shape)

print("Shape of the resulting air_quality table: ", air_quality.shape)

😌 La table concaténée a bien 1110 + 2068 soit 3178 lignes.

<div class='alert alert-success'>

Cet argument **axis** va apparaître dans plusieurs méthodes de pandas qui peuvent s'appliquer sur un axe. Une dataframe a deux axes :
    
- le premier, **axis=0**  est vertical
- le second, **axis=1** est horizontal
    
</div>

💡 Classer la table sur la colonne des dates / heures va bien montrer la combinaison des deux jeux de données $NO_2$ et $PM_25$ :


In [None]:
air_quality = air_quality.sort_values("date.utc")
air_quality.head()

Dans cet exemple en particulier, la colonne **parameter** fournie dans les jeux de données nous permet d'identifier les tables d'origine. Ce n'est pas toujours le cas.

La fonction `concat()` a une parade très pratique, avec l'argument `keys`, qui prend une liste de clés à ajouter à chaque ligne, selon sa table d'origine.

Par exemple :

In [None]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])
air_quality_.sample(10)

<div class='alert alert-info'>

La possibilité d'avoir plusieurs indices simultanément pour les lignes ou les colonnes n’a pas été mentionnée jusqu’ici, mais c'est une fonctionnalité avancée qui est hors de propos pour cette introduction.
    
Pour le moment, retenons simplement que la methode **reset_index()** peut être utilisée pour convertir tout niveau d'index en une colonne, par exemple :
    
    air_quality_.reset_index(level=0)

</div>

In [None]:
air_quality_.reset_index(level=0)

### Joindre des tables en utilisant un identifiant commun

![](img/08_merge_left.svg)

❓ Je veux ajouter les coordonnées des stations de mesure, fournies dans un fichier séparé, aux lignes correspondantes dans la table des mesures de qualité.


In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_stations.csv  > data/air_quality_stations.csv

In [None]:
stations_coord = pd.read_csv("data/air_quality_stations.csv")

stations_coord

<div class='alert alert-info'>

Les stations utilisées dans cet example (FR04014, BETR801 et London Westminster) sont juste 3 entrées parmi d'autres dans la table des métadonnées ci-dessus. Nous voulons seulement ajouter leur coordonnées dans la table contenant les mesures air_quality_table, sur chaque ligne correspondante.


</div>

In [None]:
air_quality.head()

In [None]:
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

air_quality.head()

En utilisant la fonction `merge()`, pour chaque ligne de la table air_quality, les coordonnées correspondantes sont ajoutées depuis la table des coordonnées. C'est grâce à la colonne **location** qui existe dans les deux tables et est utilisée comme clé pour combiner les données. 

Le paramètre **how='left'** fait que seules les stations présentes dans la table des mesures (celle de gauche dans notre jointure) finissent dans la table finale. Ces jointures sont similaires aux jointures qu'on peut faire sur des tables dans une base de données relationnelle (left, right, inner, outer).

---
❓ Je veux ajouter la description et le nom complet de chaque *parameter* (pm25, nO2) qui proviennent d'une autre table 

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_parameters.csv  > data/air_quality_parameters.csv

In [None]:
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

air_quality_parameters.head()

In [None]:
air_quality = pd.merge(
    air_quality, air_quality_parameters, how="left", left_on="parameter", right_on="id"
)

air_quality.head()

Ici contrairement à l'exemple précédent, il n’y a pas de nom de colonne en commun. Cependant, la colonne **parameter** de la table `air_quality` et la colonne **id** dans la table `air_quality_parameters` contiennent en fait le nom du paramètre dans le même format. Les paramètres `left_on` et `right_on` dans la fonction `merge()` nous permettent d'expliciter comment faire le lien entre les deux tables pour la jointure.

<div class='alert alert-success'>


**À retenir**

- plusieurs tables peuvent être concaténées verticalement ou horizontalement avec la fonction **concat()**
- Pour des opérations de jointures similaire à celles des bases de données, on utilise la fonction **merge()**


</div>

## Comment manipuler des données temporelles facilement

In [None]:
import matplotlib.pyplot as plt

Données utilisées dans cette sections (fichiers déjà téléchargés)

In [None]:
air_quality = pd.read_csv("data/air_quality_no2_long.csv")

air_quality = air_quality.rename(columns={"date.utc": "datetime"})

air_quality.head()

In [None]:
air_quality.city.unique()

### Utiliser les propriétés datetime

❓ Je veux travailler avec les dates dans la colonne datetime en tant qu'objets datetime plutôt que du simple texte.

In [None]:
air_quality["datetime"] = pd.to_datetime(air_quality["datetime"])

air_quality["datetime"]

Au départ, les valeurs dans la colonne `datetime` étaient du simple texte, et ne permettaient pas de réaliser d'opérations temporelles (extraire l'année, le jour de la semaine, etc…). En appliquant la fonction `to_datetime()`, pandas interprète le texte et le convertit en objets représentant une date et une heure. Dans pandas, ces objets, qui ressemblent beaucoup à ceux de la bibliothèque standard `datetime`, s’appellent des `pandas.Timestamp`.


<div class='alert alert-info'>

Comme beaucoup de jeux de données contiennent des informations représentant des dates / heures, les fonctions de lecture de pandas comme `read_csv()` et `read_json()` peuvent tenter de faire la conversion automatiquement de ces colonnes vers des objets Timestamp, il suffit de passer l'argument `parse_date=[['nom de colonne(s) avec les datetime'])` :

`pd.read_csv("../data/air_quality_no2_long.csv", parse_dates=["datetime"])`

</div>

À quoi servent ces objets `Timestamp` ? Nous allons illustrer leur valeur ajoutée avec quelques exemples.

---
❓ Quelle sont les dates de début et de fin des mesures dont nous disposons ?


In [None]:
air_quality["datetime"].min(), air_quality["datetime"].max()

Ces objets `Timestamp` nous permettent de faire tout calcul sur des dates. Par exemple, nous pouvons déterminer le laps de temps couvert par nos mesures, par une simple soustraction : 

In [None]:
air_quality["datetime"].max() - air_quality["datetime"].min()

Le résultat est un objet `pandas.Timedelta`, similaire aux objets `datetime.timedelta` de la bibliothèque python standard datetime, à nouveau.

Un `Timedelta` est simplement la mesure d'un laps de temps.

---
❓ Je veux ajouter une nouvelle colonne dans la DataFrame représentant le mois où la mesure a été prise

In [None]:
air_quality["month"] = air_quality["datetime"].dt.month

air_quality.sample(10)

Avec les objets Timestamp, de nombreuses propriétés temporelles sont accessible : le mois, l'année, le numéro de la semaine, le trimestre, etc… Toutes ces propriétés sont accessibles via le suffixe d'accès `dt`

---
❓ Quel est la concentration moyenne pour chaque jour de la semaine pour chaque lieu de mesure ?

In [None]:
air_quality.groupby([air_quality["datetime"].dt.weekday, "location"])["value"].mean()

Vous vous souvenez le schéma "diviser appliquer combiner" vu plus haut ? Ici nous voulons calculer une statistique (la moyenne) pour chaque jour de la semaine pour chaque lieu de mesure. Pour grouper par jour de la semaine nous utilisons la propriété dt.weekday (où Lundi=0 et Dimanche=6) d'un Timestamp de pandas.

Le groupby sur le jour de la semaine et la colonne "location" permet de calculer les moyennes sur chaque combinaison de jour et de lieu.





<div class='alert alert-danger'>
    
Comme nous travaillons sur une fenêtre temporelle très courte, cette analyse ne peut pas vraiment être utilisée pour réaliser des prédictions.
    
    
</div>


---
❓ Je veux tracer la concentration de $NO_2$ durant la journée, en prenant la moyenne de nos 3 stations de mesure. Autrement dit, quelle est la valeur moyenne pour chaque heure de la journée ?

In [None]:
fig, ax = plt.subplots(figsize=(16, 8))

air_quality.groupby(air_quality["datetime"].dt.hour)["value"].mean().plot(
    kind="bar", rot=0, ax=ax
)

ax.set_xlabel("Heure de la journée")
# Commande matplotlib pour donner un libellé à l'axe des X

ax.set_ylabel("$NO_2 (µg/m^3)$");

Comme dans le cas précédent, on calcule une statistique (la moyenne du $NO_2$) pour chaque heure de la journée en appliquant notre schéma "diviser / appliquer / combiner" à nouveau.

La propriété heure est accessible via `dt.hour`.

## Datetime comme index

Dans la section sur la restructuration de données, on a vu la méthode `pivot()` pour mettre en colonnes distinctes les mesures de chaque lieu.



In [None]:
no_2 = air_quality.pivot(index="datetime", columns="location", values="value")

no_2.head()

<div class='alert alert-info'>

En pivotant les données, les informations de date / heure sont devenues l'index de la table. De manière générale, donner le rôle d'index à une colonne est fait avec la méthode `set_index()`.

</div>

Travailler avec un index d’objets datetime est très puissant. Par exemple, nous n'avons pas besoin du suffixe `dt` pour obtenir les propriétés temporelles, nous les avons sur l'index directement :

In [None]:
no_2.index.year, no_2.index.weekday

Il y a d'autres avantages à avoir ces objets datetime en index, comme le slicing par dates, ou la gestion des échelles de temps dans les graphes.

❓ Je veux tracer les valeurs de $NO_2$ dans les différentes stations du 20 mai à la fin du 21 mai.

In [None]:
no_2["2019-05-20":"2019-05-21"].plot();

> En donnant une string qui peut être interprétée comme une date, un sous-ensemble de la données peut être sélectionné sur un DateTimeIndex.

### Récomposer une série temporelle avec une autre fréquence

❓ Je veux aggréger la série temporelle (qui a une mesure par heure) en ne retenant que la valeur maximale de chaque mois, pour chaque station.

In [None]:
monthly_max = no_2.resample("M").max()

monthly_max

> Resampler les données sur une autre fréquence temporelle est une des techniques avancées des DataFrames ayant un Index en Datetime. On pourrait par exemple convertir des données saisies toutes les secondes en données considérées toutes les 5 minutes.

La méthode `.resample()` est similaire à un `groupby` :

- Elle réalise un groupement basé sur le temps, en utilisant un string (ex 'M', '5H', …) qui définit la fréquence voulue
- Elle nécessite une fonction d'aggrégation comme prendre la moyenne, prendre le maximum, etc…

Quand elle est définie, la fréquence d'une série temporelle est indiquée dans l'attribut `freq` :

In [None]:
monthly_max.index.freq

---
❓ Je veux tracer les valeurs quotidiennes moyennes pour chaque station :

In [None]:
no_2.resample("D").mean().plot(style="-o", figsize=(10, 5));

<div class='alert alert-info'>

**À retenir**

- des données textes représentant des dates ou des "dates et heure" peuvent être converties avec la fonction `to_datetime` ou bien via un argument dans les fonctions `read_*`
- Les objets datetime dans pandas permettent des calculs, des opérations logiques, et permettent l’accès à leurs attributs temporels via le suffixe `dt` (mois, jour de la semaine, etc)
- Un index en datetime, contient toutes les propriétés temporelles et permet le slicing par dates.
- `resample()` est une méthode puissante pour changer la fréquence d'une série temporelle.


</div>

## Comment manipuler des données textuelles ?

Données utilisée dans cette section : Titanic

In [None]:
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

❓ Je veux transformer tous les noms en minuscule

In [None]:
titanic["Name"].str.lower()

> Pour transformer toutes les strings dans la colonne "Name" en miniscule, on sélectionne la colonne "Name", puis on ajoute le suffixe d'accès `.str` et on applique la methode de string .`lower()`. Chaque de la colonne est convertie, une par une.


Tout comme les objets datetime ont leur suffixe d'accès `.dt`, un grand nombre de méthodes pour les strings sont accessible via le suffixe d'accès `.str`. Ces méthodes ont en général des noms qui correspondent aux méthodes de base des strings Python, mais elles sont appliquées élément par élément dans une colonne.

---
❓ Je veux créer une nouvelle colonne "Surname" qui contienne le nom de famille des passagers en capturant le texte avant la virgule dans la colonne "Name"

In [None]:
titanic["Name"].str.split(",")

En utilisant la méthode `Series.str.split()`, chacune des valeurs est récupérée en tant que liste de 2 éléments. Le premier élément est la partie avant la virgule, et le second la partie qui était après la virgule.

In [None]:
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)

titanic["Surname"]

Comme on s'intéresse ici aux premiers éléments de ces listes qui contiennent les noms de famille (l'élément 0), nous pouvons une fois de plus utiliser le suffixe d'accès `.str` et appliquer la méthode `.str.get(n)` pour extraire ce que nous cherchions.

Et oui, on peut enchaîner plusieurs méthodes `.str` d'un coup.

---
❓ Je veux extraire les données à propos des comtesses à bord du Titanic.

In [None]:
titanic["Name"].str.contains("Countess")

In [None]:
titanic[titanic["Name"].str.contains("Countess")]

🤔 (Vous voulez en savoir plus à propos de cette comtesse ? Voir sa page [Wikipedia](https://fr.wikipedia.org/wiki/Lucy_No%C3%ABl_Leslie_Martha)!)

La méthode `Series.str.contains()` vérifie pour chaque valeur dans la colonne si la string contient le mot "Countess" et renvoie True ou False selon. Ce retour permet de faire une sélection dans notre DataFrame par indexation booléenne. Comme il n’y avait qu’une seule comtesse à bord, nous obtenons une DataFrame d'une seule ligne.

<div class='alert alert-info'>
On peut réaliser des extractions encore plus avancées en combinant certaines méthodes avec des expressions régulières, mais c'est un peu trop avancé pour le moment.
</div>

---
❓ Quel passager a le nom le plus long ?

In [None]:
titanic["Name"].str.len()

Pour obtenir le nom le plus long, il nous faut d'abord calculer les longueurs de chaque nom dans la colonne "Name". 
La méthode `.str.len()` est appliquée à chaque nom et nous envoie une `Series` de valeurs.

In [None]:
titanic["Name"].str.len().idxmax()

Ensuite, on veut obtenir le numéro dans l'index correspondant au maximum, avec la méthode `idxmax()`. Ce n'est pas une méthode de string ici, donc pas de `.str`.

Enfin on réutilise `.loc[i, colonne]` pour extraire la valeur dans la colonne 'Name' qui était la plus longue.

In [None]:
titanic.loc[titanic["Name"].str.len().idxmax(), "Name"]

---
❓ Dans la colonne "Sex", je veux remplacer "male" par "M" et "female" par "F".

In [None]:
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

titanic["Sex_short"]

Ici bien que `.replace()` ne soit pas spécifiquement une méthode pour les strings, elle est très pratique pour opérer des substitutions ou traductions de texte en passant un mapping ou dictionnaire de traduction de la forme {"depuis": "vers"}.


<div class='alert alert-warning'>
Il existe également une méthode `str.replace()` pour substituer des ensembles de caractères. Mais si on souhaite faire plusieurs substitutions, comme ici, ça donnerait :

`titanic["Sex_short"] = titanic["Sex"].str.replace("female", "F")`

`titanic["Sex_short"] = titanic["Sex_short"].str.replace("male", "M")`

Ça peut devenir un peu complexe et facilement entraîner des erreurs. Imaginez ce qui se passerait si on faisait ces deux opérations dans l'ordre inverse ?
</div>

<div class='alert alert-success'>

**À retenir**
    
- Les méthodes de string sont accessibles via le suffixe d'accès `.str`
- Les méthodes de string travaillent élément par élément dans les colonnes, et peuvent servir à faire une sélection conditionnelle
- la méthode `.replace(dict)` est un moyen pratique de convertir des valeurs textes via un dictionnaire


</div>

In [None]:
# nettoyage des fichiers téléchargés et exportés
import shutil
dirs = ["data", "export"]
for d in dirs:
    shutil.rmtree(d)

C'est la fin de cette introduction à Pandas. Pour mettre en pratique, passons au premier [notebook d'exercices](exercices/pandas_exercice_1.ipynb) !