# Cours Pandas - Du Débutant à l’Intermédiaire

## Introduction

### Qu’est-ce que Pandas ?

**Pandas** est une bibliothèque Python open-source très populaire pour la manipulation et l’analyse de données. Elle s’appuie fortement sur NumPy et fournit des structures de données et des outils simples, puissants et rapides pour travailler avec des données tabulaires (feuilles de calcul, tables de bases de données, données CSV, etc.).

Avec Pandas, vous pouvez :  
- Lire, écrire et nettoyer vos données depuis/vers divers formats (CSV, Excel, SQL, JSON...).  
- Réaliser des opérations de filtrage, d’agrégation, de regroupement et de fusion de jeux de données.  
- Préparer vos données pour la visualisation, le machine learning, ou toute autre analyse.

### Installation

In [1]:
!pip install pandas



### Importation


In [2]:
import pandas as pd

Il est d’usage de raccourcir `pandas` en `pd` par convention.

## Les Structures de Données Principales

Pandas s’appuie principalement sur deux structures de données : **Series** et **DataFrame**.

- **Series** : est un tableau unidimensionnel étiqueté (indexé). On peut le voir comme une colonne de données.
- **DataFrame** : est un tableau bidimensionnel avec des étiquettes de lignes (index) et de colonnes. On peut le voir comme une feuille de calcul ou un tableau SQL, composé de plusieurs Series.

### Création d’une Series

La première structure de données principale de Pandas est la Series, cette structure est assez similaire à un tableau NumPy unidimensionnel, une liste Python ou encore une colonne d’une table SQL.

On peut donc créer une Series directement à partir d’une liste Python :

In [3]:
ma_liste = [10, 20, 30, 40]
s = pd.Series(ma_liste)
print(s)

0    10
1    20
2    30
3    40
dtype: int64


Dans un notebook il est possible d'afficher les objets Pandas sans écrire `print()`. Le notebook affichera automatiquement les objets Pandas dans un format tabulaire.

In [4]:
s

0    10
1    20
2    30
3    40
dtype: int64

Ici, l’index par défaut est de 0 à 3, mais on a également la possibilité de spécifier notre propre index :

In [5]:
s = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

On accède aux éléments d’une Series comme pour un dictionnaire (ou l'index est ici la clé) :

In [6]:
s["c"]

np.int64(30)

Ainsi on obtient exactement la même chose en créant notre `Series` à partir d’un dictionnaire :

In [7]:
pd.Series({'a': 10, 'b': 20, 'c': 30})

a    10
b    20
c    30
dtype: int64

Mais cela fonctionne aussi comme une liste :

In [8]:
s[2]

  s[2]


np.int64(30)

On voit ici que `s[2]` sera prochainement déprécié, il est préférable de prendre l'habitude d’utiliser `s.iloc[2]` pour accéder à l’élément à l’indice 2. Nous verrons qu'il s'agit de la même méthodes que pour les DataFrames.

In [9]:
s.iloc[2]

np.int64(30)

### Création d’un DataFrame

Le `DataFrame` est l’objet central de Pandas. On peut le créer de multiples façons, par exemple à partir d’un dictionnaire de listes :

In [10]:
data = {
    "nom": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "ville": ["Paris", "Lyon", "Marseille"]
}

df = pd.DataFrame(data)

In [11]:
df

Unnamed: 0,nom,age,ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


Il faut noter que les listes doivent être de même longueur, sinon une erreur sera levée.

In [12]:
data = {
    "nom": ["Alice", "Bob", "Charlie"],
    "age": [25, 35],
    "ville": ["Paris", "Lyon", "Marseille"]
}

df = pd.DataFrame(data)

ValueError: All arrays must be of the same length

Si l'on observe d'un peu plus près de le type de données utilisé dans la Series, on peut voir qu'ils ne sont pas tout à fait identiques à ceux utiliser d'habitude en Python :
- np.int64 pour les entiers
- np.float64 pour les flottants
- object pour les chaînes de caractères

Cela est dû au fait que Pandas utilise NumPy pour stocker les données.

In [None]:
data = {
    "nom": ["Alice", "Bob", "Charlie"],
    "age": [25, 28, 35],
    "score": [18.0, 15.0, 12.0]
}

df = pd.DataFrame(data)

In [None]:
df['age'].iloc[1]

In [None]:
df.dtypes

On peut également créer un DataFrame à partir d’un tableau NumPy, ou encore, et c’est très courant, à partir d’un fichier CSV :

In [None]:
import numpy as np

data = np.random.randn(5, 3)
data


In [None]:
df = pd.DataFrame(data, columns=["A", "B", "C"])
df

In [None]:
df = pd.read_csv("mon_csv.csv")
df

## Exploration et Premières Manipulations

### Aperçu des données

Quelques méthodes utiles :

- `df.shape` : renvoie le tuple (nombre_de_lignes, nombre_de_colonnes)

- `df.head()` : affiche les premières lignes (par défaut 5)

- `df.tail()` : affiche les dernières lignes (par défaut 5)

- `df.describe()` : statistiques descriptives des colonnes numériques

- `df.info()` : affiche un résumé du DataFrame (types, nombre de valeurs non-nulles)


In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.describe()

In [None]:
df.info()

### Sélection de données

- Pour sélectionner une colonne :

In [None]:
df['col_1']

On peut voir que Pandas renvoie une Series lorsqu’on sélectionne une colonne.

- Pour sélectionner plusieurs colonnes :

In [None]:
df[["col_1", "col_2"]]

Cette fois, Pandas renvoie un DataFrame mais avec seulement les colonnes sélectionnées.

- Pour sélectionner des lignes selon leur position :

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:3]

- Pour sélectionner des lignes selon un label d’index (si l'index est par défaut (0,1,2,...), loc et iloc se comportent de façon semblable) :

In [None]:
df.loc[0]

Mais la méthode `loc` permet de sélectionner des lignes selon un label d’index, et non pas selon leur position. Cela peut être utile si l’index est une chaîne de caractères par exemple.

In [None]:
df_2 = df.set_index("col_1")
df_2

In [None]:
df_2.loc["a"]

In [None]:
df_2.loc["e": "g"]

Elle peut également être utilisée pour sélectionner des lignes selon une condition :

In [None]:
df_2.loc["e": "g", "col_3"]

- Sélection conditionnelle :

In [None]:
df[df["col_1"] == "o"]

In [None]:
df[(df["col_2"] > 50) & (df["col_2"] <= 100)]

### Manipulation de DataFrames

- Ajouter une colonne :

In [None]:
df["col_4"] = [30000, 32000, 40000, 28000, 35000, 37000] * 4
df["col_5"] = [30000, 32000, 40000, 28000, 35000, 37000] * 4
df

- Supprimer une colonne (deux méthodes possibles, la première en utilisant `drop()` de Pandas et la seconde en utilisant `del` de Python) :

In [None]:
df.drop("col_4", axis=1)

Avec `drop()` nous sommes toujours obligé de préciser l'axe sur lequel supprimer les données, `1` pour les colonnes et `0` pour les lignes.

In [None]:
del df["col_5"]

In [None]:
df

On peut voir que `col_5` a bien été supprimée du Dataframe mais pas `col_4`, seriez-vous dire pourquoi?

- Renommer des colonnes :

In [None]:
df = df.rename(columns={"col_1": "letter"})
df

Nous pouvosn également donner directement un dictionnaire à la méthode `rename()` pour renommer plusieurs colonnes en une seule fois.

In [None]:
col_rename = {
    "col_2": "count",
    "col_3": "value",
    "col_4": "estimated_value",
}

df = df.rename(columns=col_rename)
df

- Trier les données :

In [None]:
df.sort_values(by="count", ascending=False)

In [None]:
df

La fonction `sort_values()` ne s'applique pas automatiquement sur le DataFrame, il faut donc le réaffecter à une variable pour que les modifications soient prises en compte.

In [None]:
df = df.sort_values(by="estimated_value", ascending=True)
df

L'ordre des index est conservé lors du tri, si vous souhaitez réinitialiser les index, vous pouvez utiliser la méthode `reset_index()`.

In [None]:
df.reset_index(inplace=True)
df

Le paramètre `inplace=True` permet de modifier le DataFrame directement sans avoir à le réaffecter à une variable avec `df = df.sort_values()`. Néanmoins l'on peut voir qu'une nouvelle colonne `index` a été ajoutée, pour éviter cela, on peut soit réaffecter notre df en supprimant cette nouvelle colonne.

In [None]:
df = df.drop("index", axis=1)
df

Ou simplement utiliser `reset_index(drop=True)`. Les deux paramètres sont évidemment cumulables ce qui permet de réinitialiser les index et de supprimer l'ancienne colonne index et donc d'aller plus vite.

In [None]:
df.sort_values(by="value", inplace=True, ascending=True)
df

In [None]:
df.reset_index(inplace=True, drop=True)
df

On peut observer que le tri sur la colonne value ne s'est pas correctement effectué. Les valeurs comme `2,2` se trouve avant `20,14`. Savez-vous pourquoi?

## Nettoyage et Préparation des Données

La préparation des données est souvent l’étape la plus longue dans un projet d’analyse. Pandas offre des méthodes puissantes pour gérer les valeurs manquantes, convertir les types, etc.

### Gestion des doublons

In [None]:
df.duplicated()

In [None]:
df.duplicated(subset=["letter"])

In [None]:
df.drop_duplicates(subset=["letter"], inplace=True)
df

### Gestion des valeurs manquantes

- Détecter les valeurs manquantes :

In [None]:
df.isna()

Ici les valeurs du Dataframe sont remplacées par des booléens, `True` si la valeur est manquante et `False` sinon. On peut également utiliser la méthode `isna().sum()` pour visualiser le nombre de valeurs manquantes par colonne.

In [None]:
df.isna().sum()

- Supprimer les lignes contenant des valeurs manquantes (df.dropna() permet de supprimer les lignes contenant des valeurs manquantes. On peut également utiliser l'argument `subset` pour ne considérer que certaines colonnes.) :

In [None]:
df.dropna(subset=["value"], inplace=True)
df

- Remplacer (imputer) les valeurs manquantes :

In [None]:
df["count"] = df["count"].fillna(df["count"].mean())
df

### Nettoyage des données textuelles


- Manipulation de chaînes :

In [None]:
df['name'] = ["Alice", "Bob", "Charlie", "David", "Eve", "ro ger", "albERT", "AL                                ICE", "CHARLIE", "benjamin", "Jérémy", "Alice\n   ", "Bob", "Charlie  ", "David", "Eve", "roger", "\talbERT\n", "ALICE", "BOB"]
df

In [None]:
df["name"] = df["name"].str.strip() # enlève les mises en forme comme les retours à la ligne, les espaces en début et fin de chaîne
df

In [None]:
df["name"] = df["name"].str.upper() # mettre en minuscule (lower pour mettre en majuscule)
df

In [None]:
df["name"] = df["name"].str.replace(" ", "")  # remplacer espaces par rien
df

### Gestion des types

- Vérifier les types :

In [None]:
df.dtypes

- Convertir un type :

In [None]:
df['count'] = df['count'].astype(int)
df

Lorsque le type peut être converti implicitement, on peut utiliser directement la méthode `astype()`. Enxemple ici, on passe d'un type `float64` à `int64`. Mais ce n'est pas toujours possible sans effectuer de modifications :

In [None]:
df['value'] = df['value'].astype(float)
df

In [None]:
df['value'] = df['value'].str.replace(",", ".")
df['value'] = df['value'].astype(float)
df

In [None]:
df.dtypes

## Opérations Avancées sur les Données

### Opérations Arithmétiques et Statistiques

Pandas facilite les calculs sur des colonnes :

In [None]:
moyenne_count = df["count"].mean()
median_count = df["count"].median()
ecart_type = df["count"].std()
min_count = df["count"].min()
max_count = df["count"].max()

moyenne_count, median_count, ecart_type, min_count, max_count

Pour appliquer une fonction personnalisée sur chaque élément d’une colonne :

In [None]:
def add_one(x):
    return x + 1

df["modified_count"] = df["count"].apply(add_one)
df

Cela fonctionne également avec les fonctions lambda :

In [None]:
df["modified_count"] = df["modified_count"].apply(lambda x: x * 3)
df

Et avec plusieurs colonnes :

In [None]:
df["name_and_count"] = df["name"] + " - " + df["count"].astype(str)
df

### Regroupement et Agrégation (GroupBy)

Pour regrouper et agréger :

In [None]:
grouped = df.groupby("name")
grouped

In [None]:
grouped.groups

Ici l'objet retourné est un objet `DataFrameGroupBy`, il n'affiche pas directement les données mais les stocke en mémoire. Pour afficher les données, il faut appliquer une méthode d'agrégation.

In [None]:
grouped.count()

In [None]:
grouped[["count", "value"]].mean()

On peut aussi faire plusieurs agrégations :

In [None]:
stats = grouped.agg({
    "value": ["mean", "sum"],
    "count": ["min", "max"]
})

stats

### Fusion et Jointures de DataFrames

- Concaténation (empiler verticalement) :

In [None]:
df_1 = pd.DataFrame({
    "name": ["Alice", "Bob", "Charlie", "Henry"],
    "age": [25, 30, 35, 21],
    "ville": ["Marseille", "Lyon", "Marseille", "Lille"]
})

df_2 = pd.DataFrame({
    "name": ["Benjamin", "Jérémy", "Charles"],
    "age": [42, 20, 38],
    "ville": ["Lille", "Calais", "Marseille"]
})

df_3 = pd.concat([df_1, df_2])
df_3

- Jointures (similaires aux jointures SQL) :

In [None]:
merged = pd.merge(df_1, df_2, on="ville", how="inner")
merged

Les options `how` peuvent être `inner`, `left`, `right`, ou `outer`.

### Reshape des Données

- Créer des tableaux croisés dynamiques :

In [None]:
df

In [None]:
pivot = df.pivot_table(values="count", index="name", columns="estimated_value", aggfunc="mean")
pivot

## Visualisation avec Pandas

Pandas s’intègre parfaitement avec Matplotlib pour tracer des graphiques simples :

In [None]:
!pip install matplotlib
import matplotlib.pyplot as plt

In [None]:
df["value"].plot(kind='line')

Types courants :  

In [None]:
df["modified_count"].plot(kind='hist')

In [None]:
df["modified_count"].plot(kind='pie')

In [None]:
df.plot.scatter(x="name", y="modified_count")

## Sauvegarde des Résultats

Une fois votre analyse terminée, vous pouvez exporter vos données nettoyées, agrégées, prêtes pour un rapport :

In [None]:
df.to_csv("resultats.csv", index=False)

## Pour aller plus loin

Pandas est une bibliothèque très riche, nous n’avons vu ici que les bases. Elle permets de faire bien plus de choses, comme :

- Des analyses de corrélations, exemple :

In [None]:
df.select_dtypes('number').corr()

- Des analyses de covariance, exemple :

In [None]:
df.select_dtypes('number').cov()

Vous pouvez le combiner à plein d'autres bibliothèques pour mettre en avant vos données, comme Matplotlib, Seaborn, Plotly, etc.

In [None]:
!pip install seaborn
import seaborn as sns

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(df.select_dtypes('number').corr(), 
            annot=True,
            cmap="Blues",
            fmt=".2f",
            linewidths=.5)

plt.title("Heatmap de la matrice de corrélation")
plt.show()

Et bien plus encore. Pour aller plus loin, vous pouvez consulter la documentation officielle de Pandas : https://pandas.pydata.org/docs/