# 5 - Manipulation de données avec Pandas

[Pandas](https://pandas.pydata.org/) est une bibliothèque Python essentielle pour la manipulation et l'analyse de données. Elle permet de travailler avec des tableaux à deux dimensions, appelés DataFrames, où chaque ligne représente un enregistrement et chaque colonne un champ.

Dans ce notebook, nous allons voir comment manipuler des DataFrames avec Pandas. Nous allons apprendre à lire et écrire des données, à sélectionner, filtrer, trier et regrouper des données, à calculer des statistiques et à fusionner des DataFrames.

<style>
.notion-blockquote {
    background-color: #f9f9f9;
    border-left: 5px solid #ccc;
    padding: 10px;
    font-style: italic;
    color: #555;
}
</style>

<div class="notion-blockquote">
    <strong>Notions fondamentales</strong>
    <ul>
        <li><strong>Installation et importation de Pandas</strong> : Savoir comment installer Pandas et l'importer dans un script Python.</li>
        <li><strong>Création de DataFrames</strong> : Comprendre comment créer des DataFrames à partir de diverses sources de données (CSV, Excel, JSON, etc.).</li>
        <li><strong>Sélection de données</strong> : Maîtriser les différentes méthodes de sélection de données dans un DataFrame (par index, par nom de colonne, avec <code>loc</code>, <code>iloc</code>, etc.).</li>
        <li><strong>Manipulation de colonnes</strong> : Savoir ajouter, modifier et supprimer des colonnes dans un DataFrame.</li>
        <li><strong>Filtrage et tri des données</strong> : Apprendre à filtrer les données en fonction de conditions et à trier les DataFrames.</li>
        <li><strong>Gestion des valeurs manquantes</strong> : Comprendre comment identifier et traiter les valeurs manquantes dans un DataFrame.</li>
        <li><strong>Aggrégation de données</strong> : Utiliser des fonctions d'agrégation pour calculer des statistiques sur des groupes de données.</li>
    </ul>
</div>

Nous allons étudier cette librairie en nous basant sur les données des communes de France.

Nous allons ensuite sur 2 cas d'usage:
- Cas d'usage n°1: Voici à quoi ressemblerait le monde si la glace continentale venait à fondre.
- Cas d'usage n°2: Les Tonnes de marchandises transportées comme indicateur de la situation économique - Jean-Marc Jancovici


# Introduction à Pandas

- Lire un DataFrame
- Afficher les premières lignes
- Afficher les dernières lignes
- Afficher les informations du DataFrame
- Afficher les statistiques du DataFrame

In [None]:
import pandas as pd

# Lire un DataFrame à partir d'un fichier CSV
df = pd.read_csv("data/communes-france-2025.csv")

In [None]:
# Afficher les 3 premières lignes du DataFrame
df.head(3)

In [None]:
# Afficher les 3 dernières lignes du DataFrame
df.tail(3)

In [None]:
# Aperçu statistique des colonnes numériques
df.describe(include="all")

In [None]:
# Afficher les noms des colonnes
df.columns

# Manipuler les données

## 1 - Sélection & filtres

Il est possible de sélectionner les éléments d'un tableau Pandas de multiples manières:

- `df[debut:fin:pas]` : sélectionne les lignes indiquées
- `df[<liste de noms de colonnes>]` : sélectionne les colonnes indiquées
- `df['nom de colonne']` : sélectionne une colonne
- `df.nom_de_colonne` : sélectionne une colonne (sous réserve que le nom n'a pas de caractère de ponctuation)
ou encore avec `loc`, `iloc`, `at`, `iat`

### Exemple de sélection
- Sélectionner des lignes spécifiques
- Sélectionner des colonnes spécifiques

In [None]:
# Sélectionner des lignes spécifiques
df[10:20:2]

In [None]:
# Sélectionner des colonnes spécifiques
cols = [
    "code_insee",
    "nom_standard",
    "latitude_mairie",
    "longitude_mairie",
    "altitude_minimale",
    "altitude_maximale",
]
df[cols]

On peut mixer les sélections de lignes et de colonnes...

In [None]:
# Sélectionner des lignes et des colonnes spécifiques
df[cols][10:20:2]

In [None]:
# Utiliser les noms des colonnes avec loc
df.loc[10:20:2, cols]

Une colonne ou une ligne d'un DataFrame Pandas est un vecteur numpy avec un index des lignes.  
Son type s'appelle une `Série`.

In [None]:
# Vérifier le type d'une colonne
type(df["code_insee"])  # Une colonne est un objet Series

In [None]:
# Vérifier le type d'une ligne
type(df.iloc[0])  # Une ligne est un objet Series

In [None]:
# Sélectionner une colonne
population = df["population"]
population

In [None]:
# Afficher toutes les méthodes disponibles pour un objet Series
print(dir(population))

Il est possible de manipuler les colonnes numériques comme des tableaux 
numpy, l'index sert juste à la sélection

In [None]:
# Afficher les premières lignes de la colonne population
population.head()

## 2 - Opérations

Il est possible d'effectuer des opérations facilement sur les données numériques et également d'effectuer des opérations sur les colonnes (min, max etc ...)

In [None]:
# Multiplier les valeurs de la colonne population par 100
r = population * 100
r.head()

In [None]:
# Calculer des statistiques sur la colonne population
min_pop, max_pop, sum_pop, std_pop, avg_pop = (
    population.min(),
    population.max(),
    population.sum(),
    population.std(),
    population.mean(),
)

print(f"La ville ayant la plus petite population a {min_pop} habitants.")
print(f"La ville ayant la plus grande population a {max_pop} habitants.")
print(f"La population totale est de {sum_pop} habitants.")
print(f"L'écart-type de la population est de {std_pop:.2f} habitants.")
print(f"La population moyenne est de {avg_pop:.2f} habitants / ville.")

Et aussi, comme pour numpy, d'appliquer des conditions

In [None]:
# Appliquer une condition sur la colonne population
cond = population >= 1000
cond.head()

Ce qui permet de faire des sélections sans écrire aucune boucle `for`.  

Si vous écrivez une boucle `for` avec *Pandas* c'est que vous vous y prenez mal...


In [None]:
# Sélectionner les villes avec une population supérieure à 200 000
df[df.population >= 200_000]

#### Exercice

1. Créer un nouveau dataframe contenant uniquement les colonnes: `nom_standard`, `population`, `superficie_km2`, `densite`

2. Calculer une approximation de la population en vous basant sur la densité de population & la superficie de la ville

3. Quel est l'écart moyen et l'écart type entre la population réelle et la population calculée ? 

4. Quelle est la superficie moyenne et la densité moyenne des villes ayant plus de 200 000 habitants ? Des villes de moins de 15 000 habitants ?



In [None]:
### A vous de jouer

## 3 - Visualisation

Il est possible de visualiser les données avec Pandas, notamment avec des graphiques simples.

In [None]:
import matplotlib.pyplot as plt

# Définir un seuil de population
min_treshold = 200_000

# Créer un graphique à barres pour les villes avec une population supérieure au seuil
df[df.population >= min_treshold].plot(
    kind="bar",
    x="nom_standard",
    y="population",
    title=f"Villes de plus de {min_treshold} habitants",
    xlabel="Ville",
    ylabel="Population",
)

In [None]:
# Créer un histogramme pour les villes avec une population inférieure ou égale à 10 000
df[df.population <= 10_000].plot(
    kind="hist",
    y="population",
    bins=500,
    title="Répartition de la population des communes",
    xlabel="Population",
    ylabel="Nombre de communes",
)

### Exercice

##### 1. Affichez la carte de France des villes avec matplotlib représentée par un nuage de points.
Sachant que les colonnes d'un tableau Pandas peuvent être passées directement en paramètres des fonctions de matplotlib:

- 1.a. Afficher un point par ville (latitude_mairie et longitude_mairie)

- 1.b., avec une taille proportionnelle à la population (population)

- 1.c., avec une couleur liée à l'altitude (altitude_maximale)

### Si vous avez déjà fini:

##### 2. Affichez la carte de France métropolitaine représentée par un nuage de points.
Selectionnez uniquement les départements de France métropolitaine (code département < 100)

Répétez les mêmes graphiques, attention au type de dep_code

Vous pourriez avoir besoin de relire le fichier des villes en précisant le type de la colonne département ou de modifier la colonne en changeant son type

##### 3. Ajouter sur le graphique en rouge les villes ayant plus de 500 000 habitants

##### 4. Calculer la population de votre département

##### 5. Calculer l'altitude la plus haute et lister les villes à cette altitude

##### 6. Lister les 10 villes les plus peuplées en 2012.
Méthodes utiles:
- sort_values
- nlargest


In [None]:
### A vous de jouer !

## 4. Agrégations

Il est possible d'appliquer des fonctions sur des groupes de lignes et colonnes:
* Pour cela il convient de grouper les lignes sur certains critères (une valeur commune).  
* Dans ce cas la fonction s'appliquera sur chacun des groupes définis par l'aggrégation.

In [None]:
# Calculer la population totale de chaque département : Mauvaise solution
import time

start_time = time.time()

population_par_departement = {}

for ind, d in enumerate(df.dep_code.unique()):
    population_par_departement[d] = df[df.dep_code == d].population.sum()

print("Temps d'exécution:", time.time() - start_time, "s.")

Cette solution n'est pas fabuleuse, il faut éviter les boucles for avec pandas.

Pour cela il est possible de regrouper les enregistrements par département grâce à la fonction groupby.

In [None]:
# Regrouper les enregistrements par département
dep_code_gr = df.groupby("dep_code")
type(dep_code_gr)

La variable deps est un dictionnaire (un peu évolué) contenant en clefs les valeurs uniques des départements et en valeurs les numéros de lignes des enregistrements de ce département

In [None]:
# Afficher les groupes pour quelques départements
for ind, (k, v) in enumerate(dep_code_gr.groups.items()):
    print(k, v)
    if ind >= 3:
        break

Il est maintenant possible d'appliquer des fonctions sur deps, elles seront appliquées sur chaque groupe du dictionnaire

In [None]:
# Calculer la somme des valeurs pour chaque département
values = ["superficie_km2", "population"]
dep_code_gr[values].sum()

La fonction `aggregate` permet quant-à elle de personnaliser les fonctions appliquées par colonne:

In [None]:
# Appliquer des fonctions personnalisées par colonne
r = dep_code_gr.aggregate(
    {"population": ["min", "max", "sum"], "densite": ["min", "max", "mean", "std"]}
)
r.head()

In [None]:
# Afficher les résultats pour la colonne densite
r["densite"].head()

In [None]:
# Vérifier le type des résultats
type(r["densite"].head())

# C'est un DataFrame MultiIndex

#### Exercice

1. Créer un nouveau DataFrame contenant uniquement les colonnes : dep_code, nom_standard, population.

2. Calculer la population totale par département.

3. Quel est le département avec la plus grande population ?

4. Calculer la moyenne de la population par département ? Quel est le département le plus peuplé en moyenne ? Le moins peuplé ?
    - En une ligne de code, afficher le nom du département le plus peuplé et le nom du département le moins peuplé.

5. Calculer les agrégations suivantes en une seule opération:
    - La population totale par département
    - La population moyenne par département
    - La population minimale d'une ville par département
    - La population maximale d'une ville par départ

In [None]:
### A vous de jouer

## 5. Ajout, suppression et modification de colonnes

Les colonnes d'un tableau Pandas se manipulent un peu comme pour un dictionnaire...

#### Ajout
Comme pour une clef d'un dictionnaire, on affecte la colonne.

In [None]:
# Afficher les noms des colonnes
df.columns

In [None]:
# Ajouter une nouvelle colonne
df["denivele"] = (
    df.altitude_maximale - df.altitude_minimale
)  # pd.DataFrame.__setitem__(self, key, value)
df[["nom_standard", "dep_code", "denivele", "altitude_maximale", "altitude_minimale"]]

### Modification

La modification est plus délicate, la sélection avec les simples crochets ne garantie pas de retourner les vraies données. Il est préférable d'utiliser les méthodes `loc` ou `iloc`.

In [None]:
# Modifier les valeurs de la colonne denivele pour certaines lignes
df[2:4]["denivele"] = 0

In [None]:
# Afficher les premières lignes pour vérifier la modification
df[
    ["nom_standard", "dep_code", "denivele", "altitude_maximale", "altitude_minimale"]
].head()

In [None]:
# Vérifier que la modification n'a pas été appliquée
df[2:4]["denivele"]  # non modifié

In [None]:
# Utiliser loc pour modifier les valeurs
df.loc[2:3, "denivele"] = 0  # loc inclue la borne de fin
df[2:4]["denivele"]

In [None]:
# Afficher des informations sur le DataFrame
df.info()

Voici un exemple plus explicite pour bien comprendre loc et iloc.

Créons un tableau contenant uniquement les lignes de 100 à 199.

In [None]:
# Créer un tableau contenant uniquement les lignes de 100 à 199
sv = df[100:200].copy()
sv.head()

In [None]:
# Afficher l'index du tableau
sv.index

- Dans ce tableau l'index des lignes commence à 100 et non plus à 0
loc utilisera cet index

- Tandis que les lignes de ce tableau ont toujours un indice qui commence à 0
iloc utilisera ces indices

In [None]:
# Utiliser loc pour sélectionner des lignes et des colonnes
sv.loc[101:103, ["dep_code", "nom_standard"]]  # 103 inclus !

In [None]:
# Utiliser iloc pour sélectionner des lignes et des colonnes
sv.iloc[1:4, [1, 3]]  # 4 non inclus !

#### Suppression d'une colonne
Comme pour une clef d'un dictionnaire

In [None]:
# Afficher la colonne denivele
df.denivele

In [None]:
# Supprimer la colonne denivele
del df["denivele"]

In [None]:
# Vérifier que la colonne a été supprimée
df.denivele

In [None]:
# Ajouter à nouveau la colonne denivele
df["denivele"] = df.altitude_maximale - df.altitude_minimale

In [None]:
# Supprimer la colonne denivele en utilisant drop
df = df.drop(columns=["denivele"], axis=1)

In [None]:
# Vérifier que la colonne a été supprimée
df.denivele

#### Exercice

1. Ajouter une nouvelle colonne population_par_km2 qui est le quotient de la population par la superficie en km².

2. Supprimer la colonne population_par_km2.

3. Ajouter une colonne est_grand qui vaut True si la superficie est supérieure à 100 km², sinon False.

4. Calculer le nombre de villes considérées comme grandes (est_grand est True).

In [None]:
### A vous de jouer

#### Manipuler les index

In [None]:
# Définir la colonne nom_standard comme index
vnoms = df.set_index(
    "nom_standard",  # la colonne nom devient l'index des lignes
    drop=False,  # la colonne nom reste dans le tableau
)
vnoms.head()

Par défaut, toutes les fonctions appliquées sur un tableau pandas retournent une copie des données SAUF si on leur passe le paramètre inplace=True

In [None]:
# Retourner une copie des données avec nom_standard comme index
df.set_index("nom_standard")

In [None]:
# Modifier le DataFrame en place avec nom_standard comme index
df.set_index("nom_standard", inplace=True)

In [None]:
# Afficher les premières lignes du DataFrame
df.head()

In [None]:
# Réinitialiser l'index
df.reset_index(inplace=True)

In [None]:
# Afficher le DataFrame
df

In [None]:
# Mesurer le temps d'exécution pour sélectionner une ville par son nom
%timeit r = df[df.nom_standard == 'Rouen']

In [None]:
# Définir nom_standard comme index et mesurer le temps d'exécution
df.set_index("nom_standard", inplace=True)
%timeit r = df.loc['Rouen']

In [None]:
# Afficher les premières lignes de la ville sélectionnée
df.loc["Rouen"].head(2)

In [None]:
# Afficher le DataFrame
df

### Exercice de cartographie
La librairie folium permet d'afficher des fonds de cartes à la GoogleMap/OpenStreetMap

#### A faire:

- Créer un jeu de données contenant uniquement les colonnes: nom_standard, latitude_mairie, longitude_mairie, population, grille_densite_texte
- Centrer la carte sur la moyenne des coordonnées des villes de France
- Utiliser les colonnes latitude_mairie et longitude_mairie
- Lister 5 villes au hasard parmis les 10 plus peuplées et 5 villes au hasard parmis les 10 moins peuplées
- Puis à l'aide de la fonction df.itertuples() afficher un marker par ville avec l'information de la densité de population

In [None]:
### A vous de jouer