# Équivalences R (dplyr) / Python (pandas) – Code Jupyter Notebook
Ce notebook contient tous les extraits de code Python issus de l'article comparatif sur la manipulation de données.

## Création du DataFrame
On crée un tableau de données avec des colonnes textuelles, numériques et de dates.

In [1]:
import pandas as pd

df = pd.DataFrame({
    "nom": ["Anna", "Bertrand", "Claire", "Daniel"],
    "age": [28, 34, 29, 42],
    "ville": ["Paris", "Nice", "Lille", "Toulouse"],
    "naissance": pd.to_datetime(["1996-02-10", "1990-06-23", "1995-12-05", "1982-09-16"])
})
df

Unnamed: 0,nom,age,ville,naissance
0,Anna,28,Paris,1996-02-10
1,Bertrand,34,Nice,1990-06-23
2,Claire,29,Lille,1995-12-05
3,Daniel,42,Toulouse,1982-09-16


## Sélection de colonnes
On extrait uniquement les colonnes `nom` et `age`.

In [2]:
df[["nom", "age"]]

Unnamed: 0,nom,age
0,Anna,28
1,Bertrand,34
2,Claire,29
3,Daniel,42


## Filtrage de lignes
On sélectionne les individus de plus de 30 ans n'habitant pas à Paris.

In [3]:
df[(df["age"] > 30) & (df["ville"] != "Paris")]

Unnamed: 0,nom,age,ville,naissance
1,Bertrand,34,Nice,1990-06-23
3,Daniel,42,Toulouse,1982-09-16


## Création d'une nouvelle colonne
On ajoute une colonne `age_plus_10`.

In [4]:
df["age_plus_10"] = df["age"] + 10
df

Unnamed: 0,nom,age,ville,naissance,age_plus_10
0,Anna,28,Paris,1996-02-10,38
1,Bertrand,34,Nice,1990-06-23,44
2,Claire,29,Lille,1995-12-05,39
3,Daniel,42,Toulouse,1982-09-16,52


## Extraction d'informations depuis les dates
On ajoute les colonnes année, mois et jour de naissance.

In [5]:
df["annee"] = df["naissance"].dt.year
df["mois"] = df["naissance"].dt.month
df["jour"] = df["naissance"].dt.day
df

Unnamed: 0,nom,age,ville,naissance,age_plus_10,annee,mois,jour
0,Anna,28,Paris,1996-02-10,38,1996,2,10
1,Bertrand,34,Nice,1990-06-23,44,1990,6,23
2,Claire,29,Lille,1995-12-05,39,1995,12,5
3,Daniel,42,Toulouse,1982-09-16,52,1982,9,16


## Calcul de l'âge exact
On calcule l'âge à partir de la date de naissance, en tenant compte du mois et du jour.

In [6]:
from datetime import date

df['age_exact'] = df['naissance'].apply(
    lambda d: date.today().year - d.year - ((date.today().month, date.today().day) < (d.month, d.day))
)
df

Unnamed: 0,nom,age,ville,naissance,age_plus_10,annee,mois,jour,age_exact
0,Anna,28,Paris,1996-02-10,38,1996,2,10,29
1,Bertrand,34,Nice,1990-06-23,44,1990,6,23,34
2,Claire,29,Lille,1995-12-05,39,1995,12,5,29
3,Daniel,42,Toulouse,1982-09-16,52,1982,9,16,42


## Manipulations de chaînes de caractères
On modifie la casse, calcule la longueur des prénoms, et extrait les 3 premières lettres.

In [7]:
df["nom_majuscules"] = df["nom"].str.upper()
df["nom_minuscules"] = df["nom"].str.lower()
df["longueur_nom"] = df["nom"].str.len()
df["trois_premiers"] = df["nom"].str[:3]
df

Unnamed: 0,nom,age,ville,naissance,age_plus_10,annee,mois,jour,age_exact,nom_majuscules,nom_minuscules,longueur_nom,trois_premiers
0,Anna,28,Paris,1996-02-10,38,1996,2,10,29,ANNA,anna,4,Ann
1,Bertrand,34,Nice,1990-06-23,44,1990,6,23,34,BERTRAND,bertrand,8,Ber
2,Claire,29,Lille,1995-12-05,39,1995,12,5,29,CLAIRE,claire,6,Cla
3,Daniel,42,Toulouse,1982-09-16,52,1982,9,16,42,DANIEL,daniel,6,Dan


## Agrégation par ville
On calcule la moyenne d'âge et le nombre de personnes par ville.

In [8]:
df.groupby("ville").agg(
    moyenne_age=("age", "mean"),
    nombre_personnes=("nom", "count")
).reset_index()

Unnamed: 0,ville,moyenne_age,nombre_personnes
0,Lille,29.0,1
1,Nice,34.0,1
2,Paris,28.0,1
3,Toulouse,42.0,1


## Fusion de données avec un autre DataFrame
On ajoute une colonne région en fusionnant sur la ville.

In [9]:
regions = pd.DataFrame({
    "ville": ["Paris", "Nice", "Lille", "Toulouse"],
    "region": ["Île-de-France", "PACA", "Hauts-de-France", "Occitanie"]
})
df = df.merge(regions, on="ville", how="left")
df

Unnamed: 0,nom,age,ville,naissance,age_plus_10,annee,mois,jour,age_exact,nom_majuscules,nom_minuscules,longueur_nom,trois_premiers,region
0,Anna,28,Paris,1996-02-10,38,1996,2,10,29,ANNA,anna,4,Ann,Île-de-France
1,Bertrand,34,Nice,1990-06-23,44,1990,6,23,34,BERTRAND,bertrand,8,Ber,PACA
2,Claire,29,Lille,1995-12-05,39,1995,12,5,29,CLAIRE,claire,6,Cla,Hauts-de-France
3,Daniel,42,Toulouse,1982-09-16,52,1982,9,16,42,DANIEL,daniel,6,Dan,Occitanie
