# Introduction à Pandas
Pandas est une bibliothèque Python essentielle pour la manipulation et l'analyse de données tabulaires.

In [1]:
# Importation de Pandas
import pandas as pd

## 1. Création et affichage d’un DataFrame

In [2]:
# Création d'un DataFrame à partir d'un dictionnaire
donnees = {
    "Nom": ["Alice", "Bob", "Charlie"],
    "Âge": [25, 30, 35],
    "Ville": ["Paris", "Lyon", "Marseille"]
}
df = pd.DataFrame(donnees)
df

Unnamed: 0,Nom,Âge,Ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


## 2. Chargement et enregistrement de fichiers CSV et Excel

In [3]:
# Enregistrer le DataFrame en CSV
df.to_csv("donnees.csv", index=False)

# Charger un fichier CSV
df_csv = pd.read_csv("donnees.csv")
df_csv

Unnamed: 0,Nom,Âge,Ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


## 3. Sélection et filtrage des données

In [4]:
# Sélectionner une colonne
ages = df["Âge"]
ages

0    25
1    30
2    35
Name: Âge, dtype: int64

In [5]:
# Filtrer les lignes où l’âge est supérieur à 28 ans
df_filtre = df[df["Âge"] > 28]
df_filtre

Unnamed: 0,Nom,Âge,Ville
1,Bob,30,Lyon
2,Charlie,35,Marseille


## 4. Manipulation et transformation des données

In [6]:
# Ajouter une nouvelle colonne
df["Salaire"] = [3000, 3500, 4000]
df

Unnamed: 0,Nom,Âge,Ville,Salaire
0,Alice,25,Paris,3000
1,Bob,30,Lyon,3500
2,Charlie,35,Marseille,4000


In [7]:
# Modifier les valeurs d’une colonne
df["Âge"] = df["Âge"] + 1  # Incrémente chaque âge de 1
df

Unnamed: 0,Nom,Âge,Ville,Salaire
0,Alice,26,Paris,3000
1,Bob,31,Lyon,3500
2,Charlie,36,Marseille,4000


## 5. Regroupement et calculs statistiques

In [8]:
# Regrouper les données par ville et calculer la moyenne d’âge
df_grouped = df.groupby("Ville")["Âge"].mean()
df_grouped

Ville
Lyon         31.0
Marseille    36.0
Paris        26.0
Name: Âge, dtype: float64

## 6. Séries temporelles avec Pandas

In [9]:
# Création d'un DataFrame avec des dates
dates = pd.date_range(start="2023-01-01", periods=10, freq="D")
data = {"Valeur": range(10)}
df_time = pd.DataFrame(data, index=dates)
df_time

Unnamed: 0,Valeur
2023-01-01,0
2023-01-02,1
2023-01-03,2
2023-01-04,3
2023-01-05,4
2023-01-06,5
2023-01-07,6
2023-01-08,7
2023-01-09,8
2023-01-10,9


## 7. Resampling des Séries Temporelles
Le resampling permet de modifier la fréquence des données temporelles, en les agrégant (downsampling) ou en les interpolant (upsampling).

In [10]:
# Création d'un DataFrame avec des données journalières
import pandas as pd
import numpy as np

dates = pd.date_range(start="2023-01-01", periods=10, freq="D")
data = {"Valeur": np.random.randint(1, 100, size=10)}
df_time = pd.DataFrame(data, index=dates)
df_time

Unnamed: 0,Valeur
2023-01-01,10
2023-01-02,74
2023-01-03,84
2023-01-04,35
2023-01-05,66
2023-01-06,20
2023-01-07,48
2023-01-08,46
2023-01-09,15
2023-01-10,61


In [11]:
# Downsampling : Conversion en fréquence mensuelle avec la moyenne
df_resampled = df_time.resample("M").mean()
df_resampled

Unnamed: 0,Valeur
2023-01-31,45.9


In [12]:
# Upsampling : Conversion en fréquence horaire avec remplissage forward-fill
df_upsampled_ffill = df_time.resample("H").ffill()
df_upsampled_ffill.head(10)

Unnamed: 0,Valeur
2023-01-01 00:00:00,10
2023-01-01 01:00:00,10
2023-01-01 02:00:00,10
2023-01-01 03:00:00,10
2023-01-01 04:00:00,10
2023-01-01 05:00:00,10
2023-01-01 06:00:00,10
2023-01-01 07:00:00,10
2023-01-01 08:00:00,10
2023-01-01 09:00:00,10


In [13]:
# Upsampling avec interpolation linéaire
df_upsampled_interp = df_time.resample("H").interpolate(method="linear")
df_upsampled_interp.head(10)

Unnamed: 0,Valeur
2023-01-01 00:00:00,10.0
2023-01-01 01:00:00,12.666667
2023-01-01 02:00:00,15.333333
2023-01-01 03:00:00,18.0
2023-01-01 04:00:00,20.666667
2023-01-01 05:00:00,23.333333
2023-01-01 06:00:00,26.0
2023-01-01 07:00:00,28.666667
2023-01-01 08:00:00,31.333333
2023-01-01 09:00:00,34.0
