# **Manipulation des Données avec pandas et DataFrames**
Ce notebook est une mini formation sur `pandas`, illustrée avec des exemples pratiques.
Ne pas hésiter à modifier, créer, transformer, tester des choses... Il n'y a rien de mieux pour apprendre :)


## **1. Installation et importation**

In [1]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np

## **2. Création et Lecture des DataFrames**

### **2.1 Création d'un DataFrame à partir d'un dictionnaire**

In [3]:

data = {
    "nom": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "ville": ["Paris", "Lyon", "Marseille"]
}
df = pd.DataFrame(data)
df


Unnamed: 0,nom,age,ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


### **2.2 Lecture de fichiers dans pandas**

In [4]:

# Lecture d'un fichier CSV (Remplacez 'data.csv' par un fichier réel)
# df = pd.read_csv("data.csv")

# Lecture d'un fichier JSON
# df = pd.read_json("data.json")

# Lecture d'un fichier Excel
# df = pd.read_excel("data.xlsx", sheet_name="Sheet1")

# Lecture d'un fichier Parquet
# df = pd.read_parquet("data.parquet")


## **3. Exploration et Analyse des DataFrames**

In [5]:

df.info()  # Affiche les types de données et les valeurs nulles
df.describe()  # Statistiques sur les colonnes numériques
df.head()  # Affiche les premières lignes
df.columns  # Liste des colonnes


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nom     3 non-null      object
 1   age     3 non-null      int64 
 2   ville   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


Index(['nom', 'age', 'ville'], dtype='object')

### **3.2 Sélection et Extraction de Données**

In [6]:

# Sélection d'une colonne
df["nom"]

# Sélection de plusieurs colonnes
df[["nom", "ville"]]

# Sélection d'une ligne avec .loc et .iloc
df.loc[1]  # Par index
df.iloc[1]  # Par position


nom       Bob
age        30
ville    Lyon
Name: 1, dtype: object

## **4. Manipulation et Transformation des Données**

In [7]:

# Ajout d'une colonne
df["salaire"] = [3000, 3500, 4000]

# Suppression d'une colonne
df.drop(columns=["salaire"], inplace=True)

# Remplacement des valeurs nulles
df.fillna(0, inplace=True)

# Suppression des doublons
df.drop_duplicates(inplace=True)


### **5.1 GroupBy et Agrégations**

In [8]:

# Moyenne d'une colonne par catégorie
df.groupby("ville")["age"].mean()

# Agrégations multiples
df.groupby("ville").agg({"age": ["mean", "min", "max"]})


Unnamed: 0_level_0,age,age,age
Unnamed: 0_level_1,mean,min,max
ville,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Lyon,30.0,30,30
Marseille,35.0,35,35
Paris,25.0,25,25


### **5.2 Fusion et Jointure de DataFrames**

In [9]:

df1 = pd.DataFrame({"id": [1, 2, 3], "nom": ["Alice", "Bob", "Charlie"]})
df2 = pd.DataFrame({"id": [1, 2, 4], "salaire": [3000, 3500, 4000]})

df_merged = pd.merge(df1, df2, on="id", how="left")
df_merged


Unnamed: 0,id,nom,salaire
0,1,Alice,3000.0
1,2,Bob,3500.0
2,3,Charlie,


## **6. Optimisation et Bonnes Pratiques**

In [10]:

# Réduction de la mémoire utilisée
df["age"] = df["age"].astype("int32")
df["nom"] = df["nom"].astype("category")

# Chargement de gros fichiers en morceaux
chunk_size = 100000  # Lire 100 000 lignes à la fois
# for chunk in pd.read_csv("big_file.csv", chunksize=chunk_size):
#     process(chunk)


## **7. Sauvegarde des Données**

In [11]:

# Export en CSV
df.to_csv("output.csv", index=False)

# Export en JSON
df.to_json("output.json", orient="records", lines=True)

# Export en Excel
df.to_excel("output.xlsx", index=False)


`pandas` est un outil puissant pour manipuler des données en Python.
Essayez de modifier les cellules pour tester d'autres transformations ! 🚀