# **Module 2 : Manipulation des donn√©es avec Pandas**
---

‚úÖ Objectif : Charger, explorer et manipuler des datasets.

## **Qu'est ce qu'une table de donn√©es ?**

Retenons que dans notre cas ici, nous appelerons table de donn√©es, un tableau (comme sur excel) avec :
- des lignes (**individus statistiques** : personnes, animaux, pays, ...) et 
- des colonnes (des cat√©gories d'informations appel√©es **variables**)

qui contient des informations sur un sujet donn√©es.

Imaginons un carnet de contacts :  

| ID | Nom      | Pr√©nom  | T√©l√©phone   | Ville    |  
|----|---------|--------|------------|---------|  
| 1  | Dupont  | Alice  | 0601020304 | Paris   |  
| 2  | Martin  | Bob    | 0611223344 | Lyon    |  
| 3  | Durand  | Charlie| 0622334455 | Marseille |  

Ici :  
- Chaque **ligne** repr√©sente une **entr√©e** (un contact).  
- Chaque **colonne** est un **type d‚Äôinformation** (Nom, Pr√©nom, T√©l√©phone‚Ä¶).  
- L‚ÄôID est un num√©ro unique pour identifier chaque personne.

üìå **Pourquoi utiliser une base de donn√©es ?**  
Lorsqu‚Äôon a **beaucoup d‚Äôinformations** √† g√©rer (ex : une liste de clients, des ventes, des r√©sultats d‚Äôexamens), il est plus efficace d‚Äôutiliser une base de donn√©es plut√¥t que de tout stocker dans un fichier texte ou une feuille Excel.  

Une base de donn√©es permet de :  
‚úÖ **Stocker** des donn√©es de mani√®re organis√©e.  
‚úÖ **Rechercher** rapidement des informations.  
‚úÖ **Mettre √† jour** des donn√©es sans tout modifier.  
‚úÖ **√âviter les erreurs** et les doublons.  


üìå **Types de bases de donn√©es**

- 1Ô∏è‚É£ **Les bases de donn√©es relationnelles (SQL)**  
  - Donn√©es organis√©es en **tables** (comme des feuilles Excel).  
  - On peut relier plusieurs tables entre elles.  
  - Exemples : **MySQL, PostgreSQL, SQLite, SQL Server**.  

- 2Ô∏è‚É£ **Les bases de donn√©es NoSQL**  
  - Moins structur√©es, adapt√©es aux **grandes quantit√©s de donn√©es**.  
  - Exemples : **MongoDB (stockage sous forme de documents JSON), Redis, Cassandra**.  


üìå **Comment utiliser une base de donn√©es avec Python ?**  
Avec Python, on peut manipuler des bases de donn√©es relationnelle avec :  
  - **Pandas** pour g√©rer des fichiers CSV et Excel.  

# $\Longrightarrow$ [*Retourner au d√©roul√©*](deroule.ipynb) $\Longleftarrow$

## **1 - Introduction √† Pandas : Series et DataFrame**

**pandas** est une biblioth√®que python qui permet de manipuler des bases de donn√©es sous forme de DataFrames (tableaux).

On peut :

- ‚úÖ **cr√©er une base de donn√©es**

| nom      | age  | ville   |
|---------|--------|------------|
| Alice  | 25  | Yaoude |  
| Bob  | 30    | Lom√© |  
| Charlie  | 35    | Ouidah |

In [14]:
import pandas as pd

# Cr√©ation d'un DataFrame avec un dictionnaire
data = {
    "nom": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "ville": ["Paris", "Lyon", "Marseille"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,nom,age,ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


- ‚úÖ **ajouter des index**

In [15]:
df.index = ["nom 1", "nom 2", "nom3"]
df

Unnamed: 0,nom,age,ville
nom 1,Alice,25,Paris
nom 2,Bob,30,Lyon
nom3,Charlie,35,Marseille


```python
# ou directement 
pd.DataFrame(data, index=["nom 1", "nom 2", "nom3"])
```

- ‚úÖ **cr√©er une s√©rie** : une s√©rie est une seule variable de la base de donn√©es

In [18]:
import pandas as pd

# Cr√©ation d'une S√©rie simple
serie = pd.Series([10, 20, 30, 40, 50])
print(serie, "\n ------")

# Avec index
serie_indexe = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(serie_indexe, "\n ------")

# A partir d'un dictionnaire
data = {"Alice": 25, "Bob": 30, "Charlie": 35}
serie_dict = pd.Series(data)
print(serie_dict, "\n ------")

# A partir d'un DataFrame
print(df["nom"], "\n ------")

0    10
1    20
2    30
3    40
4    50
dtype: int64 
 ------
a    10
b    20
c    30
d    40
e    50
dtype: int64 
 ------
Alice      25
Bob        30
Charlie    35
dtype: int64 
 ------
nom 1      Alice
nom 2        Bob
nom3     Charlie
Name: nom, dtype: object 
 ------


- ‚úÖ **Importer un fichier existant**

```python
df_csv = pd.read_csv("fichier.csv")

df_excel = pd.read_excel("fichier.xlsx", sheet_name="Feuille1")

print(df_excel.head())
```

- ‚úÖ **acc√©der √† des √©l√©ments d'une base de donn√©es ou d'une s√©rie**

In [28]:
# une colonne
print(df["nom"])  # Acc√®s simple
print(df.nom)     # Acc√®s alternatif
print(df[["nom"]])  # Acc√®s sous forme de DataFrame

nom 1      Alice
nom 2        Bob
nom3     Charlie
Name: nom, dtype: object
nom 1      Alice
nom 2        Bob
nom3     Charlie
Name: nom, dtype: object
           nom
nom 1    Alice
nom 2      Bob
nom3   Charlie


loc permet d'acc√©der aux √©l√©ments √† partir des noms d'index ou/et de colonnes

iloc √† partir des num√©ros de lignes ou de colonnes

In [32]:
# acceder loc, iloc
print(df.loc[:, ["nom"]])  # Acc√®s simple


           nom
nom 1    Alice
nom 2      Bob
nom3   Charlie


In [34]:
df.set_index("nom", inplace=True, drop=False)
df

Unnamed: 0_level_0,nom,age,ville
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alice,Alice,25,Paris
Bob,Bob,30,Lyon
Charlie,Charlie,35,Marseille


In [39]:
# L'age d'alice
print(df.loc["Alice", "age"])
print("\n ----")
# L'age et la ville d'alice
print(df.loc["Alice", ["age", "ville"]])
print("\n ----")
# L'age de Bob et Charlie
print(df.loc[["Alice", "Charlie"], "age"])
print("\n ----")

25

 ----
age         25
ville    Paris
Name: Alice, dtype: object

 ----
nom
Alice      25
Charlie    35
Name: age, dtype: int64

 ----


Filtre : tous ceux qui ont au moins 30 ans

In [43]:
df_filtre = df[df["age"] <= 30]
print(df_filtre, '\n ---')
# ou bien
print(df.query("age <= 30"))

         nom  age  ville
nom                     
Alice  Alice   25  Paris
Bob      Bob   30   Lyon 
 ---
         nom  age  ville
nom                     
Alice  Alice   25  Paris
Bob      Bob   30   Lyon


**Etc...**

# $\Longrightarrow$ [*Retourner au d√©roul√©*](deroule.ipynb) $\Longleftarrow$

## **3 - Exploration des donn√©es**

#### Aper√ßu (`head()`, `info()`, `describe()`)

#### S√©lection et filtrage des colonnes et lignes

#### Gestion des valeurs manquantes (`dropna()`, `fillna()`)

#### Tri et indexation (`sort_values()`, `set_index()`)

## **4 - Manipulations avanc√©es**

#### Fusion de datasets (`merge`, `concat`)

#### Transformation des donn√©es (`apply()`, `map()`, `groupby()`, `melt()`)