# Chapitre 2 : Introduction à Pandas 🐼

Dans ce cours, nous allons explorer Pandas, une bibliothèque Python puissante pour l'analyse et la manipulation de données.

De plus n'hésite pas à lire ses ressouces avant de venir en masterclasse ✅

- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [CheatSheetPandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Yet another cheat sheet](https://www.webpages.uidaho.edu/~stevel/cheatsheets/Pandas%20DataFrame%20Notes_12pages.pdf)
- [Utilisation de seaborn](https://seaborn.pydata.org/)

Si tu as des questions ! 🙌🏼 Lance toi !

Durant cette masterclasse et en prendant en compte les différents retours des masterclasses précédentes, nous allons travailler de la sorte:

- Découverte de la librairie ensemble avec différents exemples et cas pratiques
- Découverte et manipulation dun jeu de données très connus dans la litterature ➡️ le titanic 🛳️
- Utilisation de Seaborn et Matplotlib pour la visualisation des données
- Exercice pratique en solo 🫣


## 1. Introduction à Pandas

### Qu'est-ce que Pandas ? 🤔

Pandas est une bibliothèque Python open-source qui fournit des structures de données et des outils d'analyse de données performants. Elle est particulièrement utile pour travailler avec des données structurées, comme des tableaux ou des séries temporelles.

Les principales structures de données dans Pandas sont :
- Series : Une colonne de données unidimensionnelle
- DataFrame : Une structure de données bidimensionnelle (comme un tableau)

Il faut voir la dataframe comme un tableau de données avec des lignes et des colonnes. Un peu comme un **excel**.

Pandas permet de faire énormément de chose avec ces structures de données en python !

Pour bien comprendre la différence entre une série et un dataframe:

 - ```Une série est une liste de données```

<div style="text-align: center;">
<img src="./image/series.png" width="100" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Une série</figcaption>

</div>

 - ```Un DataFrame est une structure de données bidimensionnelle composée de séries qui peuvent être de différents types.```
<div style="text-align: center;">
<img src="./image/seriesdf.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Series et DataFrame</figcaption>

</div>

### Création d'un DataFrame à partir d'une et de deux séries 🧮 


Ok, passons à la pratique ! On va simplement voir ceux qui entourent les **series** et les **dataframes**. 🤓


In [5]:
from utils.operations import obtenir_appreciation
# Importation de pandas
import pandas as pd

# Créer une série un peu comme apples mais avec des notes
notes = pd.Series([12, 14, 16, 18, 20])

# Appliquer la fonction d'appréciation
appreciations = [obtenir_appreciation(note) for note in notes]

# Des types différents ??
print("---------")
print("Type de appreciations:", type(appreciations))
print("---")
print("Contenu de appreciations:", appreciations)
print("---------")
print("\nType de notes:", type(notes))
print("---")
print("Contenu de notes:", notes)
print("---------")


---------
Type de appreciations: <class 'list'>
---
Contenu de appreciations: ['Assez bien 🙂', 'Bien 👍', 'Très bien ! 😊', 'Excellent ! 🌟', 'Excellent ! 🌟']
---------

Type de notes: <class 'pandas.core.series.Series'>
---
Contenu de notes: 0    12
1    14
2    16
3    18
4    20
dtype: int64
---------


🤔 Il y a un type **liste**, un type **pd.series** ?? Kesako ? 

Comme je vous l'ai dis, pandas est une librairie qui permet de manipuler les données.
Mais pour construire un dataframe il faut à minima une série de données.

🤔 Comment faire pour créer un dataframe ? 

```python
pd.DataFrame({'Appréciations': appreciations})
```

Pour en créer un, à partir d'au minimum une série, nous devons lui donner le <span style="color: orange;">nom de sa colonne</span> ainsi que les <span style="color: red;">valeurs qui composent cette colonne</span>:
<div style="text-align: left;">
<img src="./image/explaindf.png" width="400" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>


</div>

Un peu de code : 

In [6]:
# Transformer les appréciations en DataFrame
df_appreciations = pd.DataFrame({'Appréciations': appreciations})

print("DataFrame créé à partir des appréciations:")
df_appreciations


DataFrame créé à partir des appréciations:


Unnamed: 0,Appréciations
0,Assez bien 🙂
1,Bien 👍
2,Très bien ! 😊
3,Excellent ! 🌟
4,Excellent ! 🌟



Maintenant créons un dataframe à partir de deux séries.

```python
df_notes = pd.DataFrame({
    'Notes': notes,
    'Appréciations': appreciations
})
```



In [7]:

note_et_appreciation = pd.DataFrame({
    'Notes': notes,
    'Appréciations': appreciations
})
note_et_appreciation


Unnamed: 0,Notes,Appréciations
0,12,Assez bien 🙂
1,14,Bien 👍
2,16,Très bien ! 😊
3,18,Excellent ! 🌟
4,20,Excellent ! 🌟


🎉 Ok nous avons un premier dataframe.

Mais il manque un petit quelque chose ...

```Si je veux la note d'un étudiant, par exemple Lise, ou Raphaël ? ```

Ici nous avons deux possibilités, soit je créer ce que j'appelle un index, ou bien une colonne.

Il est toujours préférable d'avoir des index uniques pour chaque ligne. 

Nous allons donc simplement ajouter une colonne avec le nom des étudiants et nous l'appellerons "noms".

In [8]:
# Dans ma df note_et_appreciation, je créer une colonne qui s'appelle "noms" et je lui donne les valeurs suivantes :
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand"]

#Je l'affiche
note_et_appreciation


Unnamed: 0,Notes,Appréciations,noms
0,12,Assez bien 🙂,Lise
1,14,Bien 👍,Raphael
2,16,Très bien ! 😊,Laurence
3,18,Excellent ! 🌟,Hugo
4,20,Excellent ! 🌟,Bertrand


Magie 🪄, pour créer une nouvelle colonne, je n'ai pas besoin de faire une boucle for. Je peux simplement lui donner les valeurs avec le nom de sa colonne comme dans le code précédent.

## ⛔️ Attention ⛔️

Si je fais ça : 

```python
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand","Christopher"]
```
<p style="color: red;">Il y aura une erreur.</p>

🤔 Pourquoi ? 

Car mon nombre de valeurs dans la série que je souhaite ajouter à ma df ne correspond pas au nombre de ligne dans ma series. 

## Accéder aux valeurs dans un dataframe 🕵🏼‍♂️

Pour accéder aux valeurs d'une colonne dans un dataframe, il faut faire comme ceci : 

```python
note_et_appreciation["noms"]
```

Pour accéder à une valeur en particulier, il faut faire comme ceci : 

```python
note_et_appreciation["noms"][0]
```

Pour accéder à une ligne en particulier, il faut faire comme ceci : 

```python
note_et_appreciation.loc[0]
```



In [9]:
# J'accéde à une série de mon dataframe
print(note_et_appreciation["noms"])
print("---------")
print(type(note_et_appreciation["noms"]))
print("---------")


0        Lise
1     Raphael
2    Laurence
3        Hugo
4    Bertrand
Name: noms, dtype: object
---------
<class 'pandas.core.series.Series'>
---------


In [10]:
# J'accéde à une série de mon dataframe

print(type(note_et_appreciation[["noms"]]))
print("---------")
note_et_appreciation[["noms"]]

<class 'pandas.core.frame.DataFrame'>
---------


Unnamed: 0,noms
0,Lise
1,Raphael
2,Laurence
3,Hugo
4,Bertrand


In [11]:
# J'accéde à une valeur en particulier de ma serie
print(note_et_appreciation["noms"][0])
print("---------")
print(type(note_et_appreciation["noms"][0]))
print("---------")


Lise
---------
<class 'str'>
---------


In [12]:

# J'accéde à une ligne en particulier de ma serie
print(note_et_appreciation.loc[0])
print("---------")
print(type(note_et_appreciation.loc[0]))
print("---------")


Notes                      12
Appréciations    Assez bien 🙂
noms                     Lise
Name: 0, dtype: object
---------
<class 'pandas.core.series.Series'>
---------


In [13]:
#Accéder à un sous groupe de ligne en affichant la colonne noms
note_et_appreciation.loc[3:4,["noms"]]

Unnamed: 0,noms
3,Hugo
4,Bertrand


**Un petit résumé :**

 <div style="display: flex; align-items: center;">
     <img src="./image/diffaccess1.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p style="color: red;">1. Accéder à une ligne : <code>note_et_appreciation.loc[1]</code></p>
         <p style="color: orange;">2. Accéder à une colonne : <code>note_et_appreciation["Notes"]</code></p>
         <p style="color: green;">3. Accéder à la première valeur de la colonne noms : <code>note_et_appreciation["noms"][0]</code></p>
         <p style="color: blue;">4. Accéder à un sous groupe de ligne : <code>note_et_appreciation.loc[3:4]</code></p>
     </div>
 </div>

### Filtrer et opérer sur les données 🟰
#### Les filtres booléens

Si tu ne sais pas ce qu'est un booléen, vas lire l'article suivant :
- [Un booléen Kesako ? 🤔](https://www.maxicours.com/se/cours/comprendre-les-booleens/)




Pandas, permet de parcourir les données et donc de les analyser facilement. 
Pour ce faire nous allons voir ce qu'est la sélection conditionnelle. 

```python
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]
```

On peut utiliser query et avoir éxactement le même résultat:

```python
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')
```

🤔 Comment lire ce code ? 

On veut les personnes ayant une note supérieure ou égale à 16 **ET** le nom de la personne est égale à Bertrand.





In [14]:
# Filtrer les personnes ayant une note supérieure à 16
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]

# Afficher le résultat
print("Personnes avec une note supérieure à 16 :")
personnes_notes_elevees


Personnes avec une note supérieure à 16 :


Unnamed: 0,Notes,Appréciations,noms
4,20,Excellent ! 🌟,Bertrand


On peut utiliser query et avoir éxactement le même résultat.

In [15]:
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')

Unnamed: 0,Notes,Appréciations,noms
4,20,Excellent ! 🌟,Bertrand


Ca fonctionne avec l'aide de masque booléen.

```python
note_et_appreciation['Notes'] >= 16
```

```python
note_et_appreciation['noms'] == 'Bertrand'
```



In [16]:
#Je créer une colonne qui s'appelle "au_dessus_de_16" et je lui donne la valeur True si la note est supérieure ou égale à 16 et False si la note est inférieure à 16.
note_et_appreciation["au_dessus_de_16"] = note_et_appreciation["Notes"] >= 16

#Je créer une colonne qui s'appelle "c_est_bertrand" et je lui donne la valeur True si le nom est égale à Bertrand et False si le nom est différent de Bertrand.
note_et_appreciation["c_est_bertrand"] = note_et_appreciation["noms"] == "Bertrand"

#J'affiche le résultat
note_et_appreciation

Unnamed: 0,Notes,Appréciations,noms,au_dessus_de_16,c_est_bertrand
0,12,Assez bien 🙂,Lise,False,False
1,14,Bien 👍,Raphael,False,False
2,16,Très bien ! 😊,Laurence,True,False
3,18,Excellent ! 🌟,Hugo,True,False
4,20,Excellent ! 🌟,Bertrand,True,True


**Nous avons utilisé des masques booléens.**

 <div style="display: flex; align-items: center;">
     <img src="./image/mask.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
     <p> 1. Au dessus de 16  et c'est Bertrand  sont nos masques booléens</p>
     <p> 2. On les applique avec un "and" entre eux</p>
     <p> 3. Je ne récupére que les lignes ou les deux conditions sont vraies</p>
     <p> 4. Ici une seule</p>
  
 </div>

#### Quelques méthodes sympa 🎁

In [17]:
# Savoir si une colonne contient un texte, mot particulier
note_et_appreciation["noms"].str.contains("h", case=False)

0    False
1     True
2    False
3     True
4    False
Name: noms, dtype: bool

In [18]:
#Utilisation de inplace=True pour modifier la colonne et ne plus avoir à reassigner la dataframe
note_et_appreciation["noms"].replace("Bertrand", "Dark Vador", inplace=True)
print(note_et_appreciation)


   Notes  Appréciations        noms  au_dessus_de_16  c_est_bertrand
0     12   Assez bien 🙂        Lise            False           False
1     14         Bien 👍     Raphael            False           False
2     16  Très bien ! 😊    Laurence             True           False
3     18  Excellent ! 🌟        Hugo             True           False
4     20  Excellent ! 🌟  Dark Vador             True            True


In [19]:
#Ordonner une colonne
note_et_appreciation["Notes"].sort_values(ascending=False)


4    20
3    18
2    16
1    14
0    12
Name: Notes, dtype: int64

In [20]:
# Opération d'aggrégation
somme_des_note = note_et_appreciation["Notes"].sum()
moyenne_des_note = note_et_appreciation["Notes"].mean()
ecart_type_des_notes = note_et_appreciation["Notes"].std()

print(f'La moyenne des notes est de {moyenne_des_note} et l\'écart type des notes est de {ecart_type_des_notes}')


La moyenne des notes est de 16.0 et l'écart type des notes est de 3.1622776601683795


In [21]:
# Faire un calcul précis sur une colonne dans le dataframe afin de créer une nouvelle colonne que nous souhaitons analyser

# Ajout d'une nouvelle colonne qui compte le nombre de lettres dans chaque nom d'étudiant
note_et_appreciation['nombre_lettres_nom'] = note_et_appreciation['noms'].str.len()

# Affichage du résultat
print(note_et_appreciation)


   Notes  Appréciations        noms  au_dessus_de_16  c_est_bertrand  \
0     12   Assez bien 🙂        Lise            False           False   
1     14         Bien 👍     Raphael            False           False   
2     16  Très bien ! 😊    Laurence             True           False   
3     18  Excellent ! 🌟        Hugo             True           False   
4     20  Excellent ! 🌟  Dark Vador             True            True   

   nombre_lettres_nom  
0                   4  
1                   7  
2                   8  
3                   4  
4                  10  



#### La méthode apply


La méthode apply permet d'appliquer une fonction à chaque élément d'une colonne.
Elle est très utilisé quand on souhaite appliquer une logique particulière à une colonne qui n'est pas fournie par défaut dans pandas.

Imaginons que je souhaite 
```python
note_et_appreciation["Notation_Point_bonus"]=note_et_appreciation.apply(lambda x: x + 2 if x["au_dessus_de_16"] == True else x, axis=1)
````


In [28]:
note_et_appreciation["bonus"]=[1,0,1,0,1]

In [29]:
note_et_appreciation

Unnamed: 0,Notes,Appréciations,noms,au_dessus_de_16,c_est_bertrand,nombre_lettres_nom,bonus
0,14,Assez bien 🙂,Lise,False,False,4,1
1,16,Bien 👍,Raphael,False,False,7,0
2,18,Très bien ! 😊,Laurence,True,False,8,1
3,20,Excellent ! 🌟,Hugo,True,False,4,0
4,22,Excellent ! 🌟,Dark Vador,True,True,10,1


In [31]:
note_et_appreciation["Notes"] = note_et_appreciation.apply(lambda x: x["Notes"] + 2 if x["bonus"] == 1 else x["Notes"], axis=1)


In [32]:
note_et_appreciation


Unnamed: 0,Notes,Appréciations,noms,au_dessus_de_16,c_est_bertrand,nombre_lettres_nom,bonus
0,16,Assez bien 🙂,Lise,False,False,4,1
1,16,Bien 👍,Raphael,False,False,7,0
2,20,Très bien ! 😊,Laurence,True,False,8,1
3,20,Excellent ! 🌟,Hugo,True,False,4,0
4,24,Excellent ! 🌟,Dark Vador,True,True,10,1


Un petit peu d'explication.

- ```lambda x: x + 2``` : Cette partie de la fonction est une expression lambda qui prend un argument x et retourne x + 2.
- ```if x["bonus"] == 1``` : Cette condition vérifie si la valeur de la colonne "bonus" est égale à 1.
- ```else x["Notes"]``` : Si la condition n'est pas vérifiée, la valeur de la colonne "Notes" est retournée.
- ```axis=1``` : Cette option indique que la fonction apply s'applique à chaque ligne du DataFrame.

Pour faire simple, si mon élève à eu un bonus, alors je lui ajoute 2 points à sa note.

## 🛶 El TITANICO 🛶

Dans cette partie nous allons voir: 

- Un peu de data Viz 📈 > Avec seaborn
- Un peu de feature engineering 🧮 > Toujours avec Pandas

Le but sera de préparer les données afin de faire (dans la prochaine masterclass) de la classification. 

### Chargement des jeux de données

Nous allons dans un premier temps télécharger le jeu de données et voir ce que ca donne.

Dans la cellule suivante il y a un peu de magie 🪄. 

Jupyter permet d'executer des commandes shell comme mkdir ou curl.

Il suffit de commencer la commande par ```>>!<<```





In [34]:
#Je créer le dossier dataset s'il n'exite pas
!mkdir -p dataset
#J'utilise la commande curl pour download le dataset au format ZIP
!curl -L "https://storage.googleapis.com/kaggle-data-sets/1818188/2965537/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20241007%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20241007T144305Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=a4109750d7ec513a4a42fbe595f7b296865888133b24f6458244b7f0a65b9d841de7d2d96a0a70e70baecbe4cb68ebeec20fbad12deff8c7955acaedf4ba94d2a03e9ff3fc7b53ff4d9f55bb25de3be4552c791b3cc915dc8c481d2e65677e358f628390cfe77a243d4a075431cd9fcf793419ac09362b4f55462c331c64826e4dbc47ecf3d4627865dda992583cb9058264e4ecbccf1156d50a657ed01cdedc493b96274e8e3a37edc5b48ebadad8cf257e76b71e49bcffd83d69d6a8fbd12f34e37b4e514d72af02af912680388f00ec1fd0ca2a01ca478079e6546d98877b97405e682a84e5d514193d8b565ffbe23170b990ee6fceba71025b8e797e4829" -o dataset/archive.zip
#Je décompresse le fichier zip
!unzip -q dataset/archive.zip -d dataset

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 22564  100 22564    0     0  20344      0  0:00:01  0:00:01 --:--:-- 20383
replace dataset/Titanic-Dataset.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: ^C


In [36]:
# Importation de la bibliothèque pandas
import pandas as pd

# Chargement du jeu de données Titanic
df_titanic = pd.read_csv('dataset/Titanic-Dataset.csv')

df_titanic.head(5)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



Pandas permet de très rapidement d'exploiter une fichier csv sous forme de dataframe .
Il suffit d'utiliser la méthode ```read_csv```.

```python
df_titanic = pd.read_csv('dataset/Titanic-Dataset.csv')
```

La méthode head permet aussi d'afficher les 5 premières lignes du dataframe.

```python
df_titanic.head(5)
```



