# Chapitre 2 : Introduction à Pandas 🐼

Dans ce cours, nous allons explorer Pandas, une bibliothèque Python puissante pour l'analyse et la manipulation de données.

De plus n'hésite pas à lire ses ressouces avant de venir en masterclasse ✅

- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [CheatSheetPandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Yet another cheat sheet](https://www.webpages.uidaho.edu/~stevel/cheatsheets/Pandas%20DataFrame%20Notes_12pages.pdf)
- [Utilisation de seaborn](https://seaborn.pydata.org/)

Si tu as des questions ! 🙌🏼 Lance toi !

Durant cette masterclasse et en prendant en compte les différents retours des masterclasses précédentes, nous allons travailler de la sorte:

- Découverte de la librairie ensemble avec différents exemples et cas pratiques
- Découverte et manipulation dun jeu de données très connus dans la litterature ➡️ le titanic 🛳️
- Utilisation de Seaborn et Matplotlib pour la visualisation des données
- Exercice pratique en solo 🫣


## 1. Introduction à Pandas

### Qu'est-ce que Pandas ? 🤔

Pandas est une bibliothèque Python open-source qui fournit des structures de données et des outils d'analyse de données performants. Elle est particulièrement utile pour travailler avec des données structurées, comme des tableaux ou des séries temporelles.

Les principales structures de données dans Pandas sont :
- Series : Une colonne de données unidimensionnelle
- DataFrame : Une structure de données bidimensionnelle (comme un tableau)

Il faut voir la dataframe comme un tableau de données avec des lignes et des colonnes. Un peu comme un **excel**.

Pandas permet de faire énormément de chose avec ces structures de données en python !

Pour bien comprendre la différence entre une série et un dataframe:

 - ```Une série est une liste de données```

<div style="text-align: center;">
<img src="./image/series.png" width="100" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Une série</figcaption>

</div>

 - ```Un DataFrame est une structure de données bidimensionnelle composée de séries qui peuvent être de différents types.```
<div style="text-align: center;">
<img src="./image/seriesdf.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Series et DataFrame</figcaption>

</div>

### Création d'un DataFrame à partir d'une et de deux séries 🧮 


Ok, passons à la pratique ! On va simplement voir ceux qui entourent les **series** et les **dataframes**. 🤓


In [18]:
from utils.operations import obtenir_appreciation
# Importation de pandas
import pandas as pd

# Créer une série un peu comme apples mais avec des notes
notes = pd.Series([12, 14, 16, 18, 20])

# Appliquer la fonction d'appréciation
appreciations = [obtenir_appreciation(note) for note in notes]

# Des types différents ??
print("---------")
print("Type de appreciations:", type(appreciations))
print("---")
print("Contenu de appreciations:", appreciations)
print("---------")
print("\nType de notes:", type(notes))
print("---")
print("Contenu de notes:", notes)
print("---------")


---------
Type de appreciations: <class 'list'>
---
Contenu de appreciations: ['Assez bien 🙂', 'Bien 👍', 'Très bien ! 😊', 'Excellent ! 🌟', 'Excellent ! 🌟']
---------

Type de notes: <class 'pandas.core.series.Series'>
---
Contenu de notes: 0    12
1    14
2    16
3    18
4    20
dtype: int64
---------


🤔 Il y a un type **liste**, un type **pd.series** ?? Kesako ? 

Comme je vous l'ai dis, pandas est une librairie qui permet de manipuler les données.
Mais pour construire un dataframe il faut à minima une série de données.

🤔 Comment faire pour créer un dataframe ? 

```python
pd.DataFrame({'Appréciations': appreciations})
```

Pour en créer un, à partir d'au minimum une série, nous devons lui donner le <span style="color: orange;">nom de sa colonne</span> ainsi que les <span style="color: red;">valeurs qui composent cette colonne</span>:
<div style="text-align: left;">
<img src="./image/explaindf.png" width="400" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>


</div>

Un peu de code : 

In [16]:
# Transformer les appréciations en DataFrame
df_appreciations = pd.DataFrame({'Appréciations': appreciations})

print("DataFrame créé à partir des appréciations:")
df_appreciations


DataFrame créé à partir des appréciations:


Unnamed: 0,Appréciations
0,Assez bien 🙂
1,Bien 👍
2,Très bien ! 😊
3,Excellent ! 🌟
4,Excellent ! 🌟



Maintenant créons un dataframe à partir de deux séries.

```python
df_notes = pd.DataFrame({
    'Notes': notes,
    'Appréciations': appreciations
})
```



In [22]:

note_et_appreciation = pd.DataFrame({
    'Notes': notes,
    'Appréciations': appreciations
})
note_et_appreciation


Unnamed: 0,Notes,Appréciations
0,12,Assez bien 🙂
1,14,Bien 👍
2,16,Très bien ! 😊
3,18,Excellent ! 🌟
4,20,Excellent ! 🌟


🎉 Ok nous avons un premier dataframe.

Mais il manque un petit quelque chose ...

```Si je veux la note d'un étudiant, par exemple Lise, ou Raphaël ? ```

Ici nous avons deux possibilités, soit je créer ce que j'appelle un index, ou bien une colonne.

Il est toujours préférable d'avoir des index uniques pour chaque ligne. 

Nous allons donc simplement ajouter une colonne avec le nom des étudiants et nous l'appellerons "noms".

In [43]:
# Dans ma df note_et_appreciation, je créer une colonne qui s'appelle "noms" et je lui donne les valeurs suivantes :
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand"]

#Je l'affiche
note_et_appreciation


Unnamed: 0,Notes,Appréciations,noms
0,12,Assez bien 🙂,Lise
1,14,Bien 👍,Raphael
2,16,Très bien ! 😊,Laurence
3,18,Excellent ! 🌟,Hugo
4,20,Excellent ! 🌟,Bertrand


Magie 🪄, pour créer une nouvelle colonne, je n'ai pas besoin de faire une boucle for. Je peux simplement lui donner les valeurs avec le nom de sa colonne comme dans le code précédent.

## ⛔️ Attention ⛔️

Si je fais ça : 

```python
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand","Christopher"]
```
<p style="color: red;">Il y aura une erreur.</p>

🤔 Pourquoi ? 

Car mon nombre de valeurs dans la série que je souhaite ajouter à ma df ne correspond pas au nombre de ligne dans ma series. 

## Accéder aux valeurs dans un dataframe 🕵🏼‍♂️

Pour accéder aux valeurs d'une colonne dans un dataframe, il faut faire comme ceci : 

```python
note_et_appreciation["noms"]
```

Pour accéder à une valeur en particulier, il faut faire comme ceci : 

```python
note_et_appreciation["noms"][0]
```

Pour accéder à une ligne en particulier, il faut faire comme ceci : 

```python
note_et_appreciation.loc[0]
```



In [32]:
# J'accéde à une série de mon dataframe
print(note_et_appreciation["noms"])
print("---------")
print(type(note_et_appreciation["noms"]))
print("---------")


0        Lise
1     Raphael
2    Laurence
3        Hugo
4    Bertrand
Name: noms, dtype: object
---------
<class 'pandas.core.series.Series'>
---------


In [51]:
# J'accéde à une série de mon dataframe

print(type(note_et_appreciation[["noms"]]))
print("---------")
note_et_appreciation[["noms"]]

<class 'pandas.core.frame.DataFrame'>
---------


Unnamed: 0,noms
0,Lise
1,Raphael
2,Laurence
3,Hugo
4,Bertrand


In [33]:
# J'accéde à une valeur en particulier de ma serie
print(note_et_appreciation["noms"][0])
print("---------")
print(type(note_et_appreciation["noms"][0]))
print("---------")


Lise
---------
<class 'str'>
---------


In [41]:

# J'accéde à une ligne en particulier de ma serie
print(note_et_appreciation.loc[0])
print("---------")
print(type(note_et_appreciation.loc[0]))
print("---------")


Notes                      12
Appréciations    Assez bien 🙂
noms                     Lise
Name: 0, dtype: object
---------
<class 'pandas.core.series.Series'>
---------


In [55]:
#Accéder à un sous groupe de ligne en affichant la colonne noms
note_et_appreciation.loc[3:4,["noms"]]

Unnamed: 0,noms
3,Hugo
4,Bertrand


**Un petit résumé :**

 <div style="display: flex; align-items: center;">
     <img src="./image/diffaccess1.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p style="color: red;">1. Accéder à une ligne : <code>note_et_appreciation.loc[1]</code></p>
         <p style="color: orange;">2. Accéder à une colonne : <code>note_et_appreciation["Notes"]</code></p>
         <p style="color: green;">3. Accéder à la première valeur de la colonne noms : <code>note_et_appreciation["noms"][0]</code></p>
         <p style="color: blue;">4. Accéder à un sous groupe de ligne : <code>note_et_appreciation.loc[3:4]</code></p>
     </div>
 </div>

### Filtrer et opérer sur les données 🟰
#### Les filtres booléens

Si tu ne sais pas ce qu'est un booléen, vas lire l'article suivant :
- [Un booléen Kesako ? 🤔](https://www.maxicours.com/se/cours/comprendre-les-booleens/)




Pandas, permet de parcourir les données et donc de les analyser facilement. 
Pour ce faire nous allons voir ce qu'est la sélection conditionnelle. 

```python
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]
```

On peut utiliser query et avoir éxactement le même résultat:

```python
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')
```

🤔 Comment lire ce code ? 

On veut les personnes ayant une note supérieure ou égale à 16 **ET** le nom de la personne est égale à Bertrand.





In [71]:
# Filtrer les personnes ayant une note supérieure à 16
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]

# Afficher le résultat
print("Personnes avec une note supérieure à 16 :")
personnes_notes_elevees


Personnes avec une note supérieure à 16 :


Unnamed: 0,Notes,Appréciations,noms,au_dessus_de_16,c_est_bertrand
4,20,Excellent ! 🌟,Bertrand,True,True


On peut utiliser query et avoir éxactement le même résultat.

In [72]:
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')

Unnamed: 0,Notes,Appréciations,noms,au_dessus_de_16,c_est_bertrand
4,20,Excellent ! 🌟,Bertrand,True,True


Ca fonctionne avec l'aide de masque booléen.

```python
note_et_appreciation['Notes'] >= 16
```

```python
note_et_appreciation['noms'] == 'Bertrand'
```



In [73]:
#Je créer une colonne qui s'appelle "au_dessus_de_16" et je lui donne la valeur True si la note est supérieure ou égale à 16 et False si la note est inférieure à 16.
note_et_appreciation["au_dessus_de_16"] = note_et_appreciation["Notes"] >= 16

#Je créer une colonne qui s'appelle "c_est_bertrand" et je lui donne la valeur True si le nom est égale à Bertrand et False si le nom est différent de Bertrand.
note_et_appreciation["c_est_bertrand"] = note_et_appreciation["noms"] == "Bertrand"

#J'affiche le résultat
note_et_appreciation

Unnamed: 0,Notes,Appréciations,noms,au_dessus_de_16,c_est_bertrand
0,12,Assez bien 🙂,Lise,False,False
1,14,Bien 👍,Raphael,False,False
2,16,Très bien ! 😊,Laurence,True,False
3,18,Excellent ! 🌟,Hugo,True,False
4,20,Excellent ! 🌟,Bertrand,True,True


**Nous avons utilisé des masques booléens.**

 <div style="display: flex; align-items: center;">
     <img src="./image/mask.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
     <p> 1. Au dessus de 16  et c'est Bertrand  sont nos masques booléens</p>
     <p> 2. On les applique avec un "and" entre eux</p>
     <p> 3. Je ne récupére que les lignes ou les deux conditions sont vraies</p>
     <p> 4. Ici une seule</p>
  
 </div>

#### Quelques méthodes sympa 🎁

In [94]:
# Savoir si une colonne contient un texte, mot particulier
note_et_appreciation["noms"].str.contains("h", case=False)

0    False
1     True
2    False
3     True
4    False
Name: noms, dtype: bool

In [95]:
#Utilisation de inplace=True pour modifier la colonne et ne plus avoir à reassigner la dataframe
note_et_appreciation["noms"].replace("Bertrand", "Dark Vador", inplace=True)
print(note_et_appreciation)


   Notes  Appréciations        noms  au_dessus_de_16  c_est_bertrand
0     12   Assez bien 🙂        Lise            False           False
1     14         Bien 👍     Raphael            False           False
2     16  Très bien ! 😊    Laurence             True           False
3     18  Excellent ! 🌟        Hugo             True           False
4     20  Excellent ! 🌟  Dark Vador             True            True


In [96]:
#Ordonner une colonne
note_et_appreciation["Notes"].sort_values(ascending=False)


4    20
3    18
2    16
1    14
0    12
Name: Notes, dtype: int64

In [99]:
# Opération d'aggrégation
somme_des_note = note_et_appreciation["Notes"].sum()
moyenne_des_note = note_et_appreciation["Notes"].mean()
ecart_type_des_notes = note_et_appreciation["Notes"].std()

print(f'La moyenne des notes est de {moyenne_des_note} et l\'écart type des notes est de {ecart_type_des_notes}')


La moyenne des notes est de 16.0 et l'écart type des notes est de 3.1622776601683795


In [100]:
# Faire un calcul précis sur une colonne dans le dataframe afin de créer une nouvelle colonne que nous souhaitons analyser

# Ajout d'une nouvelle colonne qui compte le nombre de lettres dans chaque nom d'étudiant
note_et_appreciation['nombre_lettres_nom'] = note_et_appreciation['noms'].str.len()

# Affichage du résultat
print(note_et_appreciation)


   Notes  Appréciations        noms  au_dessus_de_16  c_est_bertrand  \
0     12   Assez bien 🙂        Lise            False           False   
1     14         Bien 👍     Raphael            False           False   
2     16  Très bien ! 😊    Laurence             True           False   
3     18  Excellent ! 🌟        Hugo             True           False   
4     20  Excellent ! 🌟  Dark Vador             True            True   

   nombre_lettres_nom  
0                   4  
1                   7  
2                   8  
3                   4  
4                  10  


## Analyser des données 

L'analyse de données est un champ vaste et complexe. 
Dans cette masterClasse, nous allons faire une passe rapide et assez simple.





In [70]:
import requests

# URL de l'APIx
url = "https://dashboard-strapi.hodi.cloud/api/articles?fields[0]=id&fields[1]=title&fields[2]=body"

# Récupérer les données
response = requests.get(url)
data = response.json()
df_articles = pd.DataFrame([
    {
        'id': article['id'],
        'title': article['attributes']['title'],
        'body': article['attributes']['body'][0]['children'][0]['text']
    }
    for article in data['data']
])
# Créer un DataFrame à partir des données

df_articles.head(100)

Unnamed: 0,id,title,body
0,2,Comment jongler avec des baguettes magiques,Harry Potter nous raconte comment il a appris ...
1,3,Le guide ultime du sabre laser,Luke Skywalker nous explique que manier un sab...
2,4,Le secret du sourire de la Joconde,"Sherlock Holmes nous dévoile, après des années..."
3,5,Comment survivre à une apocalypse zombie,"Rick Grimes, héros de The Walking Dead, partag..."
4,6,Construire son armure en cave,"Tony Stark, alias Iron Man, partage ses astuce..."
5,7,Les meilleures pizzas pour tortues ninja,"Michelangelo, la plus gourmande des Tortues Ni..."
6,8,Faire ses courses en Batmobile,"Bruce Wayne, alias Batman, partage les défis i..."
7,9,L'art du camouflage en forêt,"Katniss Everdeen, héroïne de Hunger Games, nou..."
8,10,Les vertus du miel magique,Winnie l'Ourson partage ses réflexions profond...
9,11,Pourquoi les aliens adorent les vélos,"E.T., le célèbre extraterrestre, nous explique..."
