# Chapitre 2 : Introduction à Pandas 🐼

Dans ce cours, nous allons explorer Pandas, une bibliothèque Python puissante pour l'analyse et la manipulation de données.

De plus n'hésite pas à lire ses ressouces avant de venir en masterclasse ✅

- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [CheatSheetPandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Yet another cheat sheet](https://www.webpages.uidaho.edu/~stevel/cheatsheets/Pandas%20DataFrame%20Notes_12pages.pdf)
- [Utilisation de seaborn](https://seaborn.pydata.org/)

Si tu as des questions ! 🙌🏼 Lance toi !

Durant cette masterclasse et en prendant en compte les différents retours des masterclasses précédentes, nous allons travailler de la sorte:

- Découverte de la librairie ensemble avec différents exemples et cas pratiques
- Découverte et manipulation dun jeu de données très connus dans la litterature ➡️ le titanic 🛳️
- Utilisation de Seaborn et Matplotlib pour la visualisation des données
- Exercice pratique en solo 🫣


## 1. Introduction à Pandas

### Qu'est-ce que Pandas ? 🤔

Pandas est une bibliothèque Python open-source qui fournit des structures de données et des outils d'analyse de données performants. Elle est particulièrement utile pour travailler avec des données structurées, comme des tableaux ou des séries temporelles.

Les principales structures de données dans Pandas sont :
- Series : Une colonne de données unidimensionnelle
- DataFrame : Une structure de données bidimensionnelle (comme un tableau)

Il faut voir la dataframe comme un tableau de données avec des lignes et des colonnes. Un peu comme un **excel**.

Pandas permet de faire énormément de chose avec ces structures de données en python !

Pour bien comprendre la différence entre une série et un dataframe:

 - ```Une série est une liste de données```

<div style="text-align: center;">
<img src="./image/series.png" width="100" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Une série</figcaption>

</div>

 - ```Un DataFrame est une structure de données bidimensionnelle composée de séries qui peuvent être de différents types.```
<div style="text-align: center;">
<img src="./image/seriesdf.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Series et DataFrame</figcaption>

</div>

### Création d'un DataFrame à partir d'une et de deux séries 🧮 


Ok, passons à la pratique ! On va simplement voir ceux qui entourent les **series** et les **dataframes**. 🤓


In [None]:
# Importation de pandas
import pandas as pd

def obtenir_appreciation(note):
    if note >= 18:
        return "Excellent ! 🌟"
    elif note >= 16:
        return "Très bien ! 😊"
    elif note >= 14:
        return "Bien 👍"
    elif note >= 12:
        return "Assez bien 🙂"
    elif note >= 10:
        return "Passable 😐"
    else:
        return "Insuffisant 😕"


# Créer une série un peu comme apples mais avec des notes
notes = pd.Series([12, 14, 16, 18, 20])

# Appliquer la fonction d'appréciation
appreciations = [obtenir_appreciation(note) for note in notes]

# Des types différents ??
print("---------")
print("Type de appreciations:", type(appreciations))
print("---")
print("Contenu de appreciations:", appreciations)
print("---------")
print("\nType de notes:", type(notes))
print("---")
print("Contenu de notes:", notes)
print("---------")


🤔 Il y a un type **liste**, un type **pd.series** ?? Kesako ? 

Comme je vous l'ai dis, pandas est une librairie qui permet de manipuler les données.
Mais pour construire un dataframe il faut à minima une série de données.

🤔 Comment faire pour créer un dataframe ? 

```python
pd.DataFrame({'Appréciations': appreciations})
```

Pour en créer un, à partir d'au minimum une série, nous devons lui donner le <span style="color: orange;">nom de sa colonne</span> ainsi que les <span style="color: red;">valeurs qui composent cette colonne</span>:
<div style="text-align: left;">
<img src="./image/explaindf.png" width="400" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>


</div>

Un peu de code : 

In [None]:
# Transformer les appréciations en DataFrame
df_appreciations = pd.DataFrame({'Appréciations': appreciations})

print("DataFrame créé à partir des appréciations:")
df_appreciations



Maintenant créons un dataframe à partir de deux séries.

```python
df_notes = pd.DataFrame({
    'Notes': notes,
    'Appréciations': appreciations
})
```



In [None]:

note_et_appreciation = pd.DataFrame({
    'Notes': notes,
    'Appréciations': appreciations
})
note_et_appreciation


🎉 Ok nous avons un premier dataframe.

Mais il manque un petit quelque chose ...

```Si je veux la note d'un étudiant, par exemple Lise, ou Raphaël ? ```

Ici nous avons deux possibilités, soit je créer ce que j'appelle un index, ou bien une colonne.

Il est toujours préférable d'avoir des index uniques pour chaque ligne. 

Nous allons donc simplement ajouter une colonne avec le nom des étudiants et nous l'appellerons "noms".

In [None]:
# Dans ma df note_et_appreciation, je créer une colonne qui s'appelle "noms" et je lui donne les valeurs suivantes :
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand"]

#Je l'affiche
note_et_appreciation


Magie 🪄, pour créer une nouvelle colonne, je n'ai pas besoin de faire une boucle for. Je peux simplement lui donner les valeurs avec le nom de sa colonne comme dans le code précédent.

## ⛔️ Attention ⛔️

Si je fais ça : 

```python
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand","Christopher"]
```
<p style="color: red;">Il y aura une erreur.</p>

🤔 Pourquoi ? 

Car mon nombre de valeurs dans la série que je souhaite ajouter à ma df ne correspond pas au nombre de ligne dans ma series. 

## Accéder aux valeurs dans un dataframe 🕵🏼‍♂️

Pour accéder aux valeurs d'une colonne dans un dataframe, il faut faire comme ceci : 

```python
note_et_appreciation["noms"]
```

Pour accéder à une valeur en particulier, il faut faire comme ceci : 

```python
note_et_appreciation["noms"][0]
```

Pour accéder à une ligne en particulier, il faut faire comme ceci : 

```python
note_et_appreciation.loc[0]
```



In [None]:
# J'accéde à une série de mon dataframe
print(note_et_appreciation["noms"])
print("---------")
print(type(note_et_appreciation["noms"]))
print("---------")


In [None]:
# J'accéde à une série de mon dataframe

print(type(note_et_appreciation[["noms"]]))
print("---------")
note_et_appreciation[["noms"]]

In [None]:
# J'accéde à une valeur en particulier de ma serie
print(note_et_appreciation["noms"][0])
print("---------")
print(type(note_et_appreciation["noms"][0]))
print("---------")


In [None]:

# J'accéde à une ligne en particulier de ma serie
print(note_et_appreciation.loc[0])
print("---------")
print(type(note_et_appreciation.loc[0]))
print("---------")


In [None]:
#Accéder à un sous groupe de ligne en affichant la colonne noms
note_et_appreciation.loc[3:4,["noms"]]

**Un petit résumé :**

 <div style="display: flex; align-items: center;">
     <img src="./image/diffaccess1.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p style="color: red;">1. Accéder à une ligne : <code>note_et_appreciation.loc[1]</code></p>
         <p style="color: orange;">2. Accéder à une colonne : <code>note_et_appreciation["Notes"]</code></p>
         <p style="color: green;">3. Accéder à la première valeur de la colonne noms : <code>note_et_appreciation["noms"][0]</code></p>
         <p style="color: blue;">4. Accéder à un sous groupe de ligne : <code>note_et_appreciation.loc[3:4]</code></p>
     </div>
 </div>

## Filtrer et opérer sur les données 🟰
#### Les filtres booléens

Si tu ne sais pas ce qu'est un booléen, vas lire l'article suivant :
- [Un booléen Kesako ? 🤔](https://www.maxicours.com/se/cours/comprendre-les-booleens/)




Pandas, permet de parcourir les données et donc de les analyser facilement. 
Pour ce faire nous allons voir ce qu'est la sélection conditionnelle. 

```python
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]
```

On peut utiliser query et avoir éxactement le même résultat:

```python
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')
```

🤔 Comment lire ce code ? 

On veut les personnes ayant une note supérieure ou égale à 16 **ET** le nom de la personne est égale à Bertrand.





In [None]:
# Filtrer les personnes ayant une note supérieure à 16
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]

# Afficher le résultat
print("Personnes avec une note supérieure à 16 :")
personnes_notes_elevees


On peut utiliser query et avoir éxactement le même résultat.

In [None]:
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')

Ca fonctionne avec l'aide de masque booléen.

```python
note_et_appreciation['Notes'] >= 16
```

```python
note_et_appreciation['noms'] == 'Bertrand'
```



In [None]:
#Je créer une colonne qui s'appelle "au_dessus_de_16" et je lui donne la valeur True si la note est supérieure ou égale à 16 et False si la note est inférieure à 16.
note_et_appreciation["au_dessus_de_16"] = note_et_appreciation["Notes"] >= 16

#Je créer une colonne qui s'appelle "c_est_bertrand" et je lui donne la valeur True si le nom est égale à Bertrand et False si le nom est différent de Bertrand.
note_et_appreciation["c_est_bertrand"] = note_et_appreciation["noms"] == "Bertrand"

#J'affiche le résultat
note_et_appreciation

**Nous avons utilisé des masques booléens.**

 <div style="display: flex; align-items: center;">
     <img src="./image/mask.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
     <p> 1. Au dessus de 16  et c'est Bertrand  sont nos masques booléens</p>
     <p> 2. On les applique avec un "and" entre eux</p>
     <p> 3. Je ne récupére que les lignes ou les deux conditions sont vraies</p>
     <p> 4. Ici une seule</p>
  
 </div>

#### Quelques méthodes sympa 🎁

In [None]:
# Savoir si une colonne contient un texte, mot particulier
note_et_appreciation["noms"].str.contains("h", case=False)

In [None]:
#Utilisation de inplace=True pour modifier la colonne et ne plus avoir à reassigner la dataframe
note_et_appreciation["noms"].replace("Bertrand", "Dark Vador", inplace=True)
print(note_et_appreciation)


In [None]:
#Ordonner une colonne
note_et_appreciation["Notes"].sort_values(ascending=False)


In [None]:
# Opération d'aggrégation
somme_des_note = note_et_appreciation["Notes"].sum()
moyenne_des_note = note_et_appreciation["Notes"].mean()
ecart_type_des_notes = note_et_appreciation["Notes"].std()

print(f'La moyenne des notes est de {moyenne_des_note} et l\'écart type des notes est de {ecart_type_des_notes}')


In [None]:

# Ajout d'une nouvelle colonne qui compte le nombre de lettres dans chaque nom d'étudiant
note_et_appreciation['nombre_lettres_nom'] = note_et_appreciation['noms'].str.len()

# Affichage du résultat
print(note_et_appreciation)



## La méthode apply


La méthode apply permet d'appliquer une fonction à chaque élément d'une colonne.
Elle est très utilisé quand on souhaite appliquer une logique particulière à une colonne qui n'est pas fournie par défaut dans pandas.

Imaginons que je souhaite 
```python
note_et_appreciation["Notation_Point_bonus"]=note_et_appreciation.apply(lambda x: x + 2 if x["au_dessus_de_16"] == True else x, axis=1)
````


In [None]:
note_et_appreciation["bonus"]=[1,0,1,0,1]

In [None]:
note_et_appreciation

In [None]:
note_et_appreciation["Notes"] = note_et_appreciation.apply(lambda x: x["Notes"] + 2 if x["bonus"] == 1 else x["Notes"], axis=1)


In [None]:
note_et_appreciation


Un petit peu d'explication.

- ```lambda x: x + 2``` : Cette partie de la fonction est une expression lambda qui prend un argument x et retourne x + 2.
- ```if x["bonus"] == 1``` : Cette condition vérifie si la valeur de la colonne "bonus" est égale à 1.
- ```else x["Notes"]``` : Si la condition n'est pas vérifiée, la valeur de la colonne "Notes" est retournée.
- ```axis=1``` : Cette option indique que la fonction apply s'applique à chaque ligne du DataFrame.

Pour faire simple, si mon élève à eu un bonus, alors je lui ajoute 2 points à sa note.

#  El TITANICO 💥🟰🧊⬅️🚢 

Dans cette partie nous allons voir: 

- Un peu de data Viz 📈 > Avec seaborn
- Un peu de feature engineering 🧮 > Toujours avec Pandas

Le but sera de préparer les données afin de faire (dans la prochaine masterclass) de la classification. 

Ce chapitre va vous permettre de comprendre les intuitions à développer pour réussir à faire de l'analyse de données.

Au travers de la data viz, du data cleaning, ou encore de la data engineering. 

Les questions peuvent être différentes dans le cas d'une analyse de données ou de la mise en place d'un modèle de machine learning. 

Mais dans les faits il faut souvent se poser, en analysant les données, les questions suivantes:

- Ai-je des valeurs manquantes (null) ?  Si oui lesquelles ? Comment les remplacer ? Supprimer ?  
- Ai-je des variables catégoriques ? Si oui, lesquelles ? Comment les traiter ? (OHE)
- Ai-je des outliers ? Si oui, lesquelles ? Comment les traiter ? (RobustScaler, Normalisation, Suppression)
- Ai-je des valeurs aberrantes ? Si oui, lesquelles ? Comment les traiter ? 
- Ai-je des valeurs temporelles ? Si oui, lesquelles ? Comment les traiter ? (Conversion en cycle)
- Y a t'il des features que je peux exploiter autrement ? (Exemple: le nom du passager peut-il être un feature ? Je peux créer une classe pour l'age par exemple ?)
  




## Chargement des jeux de données 💿
 
Nous allons dans un premier temps télécharger le jeu de données et voir ce que ca donne.

Dans la cellule suivante il y a un peu de magie 🪄. 

Jupyter permet d'executer des commandes shell comme mkdir ou curl.
- ```mkdir``` : Créer un dossier
- ```curl``` : Télécharger un fichier
- ```unzip``` : Décompreser un fichier

Il suffit de commencer la commande par ```>>!<<```





In [None]:
#Je créer le dossier dataset s'il n'exite pas
!mkdir -p dataset
#J'utilise la commande curl pour download le dataset au format ZIP
!curl -L "https://storage.googleapis.com/kaggle-data-sets/1818188/2965537/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20241007%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20241007T144305Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=a4109750d7ec513a4a42fbe595f7b296865888133b24f6458244b7f0a65b9d841de7d2d96a0a70e70baecbe4cb68ebeec20fbad12deff8c7955acaedf4ba94d2a03e9ff3fc7b53ff4d9f55bb25de3be4552c791b3cc915dc8c481d2e65677e358f628390cfe77a243d4a075431cd9fcf793419ac09362b4f55462c331c64826e4dbc47ecf3d4627865dda992583cb9058264e4ecbccf1156d50a657ed01cdedc493b96274e8e3a37edc5b48ebadad8cf257e76b71e49bcffd83d69d6a8fbd12f34e37b4e514d72af02af912680388f00ec1fd0ca2a01ca478079e6546d98877b97405e682a84e5d514193d8b565ffbe23170b990ee6fceba71025b8e797e4829" -o dataset/archive.zip
#Je décompresse le fichier zip
!unzip -q dataset/archive.zip -d dataset

In [None]:
# Importation de la bibliothèque pandas
import pandas as pd

# Chargement du jeu de données Titanic
df_titanic = pd.read_csv('dataset/Titanic-Dataset.csv')

df_titanic.head(5)



Pandas permet de très rapidement d'exploiter une fichier csv sous forme de dataframe .
Il suffit d'utiliser la méthode ```read_csv```.

```python
df_titanic = pd.read_csv('dataset/Titanic-Dataset.csv')
```

La méthode head permet aussi d'afficher les 5 premières lignes du dataframe.

```python
df_titanic.head(5)
```





La toute première chose à faire et de comprendre ce que contient le dataset.

| Colonne    | Description                           | Valeurs possibles                        |
|------------|---------------------------------------|------------------------------------------|
| survival   | Survie                                | 0 = Non, 1 = Oui                         |
| pclass     | Classe du billet                      | 1 = 1ère, 2 = 2ème, 3 = 3ème             |
| sex        | Sexe                                  | -                                        |
| age        | Âge en années                         | -                                        |
| sibsp      | Nombre de frères/sœurs / conjoints à bord | -                                    |
| parch      | Nombre de parents / enfants à bord    | -                                        |
| ticket     | Numéro de billet                      | -                                        |
| fare       | Tarif du billet                       | -                                        |
| cabin      | Numéro de cabine                      | -                                        |
| embarked   | Port d'embarquement                   | C = Cherbourg, Q = Queenstown, S = Southampton |

## Quelques petites vérifications

Nous allons vérfier des petits points dans ce dataset. 

Vérification de valeurs manquantes: 
```python
df_titanic.isnull().sum()
```

Vérification des types de données:
```python
df_titanic.info()
```


In [None]:
#Une petite vérification globale
df_titanic.info()

Vérification des valeurs nulles:

In [None]:
# Vérification de valeurs nulles
for column in df_titanic.columns:
    print(f"{column} as {df_titanic[column].isnull().sum()} nan values")

On peut déja remarquer que la colonne "Cabin" contient beaucoup de valeurs nulles.
-  $\frac{687}{891} = 77\%$

On peut aussi remarquer que la colonne "Age" contient des valeurs nulles.
-  $\frac{177}{891} = 20\%$

Dans le cas de la Cabin, on peut supprimer cette colonne. Il y a beaucoup de valeurs nulles et peu d'informations exploitable. 

```python 
df_titanic.drop(columns=["Cabin"], inplace=True)
```

Dans le cas de l'age, on peut remplacer les valeurs nulles par la moyenne de la colonne age.

```python
df_titanic["Age"].fillna(df_titanic["Age"].mean(), inplace=True)
```



In [None]:
df_titanic.drop(columns=["Cabin"], inplace=True)
df_titanic["Age"].fillna(df_titanic["Age"].mean(), inplace=True)

In [None]:
df_titanic.info()

#### Good Job 👏
Nous avons déja fait pas mal de chose. 

Nous avons : 
- Observer de quoi est constitué le dataset
- Supprimer la colonne Cabin
- Remplacer les valeurs nulles de la colonne Age par la moyenne de la colonne Age
- Afficher le résultat



## Utilisation de seaborn 🦭 pour faire des graphiques rapidement à partir de dataframe

Seaborn est une bibliothèque Python pour la visualisation des données.

Je peux, avec l'aide de colonne de ma dataframe, faire des graphiques.

Prenons un exemple avec l'âge des passagers.

```python
#J'importe seaborn et matplotlib
import seaborn as sns
import matplotlib.pyplot as plt

# Créer un histogramme des âges des passagers
sns.histplot(df_titanic['Age'], bins=20, kde=True)
```

Dans le code précédent, nous avons :
- ```sns.histplot``` : qui permet de faire un histogramme
- ```df_titanic['Age']``` : qui permet d'acceder à la colonne Age de ma dataframe
- ```bins=20``` : qui permet de specifier le nombre de bins de l'histogramme
- ```kde=True``` : qui permet d'afficher la courbe de densité

Pour être encore plus précis, ```histplot``` va simplement, avec sa variable bins, permettre de compter le nombre d'occurences de chaque valeur dans ma série. 
Par la suite, elles seront groupées dans des intervalles de taille:
-  $\frac{80}{20} = 4$

**80** car la valeur max de la colonne age est de 80.

Proposons un petit exemple simple: 




 <div style="display: flex; align-items: center;">
     <img src="./image/histogram.png" width="400" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p >1. Mon nombre de Bins sera mon nombre de compartiments.</code></p>
         <p >2. sns.histplot va automatiquement ajuster le début et la fin de mes bins en fonction de ma valeur max et min</code></p>
         <p >3. Il compte l'ensemble des occurences pour chaque bins</code></p>
         <p >4. Et il l'affiche</code></p>
     </div>
 </div>

In [None]:
max = df_titanic['Age'].max()
min = df_titanic['Age'].min()

print(f"La valeur max de la colonne age est de {max} et la valeur min est de {min}")


### Répartition de l'âge des passagers

⛔️ Dans le graphiques suivants, nous avons un pic sur 30 ans. 

C'est normal, car nous avons remplacer les valeurs nulles par la moyenne de la colonne age.

De plus il éxiste plusieurs techniques pour gérer les valeurs nulles. 

Dans cette masterclass nous avons choisis de les remplacer par la moyenne de la colonne.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Je précise la taille de ma figure
plt.figure(figsize=(12, 4))

# Créer un histogramme des âges des passagers
sns.histplot(df_titanic['Age'], bins=20, kde=True)

# Je donne un titre à mon graphique
plt.title("Distribution de l'âge des passagers du Titanic", fontsize=16)

# Afficher le graphique
plt.show()

## Exploration 🧹 et découverte 🏆

Maintenant, le but est de nous poser des questions, et d'analyser si nous voyons des relations entre les variables.

- Peut-être que le sexe a un impact sur la survie ?
  
- L'age a un impact sur la survie ? 


### Analyse d'un lien entre le taux de survie et le sexe => **Catplot**




In [None]:
# Pour la premiere question, nous pouvons faire un graphique de la distribution de la survie en fonction du sexe
sns.countplot(x='Sex', hue='Survived', data=df_titanic)

Un countplot est un graphique qui permet de compter le nombre d'occurences de chaque valeur dans une colonne.

```python
sns.countplot(x='Sex', hue='Survived', data=df_titanic)
```

Dans le code précedent nous avons :
- ```x='Sex'``` : qui permet d'acceder à la colonne Sex de ma dataframe
- ```hue='Survived'``` : qui permet d'acceder à la colonne Survived de ma dataframe
- ```data=df_titanic``` : qui permet d'acceder à ma dataframe

On a peut être un début de piste. 

Il y a beaucoup plus de femmes qui ont survécu. 

Peut être que le sexe a un impact sur la survie.

Nous pouvons faire déja un calcul.

```python 
df_titanic.groupby('Sex')['Survived'].mean()
```

- ```groupby``` : permet de grouper les données par la colonne Sex
- ```Survived``` : permet de sélectionner la colonne Survived
- ```mean``` : permet de calculer la moyenne de la colonne Survived par groupe








In [None]:
df_titanic.groupby('Sex')['Survived'].mean()

In [None]:
# Calcul de la corrélation de Pearson entre Sex et Survived
# Nous devons d'abord encoder la variable 'Sex' en valeurs numériques
df_titanic['Sex_encoded'] = df_titanic['Sex'].map({'female': 0, 'male': 1})

correlation = df_titanic['Sex_encoded'].corr(df_titanic['Survived'], method='pearson')

print(f"La corrélation de Pearson entre Sex et Survived est : {correlation:.4f}")

# Suppression de la colonne temporaire
df_titanic.drop('Sex_encoded', axis=1, inplace=True)


```Forte corrélation```
Une valeur de -0.54 indique une corrélation modérée à forte.

Cela suggère que le sexe était un facteur important dans la survie lors du naufrage du Titanic.

✅ nous avons déja une piste. 

### Analyse d'un lien entre le taux de survie et l'age =>  **BarPlot**








Nous allons voir deux choses dans cette partie. 

Est ce que l'age à un impact sur la survie ? 

Comment identifier les **outliers** ? 


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt


import warnings
warnings.filterwarnings('ignore')


# Créer une figure avec deux sous-graphiques
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(8, 8))

# Fonction pour filtrer les ticks
def filter_ticks(x):
    return x % 5 == 0

# Graphique pour les femmes
sns.barplot(x="Age", y="Survived", data=df_titanic[df_titanic['Sex'] == 'female'], ax=ax1, ci=None)
ax1.set_title("Taux de survie par âge pour les femmes", fontsize=16)
ax1.set_xlabel("Âge", fontsize=12)
ax1.set_ylabel("Taux de survie", fontsize=12)
ax1.set_xticks([int(i) for i in range(int(df_titanic['Age'].max()) + 1) if filter_ticks(i)])
ax1.tick_params(axis='x', rotation=45)

# Graphique pour les hommes
sns.barplot(x="Age", y="Survived", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax2, ci=None)
ax2.set_title("Taux de survie par âge pour les hommes", fontsize=16)
ax2.set_xlabel("Âge", fontsize=12)
ax2.set_ylabel("Taux de survie", fontsize=12)
ax2.set_xticks([i for i in range(int(df_titanic['Age'].max()) + 1) if filter_ticks(i)])
ax2.tick_params(axis='x', rotation=45)

# Ajuster l'espacement entre les sous-graphiques
plt.tight_layout()

# Afficher le graphique
plt.show()

Le barplot va nous permettre de voir la moyenne de la colonne Survived en fonction de la colonne Age.

```python
sns.barplot(x="Age", y="Survived", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax2, ci=None)
```

Dans le code précedent nous avons :
- ```x='Age'``` : qui permet d'acceder à la colonne Age de ma dataframe
- ```y='Survived'``` : qui permet d'acceder à la colonne Survived de ma dataframe
- ```df_titanic[df_titanic['Sex'] == 'male']``` : qui permet d'acceder à mon dataframe en y appliquant un filtre
- ```ax=ax2``` : qui permet d'acceder à l'axe 2 de ma figure


### Analyse des outliers =>  **BoxPlot**

Un boxplot est un graphique qui permet de visualiser la distribution d'une ou de plusieurs colonnes.

Mais un outliers c'est quoi ? 

Un outliers est une valeur qui est en dehors de la distribution.
Une valeur aberrante, elle appartient a notre distribution mais elle est extreme.

Dans le cas d'un modèle de machine learning, les outliers peuvent être gênants car ils peuvent biaiser les résultats.
Plusieurs actions peuvent être faites:
- Supprimer les outliers
- Remplacer les outliers par des valeurs plus raisonnables
- Ne rien faire.

```python
sns.boxplot(y=df_titanic['Age'])
```

Dans le code précedent nous avons :
- ```y='Age'``` : qui permet d'acceder à la colonne Age de ma dataframe
- ```data=df_titanic``` : qui permet d'acceder à ma dataframe



In [None]:

plt.figure(figsize=(6, 3))
sns.boxplot(x=df_titanic['Age'])
plt.title("Distribution de l'âge avec outliers")
plt.show()

##### Qu'est ce qu'on peut y lire ? 

 <div style="display: flex; align-items: center;">
     <img src="./image/outliers.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p style="color: green;"> La ligne du milieu ➖ c'est l'âge du milieu, la median de la distribution, la moitié des gens ont moins, la moitié ont plus.
</code></p>
         <p style="color: orange">Le haut 👆 et le bas 👇 de la boîte montrent où finissent le quart des plus âgés et des plus jeunes</code></p>
          <p style="color: blue">Les moustaches 〰️ représentent la plage des valeurs considérées comme normales (1,5 fois l'écart interquartile, qui est la différence entre le 3ème et le 1er quartile)</code></p>
         <p style="color: red">Les points au-delà des moustaches ⚫ sont les valeurs aberrantes (outliers)</code></p>
     </div>
 </div>

#### Une dérnière analyse pour la route 🛣️ 

Regardons un peu notre dataset..


In [None]:
df_titanic[10:20]

Il y a quelque chose d'interessant dans la colonne Name. 

En effet, il y a des titres avec "Capt.", "Don.", "Major.", "Col.", "Miss", etc.

 <div style=" text-align: center;">
     <img src="./image/title.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
    <figcaption>Différents titres</figcaption>
 </div>

On pourrait se poser la question suivante >> ```Est ce que le titre a un impact sur la survie ?```









Pour pouvoir analyser cette question, nous allons devoir créer une nouvelle colonne qui va regrouper les titres.



Dans l'image précédente on remarque qu'un titre se compose: 

- D'un prénom
- D'une virgule
- Du titre
- d'un espace

Si nous avons un schema aussi commun sur l'ensemble des titres, cela implique qu'une expression régulière pourrait nous aider  à créeer cette nouvelle colonne.

```python
def get_title(user_name):
    return  re.search(r', (.+?\.)',user_name).group(1)
```
Dans le code précedent nous avons :
- ```user_name``` : qui est une variable de notre fonction
- ```re.search``` : qui permet de rechercher le titre de la colonne Name
- ```r', (.+?\.)'``` : qui est une regex qui permet de rechercher le titre de la colonne Name
- ```group(1)``` : qui permet d'acceder au titre de la colonne Name

**Re.search** nous renvoie un objet matché.

Pour accéder à la valeur, nous devons utiliser la méthode ```group(1)```.

Cette méthode va nous renvoyer le titre de la colonne Name.

Voila pourquoi ⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️:




In [None]:
import re

def get_title(user_name):
    return  re.search(r', (.+?\.)',user_name)

## Group 0 nous donne la valeur entière
print(get_title("Williams, Mr. Charles Eugene").group(0))
## Group 1 nous donne la valeur du titre grace au parenthèses de la regex
print(get_title("Williams, Mr. Charles Eugene").group(1))


Pour mettre en place cette nouvelle colonne, nous allons utiliser la fonction ```apply```.

```python
df_titanic['Title'] = df_titanic['Name'].apply(get_title).group(1)
```

Dans le code précedent nous avons :
- ```df_titanic['Name']``` : qui permet d'acceder à la colonne Name de ma dataframe
- ```apply(get_title)``` : qui permet d'appliquer la fonction get_title à la colonne Name de ma dataframe
- ```df_titanic['Title']``` : qui permet de créer une nouvelle colonne Title dans ma dataframe
- ```df_titanic['Title']``` :j'assigne les valeurs de la colonne retourné par la fonction à la colonne Title



In [None]:

def get_title_group(user_name):
    return  re.search(r', (.+?\.)',user_name).group(1)
df_titanic['Title'] = df_titanic['Name'].apply(get_title_group)
df_titanic

In [None]:

# Afficher le taux de survie par titre pour les femmes
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 6))

sns.barplot(x="Title", y="Survived", data=df_titanic[df_titanic['Sex'] == 'female'], ax=ax1, ci=None)
ax1.set_xticklabels(ax1.get_xticklabels(), rotation=-60)
ax1.set_title("Taux de survie par titre (Femmes)")

sns.countplot(x="Title", data=df_titanic[df_titanic['Sex'] == 'female'], ax=ax2)
ax2.set_xticklabels(ax2.get_xticklabels(), rotation=-60)
ax2.set_title("Nombre de personnes par titre (Femmes)")

for i, v in enumerate(df_titanic[df_titanic['Sex'] == 'female']['Title'].value_counts()):
    ax2.text(i, v, str(v), ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Afficher le taux de survie par titre pour les hommes
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 6))

sns.barplot(x="Title", y="Survived", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax1, ci=None)
ax1.set_xticklabels(ax1.get_xticklabels(), rotation=-60)
ax1.set_title("Taux de survie par titre (Hommes)")

sns.countplot(x="Title", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax2)
ax2.set_xticklabels(ax2.get_xticklabels(), rotation=-60)
ax2.set_title("Nombre de personnes par titre (Hommes)")

for i, v in enumerate(df_titanic[df_titanic['Sex'] == 'male']['Title'].value_counts()):
    ax2.text(i, v, str(v), ha='center', va='bottom')

plt.tight_layout()
plt.show()


Qu'est-ce que cela signifie ? 

```Chez les hommes, que le fait d'être un Mr. à un impact sur la survie.```

```Chez les femmes,  que le fait d'être une Miss à un impact sur la survie.```


On peut répondre simplement à cette question. 

Est-ce que le titre à un impact sur la survie ? 

✅ Oui, le titre à un impact sur la survie.

Mais est ce que c'est la seule chose qui compte ? 

```
Non, dans le cas que nous avons précédemment, il faut aussi prendre en considération le nombre de personnes par titres.

Dans un modèle de classification que nous mettrons en place, nous verrons comment exploiter cette différence du nombre de données par titre.

Par éxemple créer une classe de titre.

Pour l'instant ne vous en faites pas. Nous verrons cela dans la prochaine partie.
```











# Conclusion : Ce que vous avez appris aujourd'hui ! 🎓🚀

## Introduction à Pandas 🐼
- Structures de données : Series et DataFrame 📊
- Création et manipulation de DataFrames 🛠️
- Accès aux données et filtrage 🔍
- Analyse exploratoire des données 📈
- Gestion des valeurs manquantes 🕳️

## Feature Engineering 🧰
- Création de nouvelles colonnes 🆕
- Utilisation de regex pour extraire des informations 🔬
- Analyse de l'impact des features  🎯


## Techniques de visualisation 👁️
- Histogrammes, barplots, et boxplots 📊
- Analyse de corrélation 🔗
- Interprétation des graphiques 🧠
- Visualisation avec Seaborn 🎨
- Détection et traitement des outliers 🔬

## Bonnes pratiques d'analyse de données 💡
- Poser les bonnes questions 🤔
- Itérer entre analyse et visualisation 🔄
- Préparer les données pour le machine learning 🤖 >> Mais ce n'est pas fini

Vous êtes maintenant équipés pour explorer et préparer des datasets complexes ! 🌟

N'oubliez pas : la qualité de vos analyses dépend de la qualité de votre préparation des données. 🧹✨

## Mémo des ressources 📚🔗

Voici un récapitulatif des ressources utiles mentionnées dans ce cours :

### Documentation Pandas et Seaborn 📖
- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [CheatSheet Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Documentation de Seaborn](https://seaborn.pydata.org/)

### Dataset du Titanic 🚢
- [Dataset du Titanic sur Kaggle](https://www.kaggle.com/c/titanic)
  Pour pratiquer vos compétences en analyse de données.

### Ressources d'apprentissage supplémentaires 🧠
- [Guide des expressions régulières en Python](https://docs.python.org/3/howto/regex.html)
  Pour approfondir l'utilisation des regex dans le feature engineering.
- [Tutoriel Matplotlib](https://matplotlib.org/stable/tutorials/index.html)
  Pour aller plus loin dans la visualisation de données.

N'hésitez pas à explorer ces ressources pour consolider vos connaissances et développer vos compétences en analyse de données avec Python ! 🐍📊
