# Chapitre 2 : Introduction √† Pandas üêº

Dans ce cours, nous allons explorer Pandas, une biblioth√®que Python puissante pour l'analyse et la manipulation de donn√©es.

De plus n'h√©site pas √† lire ses ressouces avant de venir en masterclasse ‚úÖ

- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [CheatSheetPandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Yet another cheat sheet](https://www.webpages.uidaho.edu/~stevel/cheatsheets/Pandas%20DataFrame%20Notes_12pages.pdf)
- [Utilisation de seaborn](https://seaborn.pydata.org/)

Si tu as des questions ! üôåüèº Lance toi !

Durant cette masterclasse et en prendant en compte les diff√©rents retours des masterclasses pr√©c√©dentes, nous allons travailler de la sorte:

- D√©couverte de la librairie ensemble avec diff√©rents exemples et cas pratiques
- D√©couverte et manipulation dun jeu de donn√©es tr√®s connus dans la litterature ‚û°Ô∏è le titanic üõ≥Ô∏è
- Utilisation de Seaborn et Matplotlib pour la visualisation des donn√©es
- Exercice pratique en solo ü´£


## 1. Introduction √† Pandas

### Qu'est-ce que Pandas ? ü§î

Pandas est une biblioth√®que Python open-source qui fournit des structures de donn√©es et des outils d'analyse de donn√©es performants. Elle est particuli√®rement utile pour travailler avec des donn√©es structur√©es, comme des tableaux ou des s√©ries temporelles.

Les principales structures de donn√©es dans Pandas sont :
- Series : Une colonne de donn√©es unidimensionnelle
- DataFrame : Une structure de donn√©es bidimensionnelle (comme un tableau)

Il faut voir la dataframe comme un tableau de donn√©es avec des lignes et des colonnes. Un peu comme un **excel**.

Pandas permet de faire √©norm√©ment de chose avec ces structures de donn√©es en python !

Pour bien comprendre la diff√©rence entre une s√©rie et un dataframe:

 - ```Une s√©rie est une liste de donn√©es```

<div style="text-align: center;">
<img src="./image/series.png" width="100" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Une s√©rie</figcaption>

</div>

 - ```Un DataFrame est une structure de donn√©es bidimensionnelle compos√©e de s√©ries qui peuvent √™tre de diff√©rents types.```
<div style="text-align: center;">
<img src="./image/seriesdf.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
  <figcaption>Series et DataFrame</figcaption>

</div>

### Cr√©ation d'un DataFrame √† partir d'une et de deux s√©ries üßÆ 


Ok, passons √† la pratique ! On va simplement voir ceux qui entourent les **series** et les **dataframes**. ü§ì


In [None]:
# Importation de pandas
import pandas as pd

def obtenir_appreciation(note):
    if note >= 18:
        return "Excellent ! üåü"
    elif note >= 16:
        return "Tr√®s bien ! üòä"
    elif note >= 14:
        return "Bien üëç"
    elif note >= 12:
        return "Assez bien üôÇ"
    elif note >= 10:
        return "Passable üòê"
    else:
        return "Insuffisant üòï"


# Cr√©er une s√©rie un peu comme apples mais avec des notes
notes = pd.Series([12, 14, 16, 18, 20])

# Appliquer la fonction d'appr√©ciation
appreciations = [obtenir_appreciation(note) for note in notes]

# Des types diff√©rents ??
print("---------")
print("Type de appreciations:", type(appreciations))
print("---")
print("Contenu de appreciations:", appreciations)
print("---------")
print("\nType de notes:", type(notes))
print("---")
print("Contenu de notes:", notes)
print("---------")


ü§î Il y a un type **liste**, un type **pd.series** ?? Kesako ? 

Comme je vous l'ai dis, pandas est une librairie qui permet de manipuler les donn√©es.
Mais pour construire un dataframe il faut √† minima une s√©rie de donn√©es.

ü§î Comment faire pour cr√©er un dataframe ? 

```python
pd.DataFrame({'Appr√©ciations': appreciations})
```

Pour en cr√©er un, √† partir d'au minimum une s√©rie, nous devons lui donner le <span style="color: orange;">nom de sa colonne</span> ainsi que les <span style="color: red;">valeurs qui composent cette colonne</span>:
<div style="text-align: left;">
<img src="./image/explaindf.png" width="400" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>


</div>

Un peu de code : 

In [None]:
# Transformer les appr√©ciations en DataFrame
df_appreciations = pd.DataFrame({'Appr√©ciations': appreciations})

print("DataFrame cr√©√© √† partir des appr√©ciations:")
df_appreciations



Maintenant cr√©ons un dataframe √† partir de deux s√©ries.

```python
df_notes = pd.DataFrame({
    'Notes': notes,
    'Appr√©ciations': appreciations
})
```



In [None]:

note_et_appreciation = pd.DataFrame({
    'Notes': notes,
    'Appr√©ciations': appreciations
})
note_et_appreciation


üéâ Ok nous avons un premier dataframe.

Mais il manque un petit quelque chose ...

```Si je veux la note d'un √©tudiant, par exemple Lise, ou Rapha√´l ? ```

Ici nous avons deux possibilit√©s, soit je cr√©er ce que j'appelle un index, ou bien une colonne.

Il est toujours pr√©f√©rable d'avoir des index uniques pour chaque ligne. 

Nous allons donc simplement ajouter une colonne avec le nom des √©tudiants et nous l'appellerons "noms".

In [None]:
# Dans ma df note_et_appreciation, je cr√©er une colonne qui s'appelle "noms" et je lui donne les valeurs suivantes :
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand"]

#Je l'affiche
note_et_appreciation


Magie ü™Ñ, pour cr√©er une nouvelle colonne, je n'ai pas besoin de faire une boucle for. Je peux simplement lui donner les valeurs avec le nom de sa colonne comme dans le code pr√©c√©dent.

## ‚õîÔ∏è Attention ‚õîÔ∏è

Si je fais √ßa : 

```python
note_et_appreciation["noms"]= ["Lise", "Raphael", "Laurence", "Hugo", "Bertrand","Christopher"]
```
<p style="color: red;">Il y aura une erreur.</p>

ü§î Pourquoi ? 

Car mon nombre de valeurs dans la s√©rie que je souhaite ajouter √† ma df ne correspond pas au nombre de ligne dans ma series. 

## Acc√©der aux valeurs dans un dataframe üïµüèº‚Äç‚ôÇÔ∏è

Pour acc√©der aux valeurs d'une colonne dans un dataframe, il faut faire comme ceci : 

```python
note_et_appreciation["noms"]
```

Pour acc√©der √† une valeur en particulier, il faut faire comme ceci : 

```python
note_et_appreciation["noms"][0]
```

Pour acc√©der √† une ligne en particulier, il faut faire comme ceci : 

```python
note_et_appreciation.loc[0]
```



In [None]:
# J'acc√©de √† une s√©rie de mon dataframe
print(note_et_appreciation["noms"])
print("---------")
print(type(note_et_appreciation["noms"]))
print("---------")


In [None]:
# J'acc√©de √† une s√©rie de mon dataframe

print(type(note_et_appreciation[["noms"]]))
print("---------")
note_et_appreciation[["noms"]]

In [None]:
# J'acc√©de √† une valeur en particulier de ma serie
print(note_et_appreciation["noms"][0])
print("---------")
print(type(note_et_appreciation["noms"][0]))
print("---------")


In [None]:

# J'acc√©de √† une ligne en particulier de ma serie
print(note_et_appreciation.loc[0])
print("---------")
print(type(note_et_appreciation.loc[0]))
print("---------")


In [None]:
#Acc√©der √† un sous groupe de ligne en affichant la colonne noms
note_et_appreciation.loc[3:4,["noms"]]

**Un petit r√©sum√© :**

 <div style="display: flex; align-items: center;">
     <img src="./image/diffaccess1.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p style="color: red;">1. Acc√©der √† une ligne : <code>note_et_appreciation.loc[1]</code></p>
         <p style="color: orange;">2. Acc√©der √† une colonne : <code>note_et_appreciation["Notes"]</code></p>
         <p style="color: green;">3. Acc√©der √† la premi√®re valeur de la colonne noms : <code>note_et_appreciation["noms"][0]</code></p>
         <p style="color: blue;">4. Acc√©der √† un sous groupe de ligne : <code>note_et_appreciation.loc[3:4]</code></p>
     </div>
 </div>

## Filtrer et op√©rer sur les donn√©es üü∞
#### Les filtres bool√©ens

Si tu ne sais pas ce qu'est un bool√©en, vas lire l'article suivant :
- [Un bool√©en Kesako ? ü§î](https://www.maxicours.com/se/cours/comprendre-les-booleens/)




Pandas, permet de parcourir les donn√©es et donc de les analyser facilement. 
Pour ce faire nous allons voir ce qu'est la s√©lection conditionnelle. 

```python
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]
```

On peut utiliser query et avoir √©xactement le m√™me r√©sultat:

```python
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')
```

ü§î Comment lire ce code ? 

On veut les personnes ayant une note sup√©rieure ou √©gale √† 16 **ET** le nom de la personne est √©gale √† Bertrand.





In [None]:
# Filtrer les personnes ayant une note sup√©rieure √† 16
personnes_notes_elevees = note_et_appreciation[(note_et_appreciation['Notes'] >= 16) & (note_et_appreciation['noms'] == 'Bertrand')]

# Afficher le r√©sultat
print("Personnes avec une note sup√©rieure √† 16 :")
personnes_notes_elevees


On peut utiliser query et avoir √©xactement le m√™me r√©sultat.

In [None]:
note_et_appreciation.query('Notes >= 16 and noms == "Bertrand"')

Ca fonctionne avec l'aide de masque bool√©en.

```python
note_et_appreciation['Notes'] >= 16
```

```python
note_et_appreciation['noms'] == 'Bertrand'
```



In [None]:
#Je cr√©er une colonne qui s'appelle "au_dessus_de_16" et je lui donne la valeur True si la note est sup√©rieure ou √©gale √† 16 et False si la note est inf√©rieure √† 16.
note_et_appreciation["au_dessus_de_16"] = note_et_appreciation["Notes"] >= 16

#Je cr√©er une colonne qui s'appelle "c_est_bertrand" et je lui donne la valeur True si le nom est √©gale √† Bertrand et False si le nom est diff√©rent de Bertrand.
note_et_appreciation["c_est_bertrand"] = note_et_appreciation["noms"] == "Bertrand"

#J'affiche le r√©sultat
note_et_appreciation

**Nous avons utilis√© des masques bool√©ens.**

 <div style="display: flex; align-items: center;">
     <img src="./image/mask.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
     <p> 1. Au dessus de 16  et c'est Bertrand  sont nos masques bool√©ens</p>
     <p> 2. On les applique avec un "and" entre eux</p>
     <p> 3. Je ne r√©cup√©re que les lignes ou les deux conditions sont vraies</p>
     <p> 4. Ici une seule</p>
  
 </div>

#### Quelques m√©thodes sympa üéÅ

In [None]:
# Savoir si une colonne contient un texte, mot particulier
note_et_appreciation["noms"].str.contains("h", case=False)

In [None]:
#Utilisation de inplace=True pour modifier la colonne et ne plus avoir √† reassigner la dataframe
note_et_appreciation["noms"].replace("Bertrand", "Dark Vador", inplace=True)
print(note_et_appreciation)


In [None]:
#Ordonner une colonne
note_et_appreciation["Notes"].sort_values(ascending=False)


In [None]:
# Op√©ration d'aggr√©gation
somme_des_note = note_et_appreciation["Notes"].sum()
moyenne_des_note = note_et_appreciation["Notes"].mean()
ecart_type_des_notes = note_et_appreciation["Notes"].std()

print(f'La moyenne des notes est de {moyenne_des_note} et l\'√©cart type des notes est de {ecart_type_des_notes}')


In [None]:

# Ajout d'une nouvelle colonne qui compte le nombre de lettres dans chaque nom d'√©tudiant
note_et_appreciation['nombre_lettres_nom'] = note_et_appreciation['noms'].str.len()

# Affichage du r√©sultat
print(note_et_appreciation)



## La m√©thode apply


La m√©thode apply permet d'appliquer une fonction √† chaque √©l√©ment d'une colonne.
Elle est tr√®s utilis√© quand on souhaite appliquer une logique particuli√®re √† une colonne qui n'est pas fournie par d√©faut dans pandas.

Imaginons que je souhaite 
```python
note_et_appreciation["Notation_Point_bonus"]=note_et_appreciation.apply(lambda x: x + 2 if x["au_dessus_de_16"] == True else x, axis=1)
````


In [None]:
note_et_appreciation["bonus"]=[1,0,1,0,1]

In [None]:
note_et_appreciation

In [None]:
note_et_appreciation["Notes"] = note_et_appreciation.apply(lambda x: x["Notes"] + 2 if x["bonus"] == 1 else x["Notes"], axis=1)


In [None]:
note_et_appreciation


Un petit peu d'explication.

- ```lambda x: x + 2``` : Cette partie de la fonction est une expression lambda qui prend un argument x et retourne x + 2.
- ```if x["bonus"] == 1``` : Cette condition v√©rifie si la valeur de la colonne "bonus" est √©gale √† 1.
- ```else x["Notes"]``` : Si la condition n'est pas v√©rifi√©e, la valeur de la colonne "Notes" est retourn√©e.
- ```axis=1``` : Cette option indique que la fonction apply s'applique √† chaque ligne du DataFrame.

Pour faire simple, si mon √©l√®ve √† eu un bonus, alors je lui ajoute 2 points √† sa note.

#  El TITANICO üí•üü∞üßä‚¨ÖÔ∏èüö¢ 

Dans cette partie nous allons voir: 

- Un peu de data Viz üìà > Avec seaborn
- Un peu de feature engineering üßÆ > Toujours avec Pandas

Le but sera de pr√©parer les donn√©es afin de faire (dans la prochaine masterclass) de la classification. 

Ce chapitre va vous permettre de comprendre les intuitions √† d√©velopper pour r√©ussir √† faire de l'analyse de donn√©es.

Au travers de la data viz, du data cleaning, ou encore de la data engineering. 

Les questions peuvent √™tre diff√©rentes dans le cas d'une analyse de donn√©es ou de la mise en place d'un mod√®le de machine learning. 

Mais dans les faits il faut souvent se poser, en analysant les donn√©es, les questions suivantes:

- Ai-je des valeurs manquantes (null) ?  Si oui lesquelles ? Comment les remplacer ? Supprimer ?  
- Ai-je des variables cat√©goriques ? Si oui, lesquelles ? Comment les traiter ? (OHE)
- Ai-je des outliers ? Si oui, lesquelles ? Comment les traiter ? (RobustScaler, Normalisation, Suppression)
- Ai-je des valeurs aberrantes ? Si oui, lesquelles ? Comment les traiter ? 
- Ai-je des valeurs temporelles ? Si oui, lesquelles ? Comment les traiter ? (Conversion en cycle)
- Y a t'il des features que je peux exploiter autrement ? (Exemple: le nom du passager peut-il √™tre un feature ? Je peux cr√©er une classe pour l'age par exemple ?)
  




## Chargement des jeux de donn√©es üíø
 
Nous allons dans un premier temps t√©l√©charger le jeu de donn√©es et voir ce que ca donne.

Dans la cellule suivante il y a un peu de magie ü™Ñ. 

Jupyter permet d'executer des commandes shell comme mkdir ou curl.
- ```mkdir``` : Cr√©er un dossier
- ```curl``` : T√©l√©charger un fichier
- ```unzip``` : D√©compreser un fichier

Il suffit de commencer la commande par ```>>!<<```





In [None]:
#Je cr√©er le dossier dataset s'il n'exite pas
!mkdir -p dataset
#J'utilise la commande curl pour download le dataset au format ZIP
!curl -L "https://storage.googleapis.com/kaggle-data-sets/1818188/2965537/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20241007%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20241007T144305Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=a4109750d7ec513a4a42fbe595f7b296865888133b24f6458244b7f0a65b9d841de7d2d96a0a70e70baecbe4cb68ebeec20fbad12deff8c7955acaedf4ba94d2a03e9ff3fc7b53ff4d9f55bb25de3be4552c791b3cc915dc8c481d2e65677e358f628390cfe77a243d4a075431cd9fcf793419ac09362b4f55462c331c64826e4dbc47ecf3d4627865dda992583cb9058264e4ecbccf1156d50a657ed01cdedc493b96274e8e3a37edc5b48ebadad8cf257e76b71e49bcffd83d69d6a8fbd12f34e37b4e514d72af02af912680388f00ec1fd0ca2a01ca478079e6546d98877b97405e682a84e5d514193d8b565ffbe23170b990ee6fceba71025b8e797e4829" -o dataset/archive.zip
#Je d√©compresse le fichier zip
!unzip -q dataset/archive.zip -d dataset

In [None]:
# Importation de la biblioth√®que pandas
import pandas as pd

# Chargement du jeu de donn√©es Titanic
df_titanic = pd.read_csv('dataset/Titanic-Dataset.csv')

df_titanic.head(5)



Pandas permet de tr√®s rapidement d'exploiter une fichier csv sous forme de dataframe .
Il suffit d'utiliser la m√©thode ```read_csv```.

```python
df_titanic = pd.read_csv('dataset/Titanic-Dataset.csv')
```

La m√©thode head permet aussi d'afficher les 5 premi√®res lignes du dataframe.

```python
df_titanic.head(5)
```





La toute premi√®re chose √† faire et de comprendre ce que contient le dataset.

| Colonne    | Description                           | Valeurs possibles                        |
|------------|---------------------------------------|------------------------------------------|
| survival   | Survie                                | 0 = Non, 1 = Oui                         |
| pclass     | Classe du billet                      | 1 = 1√®re, 2 = 2√®me, 3 = 3√®me             |
| sex        | Sexe                                  | -                                        |
| age        | √Çge en ann√©es                         | -                                        |
| sibsp      | Nombre de fr√®res/s≈ìurs / conjoints √† bord | -                                    |
| parch      | Nombre de parents / enfants √† bord    | -                                        |
| ticket     | Num√©ro de billet                      | -                                        |
| fare       | Tarif du billet                       | -                                        |
| cabin      | Num√©ro de cabine                      | -                                        |
| embarked   | Port d'embarquement                   | C = Cherbourg, Q = Queenstown, S = Southampton |

## Quelques petites v√©rifications

Nous allons v√©rfier des petits points dans ce dataset. 

V√©rification de valeurs manquantes: 
```python
df_titanic.isnull().sum()
```

V√©rification des types de donn√©es:
```python
df_titanic.info()
```


In [None]:
#Une petite v√©rification globale
df_titanic.info()

V√©rification des valeurs nulles:

In [None]:
# V√©rification de valeurs nulles
for column in df_titanic.columns:
    print(f"{column} as {df_titanic[column].isnull().sum()} nan values")

On peut d√©ja remarquer que la colonne "Cabin" contient beaucoup de valeurs nulles.
-  $\frac{687}{891} = 77\%$

On peut aussi remarquer que la colonne "Age" contient des valeurs nulles.
-  $\frac{177}{891} = 20\%$

Dans le cas de la Cabin, on peut supprimer cette colonne. Il y a beaucoup de valeurs nulles et peu d'informations exploitable. 

```python 
df_titanic.drop(columns=["Cabin"], inplace=True)
```

Dans le cas de l'age, on peut remplacer les valeurs nulles par la moyenne de la colonne age.

```python
df_titanic["Age"].fillna(df_titanic["Age"].mean(), inplace=True)
```



In [None]:
df_titanic.drop(columns=["Cabin"], inplace=True)
df_titanic["Age"].fillna(df_titanic["Age"].mean(), inplace=True)

In [None]:
df_titanic.info()

#### Good Job üëè
Nous avons d√©ja fait pas mal de chose. 

Nous avons : 
- Observer de quoi est constitu√© le dataset
- Supprimer la colonne Cabin
- Remplacer les valeurs nulles de la colonne Age par la moyenne de la colonne Age
- Afficher le r√©sultat



## Utilisation de seaborn ü¶≠ pour faire des graphiques rapidement √† partir de dataframe

Seaborn est une biblioth√®que Python pour la visualisation des donn√©es.

Je peux, avec l'aide de colonne de ma dataframe, faire des graphiques.

Prenons un exemple avec l'√¢ge des passagers.

```python
#J'importe seaborn et matplotlib
import seaborn as sns
import matplotlib.pyplot as plt

# Cr√©er un histogramme des √¢ges des passagers
sns.histplot(df_titanic['Age'], bins=20, kde=True)
```

Dans le code pr√©c√©dent, nous avons :
- ```sns.histplot``` : qui permet de faire un histogramme
- ```df_titanic['Age']``` : qui permet d'acceder √† la colonne Age de ma dataframe
- ```bins=20``` : qui permet de specifier le nombre de bins de l'histogramme
- ```kde=True``` : qui permet d'afficher la courbe de densit√©

Pour √™tre encore plus pr√©cis, ```histplot``` va simplement, avec sa variable bins, permettre de compter le nombre d'occurences de chaque valeur dans ma s√©rie. 
Par la suite, elles seront group√©es dans des intervalles de taille:
-  $\frac{80}{20} = 4$

**80** car la valeur max de la colonne age est de 80.

Proposons un petit exemple simple: 




 <div style="display: flex; align-items: center;">
     <img src="./image/histogram.png" width="400" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p >1. Mon nombre de Bins sera mon nombre de compartiments.</code></p>
         <p >2. sns.histplot va automatiquement ajuster le d√©but et la fin de mes bins en fonction de ma valeur max et min</code></p>
         <p >3. Il compte l'ensemble des occurences pour chaque bins</code></p>
         <p >4. Et il l'affiche</code></p>
     </div>
 </div>

In [None]:
max = df_titanic['Age'].max()
min = df_titanic['Age'].min()

print(f"La valeur max de la colonne age est de {max} et la valeur min est de {min}")


### R√©partition de l'√¢ge des passagers

‚õîÔ∏è Dans le graphiques suivants, nous avons un pic sur 30 ans. 

C'est normal, car nous avons remplacer les valeurs nulles par la moyenne de la colonne age.

De plus il √©xiste plusieurs techniques pour g√©rer les valeurs nulles. 

Dans cette masterclass nous avons choisis de les remplacer par la moyenne de la colonne.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Je pr√©cise la taille de ma figure
plt.figure(figsize=(12, 4))

# Cr√©er un histogramme des √¢ges des passagers
sns.histplot(df_titanic['Age'], bins=20, kde=True)

# Je donne un titre √† mon graphique
plt.title("Distribution de l'√¢ge des passagers du Titanic", fontsize=16)

# Afficher le graphique
plt.show()

## Exploration üßπ et d√©couverte üèÜ

Maintenant, le but est de nous poser des questions, et d'analyser si nous voyons des relations entre les variables.

- Peut-√™tre que le sexe a un impact sur la survie ?
  
- L'age a un impact sur la survie ? 


### Analyse d'un lien entre le taux de survie et le sexe => **Catplot**




In [None]:
# Pour la premiere question, nous pouvons faire un graphique de la distribution de la survie en fonction du sexe
sns.countplot(x='Sex', hue='Survived', data=df_titanic)

Un countplot est un graphique qui permet de compter le nombre d'occurences de chaque valeur dans une colonne.

```python
sns.countplot(x='Sex', hue='Survived', data=df_titanic)
```

Dans le code pr√©cedent nous avons :
- ```x='Sex'``` : qui permet d'acceder √† la colonne Sex de ma dataframe
- ```hue='Survived'``` : qui permet d'acceder √† la colonne Survived de ma dataframe
- ```data=df_titanic``` : qui permet d'acceder √† ma dataframe

On a peut √™tre un d√©but de piste. 

Il y a beaucoup plus de femmes qui ont surv√©cu. 

Peut √™tre que le sexe a un impact sur la survie.

Nous pouvons faire d√©ja un calcul.

```python 
df_titanic.groupby('Sex')['Survived'].mean()
```

- ```groupby``` : permet de grouper les donn√©es par la colonne Sex
- ```Survived``` : permet de s√©lectionner la colonne Survived
- ```mean``` : permet de calculer la moyenne de la colonne Survived par groupe








In [None]:
df_titanic.groupby('Sex')['Survived'].mean()

In [None]:
# Calcul de la corr√©lation de Pearson entre Sex et Survived
# Nous devons d'abord encoder la variable 'Sex' en valeurs num√©riques
df_titanic['Sex_encoded'] = df_titanic['Sex'].map({'female': 0, 'male': 1})

correlation = df_titanic['Sex_encoded'].corr(df_titanic['Survived'], method='pearson')

print(f"La corr√©lation de Pearson entre Sex et Survived est : {correlation:.4f}")

# Suppression de la colonne temporaire
df_titanic.drop('Sex_encoded', axis=1, inplace=True)


```Forte corr√©lation```
Une valeur de -0.54 indique une corr√©lation mod√©r√©e √† forte.

Cela sugg√®re que le sexe √©tait un facteur important dans la survie lors du naufrage du Titanic.

‚úÖ nous avons d√©ja une piste. 

### Analyse d'un lien entre le taux de survie et l'age =>  **BarPlot**








Nous allons voir deux choses dans cette partie. 

Est ce que l'age √† un impact sur la survie ? 

Comment identifier les **outliers** ? 


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt


import warnings
warnings.filterwarnings('ignore')


# Cr√©er une figure avec deux sous-graphiques
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(8, 8))

# Fonction pour filtrer les ticks
def filter_ticks(x):
    return x % 5 == 0

# Graphique pour les femmes
sns.barplot(x="Age", y="Survived", data=df_titanic[df_titanic['Sex'] == 'female'], ax=ax1, ci=None)
ax1.set_title("Taux de survie par √¢ge pour les femmes", fontsize=16)
ax1.set_xlabel("√Çge", fontsize=12)
ax1.set_ylabel("Taux de survie", fontsize=12)
ax1.set_xticks([int(i) for i in range(int(df_titanic['Age'].max()) + 1) if filter_ticks(i)])
ax1.tick_params(axis='x', rotation=45)

# Graphique pour les hommes
sns.barplot(x="Age", y="Survived", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax2, ci=None)
ax2.set_title("Taux de survie par √¢ge pour les hommes", fontsize=16)
ax2.set_xlabel("√Çge", fontsize=12)
ax2.set_ylabel("Taux de survie", fontsize=12)
ax2.set_xticks([i for i in range(int(df_titanic['Age'].max()) + 1) if filter_ticks(i)])
ax2.tick_params(axis='x', rotation=45)

# Ajuster l'espacement entre les sous-graphiques
plt.tight_layout()

# Afficher le graphique
plt.show()

Le barplot va nous permettre de voir la moyenne de la colonne Survived en fonction de la colonne Age.

```python
sns.barplot(x="Age", y="Survived", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax2, ci=None)
```

Dans le code pr√©cedent nous avons :
- ```x='Age'``` : qui permet d'acceder √† la colonne Age de ma dataframe
- ```y='Survived'``` : qui permet d'acceder √† la colonne Survived de ma dataframe
- ```df_titanic[df_titanic['Sex'] == 'male']``` : qui permet d'acceder √† mon dataframe en y appliquant un filtre
- ```ax=ax2``` : qui permet d'acceder √† l'axe 2 de ma figure


### Analyse des outliers =>  **BoxPlot**

Un boxplot est un graphique qui permet de visualiser la distribution d'une ou de plusieurs colonnes.

Mais un outliers c'est quoi ? 

Un outliers est une valeur qui est en dehors de la distribution.
Une valeur aberrante, elle appartient a notre distribution mais elle est extreme.

Dans le cas d'un mod√®le de machine learning, les outliers peuvent √™tre g√™nants car ils peuvent biaiser les r√©sultats.
Plusieurs actions peuvent √™tre faites:
- Supprimer les outliers
- Remplacer les outliers par des valeurs plus raisonnables
- Ne rien faire.

```python
sns.boxplot(y=df_titanic['Age'])
```

Dans le code pr√©cedent nous avons :
- ```y='Age'``` : qui permet d'acceder √† la colonne Age de ma dataframe
- ```data=df_titanic``` : qui permet d'acceder √† ma dataframe



In [None]:

plt.figure(figsize=(6, 3))
sns.boxplot(x=df_titanic['Age'])
plt.title("Distribution de l'√¢ge avec outliers")
plt.show()

##### Qu'est ce qu'on peut y lire ? 

 <div style="display: flex; align-items: center;">
     <img src="./image/outliers.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
     <div style="margin-left: 12px;">
         <p style="color: green;"> La ligne du milieu ‚ûñ c'est l'√¢ge du milieu, la median de la distribution, la moiti√© des gens ont moins, la moiti√© ont plus.
</code></p>
         <p style="color: orange">Le haut üëÜ et le bas üëá de la bo√Æte montrent o√π finissent le quart des plus √¢g√©s et des plus jeunes</code></p>
          <p style="color: blue">Les moustaches „Ä∞Ô∏è repr√©sentent la plage des valeurs consid√©r√©es comme normales (1,5 fois l'√©cart interquartile, qui est la diff√©rence entre le 3√®me et le 1er quartile)</code></p>
         <p style="color: red">Les points au-del√† des moustaches ‚ö´ sont les valeurs aberrantes (outliers)</code></p>
     </div>
 </div>

#### Une d√©rni√®re analyse pour la route üõ£Ô∏è 

Regardons un peu notre dataset..


In [None]:
df_titanic[10:20]

Il y a quelque chose d'interessant dans la colonne Name. 

En effet, il y a des titres avec "Capt.", "Don.", "Major.", "Col.", "Miss", etc.

 <div style=" text-align: center;">
     <img src="./image/title.png" width="300" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3); border-radius: 10px;"/>
    <figcaption>Diff√©rents titres</figcaption>
 </div>

On pourrait se poser la question suivante >> ```Est ce que le titre a un impact sur la survie ?```









Pour pouvoir analyser cette question, nous allons devoir cr√©er une nouvelle colonne qui va regrouper les titres.



Dans l'image pr√©c√©dente on remarque qu'un titre se compose: 

- D'un pr√©nom
- D'une virgule
- Du titre
- d'un espace

Si nous avons un schema aussi commun sur l'ensemble des titres, cela implique qu'une expression r√©guli√®re pourrait nous aider  √† cr√©eer cette nouvelle colonne.

```python
def get_title(user_name):
    return  re.search(r', (.+?\.)',user_name).group(1)
```
Dans le code pr√©cedent nous avons :
- ```user_name``` : qui est une variable de notre fonction
- ```re.search``` : qui permet de rechercher le titre de la colonne Name
- ```r', (.+?\.)'``` : qui est une regex qui permet de rechercher le titre de la colonne Name
- ```group(1)``` : qui permet d'acceder au titre de la colonne Name

**Re.search** nous renvoie un objet match√©.

Pour acc√©der √† la valeur, nous devons utiliser la m√©thode ```group(1)```.

Cette m√©thode va nous renvoyer le titre de la colonne Name.

Voila pourquoi ‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è‚¨áÔ∏è:




In [None]:
import re

def get_title(user_name):
    return  re.search(r', (.+?\.)',user_name)

## Group 0 nous donne la valeur enti√®re
print(get_title("Williams, Mr. Charles Eugene").group(0))
## Group 1 nous donne la valeur du titre grace au parenth√®ses de la regex
print(get_title("Williams, Mr. Charles Eugene").group(1))


Pour mettre en place cette nouvelle colonne, nous allons utiliser la fonction ```apply```.

```python
df_titanic['Title'] = df_titanic['Name'].apply(get_title).group(1)
```

Dans le code pr√©cedent nous avons :
- ```df_titanic['Name']``` : qui permet d'acceder √† la colonne Name de ma dataframe
- ```apply(get_title)``` : qui permet d'appliquer la fonction get_title √† la colonne Name de ma dataframe
- ```df_titanic['Title']``` : qui permet de cr√©er une nouvelle colonne Title dans ma dataframe
- ```df_titanic['Title']``` :j'assigne les valeurs de la colonne retourn√© par la fonction √† la colonne Title



In [None]:

def get_title_group(user_name):
    return  re.search(r', (.+?\.)',user_name).group(1)
df_titanic['Title'] = df_titanic['Name'].apply(get_title_group)
df_titanic

In [None]:

# Afficher le taux de survie par titre pour les femmes
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 6))

sns.barplot(x="Title", y="Survived", data=df_titanic[df_titanic['Sex'] == 'female'], ax=ax1, ci=None)
ax1.set_xticklabels(ax1.get_xticklabels(), rotation=-60)
ax1.set_title("Taux de survie par titre (Femmes)")

sns.countplot(x="Title", data=df_titanic[df_titanic['Sex'] == 'female'], ax=ax2)
ax2.set_xticklabels(ax2.get_xticklabels(), rotation=-60)
ax2.set_title("Nombre de personnes par titre (Femmes)")

for i, v in enumerate(df_titanic[df_titanic['Sex'] == 'female']['Title'].value_counts()):
    ax2.text(i, v, str(v), ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Afficher le taux de survie par titre pour les hommes
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 6))

sns.barplot(x="Title", y="Survived", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax1, ci=None)
ax1.set_xticklabels(ax1.get_xticklabels(), rotation=-60)
ax1.set_title("Taux de survie par titre (Hommes)")

sns.countplot(x="Title", data=df_titanic[df_titanic['Sex'] == 'male'], ax=ax2)
ax2.set_xticklabels(ax2.get_xticklabels(), rotation=-60)
ax2.set_title("Nombre de personnes par titre (Hommes)")

for i, v in enumerate(df_titanic[df_titanic['Sex'] == 'male']['Title'].value_counts()):
    ax2.text(i, v, str(v), ha='center', va='bottom')

plt.tight_layout()
plt.show()


Qu'est-ce que cela signifie ? 

```Chez les hommes, que le fait d'√™tre un Mr. √† un impact sur la survie.```

```Chez les femmes,  que le fait d'√™tre une Miss √† un impact sur la survie.```


On peut r√©pondre simplement √† cette question. 

Est-ce que le titre √† un impact sur la survie ? 

‚úÖ Oui, le titre √† un impact sur la survie.

Mais est ce que c'est la seule chose qui compte ? 

```
Non, dans le cas que nous avons pr√©c√©demment, il faut aussi prendre en consid√©ration le nombre de personnes par titres.

Dans un mod√®le de classification que nous mettrons en place, nous verrons comment exploiter cette diff√©rence du nombre de donn√©es par titre.

Par √©xemple cr√©er une classe de titre.

Pour l'instant ne vous en faites pas. Nous verrons cela dans la prochaine partie.
```











# Conclusion : Ce que vous avez appris aujourd'hui ! üéìüöÄ

## Introduction √† Pandas üêº
- Structures de donn√©es : Series et DataFrame üìä
- Cr√©ation et manipulation de DataFrames üõ†Ô∏è
- Acc√®s aux donn√©es et filtrage üîç
- Analyse exploratoire des donn√©es üìà
- Gestion des valeurs manquantes üï≥Ô∏è

## Feature Engineering üß∞
- Cr√©ation de nouvelles colonnes üÜï
- Utilisation de regex pour extraire des informations üî¨
- Analyse de l'impact des features  üéØ


## Techniques de visualisation üëÅÔ∏è
- Histogrammes, barplots, et boxplots üìä
- Analyse de corr√©lation üîó
- Interpr√©tation des graphiques üß†
- Visualisation avec Seaborn üé®
- D√©tection et traitement des outliers üî¨

## Bonnes pratiques d'analyse de donn√©es üí°
- Poser les bonnes questions ü§î
- It√©rer entre analyse et visualisation üîÑ
- Pr√©parer les donn√©es pour le machine learning ü§ñ >> Mais ce n'est pas fini

Vous √™tes maintenant √©quip√©s pour explorer et pr√©parer des datasets complexes ! üåü

N'oubliez pas : la qualit√© de vos analyses d√©pend de la qualit√© de votre pr√©paration des donn√©es. üßπ‚ú®

## M√©mo des ressources üìöüîó

Voici un r√©capitulatif des ressources utiles mentionn√©es dans ce cours :

### Documentation Pandas et Seaborn üìñ
- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [CheatSheet Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Documentation de Seaborn](https://seaborn.pydata.org/)

### Dataset du Titanic üö¢
- [Dataset du Titanic sur Kaggle](https://www.kaggle.com/c/titanic)
  Pour pratiquer vos comp√©tences en analyse de donn√©es.

### Ressources d'apprentissage suppl√©mentaires üß†
- [Guide des expressions r√©guli√®res en Python](https://docs.python.org/3/howto/regex.html)
  Pour approfondir l'utilisation des regex dans le feature engineering.
- [Tutoriel Matplotlib](https://matplotlib.org/stable/tutorials/index.html)
  Pour aller plus loin dans la visualisation de donn√©es.

N'h√©sitez pas √† explorer ces ressources pour consolider vos connaissances et d√©velopper vos comp√©tences en analyse de donn√©es avec Python ! üêçüìä
