## Le DataSet de la catastrophe du Titanic

Ce tutoriel présente les différents mécanismes de pandas en utilisant le jeu de données Titanic (un classique).

### Chargement des données

Réalisez les étapes suivantes :
- Commencez par charger les données du fichier titanic.csv à l'aide de la méthode <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html">pandas.read_csv</a> dans un nouveau DataFrame.
- Affichez les premières lignes du DataFrame.
- Affichez les informations générales du DataFrame avec <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html">pandas.DataFrame.describe</a>.

Voici une liste des colonnes du DataSet avec une brève description :
- PassengerId - Id
- Survived - Survie (0 = Non ; 1 = Oui)
- Pclass - Classe de passager (1 = 1er ; 2 = 2ème ; 3 = 3ème)
- Name - Nom
- Sex - Sexe
- Age - Âge
- SibSp - Nombre de frères et sœurs/conjoints à bord
- Parch - Nombre de parents/enfants à bord
- Ticket - Numéro du billet
- Fare - Tarif passager
- Cabin - Cabine
- Embarked - Port d'embarquement (C = Cherbourg ; Q = Queenstown ; S = Southampton)
boat - Embarcation de sauvetage (en cas de survie)
body - Numéro du corps (s'il n'a pas survécu et que le corps a été récupéré)

In [16]:
# Votre code ici
import pandas as pd

<details>
<summary>Solution</summary>
<p>
import pandas as pd

df = pd.read_csv("Data/titanic.csv")

df.head(4)

df.describe
<p>
</details>

### Détection des colonnes contenant des valeurs vides

Certaines colonnes sont incomplètes et contiennent  NaN Elles doivent être remplacées.<br>
Pour commencer, identifiez toutes les colonnes qui contiennent un NaN.

In [11]:
# Votre code ici

In [22]:
countMissing = df.isna().sum()
colsToFill = set(countMissing[countMissing > 0].index)
print("Colonnes contenant au moins une valeur vide")
print(colsToFill)

Colonnes contenant au moins une valeur vide
{'Age', 'Cabin', 'Embarked'}


### Remplacement des valeurs vides

Remplacez les données des colonnes contenant NaN par les valeurs suivantes :
 - 0 pour la colonne Age.
 - "unknown" pour les colonnes Cabin et Embarked.

In [23]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
df["Age"] = df["Age"].fillna(0)
df[["Cabin", "Embarked"]] = df[["Cabin", "Embarked"]].fillna("unknown")

df.isna().sum()
<p>
</details>

### Un premier calcul

Maintenant que pandas n'a plus de secrets pour vous.<br>
Calculez le pourcentage de femmes et d'hommes ayant survécu au naufrage en fonction de leur sexe :

$$
  \frac{\text{Man}_{\text{survived}}}{\text{Man}_{\text{total}}} \, \text{et} \, \frac{\text{Woman}_{\text{survived}}}{\text{Woman}_{\text{total}}}

In [28]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
nombreSurvivant = df[df.Survived == 1].Sex.value_counts()
nombrePassager = df.Sex.value_counts()
pourcentageSurvivant = nombreSurvivant / nombrePassager

print(f"Sur les {nombrePassager['male']} hommes à bord, "
      f"{nombreSurvivant['male']} ont survécu. Cela représente {pourcentageSurvivant['male']:.2%} des hommes à bord.")
print(f"Sur les {n_pass['female']} femmes à bord, "
      f"{nombreSurvivant['female']} ont survécu. Cela représente {pourcentageSurvivant['female']:.2%} des femmes à bord.")
<p>
</details>

### Nouvelle colonne Firstname

Ajoutez une colonne Firstname à votre DataFrame qui contient le prénom du passager :
 - Utiliser la colonne Name.
 - Extrayez le prénom à l'aide de <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html">pandas.Series.str.split</a>. Le prénom est toujours affiché avant la virgule dans la colonne Name.
 - Ajoutez le résultat à la colonne Firstname.

In [36]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
df["Firstname"] = [fullname[0] for fullname in df.Name.str.split(",")]
df.head(4)
<p>
</details>

### Mapping

En utilisant <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html">pandas.Series.apply</a>, modifiez la casse de la colonne Firstname pour la passer en majuscules en utilisant la fonction <a href="https://docs.python.org/fr/3/library/stdtypes.html#str.upper">str.upper</a>.

In [39]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
df["Firstname"] = df["Firstname"].apply(str.upper)
df["Firstname"]
<p>
</details>

### La moyenne d'age par classe

Vous allez devoir calculer l'âge moyen par classe et l'ajouter dans une nouvelle colonne AgePerClass dans le DataFrame. Ceci n'est évidemment pas idéal puisque nous introduisons de la redondance dans les données, mais l'objectif est d'utiliser les méthodes que nous avons déjà vues et de pratiquer les méthodes <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html">pandas.DataFrame.groupby</a> et <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html">pandas.DataFrame.join</a>.

In [41]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
gbPclass = df.groupby("Pclass").mean()
df = df.join(gbPclass["Age"], on="Pclass", how="left", rsuffix="PerClass")

df.head(4)
<p>
</details>