# Étude de cas - Titanic

## Table des matières

[**Étape 1 : Compréhension métier**](#Étape-1-:-Compréhension-métier)

[**Étape 2 : Compréhension des données**](#Étape-2-:-Compréhension-des-données)

- [**Chargement des données**](#Chargement-des-données)
- [**Vérification de la qualité des données**](#Vérification-de-la-qualité-des-données)
- [**Analyse exploratoire des données - AED**](#Analyse-exploratoire-des-données---AED)
 
[**Étape 3 : Préparation des données**](#Étape-3-:-Préparation-des-données)
- [**Traitement des données manquantes**](#Traitement-des-données-manquantes)
- [**Ingénierie des caractéristiques**](#Ingénierie-des-caractéristiques)

[**Étape 4 : Modélisation**](#Étape-4-:-Modélisation)

## Étape 1 : Compréhension métier
Cette phase initiale se concentre sur la compréhension des objectifs et des exigences du projet d'un point de vue métier, puis sur la conversion de cette connaissance en une définition du problème de data mining et un plan préliminaire conçu pour atteindre les objectifs.

#### Histoire du Titanic
Le naufrage du RMS Titanic est l'un des naufrages les plus tristement célèbres de l'histoire. Le 15 avril 1912, lors de son voyage inaugural, le Titanic a coulé après avoir heurté un iceberg, tuant 1502 personnes sur 2224 passagers et membres d'équipage. Cette tragédie sensationnelle a choqué la communauté internationale et conduit à de meilleures réglementations de sécurité pour les navires.

L'une des raisons pour lesquelles le naufrage a entraîné une telle perte de vies humaines était qu'il n'y avait pas assez de canots de sauvetage pour les passagers et l'équipage. Bien qu'il y ait eu un élément de chance impliqué dans la survie au naufrage, certains groupes de personnes étaient plus susceptibles de survivre que d'autres, comme les femmes, les enfants et les passagers de la classe supérieure.

#### Objectif
Dans ce défi, nous allons compléter l'analyse des types de personnes susceptibles de survivre.

De plus, nous construirons un modèle de régression pour prédire le prix du billet (Fare).

## Étape 2 : Compréhension des données
La phase de compréhension des données commence par une collecte initiale des données et se poursuit par des activités visant à se familiariser avec les données, à identifier les problèmes de qualité des données, à découvrir les premiers aperçus des données ou à détecter des sous-ensembles intéressants pour former des hypothèses sur les informations cachées. Cette étape est souvent mélangée avec l'étape suivante, la préparation des données.

### Dictionnaire des données
Les données sont dans un fichier csv titanic.csv.

| Variable | Définition | Clé |
| --- | --- | --- |
| survival | Survie | 0 = Non, 1 = Oui |
| pclass | Classe de billet | 1 = 1ère, 2 = 2ème, 3 = 3ème |
| sex | Sexe | male/female |	
| Age | Âge | en années |
| sibsp | Nombre de frères et sœurs / conjoints à bord du Titanic | |
| parch | Nombre de parents / enfants à bord du Titanic | |
| ticket | Numéro de billet | |
| fare | Tarif passager | |
| cabin | Numéro de cabine | |
| embarked | Port d'embarquement | C = Cherbourg, Q = Queenstown, S = Southampton |

**Notes sur les variables**
- pclass : Un indicateur du statut socio-économique (SES)
 - 1ère = Supérieure
 - 2ème = Moyenne
 - 3ème = Inférieure

- age : L'âge est fractionnel s'il est inférieur à 1. Si l'âge est estimé, il est sous la forme de xx.5

- sibsp : Le jeu de données définit les relations familiales de cette manière...
- Frère ou sœur = frère, sœur, demi-frère, demi-sœur
- Conjoint = mari, femme (les maîtresses et fiancés ont été ignorés)

- parch : Le jeu de données définit les relations familiales de cette manière...
 - Parent = mère, père
 - Enfant = fille, fils, belle-fille, beau-fils
 - Certains enfants ont voyagé uniquement avec une nounou, donc parch=0 pour eux.

### Chargement des données

Ce jeu de données est dans ```titanic.csv```. Assurez-vous que le fichier est dans le dossier actuel.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import piplite
await piplite.install('seaborn')
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
df_titanic = pd.read_csv('titanic.csv')
df_titanic.head()