# Introduction

Analyse des données de la catastrophe du Titanic pour le client "White Star Lines".

## Charger les librairies nécessaires

Les librairies chargées ci-dessous vont permettres de fournir les outils nécessaires pour analyser les données.

In [305]:
# Charger les librairies nécessaires
import pandas as pd
import pylab as P
import matplotlib.pyplot as plt
import numpy as np

## Charger le fichier de données
Le fichier ci-dessous contient les données que nous devons explorer durant ce TP.

In [306]:
df = pd.read_csv('train.csv', header=0)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Nettoyer les Données


## Combler les données de la colonne "Age"

Afin de remplir le manque de données de la colonne "Age". Je vais essayer de les compler par une moyenne puis par une mediane.

### Moyenne
La moyenne est une méthode pour combler les trous mais elle prend en compte les valeurs extrêmes ce qui est moins pertinent qu'une médiane.

In [307]:
dfMean = df.copy()
dfMean['Age'].fillna(dfMean['Age'].mean(), inplace=True)
dfMean.describe()
#plt.hist(dfMean)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104
50%,446.0,0.0,3.0,29.699118,0.0,0.0,14.4542
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Médiane
La médiane est la meilleure mesure de la tendance centrale que la moyenne arithmétique. Elle n'est pas sensible aux valeurs extrêmes à l'inverse de la moyenne.

In [308]:
dfMedian = df.copy()
dfMedian['Age'].fillna(dfMedian['Age'].median(), inplace=True)
dfMedian.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.361582,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.019697,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Conclusion

En prenant en compte les caractéristiques entre la moyenne et la médiane. Nous allons utiliser la médiane pour combler le manque de données.

In [309]:
df['Age'].fillna(df['Age'].median(), inplace=True)

# Analyser les données
L'analyse de données va permettre de comprendre les variables qui ont jouées pour la survie des personnes qui étaient sur le Titanic.

## Genre
Nous allons maintenant analyser les données pour comprendre si le genre a été déterminant pour la survie.

In [279]:
MaleSurvived = df[(df['Survived'] == 1) & (df['Sex'] == 'male')]['Sex'].count().astype(float).copy()
Male = df[df['Sex'] == 'male']['Sex'].count().astype(float).copy()

ProportionMaleSurvived = MaleSurvived / Male

print('La proportion d\'hommes qui ont survécus est de : {p:.2f} %'.format(p= ProportionMaleSurvived * 100))

La proportion d'hommes qui ont survécus est de : 18.89 %


In [280]:
FemaleSurvived = df[(df['Survived'] == 1) & (df['Sex'] == 'female')]['Sex'].count().astype(float).copy()
Female = df[df['Sex'] == 'female']['Sex'].count().astype(float).copy()

print('La proportion de femmes qui ont survécues est de : {p:.2f} %'.format(p=FemaleSurvived / Female * 100))

La proportion de femmes qui ont survécues est de : 74.20 %


Le sexe semble être un élément déterminant pour la survie. Etre une femme sur le titanic offrait plus de chances de survivre que d'être un homme.

## Age

Nous nous demandons maintenant, est-ce que les enfants ont eu plus de chance de s'en sortir que les adultes.

In [295]:
result = df[(df['Survived'] == 1) & (df['Age'] < 18)]['Age'].count().astype(float) / df[(df['Age'] < 18)]['Age'].count().astype(float)
print('La proportion d\'enfants ayant survécus est de : {p: .2f} %' .format(p=result * 100))

La proportion d'enfants ayant survécus est de :  53.98 %


In [296]:
result = df[(df['Survived'] == 1) & (df['Age'] >= 18)]['Age'].count().astype(float) / df[(df['Age'] >= 18)]['Age'].count().astype(float)
print('La proportion d\'adultes ayant survécus est de : {p: .2f} %' .format(p=result * 100))

La proportion d'adultes ayant survécus est de :  36.12 %


L'age a été déterminant dans ce jeu de survie. Les jeunes - de 18 ans ont eu plus de chance de survivre que les + de 18 ans.

### Classe d'embarcation
Nous allons nous demander si la classe d'embarcation (survie par l'argent) a été un critère déterminant.