# Prédiction des survivants du Titanic

In [None]:
import pandas 
import matplotlib.pyplot as plt

## Chargement des données


In [None]:
fichier_titanic = "titanic/train.csv"

Signification des coolonnes du jeu de données:
- survival: 	Survie (0 = No, 1 = Yes)
- pclass: 	Ticket class 	(1 = 1ère Cl., 2 = 2ème Cl., 3 = 3ème Cl.)
- sex: 	Sexe du passager 	
- Age: 	Age en nombre d'années 	
- sibsp: 	nombre de frères et soeurs avec leurs conjoints à bord
- parch 	nombre de parents/enfants à bord 	
- ticket: numéro de ticket 	
- fare: 	prix du billet 	
- cabin: 	numéro de cabine 	
- embarked: 	port d'embarcation (C = Cherbourg, Q = Queenstown, S = Southampton)

In [None]:
titanic = pandas.read_csv(fichier_titanic)
titanic.head()

# Description des données

In [None]:
titanic.info()

In [None]:
titanic.head()

## Traitement des données

In [None]:
# mettre la colonne PassengerId en index
# eliminer les colonnes Name, Ticket
# creer une unique varible Family qui est la somme de SibSp Parch
titanic.set_index('PassengerId', inplace=True)
titanic.drop(columns=['Name', 'Ticket'], inplace=True)
titanic['Family'] = titanic.SibSp + titanic.Parch
titanic.drop(columns=['SibSp', 'Parch'], inplace=True)
titanic

### Données manquantes

In [None]:
# Assigner les ages manquants à la moyenne
# Creer une nouvelle variable With_cabin égale à True si le passager possède un num de cabine, False sinon
titanic.Age = titanic.Age.fillna(titanic.Age.mean())
titanic['With_cabin'] = (titanic.Cabin.isna()==False)
titanic.drop(columns='Cabin', inplace=True)
titanic

In [None]:
titanic = pandas.get_dummies(titanic)
titanic.head()

In [None]:
y = titanic.Survived
X = titanic.drop(columns='Survived')

## Modèles de machine learning

In [None]:
from  sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

In [None]:
RF = RandomForestClassifier(100, max_depth=10)
KNN = KNeighborsClassifier(n_neighbors=10, n_jobs=-1)

## Evalutation des modèles

In [None]:
from sklearn.model_selection import cross_validate

- Cross-validation du random forest

In [None]:
RF_cv = cross_validate(RF, X, y, cv = 10)
print(RF_cv['test_score'])
print('\nRandom forest : Accuracy en cross validation =', (RF_cv['test_score'].mean()*100).round(2), '%')

- Cross-validation du KNN

In [None]:
KNN_cv = cross_validate(KNN, X, y, cv = 10)
print(KNN_cv['test_score'])
print('\nK plus proche voisins : Accuracy en cross validation =', (KNN_cv['test_score'].mean()*100).round(2), '%')

In [None]:
for n in [2,5,10,15,20,30]:
    KNN = KNeighborsClassifier(n_neighbors=n, n_jobs=-1)
    KNN_cv = cross_validate(KNN, X, y, cv = 10)
    print('Pour N =', n , ': Accuracy = ' ,(KNN_cv['test_score'].mean()*100).round(2), '%')