<a href="https://colab.research.google.com/github/gautiermarechal/titanic-scai/blob/main/Titanic_Dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Challenge du titanic

Bienvenue au challenge du Titanic dans l'école d'été IA de Sorbonne Université, et du Campus des Métiers et des Qualifications.

Le dataset du titanic est un jeu de donnée très populaire afin de s'introduire à la science des données et à l'intelligence artificielle.

## Objectif principal

L'objectif de ce challenge est de prédire au mieux, basé sur un jeu de donnée existant, si un passager du Titanic a survécu ou non, dépendemment de paramètres spécifiques.

Pour effectuer ce challenge, vous n'avez pas besoin de connaitre les mathématiques derrière le processus d'entrainement des modèles.

Ici, l'objectif est de vous familiariser avec l'aspect le plus important de l'intelligence artificielle: les données. La plus grande partie du challenge consiste à manipuler les données pour les rendre les plus exploitables possible.

## Les étapes:

### 1. Définir le problème et les objectifs :

- Comprendre clairement le problème que vous essayez de résoudre.
- Définir les métriques de succès et les objectifs (par exemple, précision du modèle).

### 2. Comprendre les données :

- Analyser les données pour comprendre leur structure, qualité et caractéristiques.
- Identifier les modèles, les valeurs aberrantes et les relations au sein des données.

### 3. Prétraiter les données :

- Nettoyer les données en traitant les valeurs manquantes, les valeurs aberrantes et les doublons.
- Transformer et normaliser les données si nécessaire.
- Mixer et regrouper les datas que vous pensez cohérentes ensembles.

### 4. Sélectionner les modèles candidats :

- Choisir un ensemble de modèles adaptés au problème.

#### Voici une liste des modèles possibles:
 - Régression logistique
 - kNN voisins
 - Forêt Aléatoire
 - Classification naïve bayésienne
 - Perceptron
 
- Essayer d'entrainer chaque modèle différent et de voir leurs performances differentes

### 5. Comparer les performances des modèles :

- Faire un tableau des différents modèles et de leurs performances
- Entraîner et évaluer les modèles en utilisant des métriques de performance appropriées.

### 1. Définir le problème et les objectifs

Quel est le but de notre analyse de donnée et de notre modèle?

Nous voulons prédire si un passager va survivre ou non au crash du Titanic.

Quelles sont donc les données importantes?

### **Instructions:**  
- Ouvrez les datasets `train.csv` et `test.csv`.
- Listez toutes les colonnes différentes.
- Quels sont pour vous, les données qui pourrait influer sur la chance de survie du passager?

In [None]:
# Import de toutes les librairies nécessaires
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

### Ouvrez les datasets train.csv et test.csv

In [None]:
# Localisation du dossier des fichiers: /kaggle/input/titanic

### Listez toutes les colonnes différentes

### Quels sont pour vous, les données qui pourrait influer sur la chance de survie du passager?

# 2. Comprendre la donnée:

## Visualiser la donnée

En sciences de données, il est important de toujours visualiser ce que l'on manipule.

Nous allons en premier lieu, afficher la donnée que l'on a à disposition afin de mieux comprendre le problème posé.

### Instructions

- Récupérez les données entrainement et tests des deux datasets, dans deux variables différentes.
- Affichez un tableau des 10 premiers éléments des deux datasets `train.csv` et `test.csv`


### Récupérez les données entrainement et tests des deux datasets, dans deux variables différentes.

### Affichez un tableau des 10 premiers éléments des deux datasets `train.csv` et `test.csv`

## Evaluer les types de données présents

### **Instructions**

- Identifiez quelle colonne est catégorique, et quelle colonne est un nombre. 
- Par exemple: `Sex` est catégorique, `Age` est numérique
- Utilisez la fonction `info()` et `describe()` de pandas, afin d'avoir plus de précisions sur la donnée.

### Identifiez quelle colonne est catégorique, et quelle colonne est un nombre. 

### Utilisez la fonction `info()` et `describe()` de pandas, afin d'avoir plus de précisions sur la donnée.

## Emettez des hypothèses face à cette donnée

Il est temps de regarder certains corrélations possibles.

### **Instructions:**

- Identifiez les colonnes qui ont l'air corrélées à la survie ou non d'un passager
- Quelle caractéristique a l'air d'augmenter ou de diminuer la chance de survie d'un passager?
- Choisissez les colonnes que vous pensez être les plus utiles.
- Confrontez ces colonnes avec la survie d'un passager. Regardez "Faire pivoter de la donnée" sur internet.

### Identifiez les colonnes qui ont l'air corrélées à la survie ou non d'un passager

### Quelle caractéristique a l'air d'augmenter ou de diminuer la chance de survie d'un passager?

### Choisissez les colonnes que vous pensez être les plus utiles.

### Confrontez ces colonnes avec la survie d'un passager. Regardez "Faire pivoter de la donnée" sur internet.

Voici une commande pour pivoter la donnée. Remplacer <nom_colonne> par la colonne que vous voulez

In [None]:
# dataframe_donnees_entrainement[["<nom_colonne>", 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)

Qu'a t'on appris avec les tableaux au dessus? Quelle donnée a l'air d'être importante?

Il faut que vous émettiez des hypothèses sur quelle donnée peut être importante.

Pensez vous que le prix du billet est important dans les chances de survie?

## Trouver les corrélations

Quelle est la meilleure manière de trouver ces corrélations? Visualiser!
Nous allons produire des graphes pour nous aider à comprendre les liens de nos données que nous avons confronté précedemment.

1. Corréler les valeurs numériques
2. Corréler les valeurs catégoriques

### **Instructions:**

- Emettez au moins 2 hypothèses sur une corrélation entre la colonne et la survie.
- Distinguez les valeurs numériques des valeurs catégoriques
- Pour chaque corrélation, produisez un graphe afin de visualiser cette corrélation et la valider ou non
- Ecrivez vos observations. Vous utiliserez ces observations pour conserver les colonnes que vous avez identifié comme importante.

### Emettez au moins 2 hypothèses sur une corrélation entre la colonne et la survie.

### Distinguez les valeurs numériques des valeurs catégoriques

### Pour chaque corrélation, produisez un graphe afin de visualiser cette corrélation et la valider ou non

Produisez un ou des histogrammes de votre colonne contre la colonne `Survived`

Produisez une suite d'histogrammes en croisant des données numériques et des données catégoriques

In [None]:
# grid = sns.FacetGrid('<votre_dataset_entrainement>', col='Survived', row='<colonne_1>')
# grid.map(plt.hist, '<colonne_2>', alpha=.5, bins=20)
# grid.add_legend();

Produisez une suite de graphe de point afin en croisant des données numériques et des données catégoriques

In [None]:
# grid = sns.FacetGrid('<votre_dataset_entrainement>', row='<colonne_1>')
# grid.map(sns.pointplot, '<colonne_2>', 'Survived', '<colonne_3>', palette='deep')
# grid.add_legend()

### Ecrivez vos observations. Vous utiliserez ces observations pour conserver les colonnes que vous avez identifié comme importante.

### Conclusion de l'analyse de donnée

Listez les colonnes que vous confirmez comme importantes

- ...
- ...

# 3. Prétraiter les données :

Les actions possibles:

1. Enlever la donnée inutile
2. Créer des nouvelles données. Exemple: Extraire les titres des passagers 
3. Compléter de la donnée incomplète

L'objectif à la fin de cette étape est d'avoir un tableau avec les données nécessaire uniquement, sous une forme numérique.

Un modèle IA comprend et manipule des nombres uniquement. Il est donc important de manipuler des données numériques uniquement.

### **Instructions:**

- Trouvez et supprimez les colonnes que vous n'avez pas identifié comme importante
- Convertissez les données catégoriques en données numériques. Ex: Le port d'embarcation S peut être lié à la value 1, le E à la valeur 2 etc...

### Trouvez et supprimez les colonnes que vous n'avez pas identifié comme importante

### Convertissez les données catégoriques en données numériques. Ex: Le port d'embarcation S peut être lié à la value 1, le E à la valeur 2 etc...

### Combinez les colonnes que vous pensez regroupables.

## 4. Sélectionner les modèles candidats :

Maintenant, les datasets d'entrainement et de tests sont prêts à être utilisés.

Le dataset d'entrainement sera utilisé pour entrainer notre modèle et notre dataset test pour tester la performance de notre modèle.

### **Instructions:**

- Visualisez le dataset d'entrainement
- Visualisez le dataset de test

### Visualisez le dataset d'entrainement

### Visualisez le dataset de test

### Dernières préparations des datasets

In [None]:
# X_train = <votre_dataframe_entrainement>.drop("Survived", axis=1)
# Y_train = <votre_dataframe_entrainement>["Survived"]
# X_test  = <votre_dataframe_test>
# X_train.shape, Y_train.shape, X_test.shape

### Modèles 

#### Voici une liste des modèles possibles:
 - Régression logistique
 - kNN voisins
 - Forêt Aléatoire
 - Classification naïve bayésienne
 - Perceptron

#### **Instructions:**

- Cherchez sur internet ces différents modèles, leurs avantages, leurs inconvénients, et comment les utiliser.

- Trouvez la performance de chaque modèle

- La librarie utilisée est appellée `sklearn`.

### Régression logistique

### kNN voisins

### Forêt Aléatoire

### Classification naïve bayésienne

### Perceptron

### Comparaison de la performance de chaque modèle

#### **Instructions:**

- Construisez un tableau des performances de chaque modèle

### Construisez un tableau des performances de chaque modèle

### Fin du challenge