# Projet Titanic  

## Dataset

On considère pour ce brief , le dataset Titanic qui représente les données des passagers (utilisé généralement pour prédire les taux de survie des passagers.) 

Le dataset Titanic contient plusieurs colonnes décrivant diverses informations sur les passagers du Titanic, leur classe, leur âge, leur sexe, leur tarif, etc..

Voici la description des principales colonnes de ce dataset afin de pouvoir utiliser ces données pour effectuer diverses analyses et explorations :

1. **survived :** Cette colonne indique si le passager a survécu ou non au naufrage du Titanic. Les valeurs possibles sont 0 (n'est pas survécu) et 1 (a survécu).

2. **pclass :** Cette colonne représente la classe du billet du passager, où 1 correspond à la première classe, 2 à la deuxième classe et 3 à la troisième classe.

3. **sex :** Cette colonne indique le sexe du passager, c'est-à-dire s'il s'agit d'un homme ou d'une femme.

4. **age :** La colonne 'age' contient l'âge du passager. Il peut y avoir des valeurs manquantes dans cette colonne.

5. **sibsp :** Cette colonne représente le nombre de frères, de sœurs, d'époux ou d'épouses du passager à bord du Titanic.

6. **parch :** La colonne 'parch' indique le nombre de parents ou d'enfants du passager à bord du Titanic.

7. **fare :** Cette colonne donne le tarif payé par le passager pour son billet.

8. **embarked :** La colonne 'embarked' indique le port d'embarquement du passager. Les valeurs possibles sont C (Cherbourg), Q (Queenstown) et S (Southampton).

9. **class :** Cette colonne est similaire à 'pclass' et représente également la classe du billet, mais sous forme de chaînes de caractères (1ère, 2ème, 3ème).

10. **who :** La colonne 'who' catégorise les passagers en trois groupes : homme, femme ou enfant.

11. **adult_male :** Cette colonne indique si le passager est un homme adulte (True/False).

12. **deck :** La colonne 'deck' contient des informations sur le pont où le passager avait sa cabine. Il peut y avoir des valeurs manquantes dans cette colonne.

13. **embark_town :** Cette colonne est similaire à 'embarked' et indique également le nom de la ville d'embarquement.

14. **alive :** Cette colonne est similaire à 'survived' et indique si le passager est en vie (yes) ou non (no).

15. **alone :** La colonne 'alone' indique si le passager voyageait seul (True/False).



Objectifs:

- charger le dataset et vérifier la qualité des données (nombre de lignes, nombre et types de colonnes, valeurs manquantes, valeurs aberrantes..)

-Bonus: faire une petite analyse exploratoire du dataset (avec eventuellement une visualisation)..


In [1]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd

In [2]:
sns.set_style('whitegrid')

In [3]:
titanic_df = sns.load_dataset('titanic')

In [19]:
titanic_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## Partie 1: Prise en main du Dataset

###  Vérifier si Données Manquantes : 

Des valeurs manquantes peuvent être présentes dans certaines colonnes, par exemple, l'âge de certains passagers ..

vérifier les valeurs manquantes des colonnes et proposer une solution pour y remédier.

In [10]:
#TBD
# Détection de valeurs manquantes
titanic_df.isnull()
titanic_df.isnull().sum()

#Avec cette commande on remarque des valeurs manquantes sur les variables age,embarket,deck et embark_town

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [35]:
#Supprimer les deux lignes manquantes pour chacune des colones embarked et embarked_own
#supprimer la colonne deck vu que c'est une valeur qu'on ne peut pas déviner

del titanic_df["deck"]

In [51]:
titanic_df.dropna(how="any",inplace=True)

In [42]:
#je vais remplacé par l'age moyen, les valeurs d'age manquantes 
titanic_df=titanic_df.fillna({"age":titanic_df["age"].mean()})

### Vérifier si Incohérences dans les Valeurs 

Il peut y avoir des incohérences dans les données, comme des âges négatifs, des tarifs négatifs, ou des numéros de cabine incorrects..



In [50]:
#TBD
titanic_df.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,891.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,22.0,0.0,0.0,7.9104
50%,0.0,3.0,29.699118,0.0,0.0,14.4542
75%,1.0,3.0,35.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


### Verifier les données Aberrantes (Outliers)

Des valeurs aberrantes peuvent être présentes dans certaines colonnes, par exemple, des tarifs extrêmement élevés ou des âges très élevés.



In [39]:
#TBD


Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


### Vérifier les Doublons 


Il peut y avoir des lignes en double dans le dataset, ce qui signifie que les mêmes données apparaissent plusieurs fois et il faut donc les supprimer

In [43]:
#TBD
dups = titanic_df.duplicated()

In [44]:
#compter le nombre de ligne dupliquée
dup_count = dups.sum()

In [45]:
#affiche du nombre de ligne dupliquée
print("Nombre de ligne dupliquée: ", dup_count)

Nombre de ligne dupliquée:  111


In [46]:
#supprimer les lignes dupliquées
titanic_df.drop_duplicates()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone
0,0,3,male,22.000000,1,0,7.2500,S,Third,man,True,Southampton,no,False
1,1,1,female,38.000000,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False
2,1,3,female,26.000000,0,0,7.9250,S,Third,woman,False,Southampton,yes,True
3,1,1,female,35.000000,1,0,53.1000,S,First,woman,False,Southampton,yes,False
4,0,3,male,35.000000,0,0,8.0500,S,Third,man,True,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.000000,0,5,29.1250,Q,Third,woman,False,Queenstown,no,False
887,1,1,female,19.000000,0,0,30.0000,S,First,woman,False,Southampton,yes,True
888,0,3,female,29.699118,1,2,23.4500,S,Third,woman,False,Southampton,no,False
889,1,1,male,26.000000,0,0,30.0000,C,First,man,True,Cherbourg,yes,True


### Vérifier si colonnes Inutiles 

Certaines colonnes peuvent contenir des données redondantes ou inutiles pour l'analyse.

In [5]:
#TBD
#supprimer la colonne deck vu que c'est une valeur qu'on ne peut pas déviner

#del titanic_df["deck"]

## Bonus

**Continuez l'exploration du dataset Titanic avec d'autres axes d'analyse **



1-Quelle est la répartition des passagers par classe (1ère, 2ème, 3ème) à bord du Titanic ?

2- Quelle est la répartition des passagers par sexe à bord du Titanic ?

3- Quel était l'âge moyen des passagers à bord du Titanic ? Y avait-il des passagers très jeunes ou très âgés ?

4- Combien de passagers ont survécu au naufrage du Titanic ? Quelle était leur répartition par classe, sexe et âge ?


In [1]:
#TBD