# Projet Titanic  

## Dataset

On considère pour ce brief , le dataset Titanic qui représente les données des passagers (utilisé généralement pour prédire les taux de survie des passagers.) 

Le dataset Titanic contient plusieurs colonnes décrivant diverses informations sur les passagers du Titanic, leur classe, leur âge, leur sexe, leur tarif, etc..

Voici la description des principales colonnes de ce dataset afin de pouvoir utiliser ces données pour effectuer diverses analyses et explorations :

1. **survived :** Cette colonne indique si le passager a survécu ou non au naufrage du Titanic. Les valeurs possibles sont 0 (n'est pas survécu) et 1 (a survécu).

2. **pclass :** Cette colonne représente la classe du billet du passager, où 1 correspond à la première classe, 2 à la deuxième classe et 3 à la troisième classe.

3. **sex :** Cette colonne indique le sexe du passager, c'est-à-dire s'il s'agit d'un homme ou d'une femme.

4. **age :** La colonne 'age' contient l'âge du passager. Il peut y avoir des valeurs manquantes dans cette colonne.

5. **sibsp :** Cette colonne représente le nombre de frères, de sœurs, d'époux ou d'épouses du passager à bord du Titanic.

6. **parch :** La colonne 'parch' indique le nombre de parents ou d'enfants du passager à bord du Titanic.

7. **fare :** Cette colonne donne le tarif payé par le passager pour son billet.

8. **embarked :** La colonne 'embarked' indique le port d'embarquement du passager. Les valeurs possibles sont C (Cherbourg), Q (Queenstown) et S (Southampton).

9. **class :** Cette colonne est similaire à 'pclass' et représente également la classe du billet, mais sous forme de chaînes de caractères (1ère, 2ème, 3ème).

10. **who :** La colonne 'who' catégorise les passagers en trois groupes : homme, femme ou enfant.

11. **adult_male :** Cette colonne indique si le passager est un homme adulte (True/False).

12. **deck :** La colonne 'deck' contient des informations sur le pont où le passager avait sa cabine. Il peut y avoir des valeurs manquantes dans cette colonne.

13. **embark_town :** Cette colonne est similaire à 'embarked' et indique également le nom de la ville d'embarquement.

14. **alive :** Cette colonne est similaire à 'survived' et indique si le passager est en vie (yes) ou non (no).

15. **alone :** La colonne 'alone' indique si le passager voyageait seul (True/False).



Objectifs:

- charger le dataset et vérifier la qualité des données (nombre de lignes, nombre et types de colonnes, valeurs manquantes, valeurs aberrantes..)

-Bonus: faire une petite analyse exploratoire du dataset (avec eventuellement une visualisation)..


In [1]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd

In [5]:
sns.set_style('whitegrid')

In [6]:
titanic_df = sns.load_dataset('titanic')

In [8]:
titanic_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## Partie 1: Prise en main du Dataset

###  Vérifier si Données Manquantes : 

Des valeurs manquantes peuvent être présentes dans certaines colonnes, par exemple, l'âge de certains passagers ..

vérifier les valeurs manquantes des colonnes et proposer une solution pour y remédier.

In [10]:
titanic_df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [21]:
len(titanic_df)

784

Je propose de supprimer la colonne "deck" car elle contient 688 valeurs manquantes, alors que le nombre total d'enregistrements dans le DataFrame est de 784.

In [22]:
titanic_df.drop(columns=['deck'], inplace=True)

In [23]:
titanic_df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

Pour les colonnes "embarked" et "embark_town", je propose de supprimer les deux enregistrements où il y a des valeurs manquantes.

In [24]:
titanic_df.dropna(subset=['embarked', 'embark_town'], inplace=True)

In [25]:
titanic_df.isnull().sum()

survived         0
pclass           0
sex              0
age            106
sibsp            0
parch            0
fare             0
embarked         0
class            0
who              0
adult_male       0
embark_town      0
alive            0
alone            0
dtype: int64

Pour la colonne "age", je propose de remplacer les valeurs manquantes par la moyenne d'âge, calculée séparément pour chaque sexe.

In [31]:
titanic_df['sex'].unique()

array(['male', 'female'], dtype=object)

In [62]:
# Calcul de la moyenne d'âge par sexe

grouped_age = titanic_df.groupby('sex')['age'].mean()
print(grouped_age)
#print(titanic_df)
#titanic_df[titanic_df["sex"] == "female"]["age"].mean()

sex
female    27.772638
male      31.035948
Name: age, dtype: float64


In [64]:
# Remplacement des valeurs manquantes par la moyenne d'âge par sexe
Afemale =   28
Amale  =    31

titanic_df.loc[titanic_df["sex"] == "female", "age"] = titanic_df.loc[titanic_df["sex"] == "female", "age"].fillna(Afemale)
titanic_df.loc[titanic_df["sex"] == "male", "age"] = titanic_df.loc[titanic_df["sex"] == "male", "age"].fillna(Amale)


In [65]:
titanic_df.isnull().sum()


survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    0
alive          0
alone          0
dtype: int64

### Vérifier si Incohérences dans les Valeurs 

Il peut y avoir des incohérences dans les données, comme des âges négatifs, des tarifs négatifs, ou des numéros de cabine incorrects..



In [14]:
#TBD
titanic_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


### Verifier les données Aberrantes (Outliers)

Des valeurs aberrantes peuvent être présentes dans certaines colonnes, par exemple, des tarifs extrêmement élevés ou des âges très élevés.



In [13]:
#TBD
titanic_df.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


### Vérifier les Doublons 


Il peut y avoir des lignes en double dans le dataset, ce qui signifie que les mêmes données apparaissent plusieurs fois et il faut donc les supprimer

In [15]:
#TBD
titanic_df.duplicated().sum()

107

In [18]:
titanic_df.drop_duplicates(inplace=True)

In [19]:
titanic_df.duplicated().sum()

0

### Vérifier si colonnes Inutiles 

Certaines colonnes peuvent contenir des données redondantes ou inutiles pour l'analyse.

In [99]:
#TBD
titanic_df.columns


Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'who', 'adult_male', 'alone'],
      dtype='object')

* Les infos qui se trouvent dans la colonne 'embark_town' se retrouvent dans la colonne 'embarked'.
* Les infos qui se trouvent dans la colonne 'class' se retrouvent dans la colonne 'pclass'.
* Les infos qui se trouvent dans la colonne 'alive' se retrouvent dans la colonne 'survived'.

In [98]:
titanic_df=titanic_df.drop(columns=['embark_town', 'class', 'alive'], axis=1)
titanic_df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,who,adult_male,alone
0,0,3,male,22.0,1,0,7.2500,S,man,True,False
1,1,1,female,38.0,1,0,71.2833,C,woman,False,False
2,1,3,female,26.0,0,0,7.9250,S,woman,False,True
3,1,1,female,35.0,1,0,53.1000,S,woman,False,False
4,0,3,male,35.0,0,0,8.0500,S,man,True,True
...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,woman,False,False
887,1,1,female,19.0,0,0,30.0000,S,woman,False,True
888,0,3,female,28.0,1,2,23.4500,S,woman,False,False
889,1,1,male,26.0,0,0,30.0000,C,man,True,True


## Bonus

**Continuez l'exploration du dataset Titanic avec d'autres axes d'analyse **



1-Quelle est la répartition des passagers par classe (1ère, 2ème, 3ème) à bord du Titanic ?

2- Quelle est la répartition des passagers par sexe à bord du Titanic ?

3- Quel était l'âge moyen des passagers à bord du Titanic ? Y avait-il des passagers très jeunes ou très âgés ?

4- Combien de passagers ont survécu au naufrage du Titanic ? Quelle était leur répartition par classe, sexe et âge ?


In [67]:
#1-Quelle est la répartition des passagers par classe (1ère, 2ème, 3ème) à bord du Titanic ?
grouped_class = titanic_df['class'].value_counts()
print(grouped_class)


Third     405
First     212
Second    165
Name: class, dtype: int64


In [68]:
#2- Quelle est la répartition des passagers par sexe à bord du Titanic ?
grouped_class = titanic_df['sex'].value_counts()
print(grouped_class)

male      491
female    291
Name: sex, dtype: int64


In [84]:
#3- Quel était l'âge moyen des passagers à bord du Titanic ?
mean_age = titanic_df['age'].mean()
print("L'âge moyen est:", mean_age,"ans")

#Y avait-il des passagers très jeunes ou très âgés ?
min_age = titanic_df['age'].min()
print("L'âge du passager le plus jeune est :", min_age)

age_1 = titanic_df[titanic_df['age'] < 1].shape[0]
print("Il y avait", age_1, "passagers âgés de moins d'un an.")

max_age = titanic_df['age'].max()
print("L'âge du passager le plus agé est:", max_age,"ans")

age70 = titanic_df[titanic_df['age'] >70].shape[0]
print("Il y avait", age70, "passagers âgés de plus de 70 ans.")



L'âge moyen est: 29.82918158567775 ans
L'âge du passager le plus jeune est : 0.42
Il y avait 6 passagers âgés de moins d'un an.
L'âge du passager le plus agé est: 80.0 ans
Il y avait 5 passagers âgés de plus de 70 ans.


In [97]:
#4- Combien de passagers ont survécu au naufrage du Titanic ?
surv = titanic_df[titanic_df['survived'] == 1].shape[0]
print("Nb survivants:", surv)



Nb survivants: 321


In [96]:

#Quelle était leur répartition par classe, sexe et âge ?
surv_dist= titanic_df[titanic_df['survived'] == 1].groupby(['pclass', 'sex'])['age'].count()
print(surv_dist)

pclass  sex   
1       female    88
        male      45
2       female    67
        male      17
3       female    60
        male      44
Name: age, dtype: int64
