# <center>**Statistical description**

# 🚢 Projet Titanic - Analyse de données et Modélisation

Dans ce projet, nous allons travailler sur le célèbre dataset **Titanic**, disponible sur [Kaggle](https://www.kaggle.com/competitions/titanic/overview).

Ce jeu de données contient des informations sur les passagers du Titanic, telles que leur âge, leur classe sociale, leur sexe, leur port d'embarquement, etc., ainsi que l'information clé : **ont-ils survécu ou non** au naufrage.

Notre objectif sera :
- De **prétraiter** les données pour les rendre exploitables,
- D'**analyser** les différentes variables,
- Puis d'**appliquer des modèles de Machine Learning**, comme l'**arbre de décision**, pour prédire la survie des passagers.

Ce projet est une excellente opportunité pour s'entraîner à la manipulation de données réelles et à l'utilisation d'algorithmes de classification.


In [24]:
# importation des librairies
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

In [25]:
#charger la dataset
df=pd.read_csv(r'C:\Users\TOSHIBA\Documents\analyse_project\titanic\train.csv')

In [26]:
#afficher les premières lignes du dataset
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [27]:
# Structure des données
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


La dataframe contient 891 observations et 12 variables de diverses natures .
0-PassengerId : Variable quantitative discrète représentant l'ID du passager.

1-Survived :  Variable binaire (0 ou 1) représentant la survie du passager (0 = décédé, 1 = survécu).

2-Pclass : Variable ordinale représentant la classe du passager (1, 2 ou 3) avec 1 étant la classe la plus élevée.

3-Name : Variable textuelle contenant le nom du passager.

4-Sex : Variable catégorielle représentant le genre (male ou female).

5-Age : Variable quantitative continue représentant l'âge du passager. Cette variable contient des valeurs manquantes.

6-SibSp : Variable quantitative discrète représentant le nombre de frères, sœurs ou conjoints à bord.

7-Parch : Variable quantitative discrète représentant le nombre de parents ou enfants à bord.

8-Ticket : Variable textuelle représentant le numéro du ticket du passager.

9-Fare : Variable quantitative continue représentant le tarif payé par le passager pour son billet.

10-Cabin : Variable textuelle représentant le numéro de la cabine, mais contient de nombreuses valeurs manquantes.

11-Embarked : Variable catégorielle représentant le port d'embarquement du passager (C = Cherbourg, Q = Queenstown, S = Southampton). Cette variable contient quelques valeurs manquantes.

In [28]:
# Distribution de fréquence de la variable 'Fare'
df['Fare'].value_counts()

Fare
8.0500     43
13.0000    42
7.8958     38
7.7500     34
26.0000    31
           ..
13.8583     1
50.4958     1
5.0000      1
9.8458      1
10.5167     1
Name: count, Length: 248, dtype: int64

L'analyse montre que la plupart des passagers payaient des tarifs bas (7-13£), avec des pics à 8.05£ (43 passagers) et 13£ (42 passagers), typiques de 

la 3ème classe. À l'inverse, les 248 tarifs uniques, souvent élevés, reflètent la diversité des prix en 1ère classe. Cette répartition confirme le 

contraste entre la majorité modeste et une minorité aisée.

In [29]:
# Distribution de fréquence de la variable 'embarked'
df['Embarked'].value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

La majorité écrasante des passagers (644, soit 72%) ont embarqué à Southampton (S), tandis que Cherbourg (C) et Queenstown (Q) regroupaient 

respectivement 168 (19%) et 77 passagers (9%). Cette distribution reflète l'importance de Southampton comme port principal du Titanic. La forte

proportion de passagers à Southampton suggère une clientèle majoritairement britannique

In [30]:
# Distribution de fréquence de la variable 'embarked'
df['Embarked'].value_counts(normalize=True)

Embarked
S    0.724409
C    0.188976
Q    0.086614
Name: proportion, dtype: float64

Ce code affiche la distribution relative des ports d'embarquement en pourcentage

In [31]:
# Etendue de la variable 'Fare'
df['Fare'].max() - df['Fare'].min()

np.float64(512.3292)

La différence entre le tarif maximum (512.33£) et minimum (0£) révèle des écarts extrêmes parmi les passagers, illustrant les profondes inégalités 

sociales à bord. Cette amplitude de 512.33£ souligne que :

-Tarif nul (0£) : Probablement des membres d'équipage ou passagers bénéficiant de conditions spéciales.

-Tarif record (512.33£) : Correspond aux suites de 1ère classe les plus luxueuses .

In [32]:
# Variance de la variable 'Fare'
df['Fare'].var()

np.float64(2469.436845743116)

La variance élevée de 2 469 pour les tarifs du Titanic révèle une dispersion extrême des prix, confirmant les profondes inégalités économiques à bord.

Une telle variance (équivalente à un écart-type de ~49.7£) signifie que les tarfs variaient énormément d'un passager à l'autre.

Cela valide l'hypothèse d'une ségrégation tarifaire forte selon la classe sociale

In [33]:
# Ecart-type de la variable 'Fare'
df['Fare'].std()

np.float64(49.6934285971809)

L'écart-type de 49,69£ montre que les prix variaient énormément entre les passagers. Cette forte variation s'explique par la grande différence entre 

les billets bon marché (à partir de 0£) et les suites de luxe (jusqu'à 512£).

In [34]:
# Table de statistiques descriptives
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


1)-Survie :

- Seulement 38% des passagers ont survécu (moyenne de 0.38)
- La médiane à 0 confirme que plus de la moitié a péri

2)-Classes sociales :

- La plupart voyageaient en 3ème classe (médiane = 3)
- 25% avaient accès à la 2ème classe ou mieux

3)-Âge :

- Moyenne de 30 ans environ
- De 5 mois (0.42 ans) à 80 ans
- 25% avaient moins de 20 ans

4)-Famille :

- Majorité voyageait seule (médiane à 0 pour SibSp et Parch)
- Certains avec jusqu'à 8 frères/soeurs ou 6 parents/enfants

5)-Tarifs :

- Écart énorme entre le minimum (0£) et maximum (512£)
- La moitié payait moins de 14.45£
- 25% payaient plus de 31£

Ce tableau confirme les fortes inégalités sociales à bord, avec une majorité de passagers modestes en 3ème classe et une petite minorité aisée.

In [35]:
# Quartile de la variable 'total_bill' : fonction percentile() de numpy

print('1er quartile :', np.percentile(df['Fare'], 25))

print('2è quartile :', np.percentile(df['Fare'], 50))

print('3è quartile :', np.percentile(df['Fare'], 75))

1er quartile : 7.9104
2è quartile : 14.4542
3è quartile : 31.0


La distribution des tarifs révèle une forte disparité socio-économique parmi les passagers du Titanic. Avec un premier quartile à 7.91£ et une médiane à 14.45£, la majorité des voyageurs (75%) payaient moins de 31£, correspondant vraisemblablement aux passagers des 2ème et 3ème classes. Cependant, l'écart important entre le 3ème quartile (31£) et le tarif maximum (jusqu'à 512£) met en lumière la présence d'une minorité aisée - principalement en 1ère classe - dont les billets coûtaient jusqu'à 16 fois plus cher que le tarif médian

In [36]:
# On peut aussi calculer des quintiles

np.quantile(df['Fare'], [0.2, 0.4, 0.6, 0.8, 1])

array([  7.8542,  10.5   ,  21.6792,  39.6875, 512.3292])

40% des passagers payaient moins de 10.5£ (tarifs populaires), tandis que les 20% les plus aisés dépassaient 39.69£, avec des extrêmes à 512£ en 1ère classe. L'écart démesuré entre le quintile 80% et le maximum (x13) souligne les profondes inégalités socio-économiques à bord, reflet de la société de 1912. Ces disparités tarifaires pourraient éclairer les différences observées dans les taux de survie.

In [37]:
# IQR de la variable 'total_bill'

df['Fare'].quantile(0.75) - df['Fare'].quantile(0.25)

np.float64(23.0896)

L'IQR montre que 50% des passagers payaient des tarifs relativement homogènes et modérés. Ce faible écart (seulement 4.5% de l'étendue totale) contraste avec les tarifs extrêmes (>65.63£) de la 1ère classe. La majorité voyageait ainsi à prix abordable, tandis qu'une minorité aisée bénéficiait de conditions luxueuses à des coûts démesurés.

In [38]:
# Table de statistiques descriptives incluant toutes les variables

df.describe(include = 'all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Dooley, Mr. Patrick",male,,,,347082.0,,G6,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


- Le tableau nous montre que les passagers du Titanic étaient surtout des hommes jeunes (environ 30 ans en moyenne) et plutôt pauvres - la plupart voyageaient en 2e ou 3e classe.

- Les prix des billets variaient beaucoup : la moitié des passagers avaient payé moins de 14£, mais quelques très riches avaient dépensé jusqu'à 512£. 

- Seulement 38% des gens ont survécu au naufrage. Beaucoup voyageaient seuls (sans famille), et la plupart étaient montés à bord à Southampton.

- Les données sont incomplètes pour certaines informations comme l'âge ou les numéros de cabine.

En résumé, ce tableau nous peint une image des inégalités sociales de l'époque, avec quelques privilégiés parmi beaucoup de passagers modestes, ce qui a probablement influencé les chances de survie lors du naufrage.

In [39]:
# filtration des survivants
sr=df[df['Survived']==1]
sr

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


- Les données montrent que les femmes et enfants, surtout en 1ère classe, ont eu les meilleures chances de survie.

- Cependant, certains cas défient cette tendance, comme une adolescente survivante en 3ème classe ou un jeune homme en 1ère classe.

- Les mères de famille apparaissent fréquemment parmi les rescapés.

- On observe une nette différence entre les survivantes aisées de 1ère classe (tarifs 70-80£) et celles plus modestes des classes inférieures 
(autour de 8£). Quelques survivants âgés démontrent que d'autres facteurs que l'âge pouvaient jouer.

- Globalement, ces résultats reflètent les inégalités sociales de l'époque, tout en révélant des exceptions intéressantes.

In [40]:
# Age moyenne et median des passagers regroupés par 'Survived'
df.groupby(by = 'Survived')['Age'].agg(['mean', 'median'])


Unnamed: 0_level_0,mean,median
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,30.626179,28.0
1,28.34369,28.0


1)- Âge moyen :
Les survivants étaient légèrement plus jeunes (28.3 ans) que les victimes (30.6 ans), suggérant que l'âge a pu influencer les chances de survie.

2)-Âge médian identique (28 ans) :
La moitié des passagers dans chaque groupe avait moins de 28 ans, indiquant que la distribution d'âge était similaire au centre.

La différence de moyenne suggère que les enfants/jeunes adultes avaient un léger avantage, bien que l'effet soit modéré .