# <center>**Statistical description**

# üö¢ Projet Titanic - Analyse de donn√©es et Mod√©lisation

Dans ce projet, nous allons travailler sur le c√©l√®bre dataset **Titanic**, disponible sur [Kaggle](https://www.kaggle.com/competitions/titanic/overview).

Ce jeu de donn√©es contient des informations sur les passagers du Titanic, telles que leur √¢ge, leur classe sociale, leur sexe, leur port d'embarquement, etc., ainsi que l'information cl√© : **ont-ils surv√©cu ou non** au naufrage.

Notre objectif sera :
- De **pr√©traiter** les donn√©es pour les rendre exploitables,
- D'**analyser** les diff√©rentes variables,
- Puis d'**appliquer des mod√®les de Machine Learning**, comme l'**arbre de d√©cision**, pour pr√©dire la survie des passagers.

Ce projet est une excellente opportunit√© pour s'entra√Æner √† la manipulation de donn√©es r√©elles et √† l'utilisation d'algorithmes de classification.


In [24]:
# importation des librairies
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

In [25]:
#charger la dataset
df=pd.read_csv(r'C:\Users\TOSHIBA\Documents\analyse_project\titanic\train.csv')

In [26]:
#afficher les premi√®res lignes du dataset
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [27]:
# Structure des donn√©es
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


La dataframe contient 891 observations et 12 variables de diverses natures .
0-PassengerId : Variable quantitative discr√®te repr√©sentant l'ID du passager.

1-Survived :  Variable binaire (0 ou 1) repr√©sentant la survie du passager (0 = d√©c√©d√©, 1 = surv√©cu).

2-Pclass : Variable ordinale repr√©sentant la classe du passager (1, 2 ou 3) avec 1 √©tant la classe la plus √©lev√©e.

3-Name : Variable textuelle contenant le nom du passager.

4-Sex : Variable cat√©gorielle repr√©sentant le genre (male ou female).

5-Age : Variable quantitative continue repr√©sentant l'√¢ge du passager. Cette variable contient des valeurs manquantes.

6-SibSp : Variable quantitative discr√®te repr√©sentant le nombre de fr√®res, s≈ìurs ou conjoints √† bord.

7-Parch : Variable quantitative discr√®te repr√©sentant le nombre de parents ou enfants √† bord.

8-Ticket : Variable textuelle repr√©sentant le num√©ro du ticket du passager.

9-Fare : Variable quantitative continue repr√©sentant le tarif pay√© par le passager pour son billet.

10-Cabin : Variable textuelle repr√©sentant le num√©ro de la cabine, mais contient de nombreuses valeurs manquantes.

11-Embarked : Variable cat√©gorielle repr√©sentant le port d'embarquement du passager (C = Cherbourg, Q = Queenstown, S = Southampton). Cette variable contient quelques valeurs manquantes.

In [28]:
# Distribution de fr√©quence de la variable 'Fare'
df['Fare'].value_counts()

Fare
8.0500     43
13.0000    42
7.8958     38
7.7500     34
26.0000    31
           ..
13.8583     1
50.4958     1
5.0000      1
9.8458      1
10.5167     1
Name: count, Length: 248, dtype: int64

L'analyse montre que la plupart des passagers payaient des tarifs bas (7-13¬£), avec des pics √† 8.05¬£ (43 passagers) et 13¬£ (42 passagers), typiques de 

la 3√®me classe. √Ä l'inverse, les 248 tarifs uniques, souvent √©lev√©s, refl√®tent la diversit√© des prix en 1√®re classe. Cette r√©partition confirme le 

contraste entre la majorit√© modeste et une minorit√© ais√©e.

In [29]:
# Distribution de fr√©quence de la variable 'embarked'
df['Embarked'].value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

La majorit√© √©crasante des passagers (644, soit 72%) ont embarqu√© √† Southampton (S), tandis que Cherbourg (C) et Queenstown (Q) regroupaient 

respectivement 168 (19%) et 77 passagers (9%). Cette distribution refl√®te l'importance de Southampton comme port principal du Titanic. La forte

proportion de passagers √† Southampton sugg√®re une client√®le majoritairement britannique

In [30]:
# Distribution de fr√©quence de la variable 'embarked'
df['Embarked'].value_counts(normalize=True)

Embarked
S    0.724409
C    0.188976
Q    0.086614
Name: proportion, dtype: float64

Ce code affiche la distribution relative des ports d'embarquement en pourcentage

In [31]:
# Etendue de la variable 'Fare'
df['Fare'].max() - df['Fare'].min()

np.float64(512.3292)

La diff√©rence entre le tarif maximum (512.33¬£) et minimum (0¬£) r√©v√®le des √©carts extr√™mes parmi les passagers, illustrant les profondes in√©galit√©s 

sociales √† bord. Cette amplitude de 512.33¬£ souligne que :

-Tarif nul (0¬£) : Probablement des membres d'√©quipage ou passagers b√©n√©ficiant de conditions sp√©ciales.

-Tarif record (512.33¬£) : Correspond aux suites de 1√®re classe les plus luxueuses .

In [32]:
# Variance de la variable 'Fare'
df['Fare'].var()

np.float64(2469.436845743116)

La variance √©lev√©e de 2 469 pour les tarifs du Titanic r√©v√®le une dispersion extr√™me des prix, confirmant les profondes in√©galit√©s √©conomiques √† bord.

Une telle variance (√©quivalente √† un √©cart-type de ~49.7¬£) signifie que les tarfs variaient √©norm√©ment d'un passager √† l'autre.

Cela valide l'hypoth√®se d'une s√©gr√©gation tarifaire forte selon la classe sociale

In [33]:
# Ecart-type de la variable 'Fare'
df['Fare'].std()

np.float64(49.6934285971809)

L'√©cart-type de 49,69¬£ montre que les prix variaient √©norm√©ment entre les passagers. Cette forte variation s'explique par la grande diff√©rence entre 

les billets bon march√© (√† partir de 0¬£) et les suites de luxe (jusqu'√† 512¬£).

In [34]:
# Table de statistiques descriptives
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


1)-Survie :

- Seulement 38% des passagers ont surv√©cu (moyenne de 0.38)
- La m√©diane √† 0 confirme que plus de la moiti√© a p√©ri

2)-Classes sociales :

- La plupart voyageaient en 3√®me classe (m√©diane = 3)
- 25% avaient acc√®s √† la 2√®me classe ou mieux

3)-√Çge :

- Moyenne de 30 ans environ
- De 5 mois (0.42 ans) √† 80 ans
- 25% avaient moins de 20 ans

4)-Famille :

- Majorit√© voyageait seule (m√©diane √† 0 pour SibSp et Parch)
- Certains avec jusqu'√† 8 fr√®res/soeurs ou 6 parents/enfants

5)-Tarifs :

- √âcart √©norme entre le minimum (0¬£) et maximum (512¬£)
- La moiti√© payait moins de 14.45¬£
- 25% payaient plus de 31¬£

Ce tableau confirme les fortes in√©galit√©s sociales √† bord, avec une majorit√© de passagers modestes en 3√®me classe et une petite minorit√© ais√©e.

In [35]:
# Quartile de la variable 'total_bill' : fonction percentile() de numpy

print('1er quartile :', np.percentile(df['Fare'], 25))

print('2√® quartile :', np.percentile(df['Fare'], 50))

print('3√® quartile :', np.percentile(df['Fare'], 75))

1er quartile : 7.9104
2√® quartile : 14.4542
3√® quartile : 31.0


La distribution des tarifs r√©v√®le une forte disparit√© socio-√©conomique parmi les passagers du Titanic. Avec un premier quartile √† 7.91¬£ et une m√©diane √† 14.45¬£, la majorit√© des voyageurs (75%) payaient moins de 31¬£, correspondant vraisemblablement aux passagers des 2√®me et 3√®me classes. Cependant, l'√©cart important entre le 3√®me quartile (31¬£) et le tarif maximum (jusqu'√† 512¬£) met en lumi√®re la pr√©sence d'une minorit√© ais√©e - principalement en 1√®re classe - dont les billets co√ªtaient jusqu'√† 16 fois plus cher que le tarif m√©dian

In [36]:
# On peut aussi calculer des quintiles

np.quantile(df['Fare'], [0.2, 0.4, 0.6, 0.8, 1])

array([  7.8542,  10.5   ,  21.6792,  39.6875, 512.3292])

40% des passagers payaient moins de 10.5¬£ (tarifs populaires), tandis que les 20% les plus ais√©s d√©passaient 39.69¬£, avec des extr√™mes √† 512¬£ en 1√®re classe. L'√©cart d√©mesur√© entre le quintile 80% et le maximum (x13) souligne les profondes in√©galit√©s socio-√©conomiques √† bord, reflet de la soci√©t√© de 1912. Ces disparit√©s tarifaires pourraient √©clairer les diff√©rences observ√©es dans les taux de survie.

In [37]:
# IQR de la variable 'total_bill'

df['Fare'].quantile(0.75) - df['Fare'].quantile(0.25)

np.float64(23.0896)

L'IQR montre que 50% des passagers payaient des tarifs relativement homog√®nes et mod√©r√©s. Ce faible √©cart (seulement 4.5% de l'√©tendue totale) contraste avec les tarifs extr√™mes (>65.63¬£) de la 1√®re classe. La majorit√© voyageait ainsi √† prix abordable, tandis qu'une minorit√© ais√©e b√©n√©ficiait de conditions luxueuses √† des co√ªts d√©mesur√©s.

In [38]:
# Table de statistiques descriptives incluant toutes les variables

df.describe(include = 'all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Dooley, Mr. Patrick",male,,,,347082.0,,G6,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


- Le tableau nous montre que les passagers du Titanic √©taient surtout des hommes jeunes (environ 30 ans en moyenne) et plut√¥t pauvres - la plupart voyageaient en 2e ou 3e classe.

- Les prix des billets variaient beaucoup : la moiti√© des passagers avaient pay√© moins de 14¬£, mais quelques tr√®s riches avaient d√©pens√© jusqu'√† 512¬£. 

- Seulement 38% des gens ont surv√©cu au naufrage. Beaucoup voyageaient seuls (sans famille), et la plupart √©taient mont√©s √† bord √† Southampton.

- Les donn√©es sont incompl√®tes pour certaines informations comme l'√¢ge ou les num√©ros de cabine.

En r√©sum√©, ce tableau nous peint une image des in√©galit√©s sociales de l'√©poque, avec quelques privil√©gi√©s parmi beaucoup de passagers modestes, ce qui a probablement influenc√© les chances de survie lors du naufrage.

In [39]:
# filtration des survivants
sr=df[df['Survived']==1]
sr

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


- Les donn√©es montrent que les femmes et enfants, surtout en 1√®re classe, ont eu les meilleures chances de survie.

- Cependant, certains cas d√©fient cette tendance, comme une adolescente survivante en 3√®me classe ou un jeune homme en 1√®re classe.

- Les m√®res de famille apparaissent fr√©quemment parmi les rescap√©s.

- On observe une nette diff√©rence entre les survivantes ais√©es de 1√®re classe (tarifs 70-80¬£) et celles plus modestes des classes inf√©rieures 
(autour de 8¬£). Quelques survivants √¢g√©s d√©montrent que d'autres facteurs que l'√¢ge pouvaient jouer.

- Globalement, ces r√©sultats refl√®tent les in√©galit√©s sociales de l'√©poque, tout en r√©v√©lant des exceptions int√©ressantes.

In [40]:
# Age moyenne et median des passagers regroup√©s par 'Survived'
df.groupby(by = 'Survived')['Age'].agg(['mean', 'median'])


Unnamed: 0_level_0,mean,median
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,30.626179,28.0
1,28.34369,28.0


1)- √Çge moyen :
Les survivants √©taient l√©g√®rement plus jeunes (28.3 ans) que les victimes (30.6 ans), sugg√©rant que l'√¢ge a pu influencer les chances de survie.

2)-√Çge m√©dian identique (28 ans) :
La moiti√© des passagers dans chaque groupe avait moins de 28 ans, indiquant que la distribution d'√¢ge √©tait similaire au centre.

La diff√©rence de moyenne sugg√®re que les enfants/jeunes adultes avaient un l√©ger avantage, bien que l'effet soit mod√©r√© .