## Statistiques sur les passagers du Titanic


In [None]:
#importations
import pandas as pd
import matplotlib.pyplot as plt

#initialisation des variables
fichier_passagers = "./Data/Titanic/passengers.csv"
fichier_survie = "./Data/Titanic/survival.csv"

In [None]:
#récupération des dataframes
df_passagers = pd.read_csv(fichier_passagers, dtype={'PassengerId': 'int', 'Pclass': 'int', 'Name': 'string', 'Sex': 'string', 'Age': 'Float64', 'Fare': 'Float64'})
df_survie = pd.read_csv(fichier_survie, dtype={'PassengerId': 'int', 'Survived': 'boolean'})

display(df_passagers)
display(df_survie)

In [None]:
#récupération des dataframes
df_passagers = pd.read_csv(fichier_passagers, dtype={'Age': 'Float64'})
df_survie = pd.read_csv(fichier_survie, dtype={'Survived': 'boolean'})

display(df_passagers.info())
display(df_survie.info())

In [None]:
# 1 - Joindre les 2 dataframes `df_passagers` et `df_survie`
#df_titanic = df_passagers.join(df_survie, lsuffix='PassengerId', rsuffix='PassengerId')
df_titanic = df_passagers.merge(df_survie, on='PassengerId')
df_titanic

In [None]:
# 2 - Combien y a t-il de passagers dans notre dataframe ?
nb_passagers = len(df_titanic)
nb_passagers

In [None]:
# 3 - Quelle est la moyenne du prix du trajet ?
moyenne_prix_trajet = df_titanic['Fare'].mean()
moyenne_prix_trajet

In [None]:
# 4 - Quels passagers ont payé les billets les plus chers ?
max_prix_trajet = df_titanic['Fare'].max()
df_passagers_ticket_le_plus_cher = df_titanic[df_titanic['Fare'] == max_prix_trajet]
df_passagers_ticket_le_plus_cher

In [None]:
# 5 - Quelles personnes n’ont pas payé leurs billets de 1ère classe ?
df_passagers_billet_premiere_classe_gratuit = df_titanic[(df_titanic['Pclass'] == 1) & (df_titanic['Fare'] == 0)]
df_passagers_billet_premiere_classe_gratuit

In [None]:
# 6 - Quelle personne a obtenu le billet de première classe le moins cher ?
df_titanic_classe1 = df_titanic[(df_titanic['Pclass'] == 1) & (df_titanic['Fare'] > 0)]
billet_classe_1_le_moins_cher = df_titanic_classe1['Fare'].min()
df_titanic_classe1[df_titanic_classe1['Fare'] == billet_classe_1_le_moins_cher]

In [None]:
# 7 - Quelle est la personne la plus jeune ? et la personne la plus âgée à bord du Titanic ?
min_age = df_titanic['Age'].min()
max_age = df_titanic['Age'].max()
df_passagers_les_plus_jeunes = df_titanic[df_titanic['Age'] == min_age]
df_passagers_les_plus_ages = df_titanic[df_titanic['Age'] == max_age]

print(f"La personne la plus jeune est: {df_passagers_les_plus_jeunes['Name'].iloc[0]}")
display(df_passagers_les_plus_jeunes)
print(f"La personne la plus agée est: {df_passagers_les_plus_ages['Name'].iloc[0]}")
display(df_passagers_les_plus_ages)

In [None]:
# 8 - Quel est le prix médian des billets de 1ère, 2ème ou 3ème classe ?
df_prix_median_par_classe = df_titanic.groupby(by='Pclass')['Fare'].median().reset_index(name="Prix médian")
display(df_prix_median_par_classe)

In [None]:
#Autre solution
df_prix_median_par_classe = df_titanic.groupby(by='Pclass').agg(prix_median=('Fare', 'median')).reset_index()
display(df_prix_median_par_classe)

In [None]:
# Affichage du prix median par classe
df_prix_median_par_classe.plot(kind='bar', x='Pclass', y='prix_median', color='skyblue', title='Price per class', grid=True)
plt.show()

In [None]:
df_prix_median_par_classe.plot(kind='line', x='Pclass', y='prix_median', marker='o', color='skyblue', title='Price per class', grid=True)
plt.show()

In [None]:
# 9 - Quel est le pourcentage de femmes dans la liste des passagers ?
df_passagers_par_genre = df_titanic.groupby(by='Sex').size().reset_index(name='count')
df_passagers_par_genre

In [None]:
df_passagers_par_genre = df_titanic.groupby(by='Sex').agg(count=("PassengerId", "count")).reset_index()
df_passagers_par_genre

In [None]:
nombre_total_passagers = df_passagers_par_genre['count'].sum()
nombre_total_passagers

In [None]:
# Quel est le pourcentage de femmes dans la liste des passagers ?
df_passagers_par_genre['percentage'] = 100*df_passagers_par_genre['count'] / nombre_total_passagers
df_passagers_par_genre

In [None]:
#Autre manière avec la fonction apply
df_passagers_par_genre['percentage'] = df_passagers_par_genre['count'].apply(lambda nb:100*nb/nombre_total_passagers)
df_passagers_par_genre

In [None]:
#Visualisation histogramme
df_passagers_par_genre.plot(kind='bar', x='Sex', y='percentage', color='skyblue', title='Passagers par genre', grid=True)
plt.show()

In [None]:
# 10 - Quelle est la proportion des survivants ?
df_passagers_par_survie = df_titanic.groupby(by='Survived').size().reset_index(name='count')
df_passagers_par_survie

In [None]:
df_passagers_par_survie['Pourcentage survivants'] = 100*df_passagers_par_survie['count'] / nombre_total_passagers
df_passagers_par_survie

In [None]:
df_passagers_par_survie.plot(kind='bar', x='Survived', y='Pourcentage survivants', color='skyblue', title='Pourcentage survivants', grid=True)
plt.show()

In [None]:
# 11 - Quelle est la proportion des survivants par classe de transport ?
df_passagers_survie_par_classe = df_titanic.groupby(by=['Pclass', 'Survived']).size().reset_index(name='count')
df_passagers_survie_par_classe

In [None]:
df_passagers_survie_par_classe['Pourcentage survie par classe'] = 100 * df_passagers_survie_par_classe['count'] / df_passagers_survie_par_classe.groupby('Pclass')['count'].transform('sum')
df_passagers_survie_par_classe

In [None]:
#autre méthode
df_passagers_par_classe = df_passagers_survie_par_classe.groupby('Pclass').agg(nb=('count', 'sum')).reset_index()

df_passagers_survie_par_classe['Pourcentage survie par classe'] = df_passagers_survie_par_classe \
    .apply(lambda row: 100*row['count'] / df_passagers_par_classe[df_passagers_par_classe['Pclass'] == row['Pclass']]['nb'].sum(), axis='columns')

df_passagers_survie_par_classe

In [None]:
df_passagers_survie_par_classe[df_passagers_survie_par_classe['Survived'] == True].plot(kind='bar', x='Pclass', y='Pourcentage survie par classe', color='skyblue', title='Pourcentage survivants', grid=True)
plt.xticks(rotation=0)
plt.show()