# Projet Titanic  

## Dataset

On considère pour ce brief , le dataset Titanic qui représente les données des passagers (utilisé généralement pour prédire les taux de survie des passagers.) 

Le dataset Titanic contient plusieurs colonnes décrivant diverses informations sur les passagers du Titanic, leur classe, leur âge, leur sexe, leur tarif, etc..

Voici la description des principales colonnes de ce dataset afin de pouvoir utiliser ces données pour effectuer diverses analyses et explorations :

1. **survived :** Cette colonne indique si le passager a survécu ou non au naufrage du Titanic. Les valeurs possibles sont 0 (n'est pas survécu) et 1 (a survécu).

2. **pclass :** Cette colonne représente la classe du billet du passager, où 1 correspond à la première classe, 2 à la deuxième classe et 3 à la troisième classe.

3. **sex :** Cette colonne indique le sexe du passager, c'est-à-dire s'il s'agit d'un homme ou d'une femme.

4. **age :** La colonne 'age' contient l'âge du passager. Il peut y avoir des valeurs manquantes dans cette colonne.

5. **sibsp :** Cette colonne représente le nombre de frères, de sœurs, d'époux ou d'épouses du passager à bord du Titanic.

6. **parch :** La colonne 'parch' indique le nombre de parents ou d'enfants du passager à bord du Titanic.

7. **fare :** Cette colonne donne le tarif payé par le passager pour son billet.

8. **embarked :** La colonne 'embarked' indique le port d'embarquement du passager. Les valeurs possibles sont C (Cherbourg), Q (Queenstown) et S (Southampton).

9. **class :** Cette colonne est similaire à 'pclass' et représente également la classe du billet, mais sous forme de chaînes de caractères (1ère, 2ème, 3ème).

10. **who :** La colonne 'who' catégorise les passagers en trois groupes : homme, femme ou enfant.

11. **adult_male :** Cette colonne indique si le passager est un homme adulte (True/False).

12. **deck :** La colonne 'deck' contient des informations sur le pont où le passager avait sa cabine. Il peut y avoir des valeurs manquantes dans cette colonne.

13. **embark_town :** Cette colonne est similaire à 'embarked' et indique également le nom de la ville d'embarquement.

14. **alive :** Cette colonne est similaire à 'survived' et indique si le passager est en vie (yes) ou non (no).

15. **alone :** La colonne 'alone' indique si le passager voyageait seul (True/False).



Objectifs:

- charger le dataset et vérifier la qualité des données (nombre de lignes, nombre et types de colonnes, valeurs manquantes, valeurs aberrantes..)

-Bonus: faire une petite analyse exploratoire du dataset (avec eventuellement une visualisation)..


In [1]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd

In [2]:
sns.set_style('whitegrid')

In [3]:
titanic_df = sns.load_dataset('titanic')

In [5]:
titanic_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
titanic_df.shape

(891, 15)

## Partie 1: Prise en main du Dataset


###  Vérifier si Données Manquantes : 

Des valeurs manquantes peuvent être présentes dans certaines colonnes, par exemple, l'âge de certains passagers ..

vérifier les valeurs manquantes des colonnes et proposer une solution pour y remédier.

In [8]:
pd.isna(titanic_df)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
887,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False
889,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [12]:
titanic_df.describe()
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [10]:
missing_values = titanic_df.isnull().sum()
missing_values

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [20]:
duplicates = titanic_df.duplicated()
duplicates

0      False
1      False
2      False
3      False
4      False
       ...  
886     True
887    False
888    False
889    False
890    False
Length: 891, dtype: bool

### Vérifier si Incohérences dans les Valeurs 

Il peut y avoir des incohérences dans les données, comme des âges négatifs, des tarifs négatifs, ou des numéros de cabine incorrects..



In [18]:
incorrect_age = titanic_df[titanic_df['age'] < 0]
incorrect_fare = titanic_df[titanic_df['fare'] < 0]

print("I found these cases of negative age : ", incorrect_age)
print("I found these cases of negative fare : ", incorrect_fare)


I found these cases of negative age :  Empty DataFrame
Columns: [survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone]
Index: []
I found these cases of negative fare :  Empty DataFrame
Columns: [survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone]
Index: []


In [19]:
# Get the list of columns with int and float data types
numeric_columns = titanic_df.select_dtypes(include=['int64', 'float64']).columns

# Check for negative values in these columns
for column in numeric_columns:
    negative_values = titanic_df[titanic_df[column] < 0]
    if not negative_values.empty:
        print(f"Column '{column}' contains negative values:\n", negative_values)
    else:
        print(f"Column '{column}' does not contain negative values.")


Column 'survived' does not contain negative values.
Column 'pclass' does not contain negative values.
Column 'age' does not contain negative values.
Column 'sibsp' does not contain negative values.
Column 'parch' does not contain negative values.
Column 'fare' does not contain negative values.


### Verifier les données Aberrantes (Outliers)

Des valeurs aberrantes peuvent être présentes dans certaines colonnes, par exemple, des tarifs extrêmement élevés ou des âges très élevés.



In [23]:
# Function to find min and max values and their counts
def find_extremes_and_counts(df, column):
    min_value = df[column].min()
    max_value = df[column].max()
    min_count = df[column].value_counts().get(min_value, 0)
    max_count = df[column].value_counts().get(max_value, 0)

    print(f"Column '{column}':")
    print(f"  Min value: {min_value}, Count: {min_count}")
    print(f"  Max value: {max_value}, Count: {max_count}")

# Check for extremes in columns with int and float data types
numeric_columns = titanic_df.select_dtypes(include=['int64', 'float64']).columns
for column in numeric_columns:
    find_extremes_and_counts(titanic_df, column)

Column 'survived':
  Min value: 0, Count: 549
  Max value: 1, Count: 342
Column 'pclass':
  Min value: 1, Count: 216
  Max value: 3, Count: 491
Column 'age':
  Min value: 0.42, Count: 1
  Max value: 80.0, Count: 1
Column 'sibsp':
  Min value: 0, Count: 608
  Max value: 8, Count: 7
Column 'parch':
  Min value: 0, Count: 678
  Max value: 6, Count: 1
Column 'fare':
  Min value: 0.0, Count: 15
  Max value: 512.3292, Count: 3


In [25]:
# Maybe we found outliers in Fare with the hirest price of ticket - let's check it
outlier = titanic_df[(titanic_df['fare'] == 512.3292)] 
print(outlier)

     survived  pclass     sex   age  sibsp  parch      fare embarked  class  \
258         1       1  female  35.0      0      0  512.3292        C  First   
679         1       1    male  36.0      0      1  512.3292        C  First   
737         1       1    male  35.0      0      0  512.3292        C  First   

       who  adult_male deck embark_town alive  alone  
258  woman       False  NaN   Cherbourg   yes   True  
679    man        True    B   Cherbourg   yes  False  
737    man        True    B   Cherbourg   yes   True  


###### Looking at it simply, a very wealthy family survived and no any outliers

### Vérifier les Doublons 


Il peut y avoir des lignes en double dans le dataset, ce qui signifie que les mêmes données apparaissent plusieurs fois et il faut donc les supprimer

In [21]:
# Sélectionner les lignes en double dans le DataFrame
duplicated_rows = titanic_df[duplicates]

# Affichage des lignes en double
print("\nLignes en double :")
print(duplicated_rows)


Lignes en double :
     survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
47          1       3  female   NaN      0      0   7.7500        Q   Third   
76          0       3    male   NaN      0      0   7.8958        S   Third   
77          0       3    male   NaN      0      0   8.0500        S   Third   
87          0       3    male   NaN      0      0   8.0500        S   Third   
95          0       3    male   NaN      0      0   8.0500        S   Third   
..        ...     ...     ...   ...    ...    ...      ...      ...     ...   
870         0       3    male  26.0      0      0   7.8958        S   Third   
877         0       3    male  19.0      0      0   7.8958        S   Third   
878         0       3    male   NaN      0      0   7.8958        S   Third   
884         0       3    male  25.0      0      0   7.0500        S   Third   
886         0       2    male  27.0      0      0  13.0000        S  Second   

       who  adult_male deck  em

In [31]:
# Check for duplicate rows
duplicates = titanic_df[titanic_df.duplicated()]

# Count of all duplicate rows
print(f"Total number of duplicate rows: {duplicates.shape[0]}")


Total number of duplicate rows: 107


In [32]:
# Remove duplicate rows, keeping only the first occurrence
titanic_df_cleaned = titanic_df.drop_duplicates()
# Count of unique rows among duplicates
print(f"Total number of unique rows among duplicates: {titanic_df_cleaned.shape[0]}")


Total number of unique rows among duplicates: 784


### Vérifier si colonnes Inutiles 

Certaines colonnes peuvent contenir des données redondantes ou inutiles pour l'analyse.

In [34]:
# Drop the specified columns
# 'deck': Contains many missing values, making it less useful for analysis.
# 'alive': Duplicates information already present in 'survived'.
# 'class': Duplicates information already present in 'pclass'.

columns_to_drop = ['deck', 'alive', 'class']
titanic_df = titanic_df.drop(columns=columns_to_drop)
# Display the remaining columns
print("Remaining columns after dropping 'deck', 'alive', and 'class':")
print(titanic_df.columns)


Remaining columns after dropping 'deck', 'alive', and 'class':
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'who', 'adult_male', 'embark_town', 'alone'],
      dtype='object')


## Bonus

**Continuez l'exploration du dataset Titanic avec d'autres axes d'analyse **



1-Quelle est la répartition des passagers par classe (1ère, 2ème, 3ème) à bord du Titanic ?

2- Quelle est la répartition des passagers par sexe à bord du Titanic ?

3- Quel était l'âge moyen des passagers à bord du Titanic ? Y avait-il des passagers très jeunes ou très âgés ?

4- Combien de passagers ont survécu au naufrage du Titanic ? Quelle était leur répartition par classe, sexe et âge ?


In [43]:
# 1. Distribution of passengers by class (1st, 2nd, 3rd)
class_distribution = titanic_df['pclass'].value_counts().sort_index()
print("Distribution of passengers by class:\n", class_distribution)
print("----------------------------------------------------------------------------------")

# 2. Distribution of passengers by sex
sex_distribution = titanic_df['sex'].value_counts()
print("Distribution of passengers by sex:\n", sex_distribution)
print("----------------------------------------------------------------------------------")

# 3. Average age of passengers and age distribution
average_age = titanic_df['age'].mean()
#age_distribution = titanic_df['age'].describe()
print("Average age of passengers:", average_age)
print("The youngest passenger's age was ", titanic_df['age'].min(), "years old")
print("The oldest passenger's age was ", titanic_df['age'].max(), "years old")
print("----------------------------------------------------------------------------------")

#print("Age distribution of passengers:\n", age_distribution)

# 4. Number of passengers who survived and their distribution by class, sex, and age
survived_count = titanic_df['survived'].value_counts()
print("Number of passengers who survived:\n", survived_count)
print("----------------------------------------------------------------------------------")

##Filter the DataFrame to include only passengers who survived
survivors_df = titanic_df[titanic_df['survived'] == 1]

# Distribution of survivors by class
survived_by_class = survivors_df['pclass'].value_counts().sort_index()
print("Distribution of passengers who survived by class:\n", survived_by_class)
print("----------------------------------------------------------------------------------")

# Distribution of survivors by sex
survived_by_sex = survivors_df['sex'].value_counts()
print("Distribution of passengers who survived by sex:\n", survived_by_sex)
print("----------------------------------------------------------------------------------")
print("The youngest survived passenger's age was ", survivors_df['age'].min(), "years old")
print("The oldest survived passenger's age was ", survivors_df['age'].max(), "years old")


Distribution of passengers by class:
 pclass
1    216
2    184
3    491
Name: count, dtype: int64
----------------------------------------------------------------------------------
Distribution of passengers by sex:
 sex
male      577
female    314
Name: count, dtype: int64
----------------------------------------------------------------------------------
Average age of passengers: 29.69911764705882
The youngest passenger's age was  0.42 years old
The oldest passenger's age was  80.0 years old
----------------------------------------------------------------------------------
Number of passengers who survived:
 survived
0    549
1    342
Name: count, dtype: int64
----------------------------------------------------------------------------------
Distribution of passengers who survived by class:
 pclass
1    136
2     87
3    119
Name: count, dtype: int64
----------------------------------------------------------------------------------
Distribution of passengers who survived by sex:
 sex