# üõ≥Ô∏è Dataset Titanic : Exploration et Analyse de Donn√©es avec R√©gression Logistique


Bienvenue dans cette analyse du dataset Titanic ! Dans ce notebook, nous allons explorer, pr√©parer et analyser les donn√©es du Titanic, puis mettre en ≈ìuvre un mod√®le de **r√©gression logistique** pour pr√©dire la survie des passagers. Nous nous arr√™tons ici pour comprendre en profondeur cette m√©thode simple et puissante.


## Chapitre 1 - Analyse Exploratoire des Donn√©es (EDA) üïµÔ∏è‚Äç‚ôÇÔ∏è


**Objectif :** Avant de construire un mod√®le, il est crucial de **comprendre les donn√©es**. Dans cette partie, nous allons explorer le contenu du dataset, examiner les variables et identifier les valeurs manquantes ou les distributions int√©ressantes.


### üöÄ √âtape 1 : Importation des Librairies

In [2]:

# Importation des biblioth√®ques principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de style pour les graphiques
sns.set_theme(style="whitegrid")


### üìä √âtape 2 : Chargement des Donn√©es

In [4]:

# Chargement des donn√©es
df = pd.read_csv('./dataset/Titanic-Dataset.csv')  # Remplacez par le chemin correct du fichier
df.head()  # Affiche les 5 premi√®res lignes du dataset


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Espace pour l'√©tudiant** : Prenez un moment pour observer la structure des donn√©es, les noms des colonnes et les premi√®res valeurs.

### üîç √âtape 3 : Analyse des Variables et Valeurs Manquantes

In [5]:

# Aper√ßu rapide des valeurs manquantes
df.isnull().sum()


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

**Espace pour l'√©tudiant** : Notez quelles colonnes contiennent des valeurs manquantes et r√©fl√©chissez aux mani√®res de les traiter.

## Chapitre 2 - Pr√©paration des Donn√©es ‚úÇÔ∏è


**Objectif :** Nettoyer les donn√©es pour qu‚Äôelles soient pr√™tes pour la mod√©lisation.


### üßπ √âtape 4 : Traitement des Valeurs Manquantes

In [6]:

# Exemple de remplissage des valeurs manquantes
df['Age'].fillna(df['Age'].median(), inplace=True)  # Remplace les valeurs manquantes dans 'Age' par la m√©diane
df.drop(columns=['Cabin'], inplace=True)  # Suppression de 'Cabin' (trop de valeurs manquantes)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)  # Remplace les valeurs manquantes dans 'Age' par la m√©diane


### üîÑ √âtape 5 : Transformation des Variables Cat√©gorielles

In [7]:

# Encodage de la variable 'Sex'
df = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)


**Espace pour l'√©tudiant** : R√©fl√©chissez aux autres variables cat√©gorielles que vous pourriez encoder.

## Chapitre 3 - Mise √† l‚Äô√âchelle des Donn√©es avec Scalers üìè


**Objectif :** Mettre √† l'√©chelle certaines variables num√©riques pour am√©liorer la performance du mod√®le.


### üéõÔ∏è √âtape 6 : Choix du Scaler

In [8]:

from sklearn.preprocessing import StandardScaler

# Mise √† l'√©chelle de la colonne 'Age' et 'Fare'
scaler = StandardScaler()
df[['Age', 'Fare']] = scaler.fit_transform(df[['Age', 'Fare']])


## Chapitre 4 - Mod√©lisation : R√©gression Logistique üß†


La r√©gression logistique est un mod√®le simple mais puissant pour les **probl√®mes de classification binaire** (ici, survivre ou non).


### ‚öôÔ∏è √âtape 7 : S√©paration des Donn√©es

In [9]:

from sklearn.model_selection import train_test_split

# S√©paration des caract√©ristiques et de la cible
X = df.drop(columns='Survived')
y = df['Survived']

# Division en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


### üöÄ √âtape 8 : Entra√Ænement et √âvaluation du Mod√®le

In [12]:

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Entra√Ænement du mod√®le
model = LogisticRegression()
model.fit(X_train[['Age', 'Fare']], y_train)

# Pr√©diction et √©valuation
y_pred = model.predict(X_test[['Age', 'Fare']])
print("Pr√©cision :", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))


Pr√©cision : 0.6480446927374302
              precision    recall  f1-score   support

           0       0.63      0.95      0.76       105
           1       0.76      0.22      0.34        74

    accuracy                           0.65       179
   macro avg       0.70      0.58      0.55       179
weighted avg       0.69      0.65      0.59       179



**Espace pour l'√©tudiant** : Analysez la pr√©cision et le rapport de classification. Quels ajustements pourraient am√©liorer la performance ?

## üèÅ Conclusion


Nous avons explor√© et pr√©par√© les donn√©es, puis entra√Æn√© un mod√®le de **r√©gression logistique** pour pr√©dire la survie des passagers du Titanic. Cette m√©thode est un point de d√©part efficace pour comprendre les bases de la mod√©lisation de classification.

üéâ Bravo d'avoir suivi ces √©tapes ! N'h√©sitez pas √† explorer plus avant avec d'autres mod√®les pour approfondir votre compr√©hension.
