In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Charger les données Titanic
url = "https://raw.githubusercontent.com/murpi/wilddata/master/quests/titanic.csv"
df = pd.read_csv(url)
print(df.head())

# Supprimer les colonnes inutiles
df = df.drop(columns=['Name'])

# Remplacer les valeurs manquantes
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Fare'].fillna(df['Fare'].median(), inplace=True)

# Convertir les variables catégoriques en numériques
df = pd.get_dummies(df, columns=['Sex'], drop_first=True)


X = df.drop(columns=['Survived'])
y = df['Survived']


   Survived  Pclass                                               Name  \
0         0       3                             Mr. Owen Harris Braund   
1         1       1  Mrs. John Bradley (Florence Briggs Thayer) Cum...   
2         1       3                              Miss. Laina Heikkinen   
3         1       1        Mrs. Jacques Heath (Lily May Peel) Futrelle   
4         0       3                            Mr. William Henry Allen   

      Sex   Age  Siblings/Spouses Aboard  Parents/Children Aboard     Fare  
0    male  22.0                        1                        0   7.2500  
1  female  38.0                        1                        0  71.2833  
2  female  26.0                        0                        0   7.9250  
3  female  35.0                        1                        0  53.1000  
4    male  35.0                        0                        0   8.0500  


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Fare'].fillna(df['Fare'].median(), inplace=True)


**Vous allez effectuer une classification supervisée sur la colonne "survived", en effectuant un traintestsplit (sans fixer le random_state), puis un classifieur de votre choix (knn, arbre de décision, régression logistique, etc...). Tu dois faire apparaître clairement l'accuracy score du jeu d'entraînement et celui du jeu de test**

In [6]:
X = df.drop(columns=['Survived'])
y = df['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
scaler = StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Choix du modèle : Régression Logistique
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# Prédictions et scores
train_accuracy = accuracy_score(y_train, model.predict(X_train_scaled))
test_accuracy = accuracy_score(y_test, model.predict(X_test_scaled))

print("1ère exécution :")
print(f"  - Accuracy sur l'entraînement : {train_accuracy:.2f}")
print(f"  - Accuracy sur le test : {test_accuracy:.2f}\n")

1ère exécution :
  - Accuracy sur l'entraînement : 0.81
  - Accuracy sur le test : 0.79



**Dans un nouveau bloc de code, vous allez effectuer exactement la même étape que précédemment. Comme tu n'as pas fixé le random_state, le score devrait être différent.**

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
scaler = StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Réentraîner le modèle
model.fit(X_train_scaled, y_train)

# Prédictions et scores
train_accuracy = accuracy_score(y_train, model.predict(X_train_scaled))
test_accuracy = accuracy_score(y_test, model.predict(X_test_scaled))

print("2ème exécution :")
print(f"  - Accuracy sur l'entraînement : {train_accuracy:.2f}")
print(f"  - Accuracy sur le test : {test_accuracy:.2f}\n")

2ème exécution :
  - Accuracy sur l'entraînement : 0.80
  - Accuracy sur le test : 0.79



**Avec ce même classificateur, vous allez lancer une validation croisée avec un découpage en 6 parties. La CrossValidation renforce-t-elle votre confiance dans cette prédiction ? Tu vas calculer la moyenne et l'écart-type des 6 scores obtenus.**

In [8]:
# Validation croisée avec 6 découpages
cv_scores = cross_val_score(LogisticRegression(), X, y, cv=6)

print("Validation croisée :")
print(f"  - Scores : {cv_scores}")
print(f"  - Moyenne des scores : {cv_scores.mean():.2f}")
print(f"  - Écart-type : {cv_scores.std():.2f}")

Validation croisée :
  - Scores : [0.77702703 0.80405405 0.79054054 0.78378378 0.7972973  0.81632653]
  - Moyenne des scores : 0.79
  - Écart-type : 0.01
