In [133]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


from os.path import join
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split, cross_validate, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression , Perceptron, LinearRegression
from sklearn.datasets import make_regression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.svm import SVC

# Charger les données
# df = pd.read_csv(join("..","data","titanic.csv") )
df = pd.read_csv('titanic.csv')

In [130]:
# Nettoyage Fichier:
# Remplacer les valeurs nulles de la colonne "age" par la moyenne de la colonne
df["Age"] = df["Age"].fillna(df["Age"].mean())
# Supprimer la colonne "name" et "passengerid" car elles ne servent à rien pour du ML
df = df.drop(["Name","PassengerId","Cabin","Ticket"], axis=1)
# Créer des colonnes hot encoder pour les données catégorielles
categorical_columns = ["Sex", "Embarked"]
for column in categorical_columns:
    df = pd.get_dummies(df, columns=[column])

In [131]:
# Séparer les données en données d'entraînement, de validation et de test
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=["Survived"]), df["Survived"], test_size=0.2, random_state=42)
X_train.shape,X_test.shape, y_train.shape, y_test.shape

((712, 10), (179, 10), (712,), (179,))

In [None]:
df_RegressionLogistique()

In [132]:
# Normaliser les données numériques
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Imputer les valeurs manquantes
imputer = SimpleImputer(strategy="mean")
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)
for i in [1,2,3] :
    if i == 1 :
        # Entraîner un modèle de régression logistique
        model = LogisticRegression(solver="lbfgs", max_iter=1000)
        model.fit(X_train, y_train)
        # Prédictions sur les données de test
        y_pred = model.predict(X_test)
        # Calculer le rapport de classification
        report = classification_report(y_test, y_pred, target_names=["Survivant", "Non-survivant"])
        # Afficher le rapport de classification
        print("Régression logistique :")
        # Prédisez les étiquettes sur l'ensemble de test
        y_pred_logistic = model.predict(X_test)
        # Évaluez les performances du modèle
        accuracy = accuracy_score(y_test, y_pred_logistic)
        # Affichez l'exactitude et le rapport de classification
        print(f"Accuracy: {accuracy}")
        print(report)
    if i == 2 :
        # Entraîner un modèle de Machine à Vecteurs de Support
        model = SVC(decision_function_shape='ovo')
        model.fit(X_train, y_train)
        # Prédictions sur les données de test
        y_pred = model.predict(X_test)
        # Calculer le rapport de classification
        report = classification_report(y_test, y_pred, target_names=["Survivant", "Non-survivant"])
        # Afficher le rapport de classification
        print("Machine à Vecteurs de Support :")
        # Prédisez les étiquettes sur l'ensemble de test
        y_pred_SVM = model.predict(X_test)
        # Évaluez les performances du modèle
        accuracy = accuracy_score(y_test, y_pred_SVM)
        # Affichez l'exactitude et le rapport de classification
        print(f"Accuracy: {accuracy}")
        print(report)
    if i == 3 :
        # Entraîner un modèle de régression logistique
        model = Perceptron(tol=1e-3, random_state=0)
        model.fit(X_train, y_train)
        # Prédictions sur les données de test
        y_pred = model.predict(X_test)
        # Calculer le rapport de classification
        report = classification_report(y_test, y_pred, target_names=["Survivant", "Non-survivant"])
        # Afficher le rapport de classification
        print("Perceptron :")
        # Prédisez les étiquettes sur l'ensemble de test
        y_pred_Perceptron = model.predict(X_test)
        # Évaluez les performances du modèle
        accuracy = accuracy_score(y_test, y_pred_Perceptron)
        # Affichez l'exactitude et le rapport de classification
        print(f"Accuracy: {accuracy}")
        print(report)

Régression logistique :
Accuracy: 0.8100558659217877
               precision    recall  f1-score   support

    Survivant       0.83      0.86      0.84       105
Non-survivant       0.79      0.74      0.76        74

     accuracy                           0.81       179
    macro avg       0.81      0.80      0.80       179
 weighted avg       0.81      0.81      0.81       179

Machine à Vecteurs de Support :
Accuracy: 0.8212290502793296
               precision    recall  f1-score   support

    Survivant       0.81      0.90      0.86       105
Non-survivant       0.84      0.70      0.76        74

     accuracy                           0.82       179
    macro avg       0.83      0.80      0.81       179
 weighted avg       0.82      0.82      0.82       179

Perceptron :
Accuracy: 0.770949720670391
               precision    recall  f1-score   support

    Survivant       0.80      0.81      0.81       105
Non-survivant       0.73      0.72      0.72        74

     accurac