### Preprocessed Titanic Data
This notebook contains the preprocessed Titanic data ready for prediction.

In [21]:
import pandas as pd
import pickle
from sklearn.preprocessing import LabelEncoder, StandardScaler


In [37]:
# Charger le modèle enregistré
model_path = "model/TitanicJupiter_Model.pkl"
columns_fit_path = "model/columns_fit.pkl"
try:
    with open(model_path, 'rb') as f:
        model = pickle.load(f)
    print(f"Modèle chargé avec succès depuis : {model_path}")
except FileNotFoundError:
    print(f"Erreur : Le fichier de modèle '{model_path}' est introuvable.")
    model = None
    

Modèle chargé avec succès depuis : TitanicJupiter_Model.pkl


In [38]:
# Charger les colonnes attendues par le modèle
try:
    with open(columns_fit_path, 'rb') as f:
        columns_fit = pickle.load(f)
    print(f"Colonnes chargées avec succès depuis : {columns_fit_path}")
except FileNotFoundError:
    print(f"Erreur : Le fichier des colonnes '{columns_fit_path}' est introuvable.")
    columns_fit = None


Colonnes chargées avec succès depuis : columns_fit.pkl


In [39]:
def preprocess_data(data):
    """
    Prétraitement des données pour correspondre au modèle :
    - Remplacement des valeurs manquantes
    - Encodage des variables catégoriques
    - Création de variables fictives
    - Alignement des colonnes sur celles attendues par le modèle
    """
    if columns_fit is None:
        raise ValueError("Les colonnes attendues par le modèle ne sont pas définies.")

    # Gestion des valeurs manquantes
    data['Age'] = data['Age'].fillna(data['Age'].median())
    data['Embarked'] = data['Embarked'].fillna(data['Embarked'].mode()[0])
    data = data.fillna(0)

    # Encodage de la colonne 'Sex'
    if 'Sex' in data.columns:
        label_encoder = LabelEncoder()
        data['Sex'] = label_encoder.fit_transform(data['Sex'])

    # Transformation de la colonne 'Embarked'
    if 'Embarked' in data.columns:
        data = pd.get_dummies(data, columns=['Embarked'], drop_first=True)

    # Ajout des colonnes manquantes et suppression des colonnes inattendues
    for col in columns_fit:
        if col not in data.columns:
            data[col] = 0

    data = data[columns_fit]  # S'assurer que les colonnes sont dans le bon ordre

    # Mise à l'échelle des données (exclure PassengerId et Unnamed: 0)
    scaler = StandardScaler()
    cols_to_scale = [col for col in data.columns if col not in ['PassengerId', 'Unnamed: 0']]
    data[cols_to_scale] = scaler.fit_transform(data[cols_to_scale])

    return data


In [41]:
# Charger les données à prédire
try:
    data_path = "data/data_to_predict.csv"  # Chemin du fichier contenant les données à prédire
    data_to_predict = pd.read_csv(data_path)
    print(f"Données à prédire chargées depuis : {data_path}")
except FileNotFoundError:
    print(f"Erreur : Le fichier de données '{data_path}' est introuvable.")
    data_to_predict = None
    

Données à prédire chargées depuis : data/data_to_predict.csv


In [42]:
# Appliquer le prétraitement et faire des prédictions
if data_to_predict is not None and model is not None and columns_fit is not None:
    # Prétraiter les données
    data_preprocessed = preprocess_data(data_to_predict)

    # Faire des prédictions sans exclure de colonnes
    predictions = model.predict(data_preprocessed)

    # Ajouter les prédictions au DataFrame original
    data_to_predict['Survived_Predicted'] = predictions

    # Enregistrer les résultats dans un nouveau fichier
    output_path = "predicted_results.csv"
    data_to_predict.to_csv(output_path, index=False)
    print(f"Prédictions enregistrées dans : {output_path}")
else:
    print("Prédictions impossibles : vérifiez les données, le modèle ou les colonnes.")


Prédictions enregistrées dans : predicted_results.csv
