In [1]:
import pandas as pd
import numpy as np
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
# Chargement des données depuis un fichier CSV
data = pd.read_csv("readmission_des_patients.csv")

# Affichage des premières lignes pour vérification
data.head()

Unnamed: 0,subject_id,HADM_ID,gender,dob,HeightInMeters,WeightInKilograms,BMI,SmokerStatus,ECigaretteUsage,AlcoholDrinkers,...,AdmissionDayOfWeek,DIAGNOSIS,ADMISSION_LOCATION,ADMISSION_TYPE,length_of_stay,facility_cost,procedure_cost,medication_cost,lab_test_cost,total_cost
0,10017,199207,F,2075-09-21 00:00:00,177999997138977,9525,301299991607666,Former smoker,Never used e-cigarettes in my entire life,0,...,2,HUMERAL FRACTURE,EMERGENCY ROOM ADMIT,EMERGENCY,8,8000.0,3000.0,42000.0,47700.0,100700.0
1,10013,165520,F,2038-09-03 00:00:00,177999997138977,712099990844727,225300006866455,Never smoked,Never used e-cigarettes in my entire life,1,...,5,SEPSIS,TRANSFER FROM HOSP/EXTRAM,EMERGENCY,2,2000.0,1500.0,3600.0,14800.0,21900.0
2,10011,105331,F,2090-06-05 00:00:00,160000002384186,716699981689453,279899997711182,Former smoker,Never used e-cigarettes in my entire life,0,...,4,HEPATITIS B,TRANSFER FROM HOSP/EXTRAM,EMERGENCY,13,13000.0,3000.0,0.0,70000.0,86000.0
3,10006,142345,F,2094-03-05 00:00:00,162999999523163,848199996948242,320999984741211,Former smoker,Never used e-cigarettes in my entire life,0,...,3,SEPSIS,EMERGENCY ROOM ADMIT,EMERGENCY,8,8000.0,10500.0,21600.0,196300.0,236400.0
4,10019,177759,M,2114-06-20 00:00:00,167999994754791,780199966430664,277600002288818,Never smoked,Never used e-cigarettes in my entire life,0,...,7,ALCOHOLIC HEPATITIS,TRANSFER FROM HOSP/EXTRAM,EMERGENCY,0,0.0,6000.0,0.0,28700.0,34700.0


In [3]:
# Afficher les noms des colonnes du DataFrame
print(data.columns)


Index(['subject_id', 'HADM_ID', 'gender', 'dob', 'HeightInMeters',
       'WeightInKilograms', 'BMI', 'SmokerStatus', 'ECigaretteUsage',
       'AlcoholDrinkers', 'CovidPos', 'LANGUAGE', 'ETHNICITY',
       'MARITAL_STATUS', 'HadHeartAttack', 'HadAngina', 'HadStroke',
       'HadAsthma', 'HadSkinCancer', 'HadCOPD', 'HadDepressiveDisorder',
       'HadKidneyDisease', 'HadArthritis', 'HadDiabetes',
       'DeafOrHardOfHearing', 'BlindOrVisionDifficulty',
       'DifficultyConcentrating', 'DifficultyWalking',
       'DifficultyDressingBathing', 'DifficultyErrands', 'ChestScan',
       'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver', 'TetanusLast10Tdap',
       'AdmissionDate', 'AdmissionYear', 'AdmissionDayOfWeek', 'DIAGNOSIS',
       'ADMISSION_LOCATION', 'ADMISSION_TYPE', 'length_of_stay',
       'facility_cost', 'procedure_cost', 'medication_cost', 'lab_test_cost',
       'total_cost'],
      dtype='object')


In [4]:

# Sélection des colonnes pour l'encodage
categorical_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']

# Encoder les variables catégorielles (True -> 1, False -> 0)
for col in categorical_cols:
    data[col] = data[col].replace({True: 1, False: 0})

# Sélectionner les variables d'entrée (X) et la variable cible (y)
X = data[['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']]  # Exemple d'entrée
y = data['length_of_stay']  # Durée du séjour

# Séparation des données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisation des données
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entraîner un modèle de régression linéaire
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Prédictions sur les données de test
y_pred = model.predict(X_test_scaled)

# Évaluer le modèle
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Afficher les résultats
print(f'Mean Squared Error: {mse}')
print(f'R-squared: {r2}')

Mean Squared Error: 501.85889903115464
R-squared: 0.07116092149700881


In [5]:

# Encodage des colonnes catégorielles (True/False -> 1/0)
categorical_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 
                    'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in categorical_cols:
    data[col] = data[col].replace({True: 1, False: 0})

# Sélection des features (vous pouvez en ajouter selon votre dataset)
features = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
            'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
X = data[features]
y = data['length_of_stay']

# Séparation des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modèle : Gradient Boosting Regressor
model = GradientBoostingRegressor(random_state=42)
model.fit(X_train_scaled, y_train)

# Prédictions
y_pred = model.predict(X_test_scaled)

# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Affichage des résultats
print(f'Mean Squared Error: {mse:.2f}')
print(f'R-squared Score: {r2:.2f}')

Mean Squared Error: 484.07
R-squared Score: 0.10


In [6]:
from sklearn.model_selection import train_test_split, GridSearchCV

# Encodage des colonnes catégorielles (True/False -> 1/0)
categorical_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 
                    'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in categorical_cols:
    data[col] = data[col].replace({True: 1, False: 0})

# Définir les features
features = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
            'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
X = data[features]
y = data['length_of_stay']

# Train/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# GridSearchCV pour le fine-tuning
param_grid = {
    'n_estimators': [100, 200],
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [3, 4, 5],
    'subsample': [0.8, 1.0]
}

gbr = GradientBoostingRegressor(random_state=42)

grid_search = GridSearchCV(estimator=gbr, param_grid=param_grid,
                           cv=5, scoring='r2', n_jobs=-1, verbose=1)

grid_search.fit(X_train_scaled, y_train)

# Meilleur modèle
best_model = grid_search.best_estimator_

# Prédiction
y_pred = best_model.predict(X_test_scaled)

# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Résultats
print("Best parameters found:", grid_search.best_params_)
print(f'Mean Squared Error: {mse:.2f}')
print(f'R-squared Score: {r2:.2f}')

Fitting 5 folds for each of 36 candidates, totalling 180 fits
Best parameters found: {'learning_rate': 0.2, 'max_depth': 5, 'n_estimators': 100, 'subsample': 0.8}
Mean Squared Error: 454.20
R-squared Score: 0.16


In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score



# 2. Encoder les colonnes booléennes (True/False)
bool_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in bool_cols:
    if col in data.columns:
        data[col] = data[col].astype(int)

# 3. Encoder automatiquement les colonnes catégorielles (type object)
object_cols = data.select_dtypes(include='object').columns
data = pd.get_dummies(data, columns=object_cols, drop_first=True)

# 4. Définir les features et la target
X = data.drop(columns=['length_of_stay'])  # Variable cible
y = data['length_of_stay']

# 5. Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Normalisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 7. GridSearchCV
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10, 15],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'max_features': ['sqrt', 'log2']
}

rf = RandomForestRegressor(random_state=42)
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, 
                           cv=5, scoring='neg_mean_squared_error', n_jobs=-1, verbose=2)
grid_search.fit(X_train_scaled, y_train)

# 8. Évaluation
best_rf = grid_search.best_estimator_
y_pred = best_rf.predict(X_test_scaled)

print("✅ Best parameters found:", grid_search.best_params_)
print("📉 Mean Squared Error:", mean_squared_error(y_test, y_pred))
print("📈 R-squared Score:", r2_score(y_test, y_pred))


Fitting 5 folds for each of 48 candidates, totalling 240 fits
✅ Best parameters found: {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 200}
📉 Mean Squared Error: 281.53845518822624
📈 R-squared Score: 0.4789293967188296


In [8]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_dist = {
    'n_estimators': randint(100, 500),
    'max_depth': randint(5, 30),
    'min_samples_split': randint(2, 10),
    'min_samples_leaf': randint(1, 10),
    'max_features': ['sqrt', 'log2', None]
}

random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_dist,
                                   n_iter=100, cv=5, scoring='neg_mean_squared_error', 
                                   n_jobs=-1, random_state=42, verbose=2)
random_search.fit(X_train_scaled, y_train)

best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

print("✅ Best params:", random_search.best_params_)
print("📉 MSE:", mean_squared_error(y_test, y_pred))
print("📈 R²:", r2_score(y_test, y_pred))


Fitting 5 folds for each of 100 candidates, totalling 500 fits
✅ Best params: {'max_depth': 26, 'max_features': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 223}
📉 MSE: 85.98860516306071
📈 R²: 0.8408525246127863


In [38]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib

# 🔄 Chargement des données (ajoute ton propre chemin si nécessaire)
# data = pd.read_csv("chemin/vers/ton_fichier.csv")

# ✅ 1. Encodage des booléens
bool_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in bool_cols:
    if col in data.columns:
        data[col] = data[col].astype(int)

# Encodage des colonnes catégorielles (True/False -> 1/0)
categorical_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 
                    'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in categorical_cols:
    data[col] = data[col].replace({True: 1, False: 0})

# ✅ 3. Features et Target
X = data.drop(columns=['length_of_stay'])
y = data['length_of_stay']

# ✅ 4. Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ✅ 5. Normalisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# ✅ 6. Modèle de base
rf = RandomForestRegressor(random_state=42)


# ✅ 8. RandomizedSearchCV (plus puissant)
param_dist = {
    'n_estimators': randint(100, 500),
    'max_depth': randint(5, 30),
    'min_samples_split': randint(2, 10),
    'min_samples_leaf': randint(1, 10),
    'max_features': ['sqrt', 'log2', None]
}

random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_dist,
                                   n_iter=100, cv=5, scoring='neg_mean_squared_error', 
                                   n_jobs=-1, random_state=42, verbose=2)
random_search.fit(X_train_scaled, y_train)

# ✅ 9. Évaluation finale
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

print("✅ Best params from RandomizedSearchCV:", random_search.best_params_)
print("📉 Mean Squared Error :", mean_squared_error(y_test, y_pred))
print("📈 R² Score:", r2_score(y_test, y_pred))




Fitting 5 folds for each of 100 candidates, totalling 500 fits
✅ Best params from RandomizedSearchCV: {'max_depth': 26, 'max_features': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 223}
📉 Mean Squared Error : 85.98860516306071
📈 R² Score: 0.8408525246127863


In [39]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib

# 🔄 Charger les données (ajoute ton propre chemin si nécessaire)
# data = pd.read_csv("chemin/vers/ton_fichier.csv")

# ✅ 1. Encodage des booléens
bool_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in bool_cols:
    if col in data.columns:
        data[col] = data[col].astype(int)

# ✅ 2. Encodage des colonnes booléennes (True/False -> 1/0)
categorical_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 
                    'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in categorical_cols:
    data[col] = data[col].replace({True: 1, False: 0})

# ✅ 3. Sélection des features et de la cible
X = data.drop(columns=['length_of_stay'])  # On exclut la colonne 'length_of_stay' qui est notre cible
y = data['length_of_stay']

# ✅ 4. Split des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ✅ 5. Normalisation uniquement sur les features (X)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Normalisation de l'ensemble d'entraînement
X_test_scaled = scaler.transform(X_test)  # Utilisation du même scaler pour l'ensemble de test

# ✅ 6. Modèle de base - RandomForest
rf = RandomForestRegressor(random_state=42)

# ✅ 7. Paramètres de recherche pour RandomizedSearchCV
param_dist = {
    'n_estimators': randint(100, 500),
    'max_depth': randint(5, 30),
    'min_samples_split': randint(2, 10),
    'min_samples_leaf': randint(1, 10),
    'max_features': ['sqrt', 'log2', None]
}

# ✅ 8. Recherche aléatoire des meilleurs paramètres
random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_dist,
                                   n_iter=100, cv=5, scoring='neg_mean_squared_error', 
                                   n_jobs=-1, random_state=42, verbose=2)
random_search.fit(X_train_scaled, y_train)

# ✅ 9. Évaluation du modèle
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

# ✅ 10. Résultats de l'évaluation
print("✅ Best params from RandomizedSearchCV:", random_search.best_params_)
print("📉 Mean Squared Error :", mean_squared_error(y_test, y_pred))
print("📈 R² Score:", r2_score(y_test, y_pred))

# ✅ 11. Sauvegarde du modèle et du scaler
joblib.dump(best_model, 'best_rf_model.pkl')
joblib.dump(scaler, 'scaler.pkl')


Fitting 5 folds for each of 100 candidates, totalling 500 fits
✅ Best params from RandomizedSearchCV: {'max_depth': 26, 'max_features': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 223}
📉 Mean Squared Error : 85.98860516306071
📈 R² Score: 0.8408525246127863


['scaler.pkl']

In [61]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib

# 🔄 Charger les données (ajoute ton propre chemin si nécessaire)
# data = pd.read_csv("chemin/vers/ton_fichier.csv")

# ✅ 1. Encodage des booléens
bool_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
for col in bool_cols:
    if col in data.columns:
        data[col] = data[col].astype(int)

# ✅ 2. Encodage des colonnes catégorielles (avec LabelEncoder)
categorical_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 
                    'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
label_encoder = LabelEncoder()
for col in categorical_cols:
    data[col] = label_encoder.fit_transform(data[col])

# ✅ 3. Sélection des features et de la cible
X = data.drop(columns=['length_of_stay'])  # On exclut la colonne 'length_of_stay' qui est notre cible
y = data['length_of_stay']

# ✅ 4. Split des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ✅ 5. Normalisation uniquement sur les features (X)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Normalisation de l'ensemble d'entraînement
X_test_scaled = scaler.transform(X_test)  # Utilisation du même scaler pour l'ensemble de test

# ✅ 6. Modèle de base - RandomForest
rf = RandomForestRegressor(random_state=42)

# ✅ 7. Paramètres de recherche pour RandomizedSearchCV
param_dist = {
    'n_estimators': randint(100, 500),
    'max_depth': randint(5, 30),
    'min_samples_split': randint(2, 10),
    'min_samples_leaf': randint(1, 10),
    'max_features': ['sqrt', 'log2', None]
}

# ✅ 8. Recherche aléatoire des meilleurs paramètres
random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_dist,
                                   n_iter=100, cv=5, scoring='neg_mean_squared_error', 
                                   n_jobs=-1, random_state=42, verbose=2)
random_search.fit(X_train_scaled, y_train)

# ✅ 9. Évaluation du modèle
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

# ✅ 10. Résultats de l'évaluation
print("✅ Best params from RandomizedSearchCV:", random_search.best_params_)
print("📉 Mean Squared Error :", mean_squared_error(y_test, y_pred))
print("📈 R² Score:", r2_score(y_test, y_pred))

# ✅ 11. Sauvegarde du modèle et du scaler
joblib.dump(best_model, 'best_rf_model.pkl')
joblib.dump(scaler, 'scaler.pkl')


Fitting 5 folds for each of 100 candidates, totalling 500 fits
✅ Best params from RandomizedSearchCV: {'max_depth': 26, 'max_features': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 223}
📉 Mean Squared Error : 85.98860516306071
📈 R² Score: 0.8408525246127863


['scaler.pkl']

In [63]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, FunctionTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib

# 🔄 Charger les données
# data = pd.read_csv("chemin/vers/ton_fichier.csv")

# ✅ Liste des colonnes booléennes à encoder
bool_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']

# ✅ 1. Séparation des features et de la cible
X = data.drop(columns=['length_of_stay'])
y = data['length_of_stay']

# ✅ 2. Pipeline pour l'encodage booléen (True/False → int)
bool_encoder = FunctionTransformer(lambda x: x.astype(int))

# ✅ 3. Préprocesseur : encodage + standardisation
preprocessor = ColumnTransformer(transformers=[
    ('bool', bool_encoder, bool_cols),
    ('num', StandardScaler(), [col for col in X.columns if col not in bool_cols])
])

# ✅ 4. Pipeline complet avec RandomForest
pipeline = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('model', RandomForestRegressor(random_state=42))
])

# ✅ 5. Split des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ✅ 6. Recherche aléatoire de paramètres
param_dist = {
    'model__n_estimators': randint(100, 500),
    'model__max_depth': randint(5, 30),
    'model__min_samples_split': randint(2, 10),
    'model__min_samples_leaf': randint(1, 10),
    'model__max_features': ['sqrt', 'log2', None]
}

random_search = RandomizedSearchCV(pipeline, param_distributions=param_dist,
                                   n_iter=100, cv=5, scoring='neg_mean_squared_error',
                                   n_jobs=-1, random_state=42, verbose=2)

# ✅ 7. Entraînement
random_search.fit(X_train, y_train)

# ✅ 8. Évaluation
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test)

print("✅ Best params from RandomizedSearchCV:", random_search.best_params_)
print("📉 Mean Squared Error:", mean_squared_error(y_test, y_pred))
print("📈 R² Score:", r2_score(y_test, y_pred))


Fitting 5 folds for each of 100 candidates, totalling 500 fits
✅ Best params from RandomizedSearchCV: {'model__max_depth': 26, 'model__max_features': None, 'model__min_samples_leaf': 1, 'model__min_samples_split': 2, 'model__n_estimators': 223}
📉 Mean Squared Error: 84.86472527251551
📈 R² Score: 0.8429325984420983


In [65]:
# ✅ 9. Affichage des attributs utilisés
print("\n📋 Liste des attributs utilisés dans le modèle :")
for feature in X.columns:
    print(f" - {feature}")



📋 Liste des attributs utilisés dans le modèle :
 - subject_id
 - HADM_ID
 - AlcoholDrinkers
 - CovidPos
 - HadHeartAttack
 - HadAngina
 - HadStroke
 - HadAsthma
 - HadSkinCancer
 - HadCOPD
 - HadDepressiveDisorder
 - HadKidneyDisease
 - HadArthritis
 - DeafOrHardOfHearing
 - BlindOrVisionDifficulty
 - DifficultyConcentrating
 - DifficultyWalking
 - DifficultyDressingBathing
 - DifficultyErrands
 - ChestScan
 - HIVTesting
 - FluVaxLast12
 - PneumoVaxEver
 - AdmissionYear
 - AdmissionDayOfWeek
 - facility_cost
 - procedure_cost
 - medication_cost
 - lab_test_cost
 - total_cost
 - gender_M
 - dob_1846-07-21 00:00:00
 - dob_1851-09-12 00:00:00
 - dob_1876-07-14 00:00:00
 - dob_1878-05-14 00:00:00
 - dob_1880-02-29 00:00:00
 - dob_1885-03-24 00:00:00
 - dob_1895-05-17 00:00:00
 - dob_2016-12-05 00:00:00
 - dob_2029-07-09 00:00:00
 - dob_2029-12-07 00:00:00
 - dob_2031-05-19 00:00:00
 - dob_2031-08-12 00:00:00
 - dob_2035-04-13 00:00:00
 - dob_2036-03-10 00:00:00
 - dob_2038-05-10 00:00:00


In [None]:

# ✅ 9. Sauvegarde du modèle
joblib.dump(best_model, 'best_rf_pipeline.pkl')


In [45]:
# ✅ 10. Exporter le modèle et le scaler
joblib.dump(best_model, 'best_rf_model.pkl')
joblib.dump(scaler, 'scaler.pkl')  # Sauvegarde du scaler


['scaler.pkl']

In [47]:
print("Colonnes de X_train:", X_train.columns)
print("Colonnes de X_test:", X_test.columns)


Colonnes de X_train: Index(['subject_id', 'HADM_ID', 'AlcoholDrinkers', 'CovidPos',
       'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma',
       'HadSkinCancer', 'HadCOPD',
       ...
       'DIAGNOSIS_UTI/PYELONEPHRITIS', 'DIAGNOSIS_VARICEAL BLEED',
       'DIAGNOSIS_VF ARREST ', 'DIAGNOSIS_VOLVULUS',
       'ADMISSION_LOCATION_EMERGENCY ROOM ADMIT',
       'ADMISSION_LOCATION_PHYS REFERRAL/NORMAL DELI',
       'ADMISSION_LOCATION_TRANSFER FROM HOSP/EXTRAM',
       'ADMISSION_LOCATION_TRANSFER FROM SKILLED NUR',
       'ADMISSION_TYPE_EMERGENCY', 'ADMISSION_TYPE_URGENT'],
      dtype='object', length=550)
Colonnes de X_test: Index(['subject_id', 'HADM_ID', 'AlcoholDrinkers', 'CovidPos',
       'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma',
       'HadSkinCancer', 'HadCOPD',
       ...
       'DIAGNOSIS_UTI/PYELONEPHRITIS', 'DIAGNOSIS_VARICEAL BLEED',
       'DIAGNOSIS_VF ARREST ', 'DIAGNOSIS_VOLVULUS',
       'ADMISSION_LOCATION_EMERGENCY ROOM ADMIT',
       'ADMIS

In [48]:
# ✅ 12. Prédictions avec estimation de l'incertitude (intervalle de confiance)
import numpy as np

# Obtenir les prédictions de chaque arbre
all_tree_predictions = np.stack([tree.predict(X_test_scaled) for tree in loaded_model.estimators_], axis=0)

# Moyenne des prédictions (prédiction finale)
mean_predictions = np.mean(all_tree_predictions, axis=0)

# Écart-type (incertitude)
std_predictions = np.std(all_tree_predictions, axis=0)

# Calcul de l'intervalle de confiance à 95%
lower_bound = mean_predictions - 1.96 * std_predictions
upper_bound = mean_predictions + 1.96 * std_predictions

# Affichage pour les 5 premières instances
for i in range(5):
    print(f"📌 Observation {i+1}")
    print(f"🔮 Prédiction : {mean_predictions[i]:.2f}")
    print(f"✅ Intervalle de confiance à 95% : [{lower_bound[i]:.2f}, {upper_bound[i]:.2f}]")
    print(f"🎯 Valeur réelle : {y_test.iloc[i]}\n")


📌 Observation 1
🔮 Prédiction : 6.01
✅ Intervalle de confiance à 95% : [5.37, 6.65]
🎯 Valeur réelle : 6

📌 Observation 2
🔮 Prédiction : 16.63
✅ Intervalle de confiance à 95% : [9.90, 23.36]
🎯 Valeur réelle : 17

📌 Observation 3
🔮 Prédiction : 9.73
✅ Intervalle de confiance à 95% : [7.93, 11.53]
🎯 Valeur réelle : 10

📌 Observation 4
🔮 Prédiction : 7.92
✅ Intervalle de confiance à 95% : [6.93, 8.92]
🎯 Valeur réelle : 8

📌 Observation 5
🔮 Prédiction : 0.27
✅ Intervalle de confiance à 95% : [-0.89, 1.43]
🎯 Valeur réelle : 0



In [67]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, FunctionTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib
import warnings

# Ignorer les avertissements futurs pour la propreté de la sortie (optionnel)
warnings.simplefilter(action='ignore', category=FutureWarning)

# --- Simulation de données si aucun fichier n'est chargé ---
# REMPLACE CECI PAR TON CHARGEMENT DE DONNÉES RÉEL
try:
    # Essaie de charger les données si la variable 'data' existe déjà
    # (Adapte cette logique si nécessaire pour recharger à chaque fois)
    if 'data' in locals() or 'data' in globals():
        print("Utilisation des données pré-chargées.")
        # Assure-toi que les booléens sont bien booléens après le chargement initial si besoin
        bool_cols_check = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
                           'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
        for col in bool_cols_check:
             if col in data.columns and data[col].dtype != bool :
                 try:
                     # Tentative de conversion flexible (gère True/False, 1/0, 'Yes'/'No', etc.)
                     map_dict = {True: True, 1: True, 'True': True, 'true': True, 'Yes': True, 'yes': True,
                                 False: False, 0: False, 'False': False, 'false': False, 'No': False, 'no': False}
                     data[col] = data[col].map(map_dict).fillna(False).astype(bool) # Remplace NaN par False par défaut
                     print(f"Colonne '{col}' convertie en booléen.")
                 except Exception as e:
                     print(f"Attention : impossible de convertir la colonne '{col}' en booléen de manière fiable. Erreur: {e}")

    else:
        raise NameError # Force l'exécution du bloc except
except NameError:
    print("Création de données exemples car 'data' n'est pas défini.")
    # ... (garder la création de données exemples si nécessaire) ...
    data = pd.DataFrame({ # Version simplifiée pour l'exemple
        'Age': np.random.randint(20, 85, size=500),
        'BMI': np.random.uniform(18, 40, size=500),
        'SeverityScore': np.random.uniform(1, 10, size=500),
        'AlcoholDrinkers': np.random.choice([True, False], size=500, p=[0.6, 0.4]),
        'CovidPos': np.random.choice([True, False], size=500, p=[0.2, 0.8]),
        'HadHeartAttack': np.random.choice([True, False], size=500, p=[0.1, 0.9]),
        'HadAngina': np.random.choice([True, False], size=500, p=[0.08, 0.92]),
        'HadStroke': np.random.choice([True, False], size=500, p=[0.05, 0.95]),
        'HadAsthma': np.random.choice([True, False], size=500, p=[0.15, 0.85]),
        'HadSkinCancer': np.random.choice([True, False], size=500, p=[0.07, 0.93]),
        'HadCOPD': np.random.choice([True, False], size=500, p=[0.06, 0.94]),
        'length_of_stay': np.random.poisson(lam=5, size=500) + 1 # Cible (ex: jours)
    })
    for col in ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']:
        data[col] = data[col].astype(bool)

# data = pd.read_csv("chemin/vers/ton_fichier.csv") # Décommente pour charger ton fichier

# ========= DÉFINITION DE LA FONCTION POUR L'ENCODAGE =========
def bool_to_int(X_bool):
    """
    Convertit un DataFrame ou une Série de booléens en entiers (0 ou 1).
    Gère les éventuelles valeurs manquantes en les traitant comme False (0).
    """
    # S'assurer que l'entrée est traitée correctement (pourrait être Series ou DataFrame)
    if isinstance(X_bool, pd.Series):
        return X_bool.fillna(False).astype(int)
    elif isinstance(X_bool, pd.DataFrame):
        return X_bool.fillna(False).astype(int)
    else: # Si c'est déjà un array numpy par exemple
        return X_bool.astype(int)
# ==============================================================

# ✅ Liste des colonnes booléennes à encoder (assure-toi qu'elles existent)
bool_cols = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
             'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
# Vérifie que toutes les colonnes booléennes sont présentes dans les données
bool_cols = [col for col in bool_cols if col in data.columns]
print(f"Colonnes booléennes utilisées : {bool_cols}")

# == Identification des colonnes numériques et autres ==
target_col = 'length_of_stay'
if target_col not in data.columns:
    raise ValueError(f"La colonne cible '{target_col}' n'est pas dans le DataFrame.")

# Exclure explicitement les identifiants s'ils ne sont pas des features utiles
id_cols = ['subject_id', 'HADM_ID'] # Adapte si nécessaire
cols_to_drop_from_features = [target_col] + [id for id in id_cols if id in data.columns]

X = data.drop(columns=cols_to_drop_from_features)
y = data[target_col]

# Recalculer les colonnes numériques après avoir potentiellement retiré les IDs
numerical_cols = [col for col in X.columns if col not in bool_cols and pd.api.types.is_numeric_dtype(X[col])]
print(f"Colonnes numériques utilisées : {numerical_cols}")

# Vérifier s'il reste des colonnes non traitées
processed_cols = set(bool_cols + numerical_cols)
other_cols = [col for col in X.columns if col not in processed_cols]
if other_cols:
    print(f"⚠️ Attention : Colonnes potentiellement non traitées par le préprocesseur : {other_cols}")
    # Décide quoi faire : les ignorer ('remainder='drop'') ou les passer ('passthrough')
    # Si elles sont catégorielles et non booléennes, il faudrait ajouter un OneHotEncoder etc.

# ✅ 2. Pipeline pour l'encodage booléen (utilisant la fonction définie)
# Utiliser la fonction nommée ici ! validate=False est souvent utile avec pandas
bool_encoder = FunctionTransformer(bool_to_int, validate=False)

# ✅ 3. Préprocesseur : encodage booléen + standardisation numérique
transformers = []
if bool_cols:
    transformers.append(('bool', bool_encoder, bool_cols))
if numerical_cols:
    # S'assurer qu'il n'y a pas de booléens par erreur dans les numériques
    numerical_cols_strict = [c for c in numerical_cols if X[c].dtype != bool]
    if numerical_cols_strict:
         transformers.append(('num', StandardScaler(), numerical_cols_strict))
    else:
        print("Aucune colonne numérique stricte trouvée pour StandardScaler.")
else:
    print("Aucune colonne numérique trouvée pour StandardScaler.")


if not transformers:
     raise ValueError("Aucune transformation définie (ni booléenne, ni numérique). Vérifiez vos types de colonnes.")

# Choisir comment gérer les colonnes restantes ('other_cols')
# 'drop' : les ignorer
# 'passthrough' : les garder telles quelles (peut causer des erreurs si le modèle ne les gère pas)
remainder_strategy = 'drop' if other_cols else 'passthrough'
if other_cols:
    print(f"Les colonnes {other_cols} seront ignorées (remainder='drop').")


preprocessor = ColumnTransformer(
    transformers=transformers,
    remainder=remainder_strategy # Ignorer les colonnes non spécifiées
)

# ✅ 4. Pipeline complet avec RandomForest
pipeline = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('model', RandomForestRegressor(random_state=42))
])

# ✅ 5. Split des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Afficher les types de données AVANT l'entraînement pour vérifier
print("\nTypes de données dans X_train AVANT le pipeline :")
print(X_train.info()) # Devrait montrer des booléens et des numériques/objets bruts

# ✅ 6. Recherche aléatoire de paramètres
param_dist = {
    'model__n_estimators': randint(100, 500),
    'model__max_depth': randint(5, 30),
    'model__min_samples_split': randint(2, 10),
    'model__min_samples_leaf': randint(1, 10),
    # max_features='auto' est obsolète, utiliser 'sqrt' ou None (ou un float)
    'model__max_features': ['sqrt', 'log2', None]
}

random_search = RandomizedSearchCV(pipeline, param_distributions=param_dist,
                                   n_iter=10, # Réduit pour l'exemple, augmente pour une vraie recherche
                                   cv=5,
                                   scoring='neg_mean_squared_error', # Métrique pour l'optimisation
                                   n_jobs=-1,
                                   random_state=42,
                                   verbose=1 # Réduit la verbosité pour l'exemple
                                  )

print("\n🚀 Début de l'entraînement et de la recherche d'hyperparamètres...")
# ✅ 7. Entraînement
random_search.fit(X_train, y_train)
print("✅ Entraînement terminé.")

# ✅ 8. Évaluation
best_model = random_search.best_estimator_ # C'est le *pipeline complet* entraîné
y_pred = best_model.predict(X_test)

print("\n--- Évaluation du Meilleur Modèle ---")
print(f"Meilleurs paramètres trouvés : {random_search.best_params_}")
# Utiliser np.sqrt pour obtenir la RMSE (Root Mean Squared Error), souvent plus interprétable
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"📉 Erreur Quadratique Moyenne Racine (RMSE) : {rmse:.4f}")
print(f"📈 Score R² : {r2_score(y_test, y_pred):.4f}")

# ✅ 9. Sauvegarde du pipeline complet pour le déploiement
model_filename = 'random_forest_length_stay_pipeline.joblib'
try:
    joblib.dump(best_model, model_filename)
    print(f"\n✅ Pipeline complet sauvegardé sous : {model_filename}")
except Exception as e:
    print(f"\n❌ Erreur lors de la sauvegarde du pipeline : {e}")
    print("   Vérifiez les étapes du pipeline et les objets qu'il contient.")


# --- Exemple de chargement et prédiction (Simulation de déploiement) ---
print("\n--- Simulation de Déploiement ---")
# Charger le pipeline sauvegardé (seulement si la sauvegarde a réussi)
if 'model_filename' in locals() and joblib.os.path.exists(model_filename):
    loaded_pipeline = joblib.load(model_filename)
    print("Pipeline chargé.")

    # Créer de nouvelles données brutes (format attendu par le pipeline)
    # Doit avoir les MÊMES colonnes que X_train (sauf la cible et les IDs exclus)
    # Utilise les colonnes de X pour créer l'exemple
    example_data_dict = {}
    for col in X.columns:
        if col in bool_cols:
            example_data_dict[col] = [True, False] # Exemple booléen
        elif col in numerical_cols_strict: # Utilise la liste des numériques traités
             # Prend des valeurs exemples (moyenne, médiane, ou juste des valeurs plausibles)
             example_data_dict[col] = [X[col].mean(), X[col].median()]
        # Les colonnes 'other_cols' sont ignorées si remainder='drop'

    new_data = pd.DataFrame(example_data_dict)

    # Assurer les bons types booléens pour les colonnes booléennes
    for col in bool_cols:
        if col in new_data.columns:
             new_data[col] = new_data[col].astype(bool)

    print("\nNouvelles données brutes (format entrée attendu) :")
    print(new_data)
    #print("\nTypes de données des nouvelles données:")
    #print(new_data.info())


    # Faire des prédictions avec le pipeline chargé
    # Le pipeline gère l'encodage et la standardisation automatiquement !
    new_predictions = loaded_pipeline.predict(new_data)
    print(f"\nPrédictions pour les nouvelles données : {new_predictions}")
else:
    print("Le fichier du pipeline n'a pas été trouvé ou n'a pas pu être sauvegardé.")

Utilisation des données pré-chargées.
Colonne 'AlcoholDrinkers' convertie en booléen.
Colonne 'CovidPos' convertie en booléen.
Colonne 'HadHeartAttack' convertie en booléen.
Colonne 'HadAngina' convertie en booléen.
Colonne 'HadStroke' convertie en booléen.
Colonne 'HadAsthma' convertie en booléen.
Colonne 'HadSkinCancer' convertie en booléen.
Colonne 'HadCOPD' convertie en booléen.
Colonnes booléennes utilisées : ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD']
Colonnes numériques utilisées : ['HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating', 'DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands', 'ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver', 'AdmissionYear', 'AdmissionDayOfWeek', 'facility_cost', 'procedure_cost', 'medication_cost', 'lab_test_cost', 'total_cost', 'gender_M', 'dob_1846-07-21 00:00:00', 

ValueError: columns are missing: {'BMI_30,1800003051758', 'dob_2068-03-04 00:00:00', 'dob_2150-12-07 00:00:00', 'BMI_19,9699993133545', 'AdmissionDate_2185-04-13', 'AdmissionDate_2198-06-28', 'AdmissionDate_2127-07-23', 'AdmissionDate_2201-12-31', 'dob_2046-07-05 00:00:00', 'HeightInMeters_1,79999995231628', 'AdmissionDate_2115-05-12', 'DIAGNOSIS_ALTERED MENTAL STATUS', 'WeightInKilograms_63,5', 'AdmissionDate_2170-12-02', 'AdmissionDate_2105-05-29', 'ETHNICITY_UNABLE TO OBTAIN', 'dob_2111-07-18 00:00:00', 'dob_2061-06-13 00:00:00', 'BMI_21,0599994659424', 'DIAGNOSIS_ACUTE PULMONARY EMBOLISM', 'BMI_21,0300006866455', 'AdmissionDate_2194-07-26', 'BMI_25,0599994659424', 'DIAGNOSIS_HYPONATREMIA;URINARY TRACT INFECTION', 'DIAGNOSIS_PNEUMONIA', 'DIAGNOSIS_ESOPHAGEAL CANCER/SDA', 'BMI_25,1100006103516', 'dob_2114-06-20 00:00:00', 'dob_2098-04-29 00:00:00', 'BMI_23,6299991607666', 'BMI_32,7400016784668', 'WeightInKilograms_78,0199966430664', 'dob_2071-02-11 00:00:00', 'AdmissionDate_2165-12-19', 'AdmissionDate_2166-02-12', 'MARITAL_STATUS_SINGLE', 'DIAGNOSIS_SEIZURE', 'dob_2090-06-05 00:00:00', 'BMI_35,7799987792969', 'AdmissionDate_2152-10-02', 'WeightInKilograms_69,4000015258789', 'BMI_35,8699989318848', 'BMI_30,1299991607666', 'AdmissionDate_2198-06-29', 'ECigaretteUsage_Use them every day', 'WeightInKilograms_91,1699981689453', 'BMI_27,3400001525879', 'HeightInMeters_1,85000002384186', 'dob_2031-05-19 00:00:00', 'AdmissionDate_2127-10-06', 'WeightInKilograms_90,7200012207031', 'ETHNICITY_WHITE', 'dob_2094-03-05 00:00:00', 'AdmissionDate_2147-10-03', 'BMI_34,9599990844727', 'dob_2061-10-23 00:00:00', 'AdmissionDate_2200-06-09', 'DIAGNOSIS_AROMEGLEY;BURKITTS LYMPHOMA', 'HeightInMeters_1,64999997615814', 'AdmissionDate_2135-10-24', 'AdmissionDate_2201-11-16', 'WeightInKilograms_106,589996337891', 'dob_2053-09-08 00:00:00', 'AdmissionDate_2126-08-14', 'AdmissionDate_2144-07-18', 'dob_2016-12-05 00:00:00', 'AdmissionDate_2163-11-21', 'BMI_33,439998626709', 'AdmissionDate_2141-01-25', 'TetanusLast10Tdap_Yes, received tetanus shot but not sure what type', 'BMI_27,8099994659424', 'DIAGNOSIS_TRACHEAL STENOSIS', 'dob_2097-05-16 00:00:00', 'dob_2090-11-16 00:00:00', 'AdmissionDate_2129-11-23', 'DIAGNOSIS_CHRONIC MYELOGENOUS LEUKEMIA;TRANSFUSION REACTION', 'AdmissionDate_2160-12-16', 'dob_2104-02-12 00:00:00', 'dob_2109-04-07 00:00:00', 'dob_1878-05-14 00:00:00', 'AdmissionDate_2163-05-14', 'BMI_31,9300003051758', 'AdmissionDate_2144-10-15', 'SmokerStatus_Never smoked', 'ECigaretteUsage_Use them some days', 'dob_2081-12-26 00:00:00', 'LANGUAGE_SPAN', 'dob_2073-08-13 00:00:00', 'BMI_24,6900005340576', 'DIAGNOSIS_URINARY TRACT INFECTION;PYELONEPHRITIS', 'DIAGNOSIS_GASTROINTESTINAL BLEED', 'AdmissionDate_2180-03-15', 'WeightInKilograms_62,5999984741211', 'AdmissionDate_2117-03-21', 'HeightInMeters_1,75', 'BMI_32,0800018310547', 'DIAGNOSIS_CHOLANGITIS', 'DIAGNOSIS_CELLULITIS', 'WeightInKilograms_129,270004272461', 'BMI_24,5499992370605', 'BMI_26,9400005340576', 'AdmissionDate_2107-03-21', 'AdmissionDate_2119-10-17', 'DIAGNOSIS_PULMONARY EDEMA\\CATH', 'dob_2029-12-07 00:00:00', 'DIAGNOSIS_STEMI;', 'dob_2107-06-27 00:00:00', 'BMI_24,9400005340576', 'DIAGNOSIS_STROKE/TIA', 'HeightInMeters_1,83000004291534', 'DIAGNOSIS_FEVER;URINARY TRACT INFECTION', 'BMI_27,9899997711182', 'AdmissionDate_2112-05-22', 'dob_2069-05-05 00:00:00', 'MARITAL_STATUS_SEPARATED', 'dob_2075-09-21 00:00:00', 'ADMISSION_LOCATION_TRANSFER FROM SKILLED NUR', 'AdmissionDate_2193-10-15', 'AdmissionDate_2129-03-03', 'DIAGNOSIS_LOWER GI BLEED', 'dob_2051-03-24 00:00:00', 'WeightInKilograms_83,9100036621094', 'WeightInKilograms_73,4800033569336', 'dob_1885-03-24 00:00:00', 'AdmissionDate_2201-09-28', 'BMI_29,8600006103516', 'AdmissionDate_2164-10-23', 'DIAGNOSIS_PNEUMONIA;TELEMETRY', 'DIAGNOSIS_SEPSIS;TELEMETRY', 'BMI_32,9300003051758', 'BMI_27,2600002288818', 'BMI_34,7700004577637', 'AdmissionDate_2123-11-24', 'AdmissionDate_2150-08-07', 'AdmissionDate_2132-12-05', 'HadDiabetes_No, pre-diabetes or borderline diabetes', 'DIAGNOSIS_CRITICAL AORTIC STENOSIS/HYPOTENSION', 'BMI_27,7600002288818', 'DIAGNOSIS_SHORTNESS OF BREATH', 'AdmissionDate_2192-04-16', 'AdmissionDate_2161-01-30', 'DIAGNOSIS_UROSEPSIS', 'DIAGNOSIS_HYPOTENSION;TELEMETRY', 'BMI_30,5599994659424', 'AdmissionDate_2152-10-09', 'AdmissionDate_2138-11-09', 'DIAGNOSIS_ABSCESS', 'DIAGNOSIS_CONGESTIVE HEART FAILURE', 'WeightInKilograms_94,8000030517578', 'dob_2046-02-27 00:00:00', 'BMI_26,7000007629395', 'AdmissionDate_2176-07-14', 'dob_2097-01-16 00:00:00', 'AdmissionDate_2171-10-30', 'AdmissionDate_2171-07-12', 'DIAGNOSIS_HUMERAL FRACTURE', 'dob_2072-05-05 00:00:00', 'dob_2050-03-29 00:00:00', 'AdmissionDate_2161-09-14', 'AdmissionDate_2138-04-02', 'HeightInMeters_1,5', 'WeightInKilograms_97,0699996948242', 'BMI_33,8899993896484', 'DIAGNOSIS_CHOLECYSTITIS', 'DIAGNOSIS_HYPOTENSION;UNRESPONSIVE', 'WeightInKilograms_86,1800003051758', 'DIAGNOSIS_S/P MOTORCYCLE ACCIDENT', 'DIAGNOSIS_VOLVULUS', 'AdmissionDate_2195-05-17', 'BMI_23,6900005340576', 'ADMISSION_TYPE_URGENT', 'dob_2058-04-23 00:00:00', 'DIAGNOSIS_UPPER GI BLEED', 'DIAGNOSIS_PNEUMONIA/HYPOGLCEMIA/SYNCOPE', 'DIAGNOSIS_METASTIC MELANOMA;ANEMIA', 'BMI_25,8400001525879', 'BMI_61,0299987792969', 'AdmissionDate_2192-03-26', 'dob_2112-01-20 00:00:00', 'dob_2181-04-19 00:00:00', 'AdmissionDate_2120-08-24', 'DIAGNOSIS_RESPIRATORY DISTRESS', 'DIAGNOSIS_SEPSIS;PNEUMONIA;TELEMETRY', 'dob_2109-07-08 00:00:00', 'dob_2036-03-10 00:00:00', 'AdmissionDate_2199-01-13', 'BMI_29,8400001525879', 'AdmissionDate_2162-01-16', 'DIAGNOSIS_MI CHF', 'dob_2096-02-27 00:00:00', 'WeightInKilograms_87,5400009155273', 'AdmissionDate_2147-02-06', 'WeightInKilograms_74,8399963378906', 'AdmissionDate_2170-12-15', 'DIAGNOSIS_ASTHMA;CHRONIC OBST PULM DISEASE', 'dob_2099-03-17 00:00:00', 'HeightInMeters_1,98000001907349', 'AdmissionDate_2150-08-22', 'dob_2060-02-12 00:00:00', 'BMI_25,5400009155273', 'DIAGNOSIS_SYNCOPE;TELEMETRY', 'dob_2141-03-15 00:00:00', 'AdmissionDate_2107-01-16', 'BMI_25,1499996185303', 'MARITAL_STATUS_MARRIED', 'WeightInKilograms_108,860000610352', 'HeightInMeters_1,57000005245209', 'dob_2038-05-10 00:00:00', 'WeightInKilograms_76,6600036621094', 'AdmissionDate_2117-08-05', 'ETHNICITY_BLACK/AFRICAN AMERICAN', 'AdmissionDate_2145-09-06', 'AdmissionDate_2151-08-13', 'WeightInKilograms_78,4700012207031', 'dob_2108-01-15 00:00:00', 'WeightInKilograms_66,2200012207031', 'DIAGNOSIS_FACIAL NUMBNESS', 'dob_2044-06-27 00:00:00', 'BMI_30,6800003051758', 'AdmissionDate_2144-07-11', 'AdmissionDate_2147-02-23', 'AdmissionDate_2107-01-29', 'AdmissionDate_2112-05-04', 'AdmissionDate_2179-04-17', 'BMI_29,8799991607666', 'BMI_20,9200000762939', 'AdmissionDate_2173-11-27', 'WeightInKilograms_67,129997253418', 'dob_1876-07-14 00:00:00', 'DIAGNOSIS_CHEST PAIN', 'dob_2136-07-29 00:00:00', 'WeightInKilograms_52,1599998474121', 'AdmissionDate_2129-05-01', 'DIAGNOSIS_LUNG CANCER;SHORTNESS OF BREATH', 'AdmissionDate_2107-05-12', 'AdmissionDate_2180-01-14', 'HadDiabetes_Yes', 'dob_2050-02-16 00:00:00', 'BMI_32,9199981689453', 'HeightInMeters_1,54999995231628', 'WeightInKilograms_88,4499969482422', 'BMI_41,1599998474121', 'DIAGNOSIS_HEPATIC ENCEP', 'AdmissionDate_2148-01-13', 'DIAGNOSIS_RIGHT HUMEROUS FRACTURE', 'AdmissionDate_2125-10-04', 'AdmissionDate_2202-09-16', 'AdmissionDate_2145-07-07', 'AdmissionDate_2186-02-09', 'AdmissionDate_2201-05-12', 'WeightInKilograms_97,5199966430664', 'WeightInKilograms_84,8199996948242', 'dob_2057-11-15 00:00:00', 'WeightInKilograms_71,6699981689453', 'HadDiabetes_Yes, but only during pregnancy (female)', 'AdmissionDate_2142-11-26', 'BMI_23,0100002288818', 'HeightInMeters_1,62999999523163', 'dob_2035-04-13 00:00:00', 'dob_1851-09-12 00:00:00', 'AdmissionDate_2104-09-24', 'DIAGNOSIS_CORONARY ARTERY DISEASE\\CORONARY ARTERY BYPASS GRAFT /SDA', 'DIAGNOSIS_BRAIN METASTASES', 'AdmissionDate_2184-08-04', 'DIAGNOSIS_ALCOHOLIC HEPATITIS', 'WeightInKilograms_79,8300018310547', 'DIAGNOSIS_LEFT HIP FRACTURE', 'dob_2136-07-28 00:00:00', 'AdmissionDate_2107-01-04', 'DIAGNOSIS_S/P MOTOR VEHICLE ACCIDENT', 'HeightInMeters_1,73000001907349', 'DIAGNOSIS_ACUTE RESPIRATORY DISTRESS SYNDROME;ACUTE RENAL FAILURE', 'BMI_36,6199989318848', 'WeightInKilograms_72,5699996948242', 'dob_1846-07-21 00:00:00', 'TetanusLast10Tdap_Yes, received Tdap', 'AdmissionDate_2198-10-29', 'DIAGNOSIS_OVERDOSE', 'dob_2051-04-21 00:00:00', 'AdmissionDate_2149-05-26', 'BMI_24,3299999237061', 'BMI_44,9199981689453', 'AdmissionDate_2180-07-19', 'DIAGNOSIS_LIVER FAILURE', 'WeightInKilograms_58,060001373291', 'AdmissionDate_2199-01-31', 'DIAGNOSIS_LEFT HIP OA/SDA', 'dob_2079-01-29 00:00:00', 'BMI_26,4300003051758', 'AdmissionDate_2106-08-30', 'AdmissionDate_2130-08-12', 'dob_2099-09-02 00:00:00', 'BMI_31,3799991607666', 'BMI_28,8400001525879', 'WeightInKilograms_129,729995727539', 'DIAGNOSIS_HEPATITIS B', 'dob_2086-12-16 00:00:00', 'dob_2103-12-05 00:00:00', 'dob_2074-09-29 00:00:00', 'BMI_22,5300006866455', 'dob_2051-07-25 00:00:00', 'LANGUAGE_POLI', 'AdmissionDate_2112-02-04', 'dob_2110-03-25 00:00:00', 'BMI_27,1200008392334', 'DIAGNOSIS_ELEVATED LIVER FUNCTIONS;S/P LIVER TRANSPLANT', 'DIAGNOSIS_INFERIOR MYOCARDIAL INFARCTION\\CATH', 'DIAGNOSIS_ACUTE CHOLECYSTITIS', 'dob_2086-02-04 00:00:00', 'WeightInKilograms_68,0400009155273', 'BMI_31,8700008392334', 'SmokerStatus_Former smoker', 'LANGUAGE_RUSS', 'dob_2051-03-23 00:00:00', 'AdmissionDate_2121-12-07', 'AdmissionDate_2104-10-24', 'BMI_33,2999992370605', 'WeightInKilograms_65,7699966430664', 'AdmissionDate_2144-12-24', 'ADMISSION_TYPE_EMERGENCY', 'AdmissionDate_2190-07-13', 'AdmissionDate_2139-09-22', 'BMI_32,4900016784668', 'AdmissionDate_2202-10-03', 'dob_2046-04-18 00:00:00', 'dob_2061-12-10 00:00:00', 'WeightInKilograms_64,4100036621094', 'AdmissionDate_2160-12-26', 'DIAGNOSIS_ABDOMINAL PAIN', 'HeightInMeters_1,77999997138977', 'BMI_31,0100002288818', 'BMI_30,3400001525879', 'WeightInKilograms_113,400001525879', 'BMI_30,2299995422363', 'dob_2058-08-04 00:00:00', 'dob_2045-10-07 00:00:00', 'DIAGNOSIS_HYPOTENSION, RENAL FAILURE', 'WeightInKilograms_59,8699989318848', 'DIAGNOSIS_FEVER', 'DIAGNOSIS_ACUTE CHOLANGITIS', 'BMI_30,4099998474121', 'DIAGNOSIS_TRACHEAL ESOPHAGEAL FISTULA', 'AdmissionDate_2159-11-17', 'dob_2070-10-11 00:00:00', 'dob_2146-10-23 00:00:00', 'BMI_20,1399993896484', 'dob_2076-05-06 00:00:00', 'BMI_27,8899993896484', 'WeightInKilograms_88', 'WeightInKilograms_54,8800010681152', 'BMI_44,2900009155273', 'WeightInKilograms_122,470001220703', 'dob_2031-08-12 00:00:00', 'dob_2029-07-09 00:00:00', 'DIAGNOSIS_MEDIASTINAL ADENOPATHY', 'HeightInMeters_1,67999994754791', 'WeightInKilograms_92,0800018310547', 'WeightInKilograms_104,330001831055', 'dob_1895-05-17 00:00:00', 'AdmissionDate_2202-05-01', 'DIAGNOSIS_SYNCOPE;TELEMETRY;INTRACRANIAL HEMORRHAGE', 'dob_2112-10-22 00:00:00', 'WeightInKilograms_69,8499984741211', 'ADMISSION_LOCATION_TRANSFER FROM HOSP/EXTRAM', 'AdmissionDate_2167-02-11', 'ETHNICITY_OTHER', 'AdmissionDate_2155-03-08', 'DIAGNOSIS_SEPSIS', 'dob_2061-03-25 00:00:00', 'BMI_28,8899993896484', 'BMI_20,9799995422363', 'BMI_27,2000007629395', 'dob_2101-06-10 00:00:00', 'dob_2078-06-16 00:00:00', 'DIAGNOSIS_BASAL GANGLIN BLEED', 'DIAGNOSIS_PULMONARY EDEMA, MI', 'BMI_52,1300010681152', 'BMI_19,7900009155273', 'DIAGNOSIS_METASTATIC MELANOMA;BRAIN METASTASIS', 'BMI_33,0699996948242', 'AdmissionDate_2117-08-21', 'BMI_20,8099994659424', 'ETHNICITY_UNKNOWN/NOT SPECIFIED', 'dob_2096-07-25 00:00:00', 'BMI_25,3700008392334', 'DIAGNOSIS_RECURRENT LEFT CAROTID STENOSIS,PRE HYDRATION', 'WeightInKilograms_79,379997253418', 'BMI_32,0999984741211', 'AdmissionDate_2138-06-05', 'DIAGNOSIS_SEPSIS; UTI', 'DIAGNOSIS_CEREBROVASCULAR ACCIDENT', 'AdmissionDate_2155-12-16', 'AdmissionDate_2192-11-20', 'BMI_21,7700004577637', 'BMI_31,8899993896484', 'DIAGNOSIS_ACUTE SUBDURAL HEMATOMA', 'AdmissionDate_2128-03-22', 'AdmissionDate_2127-03-19', 'ADMISSION_LOCATION_PHYS REFERRAL/NORMAL DELI', 'AdmissionDate_2151-09-12', 'ECigaretteUsage_Not at all (right now)', 'BMI_37,7299995422363', 'dob_2072-12-03 00:00:00', 'AdmissionDate_2128-11-04', 'AdmissionDate_2146-07-21', 'WeightInKilograms_57,6100006103516', 'BMI_24,4500007629395', 'HeightInMeters_1,51999998092651', 'DIAGNOSIS_BRADYCARDIA', 'DIAGNOSIS_RENAL CANCER/SDA', 'AdmissionDate_2130-10-06', 'ETHNICITY_ASIAN', 'AdmissionDate_2169-05-06', 'dob_2088-05-05 00:00:00', 'dob_2056-01-27 00:00:00', 'WeightInKilograms_76,1999969482422', 'WeightInKilograms_61,2299995422363', 'BMI_21,1299991607666', 'dob_2053-04-13 00:00:00', 'dob_2041-05-16 00:00:00', 'HeightInMeters_1,92999994754791', 'AdmissionDate_2131-07-26', 'AdmissionDate_2200-03-17', 'dob_2061-04-10 00:00:00', 'DIAGNOSIS_SEIZURE;STATUS EPILEPTICUS', 'BMI_46,8699989318848', 'dob_2082-06-27 00:00:00', 'HeightInMeters_1,60000002384186', 'dob_2097-01-07 00:00:00', 'AdmissionDate_2118-10-06', 'DIAGNOSIS_UTI/PYELONEPHRITIS', 'WeightInKilograms_71,2099990844727', 'DIAGNOSIS_UNSTABLE ANGINA', 'dob_2079-08-17 00:00:00', 'AdmissionDate_2188-02-08', 'TetanusLast10Tdap_Yes, received tetanus shot, but not Tdap', 'WeightInKilograms_99,7900009155273', 'DIAGNOSIS_FAILURE TO THRIVE', 'DIAGNOSIS_NON SMALL CELL CANCER;HYPOXIA', 'dob_2127-06-04 00:00:00', 'dob_2097-11-14 00:00:00', 'DIAGNOSIS_VARICEAL BLEED', 'dob_2081-01-03 00:00:00', 'WeightInKilograms_95,25', 'BMI_35,1500015258789', 'AdmissionDate_2185-03-24', 'DIAGNOSIS_S/P FALL', 'dob_2110-04-02 00:00:00', 'AdmissionDate_2201-08-10', 'AdmissionDate_2145-12-01', 'AdmissionDate_2130-02-04', 'DIAGNOSIS_VF ARREST ', 'DIAGNOSIS_HYPOTENSION', 'MARITAL_STATUS_UNKNOWN (DEFAULT)', 'WeightInKilograms_204,119995117188', 'BMI_31,6599998474121', 'WeightInKilograms_49,9000015258789', 'BMI_25,0900001525879', 'SmokerStatus_Current smoker - now smokes some days', 'AdmissionDate_2132-08-05', 'AdmissionDate_2202-02-15', 'dob_2073-11-22 00:00:00', 'AdmissionDate_2189-09-08', 'BMI_28,2800006866455', 'AdmissionDate_2178-05-14', 'AdmissionDate_2186-07-06', 'dob_2055-07-18 00:00:00', 'BMI_29,1499996185303', 'dob_2073-06-05 00:00:00', 'BMI_36,7299995422363', 'WeightInKilograms_120,199996948242', 'BMI_31,3199996948242', 'BMI_27,3899993896484', 'dob_2097-12-16 00:00:00', 'dob_2108-12-20 00:00:00', 'DIAGNOSIS_PLEURAL EFFUSION', 'DIAGNOSIS_HYPOGLYCEMIA', 'AdmissionDate_2180-02-29', 'BMI_29,0499992370605', 'AdmissionDate_2123-08-23', 'DIAGNOSIS_CHEST PAIN/ CATH', 'ADMISSION_LOCATION_EMERGENCY ROOM ADMIT', 'ETHNICITY_HISPANIC OR LATINO', 'DIAGNOSIS_RENAL FAILIURE-SYNCOPE-HYPERKALEMIA', 'BMI_31,75', 'DIAGNOSIS_TACHYPNEA;TELEMETRY', 'DIAGNOSIS_STATUS POST MOTOR VEHICLE ACCIDENT WITH INJURIES', 'dob_2083-09-20 00:00:00', 'BMI_22,6000003814697', 'BMI_23,4400005340576', 'AdmissionDate_2144-02-09', 'BMI_22,6700000762939', 'WeightInKilograms_81,6500015258789', 'gender_M', 'AdmissionDate_2112-05-28', 'BMI_24,3700008392334', 'DIAGNOSIS_SUBDURAL HEMATOMA/S/P FALL', 'HeightInMeters_1,87999999523163', 'DIAGNOSIS_HEADACHE', 'ETHNICITY_HISPANIC/LATINO - PUERTO RICAN', 'AdmissionDate_2175-10-02', 'HeightInMeters_1,70000004768372', 'dob_1880-02-29 00:00:00', 'WeightInKilograms_54,4300003051758', 'MARITAL_STATUS_WIDOWED', 'AdmissionDate_2200-10-29', 'WeightInKilograms_115,669998168945', 'DIAGNOSIS_ESOPHAGEAL CA/SDA', 'LANGUAGE_MAND', 'AdmissionDate_2110-12-29', 'dob_2063-07-05 00:00:00', 'HeightInMeters_1,9099999666214', 'DIAGNOSIS_ASTHMA/COPD FLARE', 'WeightInKilograms_58,9700012207031', 'WeightInKilograms_83,4599990844727', 'BMI_27,0699996948242', 'AdmissionDate_2124-01-12', 'dob_2038-09-03 00:00:00', 'DIAGNOSIS_PERICARDIAL EFFUSION', 'AdmissionDate_2160-05-04'}

In [20]:
loaded_model = joblib.load('best_rf_model.pkl')



In [68]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, FunctionTransformer, OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib
import warnings
from datetime import datetime

# Ignorer les avertissements futurs pour la propreté de la sortie
warnings.simplefilter(action='ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None # Désactiver avertissement pour copie

# --- 1. Chargement des Données Brutes ---
# REMPLACE CECI par le chemin correct vers ton fichier
file_path = 'datasejour.csv'
try:
    data = pd.read_csv(file_path)
    print(f"✅ Données chargées depuis '{file_path}'. Shape: {data.shape}")
except FileNotFoundError:
    print(f"❌ Erreur: Le fichier '{file_path}' n'a pas été trouvé.")
    # Tu pourrais ajouter exit() ici ou un exemple de données pour continuer
    # Création de données exemples très basiques si fichier non trouvé
    print("Création de données exemples...")
    data = pd.DataFrame({
        'dob': ['1965-03-10', '1980-11-22', '1950-01-15', None, '1972-07-01'],
        'AdmissionDate': ['2023-04-15', '2023-05-01', '2023-05-10', '2023-05-12', '2023-05-18'],
        'AlcoholDrinkers': [True, False, True, False, True],
        'HadHeartAttack': [False, False, True, False, False],
        'gender': ['M', 'F', 'F', 'M', 'M'],
        'ETHNICITY': ['WHITE', 'ASIAN', 'WHITE', 'BLACK/AFRICAN AMERICAN', 'UNKNOWN/NOT SPECIFIED'],
        'total_cost': [15000, 25000, 50000, 10000, 30000],
        'HeightInMeters': [1.75, 1.62, 1.58, 1.80, 1.70],
        'WeightInKilograms': [80.5, 65.0, 75.3, 90.1, 70.0],
        'length_of_stay': [5, 10, 15, 3, 8] # Cible
    })
    # Ajout d'autres colonnes bool et cat pour correspondre aux listes plus bas
    data['CovidPos'] = [False]*5
    data['HadAngina'] = [False]*5
    data['HadStroke'] = [False]*5
    data['HadAsthma'] = [False]*5
    data['HadSkinCancer'] = [False]*5
    data['HadCOPD'] = [False]*5
    data['MARITAL_STATUS'] = ['MARRIED', 'SINGLE', 'WIDOWED', 'SINGLE', 'MARRIED']
    data['DIAGNOSIS'] = ['PNEUMONIA', 'CHF', 'STROKE', 'SEPSIS', 'FRACTURE']
    data['ADMISSION_LOCATION'] = ['EMERGENCY ROOM ADMIT', 'PHYS REFERRAL/NORMAL DELI', 'EMERGENCY ROOM ADMIT', 'TRANSFER FROM HOSP/EXTRAM', 'EMERGENCY ROOM ADMIT']
    data['ADMISSION_TYPE'] = ['EMERGENCY', 'URGENT', 'EMERGENCY', 'EMERGENCY', 'URGENT']
    data['LANGUAGE'] = ['ENGLISH', 'SPANISH', 'ENGLISH', 'ENGLISH', 'OTHER']
    data['SmokerStatus'] = ['Former smoker', 'Never smoked', 'Current smoker - now smokes some days', 'Never smoked', 'Former smoker']
    data['ECigaretteUsage'] = ['Not at all (right now)']*5
    data['HadDiabetes'] = ['No, pre-diabetes or borderline diabetes', 'Yes', 'Yes', 'No, pre-diabetes or borderline diabetes', 'No, pre-diabetes or borderline diabetes']
    data['TetanusLast10Tdap'] = ['Yes, received Tdap', 'Yes, received tetanus shot but not sure what type', 'Yes, received Tdap', 'Yes, received tetanus shot, but not Tdap', 'Yes, received Tdap']


# --- 2. Feature Engineering (Exemple : Dates) ---
# ASSURE-TOI QUE LES NOMS 'dob' ET 'AdmissionDate' SONT CORRECTS
date_cols = ['dob', 'AdmissionDate']
for col in date_cols:
    if col in data.columns:
        # Convertir en datetime, ignorer les erreurs pour l'instant (seront traitées par SimpleImputer)
        data[col] = pd.to_datetime(data[col], errors='coerce')

# Créer 'Age' et autres features de date si les colonnes existent et sont des datetime
if 'AdmissionDate' in data.columns and data['AdmissionDate'].dtype.kind == 'M':
    data['AdmissionYear'] = data['AdmissionDate'].dt.year
    data['AdmissionMonth'] = data['AdmissionDate'].dt.month
    data['AdmissionDayOfWeek'] = data['AdmissionDate'].dt.dayofweek # Lundi=0, Dimanche=6

    if 'dob' in data.columns and data['dob'].dtype.kind == 'M':
        # Calculer l'âge (peut générer des NaN si dob ou AdmissionDate manquant/invalide)
        data['Age'] = data['AdmissionYear'] - data['dob'].dt.year
        # Gérer les cas où la date d'admission est avant la date de naissance dans la même année
        data.loc[data['AdmissionDate'] < data['dob'], 'Age'] -= 1
        print("✅ Colonne 'Age' créée.")
    else:
         print("⚠️ Colonne 'dob' non trouvée ou non convertible en date. 'Age' non créée.")
    print("✅ Features 'AdmissionYear', 'AdmissionMonth', 'AdmissionDayOfWeek' créées.")

else:
     print("⚠️ Colonne 'AdmissionDate' non trouvée ou non convertible en date. Features de date non créées.")

# --- 3. Identification des Colonnes par Type (APRÈS Feature Engineering) ---

# Colonne Cible
target_col = 'length_of_stay'
if target_col not in data.columns:
    raise ValueError(f"La colonne cible '{target_col}' n'est pas dans le DataFrame.")

# Colonnes ID à supprimer (Adapte si nécessaire)
id_cols_to_drop = ['subject_id', 'HADM_ID']
id_cols_to_drop = [col for col in id_cols_to_drop if col in data.columns]

# Colonnes booléennes originales (vérifie les noms !)
# Ces colonnes doivent contenir True/False ou 1/0 ou 'Yes'/'No' etc. dans le CSV brut
bool_cols_original = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
                      'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD',
                      'HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', # Ces dernières étaient numériques avant ? Si elles sont Oui/Non, elles sont booléennes
                      'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating',
                      'DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands',
                      'ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver'] # Idem
bool_cols = [col for col in bool_cols_original if col in data.columns]

# Colonnes Catégorielles (vérifie les noms !)
categorical_cols_original = ['gender', 'ETHNICITY', 'MARITAL_STATUS', 'DIAGNOSIS',
                             'ADMISSION_LOCATION', 'ADMISSION_TYPE', 'LANGUAGE',
                             'SmokerStatus', 'ECigaretteUsage', 'HadDiabetes',
                             'TetanusLast10Tdap']
categorical_cols = [col for col in categorical_cols_original if col in data.columns]

# Colonnes Numériques
# Inclut les features créées (Age, etc.) et les features numériques originales
# Exclut la cible, les IDs, les booléennes et les catégorielles
potential_num_cols = data.drop(columns=[target_col] + id_cols_to_drop + date_cols, errors='ignore').columns
numerical_cols = [col for col in potential_num_cols
                  if col not in bool_cols and col not in categorical_cols and pd.api.types.is_numeric_dtype(data[col])]

print(f"\n--- Identification des Colonnes ---")
print(f"Cible: {target_col}")
print(f"IDs à dropper: {id_cols_to_drop}")
print(f"Booléennes traitées: {bool_cols}")
print(f"Catégorielles traitées: {categorical_cols}")
print(f"Numériques traitées: {numerical_cols}")

# Vérifier si toutes les colonnes (sauf cible, IDs, dates originales) sont prises en compte
all_features = data.drop(columns=[target_col] + id_cols_to_drop + date_cols, errors='ignore').columns
processed_features = set(bool_cols + categorical_cols + numerical_cols)
unprocessed_cols = [col for col in all_features if col not in processed_features]
if unprocessed_cols:
    print(f"⚠️ Attention : Colonnes non traitées (seront ignorées car remainder='drop'): {unprocessed_cols}")

# --- 4. Définition de la Fonction d'Encodage Booléen ---
def flexible_bool_to_int(X_bool):
    """
    Convertit diverses représentations de booléens (True/False, 1/0, Yes/No)
    en entiers (1/0) et gère les NaN (en les traitant comme 0/False).
    """
    if isinstance(X_bool, pd.Series):
        # Créer une copie pour éviter SettingWithCopyWarning
        X_series = X_bool.copy()
        # Convertir explicitement les chaînes courantes en booléens
        map_dict = {
            'yes': True, 'true': True, '1': True, 1: True, True: True,
            'no': False, 'false': False, '0': False, 0: False, False: False,
            # Gérer les variantes de casse si nécessaire
            'Yes': True, 'True': True,
            'No': False, 'False': False
        }
        # Appliquer le mapping, garder les booléens existants, mettre NaN pour le reste
        mapped = X_series.map(map_dict)
        # Remplir les NaN et les valeurs non mappées par False, puis convertir en int
        return mapped.fillna(False).astype(int)

    elif isinstance(X_bool, pd.DataFrame):
        # Appliquer la fonction à chaque colonne
        return X_bool.apply(flexible_bool_to_int, axis=0)
    else:
        # Tenter une conversion directe pour les autres types (ex: numpy array)
        try:
            return pd.DataFrame(X_bool).fillna(False).astype(int) # Utiliser pandas pour fillna
        except: # Si tout échoue, retourner tel quel ou lever une erreur
             print(f"Warning: Type non géré {type(X_bool)} dans flexible_bool_to_int")
             return X_bool


# --- 5. Séparation Features / Cible et Train/Test Split ---
X = data.drop(columns=[target_col] + id_cols_to_drop + date_cols, errors='ignore')
# Assurer que seules les colonnes à traiter sont gardées (si des unprocessed existent)
X = X[list(processed_features)] # Garde seulement bool, cat, num
y = data[target_col]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"\n--- Dimensions des Données ---")
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_test shape: {y_test.shape}")

# --- 6. Création des Pipelines de Prétraitement ---

# Pipeline pour les booléens (imputation implicite dans la fonction)
bool_pipeline = Pipeline(steps=[
    ('to_int', FunctionTransformer(flexible_bool_to_int, validate=False))
    # Pas besoin d'imputer ici car la fonction gère NaN
])

# Pipeline pour les numériques (imputation + mise à l'échelle)
numerical_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')), # Impute les NaN avant scaling
    ('scaler', StandardScaler())
])

# Pipeline pour les catégorielles (imputation + One-Hot Encoding)
categorical_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')), # Ou 'constant', fill_value='Missing'
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False)) # Ignore les catégories inconnues lors de la prédiction
])

# --- 7. Création du Préprocesseur Global (ColumnTransformer) ---
# Crée le préprocesseur seulement avec les types de colonnes qui existent
transformers_list = []
if bool_cols:
    transformers_list.append(('bool', bool_pipeline, bool_cols))
    print("Préprocesseur: Pipeline booléen ajouté.")
if numerical_cols:
    transformers_list.append(('num', numerical_pipeline, numerical_cols))
    print("Préprocesseur: Pipeline numérique ajouté.")
if categorical_cols:
    transformers_list.append(('cat', categorical_pipeline, categorical_cols))
    print("Préprocesseur: Pipeline catégoriel ajouté.")

if not transformers_list:
    raise ValueError("Aucun type de colonne (bool, num, cat) n'a été trouvé pour le prétraitement.")

preprocessor = ColumnTransformer(
    transformers=transformers_list,
    remainder='drop' # Important: Ignorer les colonnes non spécifiées
)

# --- 8. Création du Pipeline Complet (Préprocesseur + Modèle) ---
full_pipeline = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('model', RandomForestRegressor(random_state=42, n_jobs=-1)) # n_jobs=-1 pour utiliser tous les CPU
])

print("\n--- Structure du Pipeline Complet ---")
print(full_pipeline)

# --- 9. Recherche d'Hyperparamètres (RandomizedSearchCV) ---
param_dist = {
    'model__n_estimators': randint(100, 600),       # Nombre d'arbres
    'model__max_depth': randint(5, 40),             # Profondeur max de chaque arbre
    'model__min_samples_split': randint(2, 15),     # Nb min d'échantillons pour splitter un noeud
    'model__min_samples_leaf': randint(1, 15),      # Nb min d'échantillons dans une feuille
    'model__max_features': ['sqrt', 'log2', 0.6, 0.8, None] # % de features à considérer (auto est obsolète) / None = toutes
}

# Réduire n_iter pour un test rapide, augmenter (ex: 50, 100) pour une recherche sérieuse
n_iterations = 20 # Nombre d'itérations de la recherche aléatoire

random_search = RandomizedSearchCV(
    full_pipeline,
    param_distributions=param_dist,
    n_iter=n_iterations,
    cv=5, # 5-fold cross-validation
    scoring='neg_root_mean_squared_error', # Optimiser pour minimiser la RMSE (négative car Scikit-learn maximise)
    n_jobs=-1, # Utiliser tous les CPU disponibles
    random_state=42,
    verbose=1 # Afficher la progression
)

print(f"\n🚀 Début de RandomizedSearchCV ({n_iterations} itérations)...")
# Entraîner sur les données d'entraînement BRUTES (le pipeline gère le préproc)
random_search.fit(X_train, y_train)
print("✅ RandomizedSearchCV terminé.")

# --- 10. Évaluation du Meilleur Modèle ---
best_pipeline = random_search.best_estimator_
print(f"\n🏆 Meilleurs paramètres trouvés : {random_search.best_params_}")
print(f"Meilleur score CV (Negative RMSE) : {random_search.best_score_:.4f}")

# Faire des prédictions sur l'ensemble de test BRUT
y_pred = best_pipeline.predict(X_test)

# Calculer les métriques
final_rmse = np.sqrt(mean_squared_error(y_test, y_pred))
final_r2 = r2_score(y_test, y_pred)

print("\n--- Évaluation Finale sur l'Ensemble de Test ---")
print(f"📉 Erreur Quadratique Moyenne Racine (RMSE) : {final_rmse:.4f}")
print(f"📈 Score R² : {final_r2:.4f}")

# --- 11. Sauvegarde du Pipeline Complet Entraîné ---
pipeline_filename = 'sejour_prediction_pipeline_v1.joblib'
try:
    joblib.dump(best_pipeline, pipeline_filename)
    print(f"\n✅ Pipeline complet sauvegardé sous : '{pipeline_filename}'")
except Exception as e:
     print(f"\n❌ Erreur lors de la sauvegarde du pipeline : {e}")


# --- 12. Simulation de Déploiement (Chargement et Prédiction sur Données Brutes) ---
print("\n--- Simulation de Déploiement ---")
# S'assurer que le fichier existe avant de charger
if 'pipeline_filename' in locals() and joblib.os.path.exists(pipeline_filename):
    loaded_pipeline = joblib.load(pipeline_filename)
    print("Pipeline chargé avec succès.")

    # Créer de nouvelles données brutes (doivent avoir les MÊMES colonnes que X_train)
    # Utilisons quelques lignes de X_test comme exemple facile
    if len(X_test) >= 2:
        new_data_raw = X_test.iloc[0:2].copy() # Utilise les données brutes de X_test
        print("\nExemple de nouvelles données brutes (2 premières lignes de X_test):")
        # Afficher avec plus de colonnes si possible
        pd.set_option('display.max_columns', None)
        print(new_data_raw)
        pd.reset_option('display.max_columns')
        print(f"Shape des nouvelles données: {new_data_raw.shape}")

        # Faire des prédictions avec le pipeline chargé
        # Le pipeline gère TOUT : imputation, encodage bool, OHE, scaling
        try:
            new_predictions = loaded_pipeline.predict(new_data_raw)
            print(f"\n📊 Prédictions pour les nouvelles données : {new_predictions}")

            # Afficher les prédictions à côté des vraies valeurs pour comparaison
            comparison = pd.DataFrame({'Vraie Valeur': y_test.iloc[0:2], 'Prédiction': new_predictions})
            print("\nComparaison Vraie Valeur vs Prédiction:")
            print(comparison)

        except Exception as e:
            print(f"\n❌ Erreur lors de la prédiction sur les nouvelles données : {e}")
            # Afficher les colonnes attendues vs fournies peut aider au débogage
            try:
                expected_cols = loaded_pipeline.named_steps['preprocessing']._feature_names_in
                print(f"Colonnes attendues par le préprocesseur: {expected_cols}")
            except AttributeError:
                print("Impossible de récupérer les noms de colonnes attendues du préprocesseur.")
            print(f"Colonnes fournies: {new_data_raw.columns.tolist()}")

    else:
        print("X_test contient moins de 2 lignes, impossible de créer un exemple de données.")

else:
    print(f"Le fichier pipeline '{pipeline_filename}' n'a pas été trouvé ou n'a pas pu être sauvegardé.")

print("\n🏁 Script terminé.")

✅ Données chargées depuis 'datasejour.csv'. Shape: (129, 47)
✅ Colonne 'Age' créée.
✅ Features 'AdmissionYear', 'AdmissionMonth', 'AdmissionDayOfWeek' créées.

--- Identification des Colonnes ---
Cible: length_of_stay
IDs à dropper: ['subject_id', 'HADM_ID']
Booléennes traitées: ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD', 'HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating', 'DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands', 'ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver']
Catégorielles traitées: ['gender', 'ETHNICITY', 'MARITAL_STATUS', 'DIAGNOSIS', 'ADMISSION_LOCATION', 'ADMISSION_TYPE', 'LANGUAGE', 'SmokerStatus', 'ECigaretteUsage', 'HadDiabetes', 'TetanusLast10Tdap']
Numériques traitées: ['AdmissionYear', 'AdmissionDayOfWeek', 'facility_cost', 'procedure_cost', 'medication_cost', 'lab_test_cost', 

In [69]:
import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split # Nécessaire si on recharge X_test/y_test
import warnings
from datetime import datetime # Si des dates sont utilisées pour l'âge etc.

# Ignorer les avertissements pour la propreté
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=UserWarning, module='sklearn')
pd.options.mode.chained_assignment = None

# --- 1. Configuration ---
pipeline_filename = 'sejour_prediction_pipeline_v1.joblib'
original_data_file = 'datasejour.csv' # Chemin vers tes données BRUTES originales
target_column = 'length_of_stay'
id_cols_to_drop_original = ['subject_id', 'HADM_ID'] # IDs à ignorer
date_cols_original = ['dob', 'AdmissionDate'] # Dates utilisées pour créer des features

# --- 2. Charger le Pipeline Entraîné ---
try:
    loaded_pipeline = joblib.load(pipeline_filename)
    print(f"✅ Pipeline chargé depuis '{pipeline_filename}'.")
except FileNotFoundError:
    print(f"❌ Erreur: Le fichier pipeline '{pipeline_filename}' n'a pas été trouvé.")
    print("Assure-toi d'avoir exécuté le script d'entraînement et de sauvegarde d'abord.")
    exit()
except Exception as e:
    print(f"❌ Erreur lors du chargement du pipeline: {e}")
    exit()

# --- 3. Obtenir les Noms des Features Attendues par le Pipeline (avant pré-traitement) ---
# Normalement, ces features sont les colonnes de X utilisées lors de l'entraînement
# Essayons de les récupérer du pipeline si possible, sinon on devra les lister manuellement
# (Note: _feature_names_in est disponible dans les versions récentes de Scikit-learn)
try:
    # Accéder au ColumnTransformer dans le pipeline
    preprocessor = loaded_pipeline.named_steps['preprocessing']
    # Récupérer les noms de features d'entrée attendus par le préprocesseur
    expected_feature_names = preprocessor.feature_names_in_
    print(f"\nLe modèle attend {len(expected_feature_names)} features en entrée.")
    # print("Features attendues:", expected_feature_names) # Décommente pour voir la liste complète
except AttributeError:
    print("\n⚠️ Impossible de récupérer automatiquement les noms de features attendus.")
    print("   Tu devras t'assurer que les features demandées ci-dessous correspondent")
    print("   exactement à celles utilisées lors de l'entraînement (colonnes de X_train).")
    # !! SOLUTION DE REPLI : LISTER MANUELLEMENT LES FEATURES ICI !!
    # expected_feature_names = ['Age', 'total_cost', 'gender', 'ETHNICITY', ... ] # Liste complète
    print("   LE SCRIPT VA CONTINUER, MAIS VÉRIFIE BIEN LES FEATURES DEMANDÉES !")
    # Pour l'exemple, on va essayer de reconstruire X à partir des données brutes
    # et prendre ses colonnes comme référence (moins fiable si le script d'entraînement a changé)
    try:
        temp_data = pd.read_csv(original_data_file)
        # Recréer les features de date pour avoir Age etc si nécessaire
        for col in date_cols_original:
             if col in temp_data.columns:
                 temp_data[col] = pd.to_datetime(temp_data[col], errors='coerce')
        if 'AdmissionDate' in temp_data.columns and temp_data['AdmissionDate'].dtype.kind == 'M':
            temp_data['AdmissionYear'] = temp_data['AdmissionDate'].dt.year
            temp_data['AdmissionMonth'] = temp_data['AdmissionDate'].dt.month
            temp_data['AdmissionDayOfWeek'] = temp_data['AdmissionDate'].dt.dayofweek
            if 'dob' in temp_data.columns and temp_data['dob'].dtype.kind == 'M':
                 temp_data['Age'] = temp_data['AdmissionYear'] - temp_data['dob'].dt.year
                 temp_data.loc[temp_data['AdmissionDate'] < temp_data['dob'], 'Age'] -= 1

        temp_X = temp_data.drop(columns=[target_column] + id_cols_to_drop_original + date_cols_original, errors='ignore')
        # Tenter d'identifier les colonnes comme dans le script d'entraînement pour filtrer X
        bool_cols = [col for col in ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina','HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD','HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating','DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands','ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver'] if col in temp_X.columns]
        categorical_cols = [col for col in ['gender', 'ETHNICITY', 'MARITAL_STATUS', 'DIAGNOSIS','ADMISSION_LOCATION', 'ADMISSION_TYPE', 'LANGUAGE','SmokerStatus', 'ECigaretteUsage', 'HadDiabetes','TetanusLast10Tdap'] if col in temp_X.columns]
        potential_num_cols = temp_X.columns
        numerical_cols = [col for col in potential_num_cols if col not in bool_cols and col not in categorical_cols and pd.api.types.is_numeric_dtype(temp_X[col])]
        processed_features_list = bool_cols + categorical_cols + numerical_cols
        expected_feature_names = [col for col in temp_X.columns if col in processed_features_list] # Garde l'ordre original
        if not expected_feature_names:
             print("❌ Impossible de déterminer les features attendues. Arrêt.")
             exit()
        print(f"   Utilisation des features déterminées à partir du fichier brut: {len(expected_feature_names)} features.")

    except Exception as e:
         print(f"❌ Erreur lors de la tentative de détermination des features: {e}")
         exit()


# --- 4. Saisie Manuelle des Valeurs des Features ---
print("\n--- Veuillez saisir les valeurs pour le nouveau patient ---")
input_data = {}
for feature in expected_feature_names:
    while True: # Boucle jusqu'à obtenir une entrée valide
        try:
            # Déterminer le type de la colonne (approximatif basé sur le nom/catégorie connue)
            # Idéalement, on aurait les types exacts sauvegardés
            prompt_text = f"Entrez la valeur pour '{feature}'"

            # Identifier le type probable pour adapter le prompt/conversion
            col_type = "unknown"
            # Charger les données originales juste pour vérifier le type si nécessaire (coûteux)
            # temp_col_type = X_train[feature].dtype # Nécessiterait X_train ici

            # Simplification : demander comme texte, convertir si possible en nombre
            # Pour les booléens, demander 'True'/'False' ou '1'/'0' ou 'Yes'/'No'
            # Pour les catégorielles, juste le texte
            # Pour les numériques, un nombre

            # On pourrait essayer d'inférer le type mais c'est risqué.
            # Le plus sûr est de demander en texte et laisser le pipeline gérer
            # via flexible_bool_to_int, OneHotEncoder (qui prend texte), et StandardScaler (qui échouera si texte non convertible)
            # => MAIS StandardScaler a besoin de nombres ! Il faut convertir AVANT.

            # Tentative d'inférer le type pour guider l'utilisateur
            is_numeric = False
            is_boolean = False # Pour notre fonction custom
            is_categorical = False

            # Utilisons les listes définies dans le script d'entraînement (si on peut les reconstruire)
            if 'bool_cols' in locals() and feature in bool_cols:
                 is_boolean = True
                 prompt_text += " (ex: True/False, Yes/No, 1/0): "
            elif 'categorical_cols' in locals() and feature in categorical_cols:
                 is_categorical = True
                 prompt_text += " (texte, ex: WHITE, MARRIED, EMERGENCY): "
            elif 'numerical_cols' in locals() and feature in numerical_cols:
                 is_numeric = True
                 prompt_text += " (nombre): "
            else:
                 # Si on n'a pas pu déterminer, on demande juste la valeur
                 prompt_text += ": "


            value_str = input(prompt_text).strip()

            # Gérer les valeurs vides (pourrait être traité comme NaN)
            if not value_str:
                 input_data[feature] = np.nan # Le pipeline doit gérer les NaN via Imputer
                 print(f"   -> Valeur manquante (NaN) enregistrée pour {feature}.")
                 break # Sortir de la boucle while pour cette feature

            # Conversion de type basée sur l'inférence
            if is_numeric:
                try:
                    input_data[feature] = float(value_str.replace(',', '.')) # Gérer virgule décimale
                except ValueError:
                    print("❌ Erreur: Veuillez entrer un nombre valide.")
                    continue # Redemander la même feature
            elif is_boolean:
                 # Notre fonction flexible_bool_to_int gère diverses entrées texte/nombre
                 # On peut donc stocker la chaîne ou tenter une conversion basique
                 input_data[feature] = value_str # Laisser flexible_bool_to_int faire le travail
            elif is_categorical:
                 input_data[feature] = value_str # Garder comme texte
            else: # Cas "unknown"
                 # Essayer de convertir en nombre, sinon garder comme texte
                 try:
                      input_data[feature] = float(value_str.replace(',', '.'))
                 except ValueError:
                      input_data[feature] = value_str

            break # Sortir de la boucle while si l'entrée est valide pour le type

        except Exception as e:
            print(f"❌ Une erreur inattendue est survenue lors de la saisie: {e}")
            continue # Redemander

# Créer un DataFrame pandas avec les données saisies (1 ligne)
# S'assurer que l'ordre des colonnes est le même que celui attendu
new_patient_df = pd.DataFrame([input_data], columns=expected_feature_names)

print("\n--- Données saisies pour la prédiction ---")
pd.set_option('display.max_columns', None) # Afficher toutes les colonnes
print(new_patient_df)
pd.reset_option('display.max_columns')

# Vérifier les types de données (optionnel mais utile pour débogage)
# print("\nTypes de données dans le DataFrame avant prédiction:")
# print(new_patient_df.info())

# --- 5. Faire la Prédiction ---
try:
    prediction = loaded_pipeline.predict(new_patient_df)
    predicted_stay = prediction[0] # Obtenir la valeur unique prédite
    print("\n--- Prédiction ---")
    print(f"📊 Durée de séjour prédite : {predicted_stay:.2f} jours")

except ValueError as ve:
     print(f"\n❌ Erreur de valeur lors de la prédiction: {ve}")
     print("   Cela peut arriver si une catégorie textuelle saisie n'était pas")
     print("   présente dans les données d'entraînement et que handle_unknown='error'")
     print("   était utilisé dans OneHotEncoder (vérifiez qu'il est bien sur 'ignore').")
     print("   Ou si une valeur non numérique a été passée à StandardScaler.")
except Exception as e:
    print(f"\n❌ Erreur lors de la prédiction : {e}")
    # Afficher les détails peut aider
    # print("\nDétails des données passées au pipeline:")
    # print(new_patient_df.iloc[0].to_dict())


# --- 6. Afficher les Métriques Globales du Modèle (calculées sur le Test Set) ---
print("\n--- Performance Globale du Modèle (sur données test originales) ---")
# Pour cela, il nous faut X_test et y_test du split original
try:
    # Recharger les données brutes et refaire le split avec le même random_state
    print("Recalcul des métriques sur l'ensemble de test original...")
    data_orig = pd.read_csv(original_data_file)

    # --- Réappliquer le Feature Engineering Minimal (Age etc.) ---
    for col in date_cols_original:
        if col in data_orig.columns:
            data_orig[col] = pd.to_datetime(data_orig[col], errors='coerce')
    if 'AdmissionDate' in data_orig.columns and data_orig['AdmissionDate'].dtype.kind == 'M':
        data_orig['AdmissionYear'] = data_orig['AdmissionDate'].dt.year
        data_orig['AdmissionMonth'] = data_orig['AdmissionDate'].dt.month
        data_orig['AdmissionDayOfWeek'] = data_orig['AdmissionDate'].dt.dayofweek
        if 'dob' in data_orig.columns and data_orig['dob'].dtype.kind == 'M':
            data_orig['Age'] = data_orig['AdmissionYear'] - data_orig['dob'].dt.year
            data_orig.loc[data_orig['AdmissionDate'] < data_orig['dob'], 'Age'] -= 1

    # --- Séparer X et y ---
    X_orig = data_orig.drop(columns=[target_column] + id_cols_to_drop_original + date_cols_original, errors='ignore')
    # Garder seulement les colonnes qui étaient effectivement utilisées
    X_orig = X_orig[expected_feature_names]
    y_orig = data_orig[target_column]

    # --- Refaire le même split ---
    _, X_test_reloaded, _, y_test_reloaded = train_test_split(
        X_orig, y_orig, test_size=0.2, random_state=42
    )

    # --- Faire les prédictions sur cet ensemble de test ---
    y_pred_test = loaded_pipeline.predict(X_test_reloaded)

    # --- Calculer et afficher les métriques ---
    mse_test = mean_squared_error(y_test_reloaded, y_pred_test)
    r2_test = r2_score(y_test_reloaded, y_pred_test)
    rmse_test = np.sqrt(mse_test)

    print(f"📉 Erreur Quadratique Moyenne (MSE) : {mse_test:.4f}")
    print(f"   -> Erreur Quadratique Moyenne Racine (RMSE) : {rmse_test:.4f} jours")
    print(f"📈 Score R² (Coefficient de détermination) : {r2_test:.4f}")

    # Interprétation simple du R² comme "confiance"
    print(f"   -> Le modèle explique environ {r2_test*100:.1f}% de la variance de la durée de séjour dans les données de test.")
    print("   (Note: R² mesure la qualité de l'ajustement global, pas la certitude d'une prédiction unique)")

except FileNotFoundError:
    print("   Impossible de recalculer les métriques : fichier de données original non trouvé.")
except Exception as e:
    print(f"   Erreur lors du recalcul des métriques sur le test set: {e}")


print("\n🏁 Script de prédiction terminé.")

✅ Pipeline chargé depuis 'sejour_prediction_pipeline_v1.joblib'.

Le modèle attend 41 features en entrée.

--- Veuillez saisir les valeurs pour le nouveau patient ---
Entrez la valeur pour 'DifficultyConcentrating' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadStroke' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'BlindOrVisionDifficulty' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadSkinCancer' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'procedure_cost' (nombre): 3000.0
Entrez la valeur pour 'HIVTesting' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadAngina' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'ADMISSION_TYPE' (texte, ex: WHITE, MARRIED, EMERGENCY): EMERGENCY
Entrez la valeur pour 'MARITAL_STATUS' (texte, ex: WHITE, MARRIED, EMERGENCY): DIVORCED
Entrez la valeur pour 'AdmissionDayOfWeek' (nombre): 2
Entrez la valeur pour 'facility_cost' (nombre): 8000.0


KeyboardInterrupt: Interrupted by user

In [72]:
import pandas as pd
data = pd.read_csv("ml/datasejour.csv")
print("Noms des features dans le DataFrame 'datesejour':")
print(datesejour.columns.tolist())
 

FileNotFoundError: [Errno 2] No such file or directory: 'ml/datasejour.csv'

In [73]:
import pandas as pd
import warnings

# Ignorer certains avertissements pour la propreté (optionnel)
warnings.simplefilter(action='ignore', category=FutureWarning)

# --- Configuration fournie ---
# pipeline_filename = 'sejour_prediction_pipeline_v1.joblib' # Non utilisé ici
original_data_file = 'datasejour.csv' # Chemin vers tes données BRUTES originales
# target_column = 'length_of_stay' # Non utilisé ici

print(f"Tentative de lecture du fichier : '{original_data_file}'")

# --- Chargement des données et affichage des colonnes ---
try:
    # Lire le fichier CSV dans un DataFrame pandas
    # On utilise 'data' comme nom générique pour le DataFrame chargé
    data = pd.read_csv(original_data_file)
    print(f"Fichier '{original_data_file}' chargé avec succès.")
    print(f"Dimensions des données (lignes, colonnes) : {data.shape}")


    # Obtenir la liste des noms de colonnes (features + potentiellement la cible)
    column_names = data.columns.tolist()

    # Afficher la liste des colonnes
    print("\n--- Colonnes (Features) présentes dans le fichier ---")
    print(f"Nombre total de colonnes : {len(column_names)}")

    # Afficher la liste complète :
    print(column_names)

    # Optionnel : Afficher chaque colonne sur une nouvelle ligne pour lisibilité
    # print("\nListe détaillée des colonnes :")
    # for i, col_name in enumerate(column_names):
    #    print(f"{i+1}. {col_name}")

except FileNotFoundError:
    print(f"\n❌ ERREUR : Le fichier '{original_data_file}' n'a pas été trouvé.")
    print("   Veuillez vérifier que le nom du fichier et son emplacement sont corrects.")
except pd.errors.EmptyDataError:
    print(f"\n❌ ERREUR : Le fichier '{original_data_file}' est vide.")
except Exception as e:
    print(f"\n❌ ERREUR inattendue lors de la lecture du fichier '{original_data_file}':")
    print(f"   {e}")

Tentative de lecture du fichier : 'datasejour.csv'
Fichier 'datasejour.csv' chargé avec succès.
Dimensions des données (lignes, colonnes) : (129, 47)

--- Colonnes (Features) présentes dans le fichier ---
Nombre total de colonnes : 47
['subject_id', 'HADM_ID', 'gender', 'dob', 'HeightInMeters', 'WeightInKilograms', 'BMI', 'SmokerStatus', 'ECigaretteUsage', 'AlcoholDrinkers', 'CovidPos', 'LANGUAGE', 'ETHNICITY', 'MARITAL_STATUS', 'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD', 'HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'HadDiabetes', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating', 'DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands', 'ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver', 'TetanusLast10Tdap', 'AdmissionDate', 'AdmissionYear', 'AdmissionDayOfWeek', 'DIAGNOSIS', 'ADMISSION_LOCATION', 'ADMISSION_TYPE', 'length_of_stay', 'facility_cost', 'procedure_cost', 'medication_cos

In [74]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, FunctionTransformer, OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import randint
import joblib
import warnings

# Ignorer les avertissements futurs pour la propreté de la sortie
warnings.simplefilter(action='ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None # Désactiver avertissement pour copie

# --- 1. Configuration ---
original_data_file = 'datasejour.csv' # Chemin vers tes données BRUTES originales
target_column = 'length_of_stay'
pipeline_filename = 'sejour_prediction_pipeline_SELECTED_FEATURES.joblib' # Nouveau nom pour ce pipeline spécifique

# --- !!! LISTE DES FEATURES SÉLECTIONNÉES À UTILISER !!! ---
# Basée sur ta liste, en nettoyant les éventuelles virgules en trop
selected_features = [
    'SmokerStatus', 'ECigaretteUsage', 'AlcoholDrinkers', 'CovidPos',
    'MARITAL_STATUS', 'HadHeartAttack', 'HadAngina', 'HadStroke',
    'HadAsthma', 'HadSkinCancer', 'HadCOPD', 'HadDepressiveDisorder',
    'HadKidneyDisease', 'HadArthritis', 'HadDiabetes', 'DeafOrHardOfHearing',
    'BlindOrVisionDifficulty', 'DifficultyConcentrating', 'DifficultyWalking',
    'DifficultyDressingBathing', 'DifficultyErrands', 'ChestScan', 'HIVTesting',
    'FluVaxLast12', 'PneumoVaxEver', 'TetanusLast10Tdap', 'DIAGNOSIS',
    'ADMISSION_LOCATION', 'ADMISSION_TYPE'
]
print(f"--- Utilisation d'un sous-ensemble de {len(selected_features)} features sélectionnées ---")
# print("Features utilisées:", selected_features) # Décommente pour voir la liste

# --- 2. Chargement et Filtrage des Données Brutes ---
try:
    data_full = pd.read_csv(original_data_file)
    print(f"✅ Données brutes chargées depuis '{original_data_file}'. Shape initial: {data_full.shape}")

    # Vérifier si toutes les features sélectionnées et la cible existent
    required_cols = selected_features + [target_column]
    missing_cols = [col for col in required_cols if col not in data_full.columns]
    if missing_cols:
        raise ValueError(f"Les colonnes suivantes sont requises mais manquantes dans le fichier CSV: {missing_cols}")

    # Garder UNIQUEMENT les colonnes sélectionnées + la colonne cible
    data = data_full[required_cols].copy()
    print(f"✅ Données filtrées pour ne garder que les {len(selected_features)} features sélectionnées + cible. Shape filtré: {data.shape}")

except FileNotFoundError:
    print(f"❌ Erreur: Le fichier '{original_data_file}' n'a pas été trouvé.")
    exit()
except ValueError as ve:
    print(f"❌ Erreur: {ve}")
    exit()
except Exception as e:
    print(f"❌ Erreur inattendue lors du chargement/filtrage: {e}")
    exit()

# --- 3. Identification des Colonnes par Type (parmi les features sélectionnées) ---

# Séparer X (features sélectionnées) et y (cible)
X = data[selected_features]
y = data[target_column]

# Identifier les types DANS LE SOUS-ENSEMBLE X
# Utiliser les listes originales comme référence, mais filtrer par les colonnes de X
bool_cols_original_ref = ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina',
                      'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD',
                      'HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis',
                      'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating',
                      'DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands',
                      'ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver']
categorical_cols_original_ref = ['gender', 'ETHNICITY', 'MARITAL_STATUS', 'DIAGNOSIS',
                             'ADMISSION_LOCATION', 'ADMISSION_TYPE', 'LANGUAGE',
                             'SmokerStatus', 'ECigaretteUsage', 'HadDiabetes',
                             'TetanusLast10Tdap'] # gender/ETHNICITY/LANGUAGE ne sont pas dans ta liste sélectionnée

bool_cols = [col for col in X.columns if col in bool_cols_original_ref]
categorical_cols = [col for col in X.columns if col in categorical_cols_original_ref]
numerical_cols = [col for col in X.columns if col not in bool_cols and col not in categorical_cols and pd.api.types.is_numeric_dtype(X[col])]
# NOTE: Dans ta liste, il ne semble pas y avoir de colonnes numériques à part celles qui sont booléennes codées 0/1.
# Si des colonnes comme 'total_cost' étaient dans ta liste, elles apparaîtraient ici.

print(f"\n--- Identification des Types (parmi les {len(X.columns)} features sélectionnées) ---")
print(f"Booléennes traitées: {bool_cols}")
print(f"Catégorielles traitées: {categorical_cols}")
print(f"Numériques traitées: {numerical_cols}") # Probablement vide basé sur ta liste

# Vérifier si toutes les colonnes sélectionnées sont classifiées
processed_in_subset = set(bool_cols + categorical_cols + numerical_cols)
unprocessed_in_subset = [col for col in X.columns if col not in processed_in_subset]
if unprocessed_in_subset:
    print(f"⚠️ Attention : Colonnes sélectionnées non classifiées (seront ignorées): {unprocessed_in_subset}")


# --- 4. Définition de la Fonction d'Encodage Booléen ---
# (Identique à avant)
def flexible_bool_to_int(X_bool):
    if isinstance(X_bool, pd.Series):
        X_series = X_bool.copy()
        map_dict = {
            'yes': True, 'true': True, '1': True, 1: True, True: True,
            'no': False, 'false': False, '0': False, 0: False, False: False,
            'Yes': True, 'True': True, 'No': False, 'False': False
        }
        mapped = X_series.map(map_dict)
        return mapped.fillna(False).astype(int)
    elif isinstance(X_bool, pd.DataFrame):
        return X_bool.apply(flexible_bool_to_int, axis=0)
    else:
        try: return pd.DataFrame(X_bool).fillna(False).astype(int)
        except: print(f"Warning: Type non géré {type(X_bool)}"); return X_bool


# --- 5. Train/Test Split (sur X filtré) ---
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"\n--- Dimensions des Données (Features Sélectionnées) ---")
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")


# --- 6. Création des Pipelines de Prétraitement (pour les types présents) ---
# (Pipelines identiques, mais ne seront appliqués qu'aux colonnes présentes dans bool_cols, numerical_cols, categorical_cols)

bool_pipeline = Pipeline(steps=[('to_int', FunctionTransformer(flexible_bool_to_int, validate=False))])
numerical_pipeline = Pipeline(steps=[('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler())])
categorical_pipeline = Pipeline(steps=[('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))])


# --- 7. Création du Préprocesseur Global (ColumnTransformer pour le sous-ensemble) ---
transformers_list = []
if bool_cols:
    transformers_list.append(('bool', bool_pipeline, bool_cols))
    print("Préprocesseur: Pipeline booléen ajouté.")
if numerical_cols: # Probablement vide
    transformers_list.append(('num', numerical_pipeline, numerical_cols))
    print("Préprocesseur: Pipeline numérique ajouté.")
if categorical_cols:
    transformers_list.append(('cat', categorical_pipeline, categorical_cols))
    print("Préprocesseur: Pipeline catégoriel ajouté.")

if not transformers_list:
    raise ValueError("Aucun type de colonne (bool, num, cat) n'a été trouvé parmi les features sélectionnées.")

# Le préprocesseur ne verra que les colonnes sélectionnées
preprocessor = ColumnTransformer(
    transformers=transformers_list,
    remainder='drop' # Ignorer les colonnes non classifiées (devrait être vide si tout va bien)
)


# --- 8. Création du Pipeline Complet (Préprocesseur + Modèle) ---
full_pipeline = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('model', RandomForestRegressor(random_state=42, n_jobs=-1))
])

print("\n--- Structure du Pipeline Complet (pour features sélectionnées) ---")
print(full_pipeline)


# --- 9. Recherche d'Hyperparamètres (RandomizedSearchCV) ---
# (Paramètres identiques à avant)
param_dist = {
    'model__n_estimators': randint(100, 600),
    'model__max_depth': randint(5, 40),
    'model__min_samples_split': randint(2, 15),
    'model__min_samples_leaf': randint(1, 15),
    'model__max_features': ['sqrt', 'log2', 0.6, 0.8, None]
}
n_iterations = 20 # Ajuste si besoin

random_search = RandomizedSearchCV(
    full_pipeline,
    param_distributions=param_dist,
    n_iter=n_iterations,
    cv=5,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1,
    random_state=42,
    verbose=1
)

print(f"\n🚀 Début de RandomizedSearchCV ({n_iterations} itérations, sur features sélectionnées)...")
# Entraîner sur X_train (qui ne contient QUE les features sélectionnées)
random_search.fit(X_train, y_train)
print("✅ RandomizedSearchCV terminé.")


# --- 10. Évaluation du Meilleur Modèle ---
best_pipeline = random_search.best_estimator_
print(f"\n🏆 Meilleurs paramètres trouvés : {random_search.best_params_}")
print(f"Meilleur score CV (Negative RMSE) : {random_search.best_score_:.4f}")

# Faire des prédictions sur X_test (qui ne contient QUE les features sélectionnées)
y_pred = best_pipeline.predict(X_test)

# Calculer les métriques
final_rmse = np.sqrt(mean_squared_error(y_test, y_pred))
final_r2 = r2_score(y_test, y_pred)

print("\n--- Évaluation Finale sur l'Ensemble de Test (Features Sélectionnées) ---")
print(f"📉 Erreur Quadratique Moyenne Racine (RMSE) : {final_rmse:.4f}")
print(f"📈 Score R² : {final_r2:.4f}")


# --- 11. Sauvegarde du Pipeline Entraîné (pour features sélectionnées) ---
try:
    joblib.dump(best_pipeline, pipeline_filename)
    print(f"\n✅ Pipeline (entraîné sur features sélectionnées) sauvegardé sous : '{pipeline_filename}'")
except Exception as e:
     print(f"\n❌ Erreur lors de la sauvegarde du pipeline : {e}")


print("\n🏁 Script d'entraînement (features sélectionnées) terminé.")

--- Utilisation d'un sous-ensemble de 29 features sélectionnées ---
✅ Données brutes chargées depuis 'datasejour.csv'. Shape initial: (129, 47)
✅ Données filtrées pour ne garder que les 29 features sélectionnées + cible. Shape filtré: (129, 30)

--- Identification des Types (parmi les 29 features sélectionnées) ---
Booléennes traitées: ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD', 'HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating', 'DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands', 'ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver']
Catégorielles traitées: ['SmokerStatus', 'ECigaretteUsage', 'MARITAL_STATUS', 'HadDiabetes', 'TetanusLast10Tdap', 'DIAGNOSIS', 'ADMISSION_LOCATION', 'ADMISSION_TYPE']
Numériques traitées: []

--- Dimensions des Données (Features Sélectionnées) ---
X_train shape: (103, 29)
X_t

In [75]:
import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split # Nécessaire si on recharge X_test/y_test
import warnings
from datetime import datetime # Si des dates sont utilisées pour l'âge etc.

# Ignorer les avertissements pour la propreté
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=UserWarning, module='sklearn')
pd.options.mode.chained_assignment = None

# --- 1. Configuration ---
# ON UTILISE LE PIPELINE ENTRAÎNÉ SUR TOUTES LES FEATURES
pipeline_filename = 'sejour_prediction_pipeline_v1.joblib'
original_data_file = 'datasejour.csv' # Chemin vers tes données BRUTES originales
target_column = 'length_of_stay'
id_cols_to_drop_original = ['subject_id', 'HADM_ID'] # IDs à ignorer
date_cols_original = ['dob', 'AdmissionDate'] # Dates utilisées pour créer des features DANS LE MODÈLE ORIGINAL

# --- 2. Charger le Pipeline Entraîné (Celui avec toutes les features) ---
try:
    # Charger le pipeline qui donne le meilleur R2
    loaded_pipeline = joblib.load(pipeline_filename)
    print(f"✅ Pipeline complet (toutes features) chargé depuis '{pipeline_filename}'.")
except FileNotFoundError:
    print(f"❌ Erreur: Le fichier pipeline '{pipeline_filename}' n'a pas été trouvé.")
    print("   Assure-toi d'avoir exécuté le script d'entraînement COMPLET et de sauvegarde d'abord.")
    exit()
except Exception as e:
    print(f"❌ Erreur lors du chargement du pipeline: {e}")
    exit()

# --- 3. Obtenir les Noms de TOUTES les Features Attendues par CE Pipeline ---
try:
    preprocessor = loaded_pipeline.named_steps['preprocessing']
    all_expected_feature_names = preprocessor.feature_names_in_
    print(f"\nLe pipeline complet attend {len(all_expected_feature_names)} features en entrée.")
    # print("Features attendues par le pipeline complet:", list(all_expected_feature_names)) # Décommente pour vérifier
except AttributeError:
    print("\n⚠️ Impossible de récupérer automatiquement les noms de features attendus du pipeline.")
    # Tenter de les reconstruire comme dans le script d'entraînement ORIGINAL
    try:
        print("   Tentative de reconstruction des features attendues à partir du fichier brut...")
        temp_data = pd.read_csv(original_data_file)
        # REFAIRE LE FEATURE ENGINEERING DU SCRIPT ORIGINAL
        for col in date_cols_original:
             if col in temp_data.columns: temp_data[col] = pd.to_datetime(temp_data[col], errors='coerce')
        if 'AdmissionDate' in temp_data.columns and temp_data['AdmissionDate'].dtype.kind == 'M':
            temp_data['AdmissionYear'] = temp_data['AdmissionDate'].dt.year
            temp_data['AdmissionMonth'] = temp_data['AdmissionDate'].dt.month
            temp_data['AdmissionDayOfWeek'] = temp_data['AdmissionDate'].dt.dayofweek
            if 'dob' in temp_data.columns and temp_data['dob'].dtype.kind == 'M':
                 temp_data['Age'] = temp_data['AdmissionYear'] - temp_data['dob'].dt.year
                 temp_data.loc[temp_data['AdmissionDate'] < temp_data['dob'], 'Age'] -= 1
        # RE-IDENTIFIER LES TYPES COMME DANS LE SCRIPT ORIGINAL
        temp_X = temp_data.drop(columns=[target_column] + id_cols_to_drop_original + date_cols_original, errors='ignore')
        bool_cols_inf = [col for col in ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina','HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD','HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating','DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands','ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver'] if col in temp_X.columns]
        categorical_cols_inf = [col for col in ['gender', 'ETHNICITY', 'MARITAL_STATUS', 'DIAGNOSIS','ADMISSION_LOCATION', 'ADMISSION_TYPE', 'LANGUAGE','SmokerStatus', 'ECigaretteUsage', 'HadDiabetes','TetanusLast10Tdap'] if col in temp_X.columns]
        potential_num_cols = temp_X.columns
        numerical_cols_inf = [col for col in potential_num_cols if col not in bool_cols_inf and col not in categorical_cols_inf and pd.api.types.is_numeric_dtype(temp_X[col])]
        processed_features_list = bool_cols_inf + categorical_cols_inf + numerical_cols_inf
        all_expected_feature_names = [col for col in temp_X.columns if col in processed_features_list] # Garde l'ordre original
        if not all_expected_feature_names:
             print("❌ Impossible de déterminer les features attendues. Arrêt.")
             exit()
        print(f"   Utilisation des features déterminées à partir du fichier brut: {len(all_expected_feature_names)} features.")
    except Exception as e:
         print(f"❌ Erreur lors de la tentative de détermination des features: {e}")
         exit()

# --- 4. Définir le Sous-Ensemble de Features à Demander (TA LISTE) ---
# Nettoyage de la liste fournie (enlève virgule en trop, espaces)
features_to_ask_user_raw = [
    'SmokerStatus', 'ECigaretteUsage', 'AlcoholDrinkers', 'CovidPos', 'MARITAL_STATUS',
    'HadHeartAttack', 'HadAngina', 'HadStroke', 'HadAsthma', 'HadSkinCancer',
    'HadCOPD', 'HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis',
    'HadDiabetes', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty',
    'DifficultyConcentrating', 'DifficultyWalking', 'DifficultyDressingBathing',
    'DifficultyErrands', 'ChestScan', 'HIVTesting', 'FluVaxLast12',
    'PneumoVaxEver', 'TetanusLast10Tdap', 'DIAGNOSIS', 'ADMISSION_LOCATION',
    'ADMISSION_TYPE'
]
# Assurer que chaque feature demandée existe bien dans celles attendues par le pipeline
features_to_ask_user = [f for f in features_to_ask_user_raw if f in all_expected_feature_names]
missing_asked_features = set(features_to_ask_user_raw) - set(features_to_ask_user)
if missing_asked_features:
    print(f"\n⚠️ Attention: Les features suivantes de ta liste n'existent pas dans le modèle chargé et ne seront pas demandées: {missing_asked_features}")

if not features_to_ask_user:
     print("❌ Aucune des features que tu as listées n'est attendue par le modèle chargé ! Vérifie ta liste et le modèle.")
     exit()

print(f"\nNous allons vous demander de saisir {len(features_to_ask_user)} features clés (parmi les {len(all_expected_feature_names)} attendues par le modèle).")
# print("Features qui seront demandées:", features_to_ask_user) # Décommente pour voir

# --- 5. Saisie Manuelle des Valeurs pour les Features Clés ---
print("\n--- Veuillez saisir les valeurs pour les features clés du patient ---")
input_data_user = {}

# Déterminer les types pour aider à la saisie (basé sur les listes reconstruites ou à inférer)
# Réutilisation des listes inférées dans le bloc except ci-dessus si nécessaire
if 'bool_cols_inf' not in locals(): # Si la récupération a réussi via feature_names_in_
    bool_cols_rec = [col for col in ['AlcoholDrinkers', 'CovidPos', 'HadHeartAttack', 'HadAngina','HadStroke', 'HadAsthma', 'HadSkinCancer', 'HadCOPD','HadDepressiveDisorder', 'HadKidneyDisease', 'HadArthritis', 'DeafOrHardOfHearing', 'BlindOrVisionDifficulty', 'DifficultyConcentrating','DifficultyWalking', 'DifficultyDressingBathing', 'DifficultyErrands','ChestScan', 'HIVTesting', 'FluVaxLast12', 'PneumoVaxEver'] if col in all_expected_feature_names]
    categorical_cols_rec = [col for col in ['gender', 'ETHNICITY', 'MARITAL_STATUS', 'DIAGNOSIS','ADMISSION_LOCATION', 'ADMISSION_TYPE', 'LANGUAGE','SmokerStatus', 'ECigaretteUsage', 'HadDiabetes','TetanusLast10Tdap'] if col in all_expected_feature_names]
    numerical_cols_rec = [col for col in all_expected_feature_names if col not in bool_cols_rec and col not in categorical_cols_rec]
else: # Utiliser les listes du bloc except
    bool_cols_rec = bool_cols_inf
    categorical_cols_rec = categorical_cols_inf
    numerical_cols_rec = numerical_cols_inf

for feature in features_to_ask_user:
    while True:
        try:
            prompt_text = f"Entrez la valeur pour '{feature}'"
            is_numeric = feature in numerical_cols_rec
            is_boolean = feature in bool_cols_rec
            is_categorical = feature in categorical_cols_rec

            if is_numeric: prompt_text += " (nombre): "
            elif is_boolean: prompt_text += " (ex: True/False, Yes/No, 1/0): "
            elif is_categorical: prompt_text += " (texte): "
            else: prompt_text += ": " # Si non classifié

            value_str = input(prompt_text).strip()

            if not value_str:
                input_data_user[feature] = np.nan
                print(f"   -> Valeur manquante (NaN) enregistrée pour {feature}.")
                break
            if is_numeric:
                try: input_data_user[feature] = float(value_str.replace(',', '.'))
                except ValueError: print("❌ Erreur: Veuillez entrer un nombre valide."); continue
            else: # Pour bool et cat, on stocke la chaîne, le pipeline gérera
                input_data_user[feature] = value_str
            break
        except Exception as e: print(f"❌ Erreur saisie: {e}"); continue

# --- 6. Préparer le DataFrame COMPLET pour la Prédiction ---
# Initialiser avec NaN pour TOUTES les features attendues par le pipeline complet
input_data_full = {feature: np.nan for feature in all_expected_feature_names}

# Remplacer les NaN par les valeurs saisies par l'utilisateur pour les features clés
for feature, value in input_data_user.items():
    if feature in input_data_full: # Double vérification
        input_data_full[feature] = value

# Créer le DataFrame final avec une seule ligne et le bon ordre de colonnes
new_patient_df_full = pd.DataFrame([input_data_full], columns=all_expected_feature_names)

print("\n--- Données COMPLÈTES préparées pour la prédiction (avec NaN pour non-saisies) ---")
# Afficher seulement les colonnes demandées et quelques autres pour contexte si trop nombreuses
if len(all_expected_feature_names) > 20:
     cols_to_show = features_to_ask_user + [c for c in all_expected_feature_names if c not in features_to_ask_user][:5] # Montre 5 non demandées
     print(new_patient_df_full[cols_to_show])
else:
     pd.set_option('display.max_columns', None)
     print(new_patient_df_full)
     pd.reset_option('display.max_columns')

# --- 7. Faire la Prédiction avec le Pipeline Complet ---
try:
    # Le pipeline complet gère les NaN grâce aux SimpleImputer
    prediction = loaded_pipeline.predict(new_patient_df_full)
    predicted_stay = prediction[0]
    print("\n--- Prédiction ---")
    print(f"📊 Durée de séjour prédite (par modèle complet): {predicted_stay:.2f} jours")
    print("   (Basée sur les valeurs saisies et les valeurs imputées par le modèle pour les autres features)")

except ValueError as ve:
     print(f"\n❌ Erreur de valeur lors de la prédiction: {ve}")
except Exception as e:
    print(f"\n❌ Erreur lors de la prédiction : {e}")

# --- 8. Afficher les Métriques Globales du Modèle COMPLET (calculées sur le Test Set original) ---
print("\n--- Performance Globale du Modèle COMPLET (sur données test originales) ---")
try:
    print("Recalcul des métriques sur l'ensemble de test original...")
    data_orig = pd.read_csv(original_data_file)
    # REFAIRE LE FEATURE ENGINEERING DU SCRIPT ORIGINAL
    for col in date_cols_original:
        if col in data_orig.columns: data_orig[col] = pd.to_datetime(data_orig[col], errors='coerce')
    if 'AdmissionDate' in data_orig.columns and data_orig['AdmissionDate'].dtype.kind == 'M':
        data_orig['AdmissionYear'] = data_orig['AdmissionDate'].dt.year
        data_orig['AdmissionMonth'] = data_orig['AdmissionDate'].dt.month
        data_orig['AdmissionDayOfWeek'] = data_orig['AdmissionDate'].dt.dayofweek
        if 'dob' in data_orig.columns and data_orig['dob'].dtype.kind == 'M':
            data_orig['Age'] = data_orig['AdmissionYear'] - data_orig['dob'].dt.year
            data_orig.loc[data_orig['AdmissionDate'] < data_orig['dob'], 'Age'] -= 1
    # Séparer X et y originaux
    X_orig = data_orig.drop(columns=[target_column] + id_cols_to_drop_original + date_cols_original, errors='ignore')
    # S'assurer que X_orig a exactement les colonnes attendues par le pipeline chargé
    missing_cols = set(all_expected_feature_names) - set(X_orig.columns)
    if missing_cols:
        print(f"❌ Erreur: Les colonnes suivantes attendues par le pipeline manquent dans {original_data_file} lors du rechargement: {missing_cols}")
        raise ValueError("Colonnes manquantes pour recalcul métriques")
    X_orig = X_orig[all_expected_feature_names] # Garder seulement celles attendues et dans le bon ordre
    y_orig = data_orig[target_column]

    # Refaire le même split
    _, X_test_reloaded, _, y_test_reloaded = train_test_split(X_orig, y_orig, test_size=0.2, random_state=42)

    # Prédire avec le pipeline complet chargé
    y_pred_test = loaded_pipeline.predict(X_test_reloaded)

    # Calculer les métriques du modèle complet
    mse_test = mean_squared_error(y_test_reloaded, y_pred_test)
    r2_test = r2_score(y_test_reloaded, y_pred_test)
    rmse_test = np.sqrt(mse_test)

    print(f"📉 Erreur Quadratique Moyenne (MSE) : {mse_test:.4f}")
    print(f"   -> Erreur Quadratique Moyenne Racine (RMSE) : {rmse_test:.4f} jours")
    print(f"📈 Score R² (Coefficient de détermination) : {r2_test:.4f}")
    print(f"   -> Le modèle explique environ {r2_test*100:.1f}% de la variance de la durée de séjour dans les données de test.")
    print("   (Note: R² mesure la qualité de l'ajustement global du modèle chargé)")

except FileNotFoundError:
    print("   Impossible de recalculer les métriques : fichier de données original non trouvé.")
except ValueError as ve:
     print(f"   Erreur lors de la préparation des données pour le recalcul des métriques: {ve}")
except Exception as e:
    print(f"   Erreur lors du recalcul des métriques sur le test set: {e}")

print("\n🏁 Script de prédiction terminé.")

✅ Pipeline complet (toutes features) chargé depuis 'sejour_prediction_pipeline_v1.joblib'.

Le pipeline complet attend 41 features en entrée.

Nous allons vous demander de saisir 29 features clés (parmi les 41 attendues par le modèle).

--- Veuillez saisir les valeurs pour les features clés du patient ---
Entrez la valeur pour 'SmokerStatus' (texte): Former smoker
Entrez la valeur pour 'ECigaretteUsage' (texte): Never used e-cigarettes in my entire life
Entrez la valeur pour 'AlcoholDrinkers' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'CovidPos' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'MARITAL_STATUS' (texte): DIVORCED
Entrez la valeur pour 'HadHeartAttack' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadAngina' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadStroke' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadAsthma' (ex: True/False, Yes/No, 1/0): 0
Entrez la valeur pour 'HadSkinCancer' (ex: True/False, Yes/No, 1/0): 0
En