# Preparation des donnees pour la modelisation

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# Charger le dataset filtré précédent
file_path = "./Dataset/cleaned_HDHI_Admission_data.csv"  # Chemin du fichier nettoyé
data = pd.read_csv(file_path)

print(f"Taille initiale du dataset : {data.shape}")


Taille initiale du dataset : (15757, 60)


In [16]:
# Choix des colonnes qui nous serviront de features pour la prédiction
selected_columns = ['AGE', 'TYPE OF ADMISSION-EMERGENCY/OPD','STAY_DURATION', 'ADMISSION_MONTH','ADMISSION_SEASON', 'GENDER']
data = data[selected_columns]
# data.columns

In [17]:
# Gestion des valeurs manquantes
# Supression des lignes avec des valeurs manquantes
data = data.dropna(subset=['AGE', 'STAY_DURATION', 'ADMISSION_MONTH', 'GENDER'])

print(f"Taille du dataset après suppression des valeurs manquantes : {data.shape}")

Taille du dataset après suppression des valeurs manquantes : (8632, 6)


In [18]:
# Encodage des variables catégoriques dont dans notre cas, GENDER, TYPE OF ADMISSION-EMERGENCY/OPD
data['GENDER'] = data['GENDER'].map({'M':0, 'F':1})
data['TYPE OF ADMISSION-EMERGENCY/OPD'] = data['TYPE OF ADMISSION-EMERGENCY/OPD'].map({'E':0,'O':1}) 

data.head()

Unnamed: 0,AGE,TYPE OF ADMISSION-EMERGENCY/OPD,STAY_DURATION,ADMISSION_MONTH,ADMISSION_SEASON,GENDER
0,81,0,2.0,4.0,2.0,0
1,65,0,4.0,4.0,2.0,0
2,53,0,2.0,4.0,2.0,0
3,67,0,7.0,4.0,2.0,1
4,60,0,22.0,4.0,2.0,1


In [19]:
# Normalisation des valeurs numeriques, nous allons mettre la valeur de chacune des colonnes ayant des valeurs numeriques dans  un range entre [0,1] en utilisant MinMaxScaler.

scaler = MinMaxScaler()
data[['AGE', 'ADMISSION_MONTH']] = scaler.fit_transform(data[['AGE', 'ADMISSION_MONTH']])

data.head()

Unnamed: 0,AGE,TYPE OF ADMISSION-EMERGENCY/OPD,STAY_DURATION,ADMISSION_MONTH,ADMISSION_SEASON,GENDER
0,0.819149,0,2.0,0.272727,2.0,0
1,0.648936,0,4.0,0.272727,2.0,0
2,0.521277,0,2.0,0.272727,2.0,0
3,0.670213,0,7.0,0.272727,2.0,1
4,0.595745,0,22.0,0.272727,2.0,1


In [22]:
# Division du dataset en features et target et sauvegarder ces donnees dans differents fichiers csv

# Sepration de la colonne STAY_DURATION qui est notre target du reste du dataset qui est nos features
x = data.drop('STAY_DURATION', axis=1)
# Notre target est la colonne STAY_DURATION
y = data['STAY_DURATION']

# Division des donnees d'entrainement et des donnees de test. 
# les donnees de test prendront 30% des donnees et les donnees d'entrainement prendront 70% des donnees
x_train, x_test,y_train, y_test = train_test_split(x,y, test_size=0.3, random_state=42)

# Sauvegarde des donnees dans des fichiers csv
x_train.to_csv('./Dataset/training_set/x_train.csv', index=False)
x_test.to_csv('./Dataset/testing_set/x_test.csv', index=False)
y_train.to_csv('./Dataset/training_set/y_train.csv', index=False)
y_test.to_csv('./Dataset/testing_set/y_test.csv', index=False)

print("Ensembles sauvegardés :")
print(f"X_train : {x_train.shape}, X_test : {x_test.shape}")
print(f"y_train : {y_train.shape}, y_test : {y_test.shape}")


Ensembles sauvegardés :
X_train : (6042, 5), X_test : (2590, 5)
y_train : (6042,), y_test : (2590,)
