## Preprocessing & Feature Engineering

**Objectif :** Transformer les donn√©es brutes (valid√©es lors de l'EDA) en un dataset math√©matiquement exploitable par les algorithmes de Machine Learning.

**La R√®gle d'Or respect√©e ici : L'immuabilit√© des donn√©es.**
Les fichiers sources du dossier `data/raw/` ne sont jamais modifi√©s. Les transformations se font en m√©moire vive, et le r√©sultat sera sauvegard√© dans un nouvel environnement (`data/processed/`).

### 1. Chargement des Donn√©es

In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.preprocessing import LabelEncoder

print("üì• 1. Chargement des donn√©es brutes...")
df_p = pd.read_csv("../data/raw/patients.csv", parse_dates=["date_et_heure_admission"])
df_rh = pd.read_csv("../data/raw/personnel.csv", parse_dates=["date_heure_prise_poste"])
df_mat = pd.read_csv("../data/raw/materiel.csv", parse_dates=["date_heure_inventaire"])

print(f"Dimensions initiales - Patients: {df_p.shape}")
df_p.head(3) # Affiche les 3 premi√®res lignes pour v√©rifier

üì• 1. Chargement des donn√©es brutes...
Dimensions initiales - Patients: (852492, 9)


Unnamed: 0,ID_Patient,age,sexe,motif_admission,ccmu,duree_hospitalisation,date_et_heure_admission,service_admission,issue
0,4e2bb4bc,49,F,Fievre Inexpliquee,3,34.8,2018-01-01 14:03:00,Chirurgie_Cardio,Transfert
1,1b90a704,53,M,Douleur Thoracique,2,4.2,2018-01-01 10:28:00,Urgences,Retour Domicile
2,8a6feedc,74,F,Douleur Thoracique,4,51.5,2018-01-01 11:52:00,Medecine_Interne,Transfert


### 2. Nettoyage des Anomalies (Data Cleaning)

L'Analyse Exploratoire (EDA) a mis en √©vidence deux bruits statistiques g√©n√©r√©s par le simulateur :
1. **√Çges aberrants :** La queue de la distribution normale a g√©n√©r√© des √¢ges < 0 ou > 105 ans.
2. **Incoh√©rence M√©tier :** Pr√©sence de patients de sexe Masculin en Gyn√©cologie-Obst√©trique.

**Action :** Filtrage de ces anomalies pour garantir la pertinence clinique du mod√®le.

In [4]:
initial_len = len(df_p)

# 1. √Çges aberrants (On garde entre 0 et 105 ans)
df_p = df_p[(df_p['age'] >= 0) & (df_p['age'] <= 105)]

# 2. Incoh√©rence Sexe/Service (Pas d'hommes en Gyn√©co)
incoherent_mask = (df_p['service_admission'] == "Gyneco_Obstetrique") & (df_p['sexe'] == "M")
df_p = df_p[~incoherent_mask]

print(f"‚úÖ Lignes supprim√©es : {initial_len - len(df_p)}")
print(f"Nouvelles dimensions : {df_p.shape}")

‚úÖ Lignes supprim√©es : 0
Nouvelles dimensions : (799657, 16)


## 3. Feature Engineering : Le Temps Cyclique

Les algorithmes classiques consid√®rent les nombres de fa√ßon lin√©aire (23 est tr√®s loin de 0). Or, dans un h√¥pital, l'heure `23:59` est temporellement coll√©e √† `00:01`. 

**Action :** Nous transformons les heures et les mois en coordonn√©es trigonom√©triques $sin$ et $cos$. Cela permet √† l'IA de "comprendre" les cycles naturels du temps.

In [6]:
print("‚öôÔ∏è 3. Cr√©ation des variables temporelles")

# Variables Temporelles 
df_p['date'] = df_p['date_et_heure_admission'].dt.date
df_p['hour'] = df_p['date_et_heure_admission'].dt.hour
df_p['month'] = df_p['date_et_heure_admission'].dt.month
df_p['weekday'] = df_p['date_et_heure_admission'].dt.weekday

# Transformation Cyclique (Sin/Cos)
df_p['sin_hour'] = np.sin(2 * np.pi * df_p['hour'] / 24)
df_p['cos_hour'] = np.cos(2 * np.pi * df_p['hour'] / 24)
df_p['est_weekend'] = df_p['weekday'].apply(lambda x: 1 if x >= 5 else 0)

‚öôÔ∏è 3. Cr√©ation des variables temporelles


### 4. Feature Engineering : L'Inertie du Syst√®me (Lag Features)

La saturation hospitali√®re poss√®de une forte inertie. Si l'h√¥pital est satur√© √† J-1, le risque est maximal pour le jour J.
**Action :** Cr√©ation d'une variable de "m√©moire" (`patients_hier`) pour donner le contexte r√©cent au mod√®le.

In [7]:
print("‚è≥ Calcul de l'historique r√©cent (Lag Features)...")

daily_flux = df_p.groupby(['date', 'service_admission']).size().reset_index(name='patients_jour')
daily_flux['patients_hier'] = daily_flux.groupby('service_admission')['patients_jour'].shift(1)

# Fusion avec le dataset principal
df_p = pd.merge(df_p, daily_flux[['date', 'service_admission', 'patients_hier']], 
                     on=['date', 'service_admission'], how='left')

# Imputation par la moyenne pour le tout premier jour historique
df_p['patients_hier'] = df_p['patients_hier'].fillna(df_p['patients_hier'].mean())

‚è≥ Calcul de l'historique r√©cent (Lag Features)...


### 5. Int√©gration des Ressources et Correction M√©tier

Nous agr√©geons ici l'Offre de Soins (RH et Mat√©riel) au niveau journalier pour la confronter √† la Demande (Patients).
*Note de Data Quality :* Suite √† l'EDA, la nomenclature de panne mat√©riel a √©t√© corrig√©e (passage de "Panne" √† "Indisponible").

In [8]:
# Pr√©paration RH
df_rh['date'] = df_rh['date_heure_prise_poste'].dt.date
rh_agg = df_rh.groupby(['date', 'service']).agg({'effectif_present': 'mean', 'taux_absenteisme': 'mean'}).reset_index()

# Pr√©paration Mat√©riel (Avec la correction du mot-cl√© "Indisponible")
df_mat['date'] = df_mat['date_heure_inventaire'].dt.date
mat_agg = df_mat.groupby(['date', 'services']).agg({
    'nbre_lits_dispos': 'min',
    'equipements_disponibles': lambda x: 1 if "Indisponible" in str(x.values) else 0 
}).reset_index().rename(columns={'services': 'service', 'equipements_disponibles': 'panne_materiel'})

# Fusion Finale
df_merged = pd.merge(df_p, rh_agg, left_on=['date', 'service_admission'], right_on=['date', 'service'], how='left')
df_merged = pd.merge(df_merged, mat_agg, on=['date', 'service'], how='left')

### 6. D√©finition de la Cible (Target) et Export

L'objectif de l'IA est de pr√©dire une saturation (`EST_SATURE`).
**R√®gle m√©tier retenue :** Un h√¥pital est consid√©r√© en √©tat de saturation critique lorsque la dur√©e de s√©jour d'un patient d√©passe le 75√®me centile de son service (preuve visuelle issue de la "longue tra√Æne" de l'EDA).

Nous encodons ensuite les variables textuelles (Sexe, Service) en num√©riques, puis nous exportons le dataset finalis√©.

In [9]:
# Cible : 1 si LOS > 75√®me centile du service
seuil_tension = df_merged.groupby('service')['duree_hospitalisation'].transform(lambda x: x.quantile(0.75))
df_merged['EST_SATURE'] = (df_merged['duree_hospitalisation'] > seuil_tension).astype(int)

# Encodage
df_merged['sexe_enc'] = df_merged['sexe'].apply(lambda x: 1 if x == 'F' else 0)
le = LabelEncoder()
df_merged['service_enc'] = le.fit_transform(df_merged['service_admission'])

# Nettoyage des colonnes inutiles pour le ML
cols_to_drop = ['ID_Patient', 'date_et_heure_admission', 'issue', 'date', 'service', 
                'motif_admission', 'service_admission', 'sexe']
df_final = df_merged.drop(columns=cols_to_drop, errors='ignore').fillna(0)

# Sauvegarde dans le dossier PROCESSED
os.makedirs("../data/processed", exist_ok=True)
output_path = "../data/processed/train_data.csv"
df_final.to_csv(output_path, index=False)

print(f"‚úÖ Preprocessing Termin√© !")
print(f"üìä Pourcentage de situations de saturation (Classe 1) : {df_final['EST_SATURE'].mean() * 100:.2f}%")
print(f"üíæ Fichier export√© avec succ√®s : {output_path}")

‚úÖ Preprocessing Termin√© !
üìä Pourcentage de situations de saturation (Classe 1) : 24.86%
üíæ Fichier export√© avec succ√®s : ../data/processed/train_data.csv
