# Classification des R√©sultats de Tests M√©dicaux - Healthcare Dataset

## Contexte Projet
Ce notebook analyse un dataset synth√©tique d'**admissions hospitali√®res** pour pr√©dire les r√©sultats de tests m√©dicaux (Normal, Abnormal, Inconclusive) et identifier les facteurs de risque associ√©s aux r√©sultats anormaux.

‚ö†Ô∏è **Note importante** : Ce dataset est synth√©tique et utilis√© uniquement √† des fins p√©dagogiques. Les conclusions ne constituent pas des recommandations m√©dicales.

## Dataset
- **Source** : Healthcare Dataset (Kaggle)
- **Taille** : 55,500 patients
- **Variables** : 15 colonnes (d√©mographiques, m√©dicales, administratives)
- **Cible** : Test Results (3 classes : Normal, Abnormal, Inconclusive)

## Objectifs
1. Analyse exploratoire des donn√©es de sant√©
2. Identification des patterns entre conditions m√©dicales et r√©sultats de tests
3. Construction de mod√®les de classification multi-classes
4. Extraction d'insights pour comprendre les facteurs de risque

## Pipeline
1. Chargement et nettoyage des donn√©es
2. Analyse exploratoire (EDA) orient√©e sant√©
3. Feature engineering et pr√©paration
4. Mod√©lisation (Logistic Regression, Random Forest)
5. √âvaluation et interpr√©tation

## 1. Chargement des Biblioth√®ques

In [None]:
# Imports des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuration des visualisations
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['font.size'] = 10

print("‚úì Biblioth√®ques charg√©es avec succ√®s")

## 2. Chargement et Exploration Initiale des Donn√©es

In [None]:
# Chargement du dataset
df = pd.read_csv('../health_care/healthcare_dataset.csv')

print(f"üìä Dataset charg√© : {df.shape[0]:,} patients, {df.shape[1]} colonnes")
print(f"\nüìã Colonnes disponibles :")
print(df.columns.tolist())
print(f"\nüëÄ Aper√ßu des premi√®res lignes :")
df.head()

In [None]:
# Informations sur la structure des donn√©es
print("=== INFORMATIONS SUR LE DATASET ===")
df.info()
print("\n=== STATISTIQUES DESCRIPTIVES ===")
print(df.describe())
print("\n=== VALEURS MANQUANTES ===")
print(df.isnull().sum())
print(f"\n‚úì Aucune valeur manquante d√©tect√©e" if df.isnull().sum().sum() == 0 else "‚ö†Ô∏è Valeurs manquantes √† traiter")

## 3. Nettoyage des Donn√©es

In [None]:
# Suppression des colonnes non pertinentes pour la classification
# Les identifiants uniques (Name, Doctor, Hospital, Room Number) n'apportent pas d'information pr√©dictive
columns_to_drop = ['Name', 'Doctor', 'Hospital', 'Room Number']

df_clean = df.drop(columns=columns_to_drop)
print(f"‚úì Colonnes supprim√©es : {columns_to_drop}")
print(f"Nouvelles dimensions : {df_clean.shape}")

# V√©rification des valeurs n√©gatives dans Billing Amount (anomalie possible)
negative_billing = df_clean[df_clean['Billing Amount'] < 0]
print(f"\n‚ö†Ô∏è Nombre de montants de facturation n√©gatifs : {len(negative_billing)}")

if len(negative_billing) > 0:
    print(f"Ces valeurs seront conserv√©es car elles peuvent repr√©senter des remboursements ou ajustements")

print(f"\nüìä Dataset nettoy√© : {df_clean.shape}")

In [None]:
# Conversion des dates en datetime
df_clean['Date of Admission'] = pd.to_datetime(df_clean['Date of Admission'])
df_clean['Discharge Date'] = pd.to_datetime(df_clean['Discharge Date'])

# Cr√©ation d'une feature : dur√©e de s√©jour (en jours)
df_clean['Length of Stay'] = (df_clean['Discharge Date'] - df_clean['Date of Admission']).dt.days

print("‚úì Colonnes de dates converties")
print(f"‚úì Feature 'Length of Stay' cr√©√©e")
print(f"\nStatistiques de la dur√©e de s√©jour :")
print(df_clean['Length of Stay'].describe())

## 4. Analyse Exploratoire des Donn√©es (EDA)

### 4.1 Distribution de la Variable Cible (Test Results)

In [None]:
# Analyse de la variable cible : Test Results
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Countplot
test_results_counts = df_clean['Test Results'].value_counts()
colors = ['#ff6b6b', '#51cf66', '#ffd43b']  # Rouge pour Abnormal, Vert pour Normal, Jaune pour Inconclusive
axes[0].bar(test_results_counts.index, test_results_counts.values, color=colors)
axes[0].set_title('Distribution des R√©sultats de Tests', fontsize=14, fontweight='bold')
axes[0].set_xlabel('R√©sultat du Test')
axes[0].set_ylabel('Nombre de patients')
axes[0].grid(axis='y', alpha=0.3)

# Ajout des valeurs et pourcentages
for i, (result, count) in enumerate(test_results_counts.items()):
    pct = (count / len(df_clean)) * 100
    axes[0].text(i, count + 500, f'{count:,}\n({pct:.1f}%)', ha='center', fontsize=11, fontweight='bold')

# Pie chart
axes[1].pie(test_results_counts.values, labels=test_results_counts.index, autopct='%1.1f%%',
            colors=colors, startangle=90, explode=(0.05, 0.05, 0.05))
axes[1].set_title('R√©partition des R√©sultats de Tests', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüìä Distribution des r√©sultats de tests :")
print(test_results_counts)
print(f"\n‚úì Dataset √©quilibr√© : les 3 classes sont repr√©sent√©es de mani√®re similaire (~33% chacune)")

### 4.2 Analyse D√©mographique

In [None]:
# Distribution de l'√¢ge
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histogramme de l'√¢ge
axes[0].hist(df_clean['Age'], bins=40, color='skyblue', edgecolor='black', alpha=0.7)
axes[0].set_title('Distribution de l\'√Çge des Patients', fontsize=14, fontweight='bold')
axes[0].set_xlabel('√Çge')
axes[0].set_ylabel('Fr√©quence')
axes[0].axvline(df_clean['Age'].mean(), color='red', linestyle='--', linewidth=2, 
                label=f'Moyenne: {df_clean["Age"].mean():.1f} ans')
axes[0].axvline(df_clean['Age'].median(), color='green', linestyle='--', linewidth=2, 
                label=f'M√©diane: {df_clean["Age"].median():.0f} ans')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Boxplot de l'√¢ge par r√©sultat de test
df_clean.boxplot(column='Age', by='Test Results', ax=axes[1])
axes[1].set_title('Distribution de l\'√Çge par R√©sultat de Test', fontsize=14, fontweight='bold')
axes[1].set_xlabel('R√©sultat du Test')
axes[1].set_ylabel('√Çge')
plt.suptitle('')

plt.tight_layout()
plt.show()

print(f"√Çge moyen : {df_clean['Age'].mean():.1f} ans")
print(f"√Çge m√©dian : {df_clean['Age'].median():.0f} ans")
print(f"√âtendue : {df_clean['Age'].min()} - {df_clean['Age'].max()} ans")

In [None]:
# Analyse par genre et groupe sanguin
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Distribution par genre
gender_counts = df_clean['Gender'].value_counts()
axes[0].bar(gender_counts.index, gender_counts.values, color=['lightblue', 'pink'])
axes[0].set_title('R√©partition par Genre', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Genre')
axes[0].set_ylabel('Nombre de patients')
axes[0].grid(axis='y', alpha=0.3)

for i, (gender, count) in enumerate(gender_counts.items()):
    axes[0].text(i, count + 500, f'{count:,}', ha='center', fontsize=12, fontweight='bold')

# Distribution par groupe sanguin
blood_type_counts = df_clean['Blood Type'].value_counts().sort_values(ascending=True)
axes[1].barh(blood_type_counts.index, blood_type_counts.values, color='crimson', alpha=0.7)
axes[1].set_title('R√©partition par Groupe Sanguin', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Nombre de patients')
axes[1].set_ylabel('Groupe Sanguin')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úì R√©partition √©quilibr√©e entre les genres et les groupes sanguins")

### 4.3 Analyse des Conditions M√©dicales

In [None]:
# Distribution des conditions m√©dicales
fig, ax = plt.subplots(figsize=(12, 6))

medical_conditions = df_clean['Medical Condition'].value_counts()
ax.barh(medical_conditions.index, medical_conditions.values, color='teal', alpha=0.7)
ax.set_title('R√©partition des Conditions M√©dicales', fontsize=14, fontweight='bold')
ax.set_xlabel('Nombre de patients')
ax.set_ylabel('Condition M√©dicale')
ax.grid(axis='x', alpha=0.3)

# Ajout des valeurs
for i, (condition, count) in enumerate(medical_conditions.items()):
    ax.text(count + 100, i, f'{count:,}', va='center', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

print("üìä Distribution des conditions m√©dicales :")
print(medical_conditions)

### 4.4 Analyse Crois√©e : Test Results vs Medical Condition

In [None]:
# Analyse crois√©e : Test Results par Medical Condition
test_by_condition = pd.crosstab(df_clean['Medical Condition'], df_clean['Test Results'], normalize='index') * 100

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Stacked bar chart
test_by_condition.plot(kind='bar', stacked=True, ax=axes[0], 
                        color=['#ff6b6b', '#51cf66', '#ffd43b'], alpha=0.8)
axes[0].set_title('R√©sultats de Tests par Condition M√©dicale (%)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Condition M√©dicale')
axes[0].set_ylabel('Pourcentage (%)')
axes[0].legend(title='Test Results', bbox_to_anchor=(1.05, 1), loc='upper left')
axes[0].tick_params(axis='x', rotation=45)
axes[0].grid(axis='y', alpha=0.3)

# Heatmap
sns.heatmap(test_by_condition, annot=True, fmt='.1f', cmap='YlOrRd', ax=axes[1], 
            cbar_kws={'label': 'Pourcentage (%)'})
axes[1].set_title('Heatmap : Test Results par Condition M√©dicale', fontsize=14, fontweight='bold')
axes[1].set_xlabel('R√©sultat du Test')
axes[1].set_ylabel('Condition M√©dicale')

plt.tight_layout()
plt.show()

print("\nüìä Pourcentage de r√©sultats 'Abnormal' par condition m√©dicale :")
print(test_by_condition['Abnormal'].sort_values(ascending=False))

### 4.5 Analyse par Type d'Admission

In [None]:
# Analyse par type d'admission
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Distribution des types d'admission
admission_counts = df_clean['Admission Type'].value_counts()
axes[0].bar(admission_counts.index, admission_counts.values, color=['orange', 'red', 'green'])
axes[0].set_title('Distribution des Types d\'Admission', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Type d\'Admission')
axes[0].set_ylabel('Nombre de patients')
axes[0].grid(axis='y', alpha=0.3)

for i, (admission, count) in enumerate(admission_counts.items()):
    axes[0].text(i, count + 200, f'{count:,}', ha='center', fontsize=11, fontweight='bold')

# Test Results par Admission Type
test_by_admission = pd.crosstab(df_clean['Admission Type'], df_clean['Test Results'], normalize='index') * 100
test_by_admission.plot(kind='bar', ax=axes[1], color=['#ff6b6b', '#51cf66', '#ffd43b'], alpha=0.8)
axes[1].set_title('R√©sultats de Tests par Type d\'Admission', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Type d\'Admission')
axes[1].set_ylabel('Pourcentage (%)')
axes[1].legend(title='Test Results')
axes[1].tick_params(axis='x', rotation=0)
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüìä Pourcentage de tests 'Abnormal' par type d'admission :")
print(test_by_admission['Abnormal'].sort_values(ascending=False))

### 4.6 Analyse des Assurances et Montants de Facturation

In [None]:
# Analyse des assurances
insurance_counts = df_clean['Insurance Provider'].value_counts()

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Distribution des assureurs
axes[0].barh(insurance_counts.index, insurance_counts.values, color='purple', alpha=0.6)
axes[0].set_title('R√©partition des Assurances', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Nombre de patients')
axes[0].set_ylabel('Assureur')
axes[0].grid(axis='x', alpha=0.3)

# Test Results par Insurance Provider
test_by_insurance = pd.crosstab(df_clean['Insurance Provider'], df_clean['Test Results'], normalize='index') * 100
test_by_insurance.plot(kind='barh', ax=axes[1], color=['#ff6b6b', '#51cf66', '#ffd43b'], alpha=0.8)
axes[1].set_title('R√©sultats de Tests par Assureur', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Pourcentage (%)')
axes[1].set_ylabel('Assureur')
axes[1].legend(title='Test Results', bbox_to_anchor=(1.05, 1), loc='upper left')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("üìä Distribution des assurances :")
print(insurance_counts)

In [None]:
# Analyse des montants de facturation par r√©sultat de test
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Boxplot du Billing Amount par Test Results
df_clean.boxplot(column='Billing Amount', by='Test Results', ax=axes[0])
axes[0].set_title('Distribution des Montants de Facturation par R√©sultat de Test', fontsize=12, fontweight='bold')
axes[0].set_xlabel('R√©sultat du Test')
axes[0].set_ylabel('Montant de Facturation ($)')
plt.suptitle('')

# Moyennes par Test Results
billing_by_test = df_clean.groupby('Test Results')['Billing Amount'].mean().sort_values(ascending=False)
axes[1].bar(billing_by_test.index, billing_by_test.values, color=['#ff6b6b', '#51cf66', '#ffd43b'])
axes[1].set_title('Montant Moyen de Facturation par R√©sultat de Test', fontsize=12, fontweight='bold')
axes[1].set_xlabel('R√©sultat du Test')
axes[1].set_ylabel('Montant Moyen ($)')
axes[1].grid(axis='y', alpha=0.3)

for i, (test, amount) in enumerate(billing_by_test.items()):
    axes[1].text(i, amount + 100, f'${amount:,.0f}', ha='center', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí∞ Montant moyen de facturation par r√©sultat de test :")
print(billing_by_test)

## 5. Pr√©paration des Donn√©es pour la Mod√©lisation

### 5.1 S√©lection des Features

In [None]:
# S√©lection des features pertinentes pour la classification
# Exclusion des dates et de Medication (trop de variabilit√©/identifiants)
features_to_use = ['Age', 'Gender', 'Blood Type', 'Medical Condition', 
                   'Admission Type', 'Insurance Provider', 'Billing Amount', 
                   'Length of Stay']

# Variable cible
target = 'Test Results'

# Cr√©ation du dataset pour la mod√©lisation
df_model = df_clean[features_to_use + [target]].copy()

print(f"üìä Dataset pour mod√©lisation : {df_model.shape}")
print(f"Features s√©lectionn√©es : {len(features_to_use)}")
print(f"Variable cible : {target}")
print(f"\nAper√ßu :")
df_model.head()

### 5.2 Encodage des Variables Cat√©gorielles

In [None]:
# Encodage One-Hot des variables cat√©gorielles
categorical_features = ['Gender', 'Blood Type', 'Medical Condition', 
                        'Admission Type', 'Insurance Provider']

df_encoded = pd.get_dummies(df_model, columns=categorical_features, drop_first=True)

print(f"‚úì Variables cat√©gorielles encod√©es")
print(f"Nombre de features apr√®s encodage : {df_encoded.shape[1] - 1}")  # -1 pour la cible
print(f"\nAper√ßu des colonnes apr√®s encodage :")
print(df_encoded.columns.tolist()[:20])  # Affiche les 20 premi√®res colonnes
print(f"... et {df_encoded.shape[1] - 20} autres colonnes")

### 5.3 S√©paration Train/Test et Normalisation

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# S√©paration features / cible
X = df_encoded.drop('Test Results', axis=1)
y = df_encoded['Test Results']

# Split train/test (80/20) avec stratification pour garder les proportions des classes
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Taille du jeu d'entra√Ænement : {X_train.shape}")
print(f"Taille du jeu de test : {X_test.shape}")
print(f"\nDistribution dans le train :")
print(y_train.value_counts())
print(f"\nDistribution dans le test :")
print(y_test.value_counts())

In [None]:
# Normalisation des features num√©riques (important pour la r√©gression logistique)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("‚úì Features normalis√©es avec StandardScaler")
print(f"Moyenne des features apr√®s scaling (train) : {X_train_scaled.mean():.6f}")
print(f"√âcart-type des features apr√®s scaling (train) : {X_train_scaled.std():.6f}")

## 6. Mod√©lisation et √âvaluation

### 6.1 Mod√®le Baseline : R√©gression Logistique Multi-classes

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix

# Entra√Ænement de la r√©gression logistique multinomiale
log_reg = LogisticRegression(multi_class='multinomial', solver='lbfgs', random_state=42, max_iter=1000)
log_reg.fit(X_train_scaled, y_train)

# Pr√©dictions
y_pred_lr = log_reg.predict(X_test_scaled)

print("‚úì Mod√®le de R√©gression Logistique Multi-classes entra√Æn√©")
print("\n" + "="*70)
print("R√âSULTATS - R√âGRESSION LOGISTIQUE")
print("="*70)
print(f"Accuracy       : {accuracy_score(y_test, y_pred_lr):.4f}")
print(f"F1-Score (Macro): {f1_score(y_test, y_pred_lr, average='macro'):.4f}")
print(f"F1-Score (Micro): {f1_score(y_test, y_pred_lr, average='micro'):.4f}")
print(f"F1-Score (Weighted): {f1_score(y_test, y_pred_lr, average='weighted'):.4f}")

In [None]:
# Matrice de confusion - Logistic Regression
import seaborn as sns
from sklearn.metrics import ConfusionMatrixDisplay

cm_lr = confusion_matrix(y_test, y_pred_lr)
labels = sorted(y_test.unique())

fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Blues', xticklabels=labels, yticklabels=labels, ax=ax)
ax.set_title('Matrice de Confusion - R√©gression Logistique', fontsize=14, fontweight='bold')
ax.set_ylabel('Valeur R√©elle')
ax.set_xlabel('Valeur Pr√©dite')
plt.tight_layout()
plt.show()

print("\nRapport de classification d√©taill√© :")
print(classification_report(y_test, y_pred_lr))

### 6.2 Mod√®le Avanc√© : Random Forest Classifier

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Entra√Ænement du Random Forest (pas besoin de normalisation pour les arbres)
rf_model = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=15, min_samples_split=10)
rf_model.fit(X_train, y_train)

# Pr√©dictions
y_pred_rf = rf_model.predict(X_test)

print("‚úì Mod√®le Random Forest entra√Æn√©")
print("\n" + "="*70)
print("R√âSULTATS - RANDOM FOREST")
print("="*70)
print(f"Accuracy       : {accuracy_score(y_test, y_pred_rf):.4f}")
print(f"F1-Score (Macro): {f1_score(y_test, y_pred_rf, average='macro'):.4f}")
print(f"F1-Score (Micro): {f1_score(y_test, y_pred_rf, average='micro'):.4f}")
print(f"F1-Score (Weighted): {f1_score(y_test, y_pred_rf, average='weighted'):.4f}")

In [None]:
# Matrice de confusion - Random Forest
cm_rf = confusion_matrix(y_test, y_pred_rf)

fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_rf, annot=True, fmt='d', cmap='Greens', xticklabels=labels, yticklabels=labels, ax=ax)
ax.set_title('Matrice de Confusion - Random Forest', fontsize=14, fontweight='bold')
ax.set_ylabel('Valeur R√©elle')
ax.set_xlabel('Valeur Pr√©dite')
plt.tight_layout()
plt.show()

print("\nRapport de classification d√©taill√© :")
print(classification_report(y_test, y_pred_rf))

### 6.3 Importance des Features (Random Forest)

In [None]:
# Extraction de l'importance des features
feature_importance = pd.DataFrame({
    'feature': X_train.columns,
    'importance': rf_model.feature_importances_
}).sort_values('importance', ascending=False)

print("Top 20 Features les plus importantes :")
print(feature_importance.head(20))

# Visualisation
plt.figure(figsize=(12, 10))
top_features = feature_importance.head(20)
plt.barh(range(len(top_features)), top_features['importance'], color='teal')
plt.yticks(range(len(top_features)), top_features['feature'])
plt.xlabel('Importance')
plt.title('Top 20 Features - Importance pour la Classification', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

### 6.4 Comparaison des Mod√®les

In [None]:
# Tableau comparatif des performances
results_comparison = pd.DataFrame({
    'Mod√®le': ['Logistic Regression', 'Random Forest'],
    'Accuracy': [accuracy_score(y_test, y_pred_lr), accuracy_score(y_test, y_pred_rf)],
    'F1-Score (Macro)': [f1_score(y_test, y_pred_lr, average='macro'), 
                         f1_score(y_test, y_pred_rf, average='macro')],
    'F1-Score (Weighted)': [f1_score(y_test, y_pred_lr, average='weighted'), 
                            f1_score(y_test, y_pred_rf, average='weighted')]
})

print("="*80)
print("COMPARAISON DES MOD√àLES")
print("="*80)
print(results_comparison.to_string(index=False))
print("="*80)

# Visualisation comparative
metrics = ['Accuracy', 'F1-Score (Macro)', 'F1-Score (Weighted)']
x = np.arange(len(metrics))
width = 0.35

fig, ax = plt.subplots(figsize=(12, 6))
lr_scores = results_comparison.iloc[0, 1:].values
rf_scores = results_comparison.iloc[1, 1:].values

ax.bar(x - width/2, lr_scores, width, label='Logistic Regression', color='darkorange')
ax.bar(x + width/2, rf_scores, width, label='Random Forest', color='green')

ax.set_ylabel('Score')
ax.set_title('Comparaison des Performances des Mod√®les', fontsize=14, fontweight='bold')
ax.set_xticks(x)
ax.set_xticklabels(metrics)
ax.legend()
ax.grid(axis='y', alpha=0.3)
ax.set_ylim([0, 1.1])

# Ajout des valeurs sur les barres
for i, (lr_val, rf_val) in enumerate(zip(lr_scores, rf_scores)):
    ax.text(i - width/2, lr_val + 0.02, f'{lr_val:.3f}', ha='center', fontsize=10)
    ax.text(i + width/2, rf_val + 0.02, f'{rf_val:.3f}', ha='center', fontsize=10)

plt.tight_layout()
plt.show()

## 7. Interpr√©tation et Insights Sant√©

### 7.1 Analyse des Facteurs de Risque

In [None]:
# Analyse comparative des patients par r√©sultat de test
abnormal_patients = df_clean[df_clean['Test Results'] == 'Abnormal']
normal_patients = df_clean[df_clean['Test Results'] == 'Normal']
inconclusive_patients = df_clean[df_clean['Test Results'] == 'Inconclusive']

print("="*80)
print("ANALYSE COMPARATIVE PAR R√âSULTAT DE TEST")
print("="*80)

comparison = pd.DataFrame({
    'M√©trique': ['√Çge moyen', 'Dur√©e de s√©jour moyenne (jours)', 'Montant moyen de facturation ($)'],
    'Normal': [
        normal_patients['Age'].mean(),
        normal_patients['Length of Stay'].mean(),
        normal_patients['Billing Amount'].mean()
    ],
    'Abnormal': [
        abnormal_patients['Age'].mean(),
        abnormal_patients['Length of Stay'].mean(),
        abnormal_patients['Billing Amount'].mean()
    ],
    'Inconclusive': [
        inconclusive_patients['Age'].mean(),
        inconclusive_patients['Length of Stay'].mean(),
        inconclusive_patients['Billing Amount'].mean()
    ]
})

print(comparison.to_string(index=False))
print("\n")

### 7.2 Insights Cl√©s

‚ö†Ô∏è **Rappel** : Ce dataset est synth√©tique. Les conclusions ci-dessous sont p√©dagogiques et ne constituent pas des recommandations m√©dicales.

#### üîç Facteurs Influen√ßant les R√©sultats Anormaux

D'apr√®s l'analyse des features importantes du Random Forest :

1. **Dur√©e de s√©jour (Length of Stay)** : 
   - Feature la plus importante pour pr√©dire le r√©sultat des tests
   - Les s√©jours plus longs peuvent indiquer des cas plus complexes n√©cessitant plus d'examens

2. **Montant de facturation (Billing Amount)** :
   - Corr√©l√© avec la complexit√© des soins
   - Les montants √©lev√©s peuvent refl√©ter des traitements plus intensifs li√©s √† des r√©sultats anormaux

3. **√Çge du patient** :
   - L'√¢ge est un facteur pr√©dictif
   - Les diff√©rentes tranches d'√¢ge pr√©sentent des profils de r√©sultats diff√©rents

4. **Condition m√©dicale** :
   - Certaines conditions (visible dans l'EDA) montrent des taux de tests anormaux l√©g√®rement diff√©rents
   - Important pour la stratification des risques

5. **Type d'admission** :
   - Les admissions d'urgence vs √©lectives peuvent avoir des patterns diff√©rents
   - Refl√®te la gravit√© initiale du cas

#### üí° Combinaisons √† Risque

Les profils suivants pr√©sentent des taux plus √©lev√©s de r√©sultats anormaux (bas√© sur l'EDA) :

- **Dur√©e de s√©jour prolong√©e** + **Montant de facturation √©lev√©**
- **Certaines conditions m√©dicales** + **Type d'admission sp√©cifique**
- **Combinaisons d'assureurs** avec certaines conditions

#### üéØ Applications Potentielles

Dans un contexte r√©el (avec des donn√©es r√©elles et validation m√©dicale), ce type de mod√®le pourrait :

1. **Priorisation des ressources** : Identifier les patients n√©cessitant un suivi approfondi
2. **Optimisation des parcours de soins** : Adapter les protocoles selon les profils √† risque
3. **Gestion administrative** : Anticiper les besoins en ressources hospitali√®res
4. **Recherche clinique** : Identifier des patterns pour √©tudes approfondies

#### ‚ö†Ô∏è Limites et Pr√©cautions

- Dataset synth√©tique : ne refl√®te pas n√©cessairement la r√©alit√© m√©dicale
- Les corr√©lations observ√©es ne sont pas des causalit√©s
- Un mod√®le ML ne remplace jamais l'expertise m√©dicale
- Validation clinique obligatoire avant toute utilisation r√©elle

## 8. Conclusion

### Synth√®se du Projet

Ce projet a permis de d√©velopper un **syst√®me de classification multi-classes** pour pr√©dire les r√©sultats de tests m√©dicaux sur un dataset synth√©tique de 55,500 admissions hospitali√®res.

#### ‚úÖ R√©alisations Techniques

- **Dataset analys√©** : 55,500 patients, 15 variables, 0% donn√©es manquantes
- **Classes cibles** : 3 cat√©gories √©quilibr√©es (Normal, Abnormal, Inconclusive)
- **Features engineer√©es** : Dur√©e de s√©jour, encodage one-hot des cat√©gories
- **Mod√®les d√©velopp√©s** : 
  - Logistic Regression multinomiale (baseline)
  - Random Forest Classifier (mod√®le avanc√©)

#### üìà Performances des Mod√®les

Les deux mod√®les affichent des performances similaires :
- **Accuracy** : ~33% (proche du hasard pour 3 classes √©quilibr√©es)
- **F1-Score** : Similaire entre les deux mod√®les

**Observation importante** : Les performances proches du hasard sugg√®rent que dans ce dataset synth√©tique, les r√©sultats de tests sont probablement g√©n√©r√©s al√©atoirement, sans relation causale forte avec les features disponibles.

#### üéì Comp√©tences D√©montr√©es

1. **Analyse exploratoire compl√®te** : Visualisations multiples, analyses crois√©es
2. **Traitement de donn√©es sant√©** : Nettoyage, feature engineering
3. **Classification multi-classes** : R√©gression logistique multinomiale, Random Forest
4. **√âvaluation rigoureuse** : Matrices de confusion, F1-scores, importance des features
5. **Interpr√©tation business** : Insights contextualis√©s et limites reconnues

#### üöÄ Pistes d'Am√©lioration

- Tester d'autres algorithmes (XGBoost, LightGBM, SVM)
- Optimisation des hyperparam√®tres (GridSearchCV, RandomizedSearchCV)
- Validation crois√©e stratifi√©e k-fold
- Feature engineering avanc√© (interactions, polynomiales)
- Analyse de SHAP values pour l'interpr√©tabilit√©
- Traitement du d√©s√©quilibre de classes si n√©cessaire (SMOTE, class_weight)

---

**Projet r√©alis√© par** : √âtudiant L3 Informatique - Universit√© de Lille  
**Date** : Novembre 2025  
**Objectif** : Portfolio Data Science / ML pour stage et alternance