# PROJET FINAL: Analyse de donn√©es et machine learning avec Python

Il s'agit d'analyser les donn√©es collect√©es sur la pand√©mie du covid 19 qui sont dans un fichier au format csv (voir dossier *data*).

## Description du jeu du donn√©es:

### Contexte

La maladie √† coronavirus (COVID-19) est une maladie infectieuse caus√©e par un coronavirus r√©cemment d√©couvert. La plupart des personnes infect√©es par le virus COVID-19 souffriront d'une maladie respiratoire l√©g√®re √† mod√©r√©e et se r√©tabliront sans n√©cessiter de traitement particulier. Les personnes √¢g√©es et celles qui pr√©sentent des probl√®mes m√©dicaux sous-jacents tels que les maladies cardiovasculaires, le diab√®te, les maladies respiratoires chroniques et le cancer sont plus susceptibles de d√©velopper une maladie grave.

Pendant toute la dur√©e de la pand√©mie, l'un des principaux probl√®mes auxquels les prestataires de soins de sant√© ont √©t√© confront√©s est le manque de ressources m√©dicales et d'un plan appropri√© pour les distribuer efficacement. En ces temps difficiles, √™tre capable de pr√©dire le type de ressources dont un individu pourrait avoir besoin au moment o√π il est test√© positif ou m√™me avant cela sera d'une aide immense pour les autorit√©s car elles seront en mesure de se procurer et d'organiser les ressources n√©cessaires pour sauver la vie de ce patient.

L'objectif principal de ce projet est de construire un mod√®le d'apprentissage automatique qui, compte tenu des sympt√¥mes, de l'√©tat et des ant√©c√©dents m√©dicaux d'un patient atteint du Covid-19, permettra de pr√©dire si le patient est √† haut risque ou non.

### Description du jeux de donn√©es

Le jeu de donn√©es a √©t√© fourni par le gouvernement mexicain. Cet ensemble de donn√©es contient un nombre √©norme d'informations anonymes relatives aux patients, y compris les conditions pr√©alables. L'ensemble de donn√©es brutes se compose de 21 caract√©ristiques uniques et de 1 048 576 patients uniques. Dans les caract√©ristiques bool√©ennes, 1 signifie "oui" et 2 signifie "non". Les valeurs 97 et 99 indique des donn√©es manquantes.

Quelques informations sur les *features*:

- sex : femme ou homme
- age : du patient.
- classification : r√©sultats du test covid. Les valeurs 1-3 signifient que le patient a √©t√© diagnostiqu√© avec un covid √† diff√©rents degr√©s. 4 ou plus signifie que le patient n'est pas porteur du covid ou que le test n'est pas concluant.
- patient type: hospitalis√© ou non hospitalis√©.
- pneumonia : si le patient a d√©j√† une inflammation li√© √† la pneumonie ou non.
- pregnancy : si la patiente est enceinte ou non.
- diabetes : indique si le patient est diab√©tique ou non.
- copd: indique si le patient est atteint ou non de bronchopneumopathie chronique obstructive.
- asthma : indique si le patient est asthmatique ou non.
- inmsupr : indique si le patient est immunod√©prim√© ou non.
- hypertension : si le patient est hypertendu ou non.
- cardiovascular : si le patient est atteint d'une maladie du c≈ìur ou des vaisseaux sanguins.
- renal chronic : si le patient est atteint d'une maladie r√©nale chronique ou non.
- other disease : si le patient est atteint d'une autre maladie ou non.
- obesity : si le patient est ob√®se ou non.
- tobacco : si le patient est un fumeur.
- usmr : indique si le patient a trait√© des unit√©s m√©dicales de premier, deuxi√®me ou troisi√®me niveau.
- medical unit: type d'institution du syst√®me national de sant√© qui a dispens√© les soins.
- intubed : indique si le patient a √©t√© reli√© au ventilateur.
- icu : indique si le patient a √©t√© admis dans une unit√© de soins intensifs.


## √âtape 1 : Pr√©paration et nettoyage des donn√©es
1. Chargez le jeu de donn√©es  dans un *dataframe* √† l'aide de Pandas.
2. Explorez le nombre de lignes et de colonnes, les plages de valeurs, etc.
3. Traitez les donn√©es manquantes, incorrectes et invalides, doublons, etc.
4. Effectuez toute √©tape suppl√©mentaire (analyse des dates, cr√©ation de colonnes suppl√©mentaires, fusion de plusieurs ensembles de donn√©es, etc.)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                             classification_report, confusion_matrix,
                             roc_auc_score, roc_curve, average_precision_score)  

import joblib
import warnings
import os
import joblib
# # joblib.dump("meilleur_modele_random_forest.pkl", "meilleur_modele_random_forest_compressed.pkl", compress=3)

warnings.filterwarnings('ignore')
# Palette de couleurs coh√©rente pour tout le projet
COLORS = {
    'primary':   '#4e79a7',    # bleu principal
    'secondary': '#f28e2b',    # orange
    'success':   '#59a14f',    # vert
    'danger':    '#e15759',    # rouge
    'warning':   '#edc948',    # jaune
    'info':      '#76b7b2',    # cyan
    'light':     '#bab0ac',    # gris clair
    'dark':      '#2e2e2e'     # gris fonc√©
}

In [None]:
# =====================================================
# √âTAPE 1 : PR√âPARATION ET NETTOYAGE (VOTRE TRAVAIL)
# =====================================================

# Chargement des donn√©es
df = pd.read_csv(r'C:\Users\evyto\Desktop\Data_analyst\Data_analyst\Python_et_machine_learning\PROJET_DE_PYTHON_GROUPE_6\covid19_data.csv')
print("Donn√©es charg√©es avec succ√®s")
print(f"Dimensions: {df.shape}")

# Remplacement des valeurs invalides
df_clean = df.replace([97, 98, 99], np.nan)

# Cr√©ation de la variable cible HIGH_RISK
if 'DATE_DIED' in df_clean.columns:
    df_clean['HIGH_RISK'] = (df_clean['DATE_DIED'] != '9999-99-99').astype(int)
    print(f"Patients √† haut risque: {df_clean['HIGH_RISK'].sum()}")

# Correction des valeurs manquantes pour ICU et INTUBED
cols = ['ICU', 'INTUBED']
for col in cols:
    df_clean.loc[df_clean['PATIENT_TYPE'] == 1, col] = df_clean.loc[df_clean['PATIENT_TYPE'] == 1, col].fillna(0)

# Correction PREGNANT pour les hommes
df_clean.loc[df_clean['SEX'] == 2, 'PREGNANT'] = 2

# Suppression des valeurs manquantes restantes
df_clean = df_clean.dropna()
print(f"\nDimensions apr√®s nettoyage: {df_clean.shape}")
print("\nPourcentage conserv√© :", 
      round(len(df_clean) / len(df) * 100, 1), "%")

# Pour voir un aper√ßu
df_clean.head()

# Ou pour voir les infos
df_clean.info()

# Pour sauvegarder le r√©sultat une bonne fois pour toutes :
df_clean.to_csv("covid19_cleaned.csv", index=False)
print("‚Üí Fichier sauvegard√© : covid19_cleaned.csv")

## Etape 2:  Effectuer une analyse exploratoire et une visualisation
1. Calculez la moyenne, la somme, l'√©tendue et d'autres statistiques int√©ressantes pour les colonnes num√©riques.
2. Explorez les distributions des colonnes num√©riques √† l'aide d'histogrammes, etc.
3. Explorez les relations entre les colonnes √† l'aide d'une matrice des corr√©lations entre les *features* (voir visualisation avec heatmap)
4. Notez les r√©sultats int√©ressants de l'analyse exploratoire.


In [None]:
# =====================================================
# ANALYSE DES DONN√âES COVID - VERSION SIMPLIFI√âE
# =====================================================

print("\n" + "="*80)
print("ANALYSE DES DONN√âES")
print("="*80)

# ------------------------------------------------------------
# PARTIE 1 : STATISTIQUES DE BASE
# ------------------------------------------------------------
print("\n--- Statistiques de base ---")

# On s√©lectionne uniquement les colonnes avec des chiffres
colonnes_numeriques = df_clean.select_dtypes(include=[np.number]).columns

# On affiche les statistiques principales
statistiques = df_clean[colonnes_numeriques].describe()
print(statistiques.round(2))

# Statistiques d√©taill√©es pour les variables importantes
variables_importantes = ['AGE', 'SEX', 'PATIENT_TYPE', 'HIGH_RISK']

for variable in variables_importantes:
    if variable in df_clean.columns:
        print(f"\n{variable}:")
        print(f"   Moyenne: {df_clean[variable].mean():.2f}")
        print(f"   Minimum: {df_clean[variable].min():.0f}")
        print(f"   Maximum: {df_clean[variable].max():.0f}")

# ------------------------------------------------------------
# PARTIE 2 : GRAPHIQUES
# ------------------------------------------------------------
print("\n--- Cr√©ation des graphiques ---")

# Cr√©er 4 graphiques c√¥te √† c√¥te
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('GRAPHIQUES DES DONN√âES', fontsize=16, fontweight='bold')

# Graphique 1 : Distribution de l'√¢ge
axes[0, 0].hist(df_clean['AGE'], bins=30, color='skyblue', edgecolor='black')
axes[0, 0].set_title('√Çge des patients')
axes[0, 0].set_xlabel('√Çge (ann√©es)')
axes[0, 0].set_ylabel('Nombre de patients')
axes[0, 0].grid(True, alpha=0.3)

# Graphique 2 : Niveau de risque
comptage_risque = df_clean['HIGH_RISK'].value_counts().sort_index()
axes[0, 1].bar([0, 1], comptage_risque.values, color=['green', 'red'], edgecolor='black')
axes[0, 1].set_xticks([0, 1])
axes[0, 1].set_xticklabels(['Faible risque', 'Haut risque'])
axes[0, 1].set_title('Niveau de risque')
axes[0, 1].set_ylabel('Nombre de patients')
axes[0, 1].grid(True, alpha=0.3)

# Graphique 3 : R√©partition par sexe
comptage_sexe = df_clean['SEX'].value_counts().sort_index()
axes[1, 0].bar(['Femme', 'Homme'], comptage_sexe.values, 
               color=['pink', 'lightblue'], edgecolor='black')
axes[1, 0].set_title('R√©partition par sexe')
axes[1, 0].set_ylabel('Nombre de patients')
axes[1, 0].grid(True, alpha=0.3)

# Graphique 4 : Type de patient
comptage_type = df_clean['PATIENT_TYPE'].value_counts().sort_index()
axes[1, 1].bar(['Non hospitalis√©', 'Hospitalis√©'], comptage_type.values,
               color=['lightgreen', 'coral'], edgecolor='black')
axes[1, 1].set_title('Type de patient')
axes[1, 1].set_ylabel('Nombre de patients')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('graphiques_analyse.png', dpi=300, bbox_inches='tight')
plt.show()

# ------------------------------------------------------------
# PARTIE 3 : CORR√âLATIONS (RELATIONS ENTRE VARIABLES)
# ------------------------------------------------------------
print("\n--- Analyse des corr√©lations ---")

# Variables √† analyser
variables_a_analyser = ['MEDICAL_UNIT','USMER','PATIENT_TYPE','RENAL_CHRONIC','INMSUPR','OTHER_DISEASE','AGE', 'SEX', 'PNEUMONIA', 'DIABETES', 'COPD', 'ASTHMA',
                     'HIPERTENSION', 'CARDIOVASCULAR', 'OBESITY', 'TOBACCO',
                     'INTUBED', 'ICU', 'HIGH_RISK']

# Garder seulement les variables qui existent dans nos donn√©es
variables_existantes = [v for v in variables_a_analyser if v in df_clean.columns]

# Calculer les corr√©lations
correlations = df_clean[variables_existantes].corr()

# Cr√©er un graphique de corr√©lation
plt.figure(figsize=(12, 9))
sns.heatmap(correlations, annot=True, fmt='.2f', cmap='coolwarm', center=0)
plt.title('Matrice de corr√©lation')
plt.tight_layout()
plt.show()

# Afficher les corr√©lations avec le risque
print("\nCorr√©lations avec le niveau de risque:")
correlations_risque = correlations['HIGH_RISK'].sort_values(ascending=False)
print(correlations_risque[1:11])

# ------------------------------------------------------------
# PARTIE 4 : R√âSUM√â DES D√âCOUVERTES
# ------------------------------------------------------------
print("\n--- R√©sum√© des d√©couvertes ---")

# S√©parer les patients √† haut risque et faible risque
patients_haut_risque = df_clean[df_clean['HIGH_RISK'] == 1]
patients_faible_risque = df_clean[df_clean['HIGH_RISK'] == 0]

print("\nINFORMATIONS G√âN√âRALES:")
print(f"√Çge moyen: {df_clean['AGE'].mean():.1f} ans")
print(f"Pourcentage d'hommes: {(df_clean['SEX']==2).sum()/len(df_clean)*100:.1f}%")
print(f"Taux de mortalit√©: {df_clean['HIGH_RISK'].mean()*100:.2f}%")

print("\nCOMPARAISON HAUT RISQUE vs FAIBLE RISQUE:")
print(f"√Çge moyen (haut risque): {patients_haut_risque['AGE'].mean():.1f} ans")
print(f"√Çge moyen (faible risque): {patients_faible_risque['AGE'].mean():.1f} ans")

print("\nCOMORBIDIT√âS (maladies associ√©es):")
maladies = ['PNEUMONIA', 'DIABETES', 'HIPERTENSION', 'OBESITY', 'CARDIOVASCULAR']

for maladie in maladies:
    if maladie in df_clean.columns:
        pct_haut = (patients_haut_risque[maladie]==1).mean()*100
        pct_faible = (patients_faible_risque[maladie]==1).mean()*100
        print(f"{maladie}: {pct_haut:.1f}% (haut risque) vs {pct_faible:.1f}% (faible risque)")

print("\n‚úì Analyse termin√©e!")

## Etape 3: Posez des questions sur les donn√©es et r√©pondez-y.
1. Posez au moins 4 questions int√©ressantes sur votre ensemble de donn√©es.
2. R√©pondez aux questions soit en calculant les r√©sultats √† l'aide de Numpy/Pandas, soit en tra√ßant des graphiques √† l'aide de Matplotlib/Seaborn.
3. Cr√©ez de nouvelles colonnes, fusionnez plusieurs ensembles de donn√©es et effectuez des regroupements/agr√©gations si n√©cessaire.
4. Chaque fois que vous utilisez une fonction de biblioth√®que de Pandas/Numpy/Matplotlib, etc., expliquez bri√®vement ce qu'elle fait.

In [None]:
# =====================================================
# √âTAPE 3 : ANALYSES SP√âCIFIQUES - VERSION SIMPLIFI√âE
# =====================================================

import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de l'apparence des graphiques
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("muted")

print("\n" + "="*80)
print("√âTAPE 3 : ANALYSES SP√âCIFIQUES")
print("="*80)

# ------------------------------------------------------------
# QUESTION 1 : Mortalit√© selon le sexe
# ------------------------------------------------------------
print("\n--- QUESTION 1 : Mortalit√© par sexe ---")

# Calculer le taux de mortalit√© pour chaque sexe
taux_mortalite_sexe = df_clean.groupby('SEX')['HIGH_RISK'].mean() * 100

# Renommer pour plus de clart√© (1 = Femme, 2 = Homme)
taux_mortalite_sexe.index = ['Femme', 'Homme']

# Afficher les r√©sultats
print("\nR√©sultats :")
print(f"Femmes : {taux_mortalite_sexe['Femme']:.2f}%")
print(f"Hommes : {taux_mortalite_sexe['Homme']:.2f}%")

# Cr√©er le graphique
plt.figure(figsize=(6, 5))
taux_mortalite_sexe.plot(kind='bar', color=['#ff85c0', '#6c9dff'])
plt.title('Taux de mortalit√© par sexe', fontsize=14, fontweight='bold')
plt.ylabel('Taux de mortalit√© (%)')
plt.xlabel('Sexe')
plt.ylim(0, max(taux_mortalite_sexe) * 1.25)
plt.xticks(rotation=0)

# Ajouter les valeurs sur les barres
for position, valeur in enumerate(taux_mortalite_sexe):
    plt.text(position, valeur + 0.5, f'{valeur:.2f}%', 
             ha='center', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.savefig('question1_mortalite_sexe.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique sauvegard√© : question1_mortalite_sexe.png")


# ------------------------------------------------------------
# QUESTION 2 : Hospitalisation des patients COVID positifs
# ------------------------------------------------------------
print("\n--- QUESTION 2 : Hospitalisation des COVID positifs ---")

# Garder seulement les patients COVID positifs (classification ‚â§ 3)
patients_covid_positif = df_clean[df_clean['CLASIFFICATION_FINAL'] <= 3]

# Calculer le pourcentage d'hospitalis√©s (PATIENT_TYPE == 2)
nombre_hospitalises = (patients_covid_positif['PATIENT_TYPE'] == 2).sum()
nombre_total = len(patients_covid_positif)
taux_hospitalisation = (nombre_hospitalises / nombre_total) * 100

# Afficher les r√©sultats
print(f"\nNombre de patients COVID+ : {nombre_total:,}")
print(f"Nombre hospitalis√©s : {nombre_hospitalises:,}")
print(f"Taux d'hospitalisation : {taux_hospitalisation:.1f}%")

# Cr√©er un graphique en camembert
plt.figure(figsize=(6, 6))
valeurs = [taux_hospitalisation, 100 - taux_hospitalisation]
labels = ['Hospitalis√©s', 'Non hospitalis√©s']
couleurs = ['#ff6b6b', '#95e1d3']

plt.pie(valeurs, labels=labels, colors=couleurs,
        autopct='%1.1f%%', startangle=90,
        textprops={'fontsize': 12, 'fontweight': 'bold'})
plt.title('Hospitalisation - Patients COVID+', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('question2_hospitalisation.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique sauvegard√© : question2_hospitalisation.png")


# ------------------------------------------------------------
# QUESTION 3 : Mortalit√© chez les femmes enceintes
# ------------------------------------------------------------
print("\n--- QUESTION 3 : Mortalit√© chez les femmes enceintes ---")

# S√©lectionner les femmes enceintes (PREGNANT == 1 et SEX == 1)
femmes_enceintes = df_clean[(df_clean['PREGNANT'] == 1) & (df_clean['SEX'] == 1)]

# S√©lectionner les femmes non enceintes (PREGNANT == 2 et SEX == 1)
femmes_non_enceintes = df_clean[(df_clean['PREGNANT'] == 2) & (df_clean['SEX'] == 1)]

if len(femmes_enceintes) > 0:
    # Calculer les taux de mortalit√©
    taux_mortalite_enceintes = femmes_enceintes['HIGH_RISK'].mean() * 100
    taux_mortalite_non_enceintes = femmes_non_enceintes['HIGH_RISK'].mean() * 100
    
    # Afficher les r√©sultats
    print(f"\nFemmes enceintes : {len(femmes_enceintes):,} patientes")
    print(f"Mortalit√© enceintes : {taux_mortalite_enceintes:.2f}%")
    print(f"\nFemmes non enceintes : {len(femmes_non_enceintes):,} patientes")
    print(f"Mortalit√© non enceintes : {taux_mortalite_non_enceintes:.2f}%")
    
    # Cr√©er le graphique
    plt.figure(figsize=(6, 5))
    categories = ['Femmes enceintes', 'Femmes non enceintes']
    valeurs = [taux_mortalite_enceintes, taux_mortalite_non_enceintes]
    couleurs = ['#c698c0', '#cc7bd6']
    
    plt.bar(categories, valeurs, color=couleurs, edgecolor='black', alpha=0.8)
    plt.title('Mortalit√© : Enceintes vs Non enceintes', fontsize=14, fontweight='bold')
    plt.ylabel('Taux de mortalit√© (%)')
    plt.ylim(0, max(valeurs) * 1.3)
    
    # Ajouter les valeurs sur les barres
    for position, valeur in enumerate(valeurs):
        plt.text(position, valeur + 0.3, f'{valeur:.2f}%', 
                ha='center', fontsize=11, fontweight='bold')
    
    plt.tight_layout()
    plt.savefig('question3_femmes_enceintes.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("‚úì Graphique sauvegard√© : question3_femmes_enceintes.png")
else:
    print("\n‚ö†Ô∏è Aucune femme enceinte d√©tect√©e dans ce jeu de donn√©es.")


# ------------------------------------------------------------
# QUESTION 4 : R√©partition COVID Positif / N√©gatif
# ------------------------------------------------------------
print("\n--- QUESTION 4 : R√©partition COVID Positif/N√©gatif ---")

# Calculer la r√©partition (‚â§3 = Positif, >3 = N√©gatif/Inconclusif)
nombre_positif = (df_clean['CLASIFFICATION_FINAL'] <= 3).sum()
nombre_negatif = (df_clean['CLASIFFICATION_FINAL'] > 3).sum()
total = len(df_clean)

pourcentage_positif = (nombre_positif / total) * 100
pourcentage_negatif = (nombre_negatif / total) * 100

# Afficher les r√©sultats
print(f"\nPatients COVID positifs : {nombre_positif:,} ({pourcentage_positif:.1f}%)")
print(f"Patients n√©gatifs/inconclusifs : {nombre_negatif:,} ({pourcentage_negatif:.1f}%)")

# Cr√©er un graphique horizontal
plt.figure(figsize=(7, 4))
categories = ['Positif', 'N√©gatif/Inconclusif']
valeurs = [pourcentage_positif, pourcentage_negatif]
couleurs = ['#ff6b6b', '#a0d2eb']

barres = plt.barh(categories, valeurs, color=couleurs, edgecolor='black', alpha=0.8)
plt.title('R√©partition COVID +/-', fontsize=14, fontweight='bold')
plt.xlabel('Pourcentage (%)')
plt.xlim(0, max(valeurs) + 15)

# Ajouter les valeurs sur les barres
for position, valeur in enumerate(valeurs):
    plt.text(valeur + 2, position, f'{valeur:.1f}%', 
            va='center', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.savefig('question4_repartition_covid.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique sauvegard√© : question4_repartition_covid.png")


## √âtape 4 : r√©sumez vos d√©ductions et r√©digez une conclusion.
1. R√©digez un r√©sum√© de ce que vous avez appris de l'analyse.
2. Incluez les id√©es et les graphiques int√©ressants des sections pr√©c√©dentes.
3. Partagez des id√©es de travaux futurs sur le m√™me sujet en utilisant d'autres ensembles de donn√©es pertinents.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

print("="*60)
print("R√âSUM√â DE L'ANALYSE COVID-19")
print("="*60)

# ============================================================
# CALCUL DES STATISTIQUES PRINCIPALES
# ============================================================

# Statistiques g√©n√©rales
nb_patients = len(df_clean)
age_moyen = df_clean['AGE'].mean()
pct_hommes = (df_clean['SEX'] == 2).mean() * 100
taux_mortalite = df_clean['HIGH_RISK'].mean() * 100

# Comparaison haut risque vs faible risque
haut_risque = df_clean[df_clean['HIGH_RISK'] == 1]
faible_risque = df_clean[df_clean['HIGH_RISK'] == 0]

age_haut = haut_risque['AGE'].mean()
age_faible = faible_risque['AGE'].mean()

# Comorbidit√©s
pneumonie_haut = (haut_risque['PNEUMONIA'] == 1).mean() * 100
diabete_haut = (haut_risque['DIABETES'] == 1).mean() * 100

# Hospitalisation
mort_hosp = df_clean[df_clean['PATIENT_TYPE'] == 2]['HIGH_RISK'].mean() * 100
mort_non_hosp = df_clean[df_clean['PATIENT_TYPE'] == 1]['HIGH_RISK'].mean() * 100

# ============================================================
# AFFICHAGE DES R√âSULTATS
# ============================================================

print(f"""
üìä R√âSULTATS CL√âS :

1. DONN√âES G√âN√âRALES :
   ‚Ä¢ Nombre de patients : {nb_patients:,}
   ‚Ä¢ √Çge moyen : {age_moyen:.0f} ans
   ‚Ä¢ Pourcentage d'hommes : {pct_hommes:.1f}%
   ‚Ä¢ Taux de mortalit√© : {taux_mortalite:.1f}%

2. FACTEUR √ÇGE :
   ‚Ä¢ √Çge moyen (haut risque) : {age_haut:.0f} ans
   ‚Ä¢ √Çge moyen (faible risque) : {age_faible:.0f} ans
   ‚Ä¢ Diff√©rence : {age_haut - age_faible:.0f} ans

3. COMORBIDIT√âS (chez patients √† haut risque) :
   ‚Ä¢ Pneumonie : {pneumonie_haut:.1f}%
   ‚Ä¢ Diab√®te : {diabete_haut:.1f}%

4. HOSPITALISATION :
   ‚Ä¢ Mortalit√© hospitalis√©s : {mort_hosp:.1f}%
   ‚Ä¢ Mortalit√© non-hospitalis√©s : {mort_non_hosp:.1f}%

CONCLUSION :
L'√¢ge et les comorbidit√©s sont les facteurs principaux.
Les patients hospitalis√©s ont un risque beaucoup plus √©lev√©.
""")

# ============================================================
# GRAPHIQUES
# ============================================================

fig, axes = plt.subplots(2, 2, figsize=(12, 10))
fig.suptitle('Visualisations Cl√©s - COVID-19', fontsize=14, fontweight='bold')

# 1. √Çge par niveau de risque
axes[0, 0].hist([faible_risque['AGE'], haut_risque['AGE']], 
                bins=20, label=['Faible risque', 'Haut risque'], 
                color=['green', 'red'], alpha=0.6)
axes[0, 0].set_title('Distribution de l\'√¢ge')
axes[0, 0].set_xlabel('√Çge')
axes[0, 0].legend()

# 2. Comorbidit√©s
comorbidites = ['Pneumonie', 'Diab√®te', 'Hypertension']
prevalences = [
    (haut_risque['PNEUMONIA'] == 1).mean() * 100,
    (haut_risque['DIABETES'] == 1).mean() * 100,
    (haut_risque['HIPERTENSION'] == 1).mean() * 100
]
axes[0, 1].bar(comorbidites, prevalences, color='orange', alpha=0.7)
axes[0, 1].set_title('Comorbidit√©s (haut risque)')
axes[0, 1].set_ylabel('Pourcentage (%)')
axes[0, 1].tick_params(axis='x', rotation=45)

# 3. Mortalit√© par sexe
mort_hommes = df_clean[df_clean['SEX'] == 2]['HIGH_RISK'].mean() * 100
mort_femmes = df_clean[df_clean['SEX'] == 1]['HIGH_RISK'].mean() * 100
axes[1, 0].bar(['Femmes', 'Hommes'], [mort_femmes, mort_hommes], 
               color=['pink', 'blue'], alpha=0.7)
axes[1, 0].set_title('Mortalit√© par sexe')
axes[1, 0].set_ylabel('Taux (%)')

# 4. Hospitalisation
axes[1, 1].bar(['Non hospitalis√©s', 'Hospitalis√©s'], 
               [mort_non_hosp, mort_hosp],
               color=['lightgreen', 'red'], alpha=0.7)
axes[1, 1].set_title('Mortalit√© selon hospitalisation')
axes[1, 1].set_ylabel('Taux (%)')

plt.tight_layout()
plt.savefig('resultats_covid19.png', dpi=200)
plt.show()

print("\n‚úì Graphiques sauvegard√©s : resultats_covid19.png")
print("="*60)

### √âtape 5: Faites des pr√©dictions
1. Divisez le jeux de donn√©es (80% entrainement: 20% test)
2. Comparer les r√©sultats de classifications de 4 mod√®les de machine learning (regression lin√©aire, *random forest*, *Naive Bayes*, SVM) suivant les trois crit√®res: *recall*, *accuracy*, *precision*

In [None]:
# =====================================================
# √âTAPE 5 : PR√âDICTIONS ET MACHINE LEARNING
# =====================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

print("\n" + "="*80)
print("√âTAPE 5 : MACHINE LEARNING - PR√âDICTION DU RISQUE")
print("="*80)

# =====================================================
# 1. PR√âPARATION DES DONN√âES
# =====================================================
print("\n--- Pr√©paration des donn√©es ---")

# Charger les donn√©es nettoy√©es (utiliser df_clean de votre code pr√©c√©dent)
# Si vous avez sauvegard√© le fichier :
# df_clean = pd.read_csv("covid19_cleaned.csv")

# S√©lection des features (variables explicatives)
# On exclut DATE_DIED, CLASIFFICATION_FINAL et autres colonnes non pertinentes
features_colonnes = [
    'SEX', 'AGE', 'PATIENT_TYPE', 'PNEUMONIA', 'PREGNANT', 
    'DIABETES', 'COPD', 'ASTHMA', 'INMSUPR', 'HIPERTENSION',
    'CARDIOVASCULAR', 'RENAL_CHRONIC', 'OTHER_DISEASE', 
    'OBESITY', 'TOBACCO', 'MEDICAL_UNIT', 'INTUBED', 'ICU'
]

# V√©rifier que toutes les colonnes existent
features_disponibles = [col for col in features_colonnes if col in df_clean.columns]

print(f"\nFeatures utilis√©es : {len(features_disponibles)}")
print(features_disponibles)

# X : Variables explicatives (features)
X = df_clean[features_disponibles].copy()

# y : Variable cible (HIGH_RISK : 0 = faible risque, 1 = haut risque/d√©c√®s)
y = df_clean['HIGH_RISK'].copy()

# Afficher la distribution de la variable cible
print(f"\nDistribution de la variable cible HIGH_RISK :")
print(f"  Faible risque (0) : {(y == 0).sum():,} patients ({(y == 0).mean()*100:.2f}%)")
print(f"  Haut risque (1)   : {(y == 1).sum():,} patients ({(y == 1).mean()*100:.2f}%)")

# =====================================================
# 2. DIVISION DU DATASET (80% TRAIN / 20% TEST)
# =====================================================
print("\n--- Division du dataset ---")

# Division stratifi√©e pour conserver la proportion des classes
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,      # 20% pour le test
    random_state=42,    # Pour la reproductibilit√©
    stratify=y          # Garde la m√™me proportion de HIGH_RISK
)

print(f"\nTaille ensemble d'entra√Ænement : {X_train.shape[0]:,} √©chantillons ({80}%)")
print(f"Taille ensemble de test         : {X_test.shape[0]:,} √©chantillons ({20}%)")
print(f"\nDistribution dans l'entra√Ænement :")
print(f"  Faible risque : {(y_train == 0).sum():,}")
print(f"  Haut risque   : {(y_train == 1).sum():,}")
print(f"\nDistribution dans le test :")
print(f"  Faible risque : {(y_test == 0).sum():,}")
print(f"  Haut risque   : {(y_test == 1).sum():,}")

# Normalisation des donn√©es (importante pour SVM et R√©gression Logistique)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n‚úì Normalisation effectu√©e")

# =====================================================
# 3. ENTRA√éNEMENT DES 4 MOD√àLES
# =====================================================
print("\n" + "="*80)
print("ENTRA√éNEMENT DES MOD√àLES")
print("="*80)

# Mod√®le 1 : R√©gression Logistique
print("\n1. R√©gression Logistique en cours...")
lr_model = LogisticRegression(random_state=42, max_iter=1000)
lr_model.fit(X_train_scaled, y_train)
lr_pred = lr_model.predict(X_test_scaled)
print("   ‚úì Entra√Ænement termin√©")

# Mod√®le 2 : Random Forest
print("\n2. Random Forest en cours...")
rf_model = RandomForestClassifier(
    n_estimators=50,     # Nombre d'arbres r√©duit pour la taille
    random_state=42,
    max_depth=10,         # Profondeur r√©duite pour la taille
    min_samples_leaf=5,   # Plus de feuilles pour r√©duire la taille
    n_jobs=-1,            # Utiliser tous les c≈ìurs
)
rf_model.fit(X_train, y_train)
rf_pred = rf_model.predict(X_test)
print("   ‚úì Entra√Ænement termin√©")

# Sauvegarde du mod√®le optimis√© pour la taille (GitHub < 100MB)
print("   ‚úì Sauvegarde du mod√®le compress√©...")
joblib.dump(rf_model, "meilleur_modele_random_forest.pkl", compress=9)

# Sauvegarde du mod√®le optimis√© pour la taille (GitHub < 100MB)
print("   ‚úì Sauvegarde du mod√®le compress√©...")
joblib.dump(rf_model, "meilleur_modele_random_forest.pkl", compress=9)

# Mod√®le 3 : Naive Bayes
print("\n3. Naive Bayes en cours...")
nb_model = GaussianNB()
nb_model.fit(X_train_scaled, y_train)
nb_pred = nb_model.predict(X_test_scaled)
print("   ‚úì Entra√Ænement termin√©")

# Mod√®le 4 : SVM (Support Vector Machine)
print("\n4. Support Vector Machine (SVM) en cours...")
svm_model = SVC(kernel='rbf', random_state=42, C=1.0, gamma='scale')
svm_model.fit(X_train_scaled, y_train)
svm_pred = svm_model.predict(X_test_scaled)
print("   ‚úì Entra√Ænement termin√©")

print("\n‚úì Tous les mod√®les ont √©t√© entra√Æn√©s avec succ√®s!")

# =====================================================
# 4. √âVALUATION DES MOD√àLES (ACCURACY, PRECISION, RECALL)
# =====================================================
print("\n" + "="*80)
print("√âVALUATION DES PERFORMANCES")
print("="*80)

def evaluer_modele(y_true, y_pred, nom_modele):
    """Calcule les 3 m√©triques principales pour un mod√®le"""
    accuracy = accuracy_score(y_true, y_pred)
    precision = precision_score(y_true, y_pred, average='binary', zero_division=0)
    recall = recall_score(y_true, y_pred, average='binary', zero_division=0)
    
    return {
        'Mod√®le': nom_modele,
        'Accuracy': round(accuracy, 4),
        'Precision': round(precision, 4),
        'Recall': round(recall, 4)
    }

# Calculer les m√©triques pour les 4 mod√®les
resultats = []
resultats.append(evaluer_modele(y_test, lr_pred, 'R√©gression Logistique'))
resultats.append(evaluer_modele(y_test, rf_pred, 'Random Forest'))
resultats.append(evaluer_modele(y_test, nb_pred, 'Naive Bayes'))
resultats.append(evaluer_modele(y_test, svm_pred, 'SVM'))

# Cr√©er un DataFrame pour afficher les r√©sultats
df_resultats = pd.DataFrame(resultats)

print("\nüìä TABLEAU COMPARATIF DES PERFORMANCES\n")
print(df_resultats.to_string(index=False))

# Identifier les meilleurs mod√®les
print("\n" + "-"*80)
print("üèÜ MEILLEURS MOD√àLES PAR M√âTRIQUE")
print("-"*80)

meilleur_accuracy = df_resultats.loc[df_resultats['Accuracy'].idxmax()]
meilleur_precision = df_resultats.loc[df_resultats['Precision'].idxmax()]
meilleur_recall = df_resultats.loc[df_resultats['Recall'].idxmax()]

print(f"\n‚Ä¢ Accuracy  : {meilleur_accuracy['Mod√®le']:25s} ‚Üí {meilleur_accuracy['Accuracy']:.4f}")
print(f"‚Ä¢ Precision : {meilleur_precision['Mod√®le']:25s} ‚Üí {meilleur_precision['Precision']:.4f}")
print(f"‚Ä¢ Recall    : {meilleur_recall['Mod√®le']:25s} ‚Üí {meilleur_recall['Recall']:.4f}")

# =====================================================
# 5. VISUALISATION DES R√âSULTATS
# =====================================================
print("\n--- Cr√©ation des graphiques ---")

# Graphique 1 : Comparaison des m√©triques
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
fig.suptitle('COMPARAISON DES PERFORMANCES DES MOD√àLES', 
             fontsize=16, fontweight='bold', y=1.02)

metriques = ['Accuracy', 'Precision', 'Recall']
couleurs = ['#3498db', '#2ecc71', '#e74c3c']

for idx, metrique in enumerate(metriques):
    ax = axes[idx]
    barres = ax.bar(df_resultats['Mod√®le'], df_resultats[metrique], 
                    color=couleurs[idx], alpha=0.7, edgecolor='black')
    
    ax.set_title(f'{metrique}', fontsize=14, fontweight='bold')
    ax.set_ylabel(metrique, fontsize=12)
    ax.set_ylim([0, 1.05])
    ax.grid(axis='y', alpha=0.3, linestyle='--')
    
    # Ajouter les valeurs sur les barres
    for barre in barres:
        hauteur = barre.get_height()
        ax.text(barre.get_x() + barre.get_width()/2., hauteur + 0.02,
                f'{hauteur:.3f}',
                ha='center', va='bottom', fontsize=11, fontweight='bold')
    
    # Rotation des labels
    ax.set_xticklabels(df_resultats['Mod√®le'], rotation=45, ha='right')

plt.tight_layout()
plt.savefig('etape5_comparaison_modeles.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Graphique sauvegard√© : etape5_comparaison_modeles.png")

# Graphique 2 : Matrices de confusion
fig, axes = plt.subplots(2, 2, figsize=(14, 12))
fig.suptitle('MATRICES DE CONFUSION', fontsize=16, fontweight='bold', y=0.995)
axes = axes.ravel()

modeles_predictions = [
    (lr_pred, 'R√©gression Logistique'),
    (rf_pred, 'Random Forest'),
    (nb_pred, 'Naive Bayes'),
    (svm_pred, 'SVM')
]

for idx, (pred, nom) in enumerate(modeles_predictions):
    cm = confusion_matrix(y_test, pred)
    
    # Cr√©er le heatmap
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[idx], 
                cbar=False, annot_kws={'size': 14, 'weight': 'bold'})
    
    axes[idx].set_title(f'{nom}', fontsize=13, fontweight='bold', pad=10)
    axes[idx].set_ylabel('Vraie Classe', fontsize=11)
    axes[idx].set_xlabel('Classe Pr√©dite', fontsize=11)
    axes[idx].set_xticklabels(['Faible Risque', 'Haut Risque'])
    axes[idx].set_yticklabels(['Faible Risque', 'Haut Risque'])

plt.tight_layout()
plt.savefig('etape5_matrices_confusion.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Graphique sauvegard√© : etape5_matrices_confusion.png")

# =====================================================
# 6. RAPPORTS DE CLASSIFICATION D√âTAILL√âS
# =====================================================
print("\n" + "="*80)
print("RAPPORTS DE CLASSIFICATION D√âTAILL√âS")
print("="*80)

for pred, nom in modeles_predictions:
    print(f"\n{'‚îÄ'*80}")
    print(f"üìã {nom}")
    print('‚îÄ'*80)
    print(classification_report(y_test, pred, 
                                target_names=['Faible Risque (0)', 'Haut Risque (1)'],
                                digits=4))

# =====================================================
# 7. IMPORTANCE DES FEATURES (RANDOM FOREST)
# =====================================================
print("\n" + "="*80)
print("IMPORTANCE DES FEATURES (Random Forest)")
print("="*80)

# Extraire l'importance des features
feature_importance = pd.DataFrame({
    'Feature': features_disponibles,
    'Importance': rf_model.feature_importances_
}).sort_values('Importance', ascending=False)

print("\nüìä Top 10 des features les plus importantes :\n")
print(feature_importance.head(10).to_string(index=False))

# Visualisation
plt.figure(figsize=(10, 8))
top_n = 15  # Afficher les 15 features les plus importantes
top_features = feature_importance.head(top_n)

plt.barh(range(len(top_features)), top_features['Importance'], color='teal', edgecolor='black')
plt.yticks(range(len(top_features)), top_features['Feature'])
plt.xlabel('Importance', fontsize=12, fontweight='bold')
plt.title(f'Top {top_n} Features - Random Forest', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.grid(axis='x', alpha=0.3, linestyle='--')
plt.tight_layout()
plt.savefig('etape5_feature_importance.png', dpi=300, bbox_inches='tight')
plt.show()
print("\n‚úì Graphique sauvegard√© : etape5_feature_importance.png")

# =====================================================
# 8. R√âSUM√â FINAL
# =====================================================
print("\n" + "="*80)
print("üìù R√âSUM√â DE L'ANALYSE")
print("="*80)

print(f"""
DONN√âES :
  ‚Ä¢ Dataset : {len(df_clean):,} patients
  ‚Ä¢ Features : {len(features_disponibles)} variables
  ‚Ä¢ Train/Test : 80/20 split
  
PERFORMANCE GLOBALE :
  ‚Ä¢ Meilleur Accuracy  : {meilleur_accuracy['Mod√®le']} ({meilleur_accuracy['Accuracy']:.4f})
  ‚Ä¢ Meilleur Precision : {meilleur_precision['Mod√®le']} ({meilleur_precision['Precision']:.4f})
  ‚Ä¢ Meilleur Recall    : {meilleur_recall['Mod√®le']} ({meilleur_recall['Recall']:.4f})

INTERPR√âTATION :
  ‚Ä¢ Accuracy  : Proportion totale de pr√©dictions correctes
  ‚Ä¢ Precision : Parmi les patients pr√©dits √† haut risque, combien le sont vraiment
  ‚Ä¢ Recall    : Parmi les patients r√©ellement √† haut risque, combien sont d√©tect√©s
  
RECOMMANDATION :
  Pour ce probl√®me m√©dical, le RECALL est la m√©trique la plus importante car 
  il faut minimiser les faux n√©gatifs (ne pas rater un patient √† haut risque).
  
  ‚Üí Mod√®le recommand√© : {meilleur_recall['Mod√®le']}
""")

print("\n" + "="*80)
print("‚úì ANALYSE TERMIN√âE !")
print("="*80)
print("\nFichiers g√©n√©r√©s :")
print("  ‚Ä¢ etape5_comparaison_modeles.png")
print("  ‚Ä¢ etape5_matrices_confusion.png")
print("  ‚Ä¢ etape5_feature_importance.png")

### √âtape 6: Deployez le mod√®le avec streamlit
1. Cr√©ez l'interface avec streamlit
2. Deployez dans le cloud de streamlit et donnez le lien qui permet de visualiser l'application sur internet


# <span style="color:red">DATE LIMITE DE SOUMISSION DU PROJET: 16/01/2026  √†    23H59 GMT </span>     

### <span style="color:red"> Adresse: amanvon.atta@inphb.ci</span>