<a href="https://colab.research.google.com/gist/maclandrol/3fb46061789b5414445e2992988a4dab/02_Python_Outils_Medicaux.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 02. Python : Outils pour l'Analyse M√©dicale

**Enseignant:** Emmanuel Noutahi, PhD

---

**Objectif:** Analyser un vrai dataset m√©dical pour pr√©dire les maladies cardiaques.

**Ce que vous allez apprendre :**
- Charger et explorer des donn√©es m√©dicales r√©elles
- Identifier les facteurs de risque cardiovasculaire
- Cr√©er des visualisations m√©dicales
- Construire un mod√®le pr√©dictif simple

**Dataset:** Cleveland Heart Disease (303 patients, 14 caract√©ristiques cliniques)

**Important:** Vous apprenez √† utiliser des outils d'analyse, pas √† devenir programmeur.

## Configuration et Installation

In [None]:
# Installation des biblioth√®ques n√©cessaires pour Google Colab
!pip install pandas numpy matplotlib seaborn scikit-learn -q

# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.metrics import precision_score, recall_score, f1_score
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("‚úÖ Biblioth√®ques install√©es et configur√©es avec succ√®s")

## Chargement des Donn√©es

In [None]:
# Charger le dataset Heart Disease depuis UCI Repository
# URL directe vers les donn√©es
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data'

# Noms des colonnes selon la documentation UCI
column_names = [
    'age',        # √Çge
    'sex',        # Sexe (1 = masculin, 0 = f√©minin)
    'cp',         # Type de douleur thoracique
    'trestbps',   # Pression art√©rielle au repos
    'chol',       # Cholest√©rol s√©rique
    'fbs',        # Glyc√©mie √† jeun > 120 mg/dl
    'restecg',    # R√©sultats ECG au repos
    'thalach',    # Fr√©quence cardiaque maximale
    'exang',      # Angine induite par l'exercice
    'oldpeak',    # D√©pression ST
    'slope',      # Pente du segment ST
    'ca',         # Nombre de vaisseaux color√©s
    'thal',       # Thalass√©mie
    'target'      # Diagnostic (0 = pas de maladie, >0 = maladie)
]

try:
    # Charger les donn√©es
    df = pd.read_csv(url, names=column_names, na_values='?')
    
    # Convertir la cible en binaire (0 = pas de maladie, 1 = maladie)
    df['target'] = (df['target'] > 0).astype(int)
    
    print("‚úÖ Dataset charg√© avec succ√®s depuis UCI Repository")
    
except Exception as e:
    print(f"‚ö†Ô∏è Erreur lors du chargement: {e}")
    print("Cr√©ation d'un dataset d'exemple...")
    
    # Dataset de secours
    np.random.seed(42)
    n_samples = 303
    
    df = pd.DataFrame({
        'age': np.random.randint(29, 77, n_samples),
        'sex': np.random.choice([0, 1], n_samples),
        'cp': np.random.choice([0, 1, 2, 3], n_samples),
        'trestbps': np.random.randint(94, 200, n_samples),
        'chol': np.random.randint(126, 564, n_samples),
        'fbs': np.random.choice([0, 1], n_samples, p=[0.85, 0.15]),
        'restecg': np.random.choice([0, 1, 2], n_samples),
        'thalach': np.random.randint(71, 202, n_samples),
        'exang': np.random.choice([0, 1], n_samples),
        'oldpeak': np.random.uniform(0, 6.2, n_samples),
        'slope': np.random.choice([0, 1, 2], n_samples),
        'ca': np.random.choice([0, 1, 2, 3], n_samples),
        'thal': np.random.choice([0, 1, 2, 3], n_samples),
        'target': np.random.choice([0, 1], n_samples)
    })

print(f"üìä Dataset charg√©: {df.shape[0]} patients, {df.shape[1]} variables")
print(f"üìù Premi√®res lignes:")
df.head()

## üìã Exploration des Donn√©es

In [None]:
# D√©finir les descriptions des variables en fran√ßais
descriptions = {
    'age': '√Çge (ann√©es)',
    'sex': 'Sexe (0=Femme, 1=Homme)',
    'cp': 'Type douleur thoracique (0-3)',
    'trestbps': 'Pression art√©rielle repos (mmHg)',
    'chol': 'Cholest√©rol s√©rique (mg/dl)',
    'fbs': 'Glyc√©mie √† jeun >120 mg/dl (0=Non, 1=Oui)',
    'restecg': 'ECG au repos (0-2)',
    'thalach': 'Fr√©quence cardiaque max (bpm)',
    'exang': 'Angine d\'effort (0=Non, 1=Oui)',
    'oldpeak': 'D√©pression ST (mm)',
    'slope': 'Pente segment ST (0-2)',
    'ca': 'Nb vaisseaux color√©s (0-3)',
    'thal': 'Type thalass√©mie (0-3)',
    'target': 'Maladie cardiaque (0=Non, 1=Oui)'
}

print("üè• VARIABLES CLINIQUES:")
print("=" * 50)
for var, desc in descriptions.items():
    print(f"{var:10} : {desc}")

In [None]:
# Informations g√©n√©rales sur le dataset
print("üìà INFORMATIONS G√âN√âRALES:")
print("=" * 40)
print(f"‚Ä¢ Nombre total de patients: {len(df)}")
print(f"‚Ä¢ Nombre de variables: {df.shape[1]}")
print(f"‚Ä¢ Patients avec maladie cardiaque: {df['target'].sum()} ({df['target'].mean()*100:.1f}%)")
print(f"‚Ä¢ Patients sains: {(df['target']==0).sum()} ({(df['target']==0).mean()*100:.1f}%)")
print(f"‚Ä¢ Valeurs manquantes: {df.isnull().sum().sum()}")

# R√©partition par sexe
print("\nüë• R√âPARTITION PAR SEXE:")
sex_counts = df['sex'].value_counts()
print(f"‚Ä¢ Femmes: {sex_counts[0]} ({sex_counts[0]/len(df)*100:.1f}%)")
print(f"‚Ä¢ Hommes: {sex_counts[1]} ({sex_counts[1]/len(df)*100:.1f}%)")

# Statistiques d'√¢ge
print("\nüéÇ STATISTIQUES D'√ÇGE:")
print(f"‚Ä¢ √Çge moyen: {df['age'].mean():.1f} ans")
print(f"‚Ä¢ √Çge m√©dian: {df['age'].median():.1f} ans")
print(f"‚Ä¢ √âcart-type: {df['age'].std():.1f} ans")
print(f"‚Ä¢ √Çge min/max: {df['age'].min()}/{df['age'].max()} ans")

In [None]:
# Statistiques descriptives compl√®tes
print("üìä STATISTIQUES DESCRIPTIVES:")
print("=" * 50)
df.describe().round(2)

## üìä Visualisations des Donn√©es

In [None]:
# Vue d'ensemble des donn√©es
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Vue d\'Ensemble des Donn√©es Cardiovasculaires', fontsize=16, fontweight='bold')

# 1. Distribution de l'√¢ge par diagnostic
axes[0,0].hist([df[df['target']==0]['age'], df[df['target']==1]['age']], 
               bins=15, alpha=0.7, 
               label=['Pas de maladie', 'Maladie cardiaque'],
               color=['lightblue', 'salmon'])
axes[0,0].set_title('Distribution de l\'√Çge par Diagnostic')
axes[0,0].set_xlabel('√Çge (ann√©es)')
axes[0,0].set_ylabel('Nombre de patients')
axes[0,0].legend()
axes[0,0].grid(True, alpha=0.3)

# 2. Pression art√©rielle vs Cholest√©rol
colors = df['target'].map({0: 'lightblue', 1: 'salmon'})
axes[0,1].scatter(df['trestbps'], df['chol'], c=colors, alpha=0.6, s=50)
axes[0,1].set_title('Pression Art√©rielle vs Cholest√©rol')
axes[0,1].set_xlabel('Pression art√©rielle repos (mmHg)')
axes[0,1].set_ylabel('Cholest√©rol (mg/dl)')
axes[0,1].grid(True, alpha=0.3)

# 3. R√©partition par sexe et diagnostic
sex_target = pd.crosstab(df['sex'], df['target'], normalize='index') * 100
sex_target.plot(kind='bar', ax=axes[1,0], color=['lightblue', 'salmon'])
axes[1,0].set_title('Pourcentage de Maladie par Sexe')
axes[1,0].set_xlabel('Sexe (0=Femme, 1=Homme)')
axes[1,0].set_ylabel('Pourcentage (%)')
axes[1,0].legend(['Pas de maladie', 'Maladie cardiaque'])
axes[1,0].tick_params(axis='x', rotation=0)

# 4. Fr√©quence cardiaque maximale
box_data = [df[df['target']==0]['thalach'], df[df['target']==1]['thalach']]
bp = axes[1,1].boxplot(box_data, labels=['Pas de maladie', 'Maladie cardiaque'],
                       patch_artist=True)
bp['boxes'][0].set_facecolor('lightblue')
bp['boxes'][1].set_facecolor('salmon')
axes[1,1].set_title('Fr√©quence Cardiaque Maximale')
axes[1,1].set_ylabel('Battements par minute')
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Matrice de corr√©lation
plt.figure(figsize=(12, 10))
corr_matrix = df.corr()

# Masquer le triangle sup√©rieur
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))

# Cr√©er la heatmap
sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, fmt='.2f', cbar_kws={"shrink": .8})
plt.title('Matrice de Corr√©lation - Variables Cardiovasculaires', fontsize=14)
plt.tight_layout()
plt.show()

## üîç Analyse des Facteurs de Risque

In [None]:
# Corr√©lations avec la maladie cardiaque
print("üîó CORR√âLATIONS AVEC LA MALADIE CARDIAQUE:")
print("=" * 50)

correlations = df.corr()['target'].sort_values(key=abs, ascending=False)

for var, corr in correlations.items():
    if var != 'target':
        direction = "‚ÜóÔ∏è (positive)" if corr > 0 else "‚ÜòÔ∏è (n√©gative)"
        if abs(corr) > 0.3:
            force = "FORTE"
        elif abs(corr) > 0.1:
            force = "mod√©r√©e"
        else:
            force = "faible"
        
        print(f"{var:12} : {corr:+.3f} {direction} - corr√©lation {force}")
        print(f"             {descriptions[var]}")
        print()

In [None]:
# Comparaison des moyennes entre patients sains et malades
print("üìä COMPARAISON PATIENTS SAINS vs MALADES:")
print("=" * 50)

variables_continues = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']

for var in variables_continues:
    sains = df[df['target'] == 0][var]
    malades = df[df['target'] == 1][var]
    
    print(f"\n{descriptions[var]}:")
    print(f"  Patients sains    : {sains.mean():.1f} ¬± {sains.std():.1f}")
    print(f"  Patients malades  : {malades.mean():.1f} ¬± {malades.std():.1f}")
    
    difference = malades.mean() - sains.mean()
    print(f"  Diff√©rence        : {difference:+.1f}")
    
    # Test statistique simple (diff√©rence significative ?)
    from scipy import stats
    try:
        t_stat, p_value = stats.ttest_ind(malades, sains)
        significance = "***" if p_value < 0.001 else "**" if p_value < 0.01 else "*" if p_value < 0.05 else "ns"
        print(f"  Significativit√©   : {significance} (p={p_value:.3f})")
    except:
        print(f"  Test statistique  : Non disponible")

## ü§ñ Construction du Mod√®le Pr√©dictif

In [None]:
# Pr√©paration des donn√©es pour le mod√®le
print("üîß PR√âPARATION DES DONN√âES:")
print("=" * 30)

# Nettoyer les valeurs manquantes
df_clean = df.dropna()
print(f"Patients apr√®s nettoyage: {len(df_clean)} (supprim√©s: {len(df) - len(df_clean)})")

# S√©parer les variables explicatives (X) de la variable cible (y)
X = df_clean.drop('target', axis=1)
y = df_clean['target']

print(f"Variables explicatives: {X.shape[1]}")
print(f"√âchantillons: {X.shape[0]}")
print(f"Cas positifs (maladie): {y.sum()} ({y.mean()*100:.1f}%)")
print(f"Cas n√©gatifs (sains): {(y==0).sum()} ({(y==0).mean()*100:.1f}%)")

# Division en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nDonn√©es d'entra√Ænement: {len(X_train)} patients")
print(f"Donn√©es de test: {len(X_test)} patients")
print(f"Ratio train/test: {len(X_train)/len(X_test):.1f}:1")

In [None]:
# Entra√Ænement du mod√®le Random Forest
print("üå≥ ENTRA√éNEMENT DU MOD√àLE RANDOM FOREST:")
print("=" * 40)

# Cr√©er et configurer le mod√®le
modele = RandomForestClassifier(
    n_estimators=100,    # Nombre d'arbres
    max_depth=10,        # Profondeur maximale
    random_state=42,     # Pour la reproductibilit√©
    min_samples_split=5, # Minimum d'√©chantillons pour diviser
    min_samples_leaf=2   # Minimum d'√©chantillons par feuille
)

# Entra√Æner le mod√®le
modele.fit(X_train, y_train)

print("‚úÖ Mod√®le entra√Æn√© avec succ√®s!")
print(f"Nombre d'arbres: {modele.n_estimators}")
print(f"Variables utilis√©es: {len(X.columns)}")

## üìà √âvaluation des Performances

In [None]:
# Pr√©dictions sur les ensembles d'entra√Ænement et de test
y_pred_train = modele.predict(X_train)
y_pred_test = modele.predict(X_test)

# Calcul des m√©triques
accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_test = accuracy_score(y_test, y_pred_test)

precision_test = precision_score(y_test, y_pred_test)
recall_test = recall_score(y_test, y_pred_test)
f1_test = f1_score(y_test, y_pred_test)

print("üìà PERFORMANCES DU MOD√àLE:")
print("=" * 40)
print(f"Pr√©cision entra√Ænement: {accuracy_train:.3f} ({accuracy_train*100:.1f}%)")
print(f"Pr√©cision test:         {accuracy_test:.3f} ({accuracy_test*100:.1f}%)")
print(f"\nM√©triques d√©taill√©es sur le test:")
print(f"‚Ä¢ Pr√©cision (Precision): {precision_test:.3f} ({precision_test*100:.1f}%)")
print(f"‚Ä¢ Sensibilit√© (Recall):  {recall_test:.3f} ({recall_test*100:.1f}%)")
print(f"‚Ä¢ Score F1:              {f1_test:.3f}")

# V√©rification du surapprentissage
overfitting = accuracy_train - accuracy_test
print(f"\nüéØ Analyse:")
if overfitting > 0.1:
    print(f"‚ö†Ô∏è Surapprentissage d√©tect√© (diff√©rence: {overfitting:.3f})")
elif overfitting < 0.05:
    print(f"‚úÖ Bon √©quilibre (diff√©rence: {overfitting:.3f})")
else:
    print(f"üìä √âquilibre acceptable (diff√©rence: {overfitting:.3f})")

In [None]:
# Rapport de classification d√©taill√©
print("üìã RAPPORT DE CLASSIFICATION D√âTAILL√â:")
print("=" * 50)
print(classification_report(y_test, y_pred_test, 
                          target_names=['Pas de maladie', 'Maladie cardiaque']))

In [None]:
# Matrice de confusion et m√©triques m√©dicales
cm = confusion_matrix(y_test, y_pred_test)

# Visualisation de la matrice de confusion
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Pas de maladie', 'Maladie cardiaque'],
            yticklabels=['Pas de maladie', 'Maladie cardiaque'])
plt.title('Matrice de Confusion - Pr√©diction Maladie Cardiaque')
plt.ylabel('Vraie √©tiquette')
plt.xlabel('Pr√©diction')
plt.show()

# Calcul des m√©triques m√©dicales
tn, fp, fn, tp = cm.ravel()  # True Neg, False Pos, False Neg, True Pos

sensibilite = tp / (tp + fn)  # Taux de vrais positifs (Recall)
specificite = tn / (tn + fp)  # Taux de vrais n√©gatifs
vpp = tp / (tp + fp)          # Valeur pr√©dictive positive (Precision)
vpn = tn / (tn + fn)          # Valeur pr√©dictive n√©gative

print("üè• M√âTRIQUES M√âDICALES:")
print("=" * 30)
print(f"Sensibilit√© (Se):     {sensibilite:.3f} ({sensibilite*100:.1f}%)")
print(f"Sp√©cificit√© (Sp):     {specificite:.3f} ({specificite*100:.1f}%)")
print(f"VPP:                  {vpp:.3f} ({vpp*100:.1f}%)")
print(f"VPN:                  {vpn:.3f} ({vpn*100:.1f}%)")

print(f"\nüìä Interpr√©tation clinique:")
print(f"‚Ä¢ Le mod√®le d√©tecte {sensibilite*100:.0f}% des maladies cardiaques (sensibilit√©)")
print(f"‚Ä¢ Il identifie correctement {specificite*100:.0f}% des patients sains (sp√©cificit√©)")
print(f"‚Ä¢ {vpp*100:.0f}% des patients pr√©dits malades le sont vraiment (VPP)")
print(f"‚Ä¢ {vpn*100:.0f}% des patients pr√©dits sains le sont vraiment (VPN)")

## üéØ Importance des Variables

In [None]:
# Analyser l'importance des caract√©ristiques
importances = modele.feature_importances_
feature_importance = pd.DataFrame({
    'variable': X.columns,
    'importance': importances,
    'description': [descriptions[col] for col in X.columns]
}).sort_values('importance', ascending=False)

print("üéØ IMPORTANCE DES VARIABLES M√âDICALES:")
print("=" * 50)

for i, row in feature_importance.iterrows():
    print(f"{row['variable']:12} : {row['importance']:.3f} - {row['description']}")

# Graphique d'importance
plt.figure(figsize=(12, 8))
top_features = feature_importance.head(10)
plt.barh(range(len(top_features)), top_features['importance'], 
         color='lightcoral', alpha=0.8)
plt.yticks(range(len(top_features)), 
          [f"{row['variable']}\n({row['description'][:20]}...)" 
           for _, row in top_features.iterrows()])
plt.xlabel('Importance')
plt.title('Importance des Variables pour la Pr√©diction Cardiaque')
plt.gca().invert_yaxis()
plt.grid(True, alpha=0.3, axis='x')
plt.tight_layout()
plt.show()

## üîÆ Pr√©dictions sur Nouveaux Patients

In [None]:
# Fonction pour analyser un nouveau patient
def predire_risque_cardiaque(age, sex, cp, trestbps, chol, fbs, restecg, 
                            thalach, exang, oldpeak, slope, ca, thal):
    """
    Pr√©dire le risque de maladie cardiaque pour un nouveau patient
    
    Returns:
        dict: Pr√©diction et probabilit√©
    """
    # Cr√©er le profil patient
    patient = np.array([[age, sex, cp, trestbps, chol, fbs, restecg,
                        thalach, exang, oldpeak, slope, ca, thal]])
    
    # Pr√©diction
    prediction = modele.predict(patient)[0]
    probabilites = modele.predict_proba(patient)[0]
    
    return {
        'prediction': 'Maladie cardiaque' if prediction == 1 else 'Pas de maladie',
        'probabilite_maladie': probabilites[1] * 100,
        'probabilite_sain': probabilites[0] * 100,
        'confiance': max(probabilites) * 100
    }

# Exemples de patients
print("üë• EXEMPLES DE PR√âDICTIONS:")
print("=" * 40)

# Patient 1: Homme √¢g√© avec facteurs de risque
patient1 = predire_risque_cardiaque(
    age=65, sex=1, cp=2, trestbps=160, chol=300, fbs=1, restecg=0,
    thalach=120, exang=1, oldpeak=2.5, slope=2, ca=2, thal=3
)
print(f"üë® Patient 1 - Homme 65 ans, multiples facteurs de risque:")
print(f"   Pr√©diction: {patient1['prediction']}")
print(f"   Probabilit√© maladie: {patient1['probabilite_maladie']:.1f}%")
print(f"   Confiance: {patient1['confiance']:.1f}%")

# Patient 2: Femme jeune avec peu de facteurs
patient2 = predire_risque_cardiaque(
    age=35, sex=0, cp=0, trestbps=120, chol=200, fbs=0, restecg=0,
    thalach=180, exang=0, oldpeak=0.0, slope=0, ca=0, thal=0
)
print(f"\nüë© Patient 2 - Femme 35 ans, peu de facteurs de risque:")
print(f"   Pr√©diction: {patient2['prediction']}")
print(f"   Probabilit√© maladie: {patient2['probabilite_maladie']:.1f}%")
print(f"   Confiance: {patient2['confiance']:.1f}%")

# Patient 3: Cas interm√©diaire
patient3 = predire_risque_cardiaque(
    age=50, sex=1, cp=1, trestbps=140, chol=240, fbs=0, restecg=1,
    thalach=150, exang=0, oldpeak=1.0, slope=1, ca=1, thal=2
)
print(f"\nüë§ Patient 3 - Homme 50 ans, facteurs de risque mod√©r√©s:")
print(f"   Pr√©diction: {patient3['prediction']}")
print(f"   Probabilit√© maladie: {patient3['probabilite_maladie']:.1f}%")
print(f"   Confiance: {patient3['confiance']:.1f}%")

## üéØ Outil Pratique d'Analyse

In [None]:
# Outil d'aide au diagnostic
def analyser_patient_complet(donnees_patient):
    """
    Analyser le risque cardiovasculaire d'un patient avec d√©tails
    
    Args:
        donnees_patient (dict): Donn√©es cliniques du patient
    
    Returns:
        dict: Analyse compl√®te avec recommandations
    """
    # Extraire les valeurs dans le bon ordre
    valeurs = [donnees_patient[col] for col in X.columns]
    patient_array = np.array([valeurs])
    
    # Pr√©dictions
    prediction = modele.predict(patient_array)[0]
    probas = modele.predict_proba(patient_array)[0]
    
    # Analyse des facteurs de risque
    facteurs_risque = []
    
    if donnees_patient['age'] > 55:
        facteurs_risque.append("√Çge > 55 ans")
    if donnees_patient['sex'] == 1:
        facteurs_risque.append("Sexe masculin")
    if donnees_patient['trestbps'] > 140:
        facteurs_risque.append("Hypertension (>140 mmHg)")
    if donnees_patient['chol'] > 240:
        facteurs_risque.append("Cholest√©rol √©lev√© (>240 mg/dl)")
    if donnees_patient['fbs'] == 1:
        facteurs_risque.append("Glyc√©mie √† jeun √©lev√©e")
    if donnees_patient['exang'] == 1:
        facteurs_risque.append("Angine d'effort")
    if donnees_patient['thalach'] < 120:
        facteurs_risque.append("Fr√©quence cardiaque max faible")
    
    # D√©terminer le niveau de risque
    prob_maladie = probas[1] * 100
    if prob_maladie > 70:
        niveau_risque = "TR√àS √âLEV√â"
        couleur = "üî¥"
    elif prob_maladie > 50:
        niveau_risque = "√âLEV√â"
        couleur = "üü†"
    elif prob_maladie > 30:
        niveau_risque = "MOD√âR√â"
        couleur = "üü°"
    else:
        niveau_risque = "FAIBLE"
        couleur = "üü¢"
    
    # Recommandations
    if prediction == 1:
        recommandation = "Consulter un cardiologue rapidement"
    elif prob_maladie > 30:
        recommandation = "Surveillance accrue recommand√©e"
    else:
        recommandation = "Suivi de routine"
    
    return {
        'risque': niveau_risque,
        'couleur': couleur,
        'probabilite': prob_maladie,
        'prediction': 'Maladie cardiaque' if prediction == 1 else 'Pas de maladie',
        'facteurs_risque': facteurs_risque,
        'nb_facteurs': len(facteurs_risque),
        'recommandation': recommandation
    }

# Exemple d'utilisation
exemple_patient = {
    'age': 60, 'sex': 1, 'cp': 2, 'trestbps': 150, 'chol': 280,
    'fbs': 1, 'restecg': 0, 'thalach': 130, 'exang': 1,
    'oldpeak': 1.5, 'slope': 2, 'ca': 1, 'thal': 3
}

resultat = analyser_patient_complet(exemple_patient)

print("üí° EXEMPLE D'ANALYSE COMPL√àTE:")
print("=" * 40)
print(f"{resultat['couleur']} Niveau de risque: {resultat['risque']}")
print(f"üìä Probabilit√© de maladie: {resultat['probabilite']:.1f}%")
print(f"üéØ Pr√©diction: {resultat['prediction']}")
print(f"üìã Nombre de facteurs de risque: {resultat['nb_facteurs']}")
print(f"‚ö†Ô∏è Facteurs identifi√©s:")
for facteur in resultat['facteurs_risque']:
    print(f"   ‚Ä¢ {facteur}")
print(f"üí¨ Recommandation: {resultat['recommandation']}")

## ‚úÖ R√©sum√© et Applications Pratiques

In [None]:
# R√©sum√© final de l'analyse
print("üè• R√âSUM√â DE L'ANALYSE CARDIOVASCULAIRE:")
print("=" * 50)
print(f"üìä Dataset analys√©: {len(df)} patients, {df.shape[1]} variables")
print(f"üéØ Performance du mod√®le: {accuracy_test*100:.1f}% de pr√©cision")
print(f"üî¨ Sensibilit√©: {recall_test*100:.1f}% (d√©tection des maladies)")
print(f"üõ°Ô∏è Sp√©cificit√©: {specificite*100:.1f}% (identification des sains)")

print(f"\nüîç Variables les plus importantes:")
for i, row in feature_importance.head(5).iterrows():
    print(f"   {i+1}. {row['description']} (importance: {row['importance']:.3f})")

print(f"\nüí° APPLICATIONS PRATIQUES IMM√âDIATES:")
print(f"‚úÖ Identification pr√©coce des patients √† risque cardiovasculaire")
print(f"‚úÖ Aide √† la d√©cision clinique pour les m√©decins")
print(f"‚úÖ Priorisation des consultations cardiologiques")
print(f"‚úÖ Stratification du risque pour la pr√©vention")
print(f"‚úÖ Outil de d√©pistage dans les centres de sant√©")

print(f"\n‚ö†Ô∏è IMPORTANTES LIMITATIONS:")
print(f"‚Ä¢ Ce mod√®le est √† des fins p√©dagogiques et de recherche")
print(f"‚Ä¢ Il ne remplace en aucun cas l'expertise m√©dicale")
print(f"‚Ä¢ Validation n√©cessaire sur de plus grandes cohortes")
print(f"‚Ä¢ Les r√©sultats doivent √™tre interpr√©t√©s par un m√©decin")

print(f"\nüéì COMP√âTENCES ACQUISES:")
print(f"‚úÖ Chargement et exploration de donn√©es m√©dicales r√©elles")
print(f"‚úÖ Analyse statistique des facteurs de risque")
print(f"‚úÖ Cr√©ation de visualisations m√©dicales professionnelles")
print(f"‚úÖ Construction et √©valuation d'un mod√®le pr√©dictif")
print(f"‚úÖ Interpr√©tation des m√©triques en contexte m√©dical")
print(f"‚úÖ D√©veloppement d'outils d'aide au diagnostic")

print(f"\nüéØ PROCHAINE √âTAPE:")
print(f"Dans le prochain notebook, nous analyserons des textes m√©dicaux avec l'IA!")