In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from ucimlrepo import fetch_ucirepo

# Configuration basique de matplotlib (sans style seaborn)
plt.figure(figsize=(10, 6))
%matplotlib inline

# Chargement des données
heart_disease = fetch_ucirepo(id=45)

# Séparation des features et de la cible
X = heart_disease.data.features
y = heart_disease.data.targets

# Affichage des premières lignes
print("Aperçu des données :")
print(X.head())

# Informations sur le dataset
print("\nInformations sur le dataset :")
print(X.info())

# Statistiques descriptives
print("\nStatistiques descriptives :")
print(X.describe())

In [None]:
# Distribution de l'âge
plt.figure(figsize=(10, 6))
sns.histplot(data=X, x='age', bins=30)
plt.title('Distribution de l\'âge des patients')
plt.xlabel('Âge')
plt.ylabel('Nombre de patients')
plt.show()

# Statistiques sur l'âge
print("Statistiques sur l'âge :")
print(f"Âge moyen : {X['age'].mean():.2f} ans")
print(f"Âge médian : {X['age'].median():.2f} ans")
print(f"Écart-type : {X['age'].std():.2f} ans")
print(f"Âge minimum : {X['age'].min()} ans")
print(f"Âge maximum : {X['age'].max()} ans")

In [None]:
# Vérifions les valeurs uniques présentes dans y
print("Valeurs uniques dans la variable cible :")
print(y.value_counts())

# Vérifions les valeurs uniques pour le sexe
print("\nValeurs uniques pour le sexe :")
print(X['sex'].value_counts())

In [None]:
# Création du DataFrame combiné
df = X.copy()
df['target'] = y

# Création du mapping pour le sexe et la cible
sex_mapping = {0: 'Femme', 1: 'Homme'}
target_mapping = {0: 'Pas de maladie', 1: 'Maladie cardiaque'}

# Application des mappings
df['sex_label'] = df['sex'].map(sex_mapping)
df['target_label'] = df['target'].map(target_mapping)

# Création du graphique
plt.figure(figsize=(12, 7))

# Création du tableau croisé avec les labels
sex_disease = pd.crosstab(df['sex_label'], df['target_label'])

# Visualisation avec des couleurs appropriées
ax = sex_disease.plot(kind='bar', stacked=True, 
                     color=['#2ecc71', '#e74c3c'])  # Vert pour sain, rouge pour maladie

# Personnalisation du graphique
plt.title('Distribution des maladies cardiaques selon le sexe', 
          fontsize=14, pad=20)
plt.xlabel('Sexe', fontsize=12)
plt.ylabel('Nombre de patients', fontsize=12)
plt.legend(title='Diagnostic', bbox_to_anchor=(1.05, 1), 
          loc='upper left')
plt.xticks(rotation=0)

# Ajout des valeurs sur les barres
total = sex_disease.sum(axis=1)
for i in range(len(total)):
    plt.text(i, total[i]/2, str(total[i]), 
             ha='center', va='center')

plt.tight_layout()
plt.show()

# Statistiques détaillées
print("\nStatistiques détaillées par sexe :")
print("-" * 50)
for sex in ['Femme', 'Homme']:
    print(f"\nPour les {sex}s :")
    subset = df[df['sex_label'] == sex]
    total = len(subset)
    malades = len(subset[subset['target'] == 1])
    pourcentage = (malades / total) * 100
    print(f"Nombre total : {total}")
    print(f"Nombre de malades : {malades}")
    print(f"Pourcentage de malades : {pourcentage:.1f}%")

In [None]:
# Vérifions la structure de nos données
print("Structure de X :")
print(X.columns)
print("\nType de y :")
print(type(y))
print("\nContenu de y (premières valeurs) :")
print(y)

In [None]:
# Création du DataFrame combiné de manière plus robuste
df = X.copy()
df['target'] = y.values if hasattr(y, 'values') else y

# Mappings pour les labels
sex_mapping = {0: 'Femme', 1: 'Homme'}
target_mapping = {0: 'Pas de maladie', 1: 'Maladie cardiaque'}
cp_mapping = {
    0: 'Angine typique',
    1: 'Angine atypique',
    2: 'Douleur non angineuse',
    3: 'Asymptomatique'
}

# Création du graphique
plt.figure(figsize=(12, 7))

# Création du tableau croisé
cp_disease = pd.crosstab(df['cp'], df['target'])

# Visualisation
ax = cp_disease.plot(kind='bar', 
                    color=['#2ecc71', '#e74c3c'])

plt.title('Types de douleur thoracique vs Maladie cardiaque',
          fontsize=14, pad=20)
plt.xlabel('Type de douleur thoracique', fontsize=12)
plt.ylabel('Nombre de patients', fontsize=12)
plt.legend(['Pas de maladie', 'Maladie cardiaque'],
          title='Diagnostic')

# Ajout des étiquettes plus explicatives
plt.xticks(range(4), 
          ['Angine typique', 'Angine atypique', 
           'Douleur non angineuse', 'Asymptomatique'],
          rotation=45)

plt.tight_layout()
plt.show()

# Statistiques détaillées avec gestion des cas où total = 0
print("\nStatistiques par type de douleur thoracique :")
print("-" * 60)
for cp_type in range(4):
    subset = df[df['cp'] == cp_type]
    total = len(subset)
    
    # Vérification si le sous-ensemble n'est pas vide
    if total > 0:
        malades = sum(subset['target'] == 1)
        pourcentage = (malades / total) * 100
        print(f"\nType {cp_type} ({cp_mapping[cp_type]}) :")
        print(f"Nombre total de patients : {total}")
        print(f"Nombre de patients malades : {malades}")
        print(f"Pourcentage de malades : {pourcentage:.1f}%")
    else:
        print(f"\nType {cp_type} ({cp_mapping[cp_type]}) :")
        print("Aucun patient dans cette catégorie")

In [None]:
# Création d'une figure pour les trois analyses
plt.figure(figsize=(15, 5))

# 1. Pression artérielle
plt.subplot(1, 3, 1)
sns.boxplot(x=df['target'].map({0:'Sain', 1:'Malade'}), 
            y=df['trestbps'], 
            palette=['#2ecc71', '#e74c3c'])
plt.title('Pression artérielle selon le diagnostic')
plt.xlabel('Diagnostic')
plt.ylabel('Pression artérielle (mm Hg)')

# 2. Cholestérol
plt.subplot(1, 3, 2)
sns.boxplot(x=df['target'].map({0:'Sain', 1:'Malade'}), 
            y=df['chol'], 
            palette=['#2ecc71', '#e74c3c'])
plt.title('Cholestérol selon le diagnostic')
plt.xlabel('Diagnostic')
plt.ylabel('Cholestérol (mg/dl)')

# 3. Fréquence cardiaque maximale
plt.subplot(1, 3, 3)
sns.boxplot(x=df['target'].map({0:'Sain', 1:'Malade'}), 
            y=df['thalach'], 
            palette=['#2ecc71', '#e74c3c'])
plt.title('Fréquence cardiaque max selon le diagnostic')
plt.xlabel('Diagnostic')
plt.ylabel('Fréquence cardiaque max')

plt.tight_layout()
plt.show()

# Statistiques détaillées avec gestion d'erreurs
print("\nStatistiques détaillées par variable :")
print("-" * 60)

variables = {
    'trestbps': 'Pression artérielle',
    'chol': 'Cholestérol',
    'thalach': 'Fréquence cardiaque max'
}

for var_code, var_name in variables.items():
    print(f"\n{var_name} :")
    print("-" * 30)
    
    for target in [0, 1]:
        status = "Patients sains" if target == 0 else "Patients malades"
        subset = df[df['target'] == target][var_code]
        
        print(f"\n{status} :")
        if not subset.empty:
            print(f"Nombre de patients : {len(subset)}")
            print(f"Moyenne : {subset.mean():.2f}")
            print(f"Médiane : {subset.median():.2f}")
            print(f"Écart-type : {subset.std():.2f}")
            print(f"Minimum : {subset.min():.2f}")
            print(f"Maximum : {subset.max():.2f}")
        else:
            print("Aucune donnée disponible")

In [None]:
# Importation des bibliothèques nécessaires
import scipy.stats as stats

# Création du graphique pour la glycémie à jeun
plt.figure(figsize=(10, 6))

# Création du tableau croisé
fbs_disease = pd.crosstab(df['fbs'], df['target'])

# Visualisation avec des barres
ax = fbs_disease.plot(kind='bar', color=['#2ecc71', '#e74c3c'])

plt.title('Distribution des maladies cardiaques selon la glycémie à jeun', 
          fontsize=12, pad=20)
plt.xlabel('Glycémie à jeun > 120 mg/dl', fontsize=10)
plt.ylabel('Nombre de patients', fontsize=10)
plt.legend(['Pas de maladie', 'Maladie cardiaque'], title='Diagnostic')
plt.xticks([0, 1], ['Non (≤120)', 'Oui (>120)'], rotation=0)

# Ajout des valeurs sur les barres
for i in ax.containers:
    ax.bar_label(i)

plt.tight_layout()
plt.show()

# Statistiques détaillées
print("\nAnalyse de la glycémie à jeun :")
print("-" * 50)

for fbs_value in [0, 1]:
    subset = df[df['fbs'] == fbs_value]
    total = len(subset)
    malades = sum(subset['target'] == 1)
    
    if total > 0:
        pourcentage = (malades / total) * 100
        status = "≤120 mg/dl" if fbs_value == 0 else ">120 mg/dl"
        print(f"\nPatients avec glycémie à jeun {status} :")
        print(f"Nombre total de patients : {total}")
        print(f"Nombre de patients malades : {malades}")
        print(f"Pourcentage de malades : {pourcentage:.1f}%")

# Test statistique (Chi-2 car variables catégorielles)
contingency_table = pd.crosstab(df['fbs'], df['target'])
chi2, p_value = stats.chi2_contingency(contingency_table)[:2]

print("\nTest statistique (Chi-2) :")
print(f"p-value : {p_value:.4f}")
print(f"Association statistiquement significative : {'Oui' if p_value < 0.05 else 'Non'}")

In [None]:
# Création du graphique pour l'angine induite par l'exercice
plt.figure(figsize=(10, 6))

# Création du tableau croisé
exang_disease = pd.crosstab(df['exang'], df['target'])

# Visualisation avec des barres
ax = exang_disease.plot(kind='bar', color=['#2ecc71', '#e74c3c'])

plt.title('Distribution des maladies cardiaques selon l\'angine induite par l\'exercice', 
          fontsize=12, pad=20)
plt.xlabel('Angine induite par l\'exercice', fontsize=10)
plt.ylabel('Nombre de patients', fontsize=10)
plt.legend(['Pas de maladie', 'Maladie cardiaque'], title='Diagnostic')
plt.xticks([0, 1], ['Non', 'Oui'], rotation=0)

# Ajout des valeurs sur les barres
for i in ax.containers:
    ax.bar_label(i)

plt.tight_layout()
plt.show()

# Statistiques détaillées
print("\nAnalyse de l'angine induite par l'exercice :")
print("-" * 50)

for exang_value in [0, 1]:
    subset = df[df['exang'] == exang_value]
    total = len(subset)
    malades = sum(subset['target'] == 1)
    
    if total > 0:
        pourcentage = (malades / total) * 100
        status = "sans angine d'effort" if exang_value == 0 else "avec angine d'effort"
        print(f"\nPatients {status} :")
        print(f"Nombre total de patients : {total}")
        print(f"Nombre de patients malades : {malades}")
        print(f"Pourcentage de malades : {pourcentage:.1f}%")

# Test statistique Chi-2
contingency_table = pd.crosstab(df['exang'], df['target'])
chi2, p_value = stats.chi2_contingency(contingency_table)[:2]

print("\nTest statistique (Chi-2) :")
print(f"p-value : {p_value:.4f}")
print(f"Association statistiquement significative : {'Oui' if p_value < 0.05 else 'Non'}")

# Calcul du rapport de risque
print("\nRapport de risque :")
with_exang = (df[df['exang'] == 1]['target'] == 1).mean()
without_exang = (df[df['exang'] == 0]['target'] == 1).mean()
risk_ratio = with_exang / without_exang if without_exang > 0 else "Non calculable"
print(f"Les patients avec angine d'effort ont {risk_ratio:.2f} fois plus de risque d'avoir une maladie cardiaque")

In [None]:
# 1. Import des bibliothèques
from sklearn.model_selection import GridSearchCV

# 2. Définition des grilles de paramètres simplifiées
param_grids = {
    'Logistic Regression': {
        'classifier__C': [0.1, 1, 10],
    },
    'KNN': {
        'classifier__n_neighbors': [3, 5, 7],
        'classifier__weights': ['uniform', 'distance']
    },
    'Random Forest': {
        'classifier__n_estimators': [100, 200],
        'classifier__max_depth': [10, 20, None],
    }
}

# 3. Fonction d'évaluation corrigée
def evaluate_model(y_true, y_pred, y_pred_proba=None):
    results = {
        'Accuracy': accuracy_score(y_true, y_pred),
        'Precision': precision_score(y_true, y_pred, average='weighted', zero_division=0),
        'Recall': recall_score(y_true, y_pred, average='weighted', zero_division=0),
        'F1-Score': f1_score(y_true, y_pred, average='weighted', zero_division=0)
    }
    return results

# 4. Optimisation des modèles sélectionnés
optimized_results = {}
print("\nOptimisation des modèles :")
print("-" * 50)

for name in ['Logistic Regression', 'KNN', 'Random Forest']:
    print(f"\nOptimisation du modèle : {name}")
    
    # Création du pipeline
    pipeline = create_pipeline(models[name].named_steps['classifier'])
    
    # GridSearchCV
    grid_search = GridSearchCV(
        pipeline,
        param_grids[name],
        cv=5,
        scoring='accuracy',
        n_jobs=-1
    )
    
    # Entraînement
    grid_search.fit(X_train, y_train)
    
    # Évaluation du meilleur modèle
    y_pred = grid_search.predict(X_test)
    model_results = evaluate_model(y_test, y_pred)
    optimized_results[name] = model_results
    
    print(f"\nMeilleurs paramètres pour {name}:")
    print(grid_search.best_params_)
    print(f"Meilleur score CV: {grid_search.best_score_:.4f}")
    print("\nPerformances sur l'ensemble de test:")
    for metric, value in model_results.items():
        print(f"{metric}: {value:.4f}")

# 5. Affichage des résultats comparatifs
results_df = pd.DataFrame(optimized_results).round(4)
print("\nComparaison des modèles optimisés :")
print(results_df)

# 6. Visualisation
plt.figure(figsize=(10, 6))
results_df.plot(kind='bar', rot=45)
plt.title('Comparaison des modèles optimisés')
plt.xlabel('Métriques')
plt.ylabel('Score')
plt.legend(title='Modèles', bbox_to_anchor=(1.05, 1))
plt.tight_layout()
plt.show()

In [None]:
from sklearn.linear_model import LogisticRegression
import joblib

# Dans votre notebook
best_model = LogisticRegression()  # Votre meilleur modèle optimisé
joblib.dump(best_model, 'best_model.joblib')

In [None]:
# Dans votre notebook de modélisation
import pickle
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier  # On va utiliser Random Forest comme exemple

# 1. Création du pipeline final
final_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(
        n_estimators=200,
        max_depth=10,
        random_state=42
    ))
])

# 2. Entraînement sur toutes les données
final_pipeline.fit(X, y)

# 3. Sauvegarde du scaler (après l'avoir ajusté sur toutes les données)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 4. Sauvegarde des fichiers
# Sauvegarder le modèle
pickle.dump(final_pipeline, open('model.pkl', 'wb'))
# Sauvegarder le scaler
pickle.dump(scaler, open('scaler.pkl', 'wb'))

In [64]:
# Version corrigée de train_model.py
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
import pickle
from ucimlrepo import fetch_ucirepo

# Chargement des données
heart_disease = fetch_ucirepo(id=45) 
X = heart_disease.data.features 
y = heart_disease.data.targets.values.ravel()

# Création du pipeline avec des paramètres ajustés pour réduire le surapprentissage
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler()),
    ('classifier', GradientBoostingClassifier(
        n_estimators=100,
        learning_rate=0.05,  # Réduit pour éviter le surapprentissage
        max_depth=3,         # Réduit pour éviter le surapprentissage
        min_samples_split=5, # Augmenté pour plus de généralisation
        min_samples_leaf=3,  # Ajouté pour plus de généralisation
        subsample=0.8,
        random_state=42
    ))
])

# Division des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Entraînement
pipeline.fit(X_train, y_train)

# Évaluation
train_score = pipeline.score(X_train, y_train)
test_score = pipeline.score(X_test, y_test)
print(f"Score sur l'ensemble d'entraînement : {train_score:.3f}")
print(f"Score sur l'ensemble de test : {test_score:.3f}")

# Importance des features
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': pipeline.named_steps['classifier'].feature_importances_
})
print("\nImportance des features :")
print(feature_importance.sort_values('importance', ascending=False))

# Sauvegarde du modèle uniquement
with open('model.pkl', 'wb') as file:
    pickle.dump(pipeline, file)

# Stockage des features importantes dans une variable globale
FEATURE_IMPORTANCE = feature_importance.sort_values('importance', ascending=False)

Score sur l'ensemble d'entraînement : 0.983
Score sur l'ensemble de test : 0.541

Importance des features :
     feature  importance
7    thalach    0.147481
11        ca    0.122218
9    oldpeak    0.120803
12      thal    0.120743
4       chol    0.113473
0        age    0.103226
3   trestbps    0.094998
2         cp    0.065881
1        sex    0.034462
8      exang    0.028527
10     slope    0.020114
6    restecg    0.014429
5        fbs    0.013645


In [65]:
# Dans votre notebook de modélisation
import pickle
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier  # On va utiliser Random Forest comme exemple

# 1. Création du pipeline final
final_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(
        n_estimators=200,
        max_depth=10,
        random_state=42
    ))
])

# 2. Entraînement sur toutes les données
final_pipeline.fit(X, y)

# 3. Sauvegarde du scaler (après l'avoir ajusté sur toutes les données)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 4. Sauvegarde des fichiers
# Sauvegarder le modèle
pickle.dump(final_pipeline, open('model.pkl', 'wb'))
# Sauvegarder le scaler
pickle.dump(scaler, open('scaler.pkl', 'wb'))

In [10]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from ucimlrepo import fetch_ucirepo
import pickle

# Chargement des données
print("Chargement des données...")
heart_disease = fetch_ucirepo(id=45) 
X = heart_disease.data.features 
y = heart_disease.data.targets.values.ravel()

# Division des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Paramètres optimisés pour Random Forest
rf_params = {
    'n_estimators': 200,
    'max_depth': 10,
    'min_samples_split': 5,
    'min_samples_leaf': 2,
    'max_features': 'sqrt',
    'class_weight': 'balanced',
    'random_state': 42
}

# Création des pipelines avec paramètres optimisés
models = {
    "Logistic Regression": Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler()),
        ('classifier', LogisticRegression(C=1.0, class_weight='balanced', random_state=42))
    ]),
    "KNN": Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler()),
        ('classifier', KNeighborsClassifier(n_neighbors=5, weights='distance'))
    ]),
    "SVM": Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler()),
        ('classifier', SVC(probability=True, class_weight='balanced', random_state=42))
    ]),
    "Decision Tree": Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler()),
        ('classifier', DecisionTreeClassifier(max_depth=5, class_weight='balanced', random_state=42))
    ]),
    "Random Forest": Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler()),
        ('classifier', RandomForestClassifier(**rf_params))
    ]),
    "AdaBoost": Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler()),
        ('classifier', AdaBoostClassifier(
            estimator=DecisionTreeClassifier(max_depth=3),
            n_estimators=100,
            learning_rate=0.1,
            algorithm='SAMME',
            random_state=42
        ))
    ])
}

def evaluate_model(y_true, y_pred, y_proba):
    """Évaluation avec gestion des cas limites"""
    return {
        "Accuracy": accuracy_score(y_true, y_pred),
        "Precision": precision_score(y_true, y_pred, average='weighted', zero_division=0),
        "Recall": recall_score(y_true, y_pred, average='weighted', zero_division=0),
        "F1-Score": f1_score(y_true, y_pred, average='weighted', zero_division=0),
        "AUC-ROC": roc_auc_score(y_true, y_proba, multi_class='ovr')
    }

# Entraînement et évaluation
results = {}
print("\nÉvaluation des modèles avec validation croisée :")
print("-" * 50)

for name, pipeline in models.items():
    print(f"\nEntraînement de {name}...")
    
    # Validation croisée
    cv_scores = cross_val_score(pipeline, X, y, cv=5, scoring='f1_weighted')
    print(f"Scores CV (F1): {cv_scores.mean():.3f} (+/- {cv_scores.std() * 2:.3f})")
    
    # Entraînement sur l'ensemble complet
    pipeline.fit(X_train, y_train)
    
    # Prédictions
    y_pred = pipeline.predict(X_test)
    y_proba = pipeline.predict_proba(X_test)
    
    # Évaluation
    results[name] = evaluate_model(y_test, y_pred, y_proba)

# Affichage des résultats
print("\nRésultats de l'évaluation finale :")
print("-" * 50)
results_df = pd.DataFrame(results).round(3)
print(results_df)

# Identification du meilleur modèle
best_model_name = max(results.items(), key=lambda x: x[1]['F1-Score'])[0]
print(f"\nMeilleur modèle (F1-Score) : {best_model_name}")

# Sauvegarde du meilleur modèle
best_model = models[best_model_name]
with open('best_model.pkl', 'wb') as file:
    pickle.dump(best_model, file)

# Affichage des paramètres du meilleur modèle
print(f"\nParamètres du meilleur modèle :")
best_classifier = best_model.named_steps['classifier']
print(best_classifier.get_params())

# Sauvegarde des résultats
results_df.to_csv('model_results.csv')
print("\nRésultats sauvegardés dans 'model_results.csv'")

Chargement des données...

Évaluation des modèles avec validation croisée :
--------------------------------------------------

Entraînement de Logistic Regression...
Scores CV (F1): 0.541 (+/- 0.087)

Entraînement de KNN...
Scores CV (F1): 0.550 (+/- 0.075)

Entraînement de SVM...
Scores CV (F1): 0.538 (+/- 0.019)

Entraînement de Decision Tree...
Scores CV (F1): 0.443 (+/- 0.069)

Entraînement de Random Forest...
Scores CV (F1): 0.550 (+/- 0.110)

Entraînement de AdaBoost...
Scores CV (F1): 0.528 (+/- 0.064)

Résultats de l'évaluation finale :
--------------------------------------------------
           Logistic Regression    KNN    SVM  Decision Tree  Random Forest  \
Accuracy                 0.574  0.492  0.557          0.525          0.574   
Precision                0.619  0.445  0.630          0.579          0.553   
Recall                   0.574  0.492  0.557          0.525          0.574   
F1-Score                 0.592  0.467  0.577          0.524          0.562   
AUC-ROC

In [13]:
from sklearn.model_selection import GridSearchCV

# Définition des grilles de paramètres pour chaque modèle
param_grids = {
    "Logistic Regression": {
        'classifier__C': [0.01, 0.1, 1, 10],
        'classifier__penalty': ['l1', 'l2'],
        'classifier__solver': ['liblinear', 'saga']
    },
    "KNN": {
        'classifier__n_neighbors': [3, 5, 7, 9],
        'classifier__weights': ['uniform', 'distance'],
        'classifier__metric': ['euclidean', 'manhattan']
    },
    "Random Forest": {
        'classifier__n_estimators': [100, 200],
        'classifier__max_depth': [5, 10, None],
        'classifier__min_samples_split': [2, 5],
        'classifier__min_samples_leaf': [1, 2],
        'classifier__max_features': ['sqrt', 'log2']
    }
}

# Fonction d'optimisation
def optimize_model(pipeline, param_grid, X, y):
    grid_search = GridSearchCV(
        pipeline,
        param_grid,
        cv=5,
        scoring='f1_weighted',
        n_jobs=-1,
        verbose=1
    )
    grid_search.fit(X, y)
    return grid_search.best_estimator_, grid_search.best_params_, grid_search.best_score_

# Optimisation des trois meilleurs modèles
best_models = {}
for name in ["Logistic Regression", "KNN", "Random Forest"]:
    print(f"\nOptimisation de {name}...")
    best_model, best_params, best_score = optimize_model(
        models[name],
        param_grids[name],
        X,
        y
    )
    best_models[name] = {
        'model': best_model,
        'params': best_params,
        'score': best_score
    }
    print(f"Meilleur score pour {name}: {best_score:.3f}")
    print(f"Meilleurs paramètres: {best_params}")

# Sélection du meilleur modèle optimisé
best_model_name = max(best_models.items(), key=lambda x: x[1]['score'])[0]
best_model = best_models[best_model_name]['model']

# À la fin, assurez-vous que cette partie est exécutée
print("Sauvegarde du meilleur modèle...")
with open('best_model_optimized.pkl', 'wb') as file:
    pickle.dump(best_model, file)
print("Modèle sauvegardé avec succès!")

print(f"\nMeilleur modèle après optimisation : {best_model_name}")
print(f"Score F1 : {best_models[best_model_name]['score']:.3f}")


Optimisation de Logistic Regression...
Fitting 5 folds for each of 16 candidates, totalling 80 fits
Meilleur score pour Logistic Regression: 0.554
Meilleurs paramètres: {'classifier__C': 0.1, 'classifier__penalty': 'l2', 'classifier__solver': 'liblinear'}

Optimisation de KNN...
Fitting 5 folds for each of 16 candidates, totalling 80 fits
Meilleur score pour KNN: 0.550
Meilleurs paramètres: {'classifier__metric': 'euclidean', 'classifier__n_neighbors': 5, 'classifier__weights': 'distance'}

Optimisation de Random Forest...
Fitting 5 folds for each of 48 candidates, totalling 240 fits
Meilleur score pour Random Forest: 0.577
Meilleurs paramètres: {'classifier__max_depth': 5, 'classifier__max_features': 'sqrt', 'classifier__min_samples_leaf': 2, 'classifier__min_samples_split': 5, 'classifier__n_estimators': 100}
Sauvegarde du meilleur modèle...
Modèle sauvegardé avec succès!

Meilleur modèle après optimisation : Random Forest
Score F1 : 0.577


In [16]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, make_scorer, precision_score, recall_score, f1_score
from ucimlrepo import fetch_ucirepo
import pickle

# Chargement des données
heart_disease = fetch_ucirepo(id=45) 
X = heart_disease.data.features 
y = heart_disease.data.targets.values.ravel()

# Division des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Création du pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(random_state=42))
])

# Paramètres de recherche optimisés
param_grid = {
    'classifier__n_estimators': [200, 300],
    'classifier__max_depth': [10, 15],
    'classifier__min_samples_split': [5, 10],
    'classifier__min_samples_leaf': [2, 4],
    'classifier__class_weight': ['balanced'],
    'classifier__max_features': ['sqrt']
}

# Définition des métriques personnalisées
scoring = {
    'precision': make_scorer(precision_score, zero_division=0, average='weighted'),
    'recall': make_scorer(recall_score, zero_division=0, average='weighted'),
    'f1': make_scorer(f1_score, zero_division=0, average='weighted')
}

# Recherche des meilleurs paramètres avec validation croisée
grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=5,
    scoring=scoring,
    refit='f1',  # Optimise pour le score F1
    n_jobs=-1,
    verbose=1
)

print("Optimisation du modèle...")
grid_search.fit(X_train, y_train)

# Évaluation du modèle
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

print("\nMeilleurs paramètres:", grid_search.best_params_)
print("\nRapport de classification:")
print(classification_report(y_test, y_pred, zero_division=0))
print("\nMatrice de confusion:")
print(confusion_matrix(y_test, y_pred))

# Calcul des probabilités sur l'ensemble de test
y_proba = best_model.predict_proba(X_test)

# Analyse des erreurs
errors = X_test[y_test != y_pred]
print("\nAnalyse des erreurs:")
print(f"Nombre d'erreurs: {len(errors)}")

# Importance des features
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': best_model.named_steps['classifier'].feature_importances_
})
print("\nImportance des features:")
print(feature_importance.sort_values('importance', ascending=False))

# Sauvegarde du modèle
with open('best_model_optimized.pkl', 'wb') as file:
    pickle.dump(best_model, file)

# Sauvegarde des méta-informations
model_info = {
    'feature_importance': feature_importance.to_dict(),
    'best_params': grid_search.best_params_,
    'cv_results': grid_search.cv_results_
}
with open('model_info.pkl', 'wb') as file:
    pickle.dump(model_info, file)

Optimisation du modèle...
Fitting 5 folds for each of 16 candidates, totalling 80 fits

Meilleurs paramètres: {'classifier__class_weight': 'balanced', 'classifier__max_depth': 10, 'classifier__max_features': 'sqrt', 'classifier__min_samples_leaf': 4, 'classifier__min_samples_split': 10, 'classifier__n_estimators': 300}

Rapport de classification:
              precision    recall  f1-score   support

           0       0.94      0.88      0.91        33
           1       0.44      0.36      0.40        11
           2       0.20      0.14      0.17         7
           3       0.23      0.43      0.30         7
           4       0.00      0.00      0.00         3

    accuracy                           0.61        61
   macro avg       0.36      0.36      0.35        61
weighted avg       0.64      0.61      0.62        61


Matrice de confusion:
[[29  3  1  0  0]
 [ 2  4  0  4  1]
 [ 0  2  1  3  1]
 [ 0  0  3  3  1]
 [ 0  0  0  3  0]]

Analyse des erreurs:
Nombre d'erreurs: 24

Impo

In [25]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from imblearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from ucimlrepo import fetch_ucirepo
import pickle

# Chargement des données
print("Chargement des données...")
heart_disease = fetch_ucirepo(id=45) 
X = heart_disease.data.features 
# Conversion en classification binaire : 0 pour sain, 1 pour tout type de maladie
y = (heart_disease.data.targets.values.ravel() > 0).astype(int)

# Division des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Création des classificateurs
clf = GradientBoostingClassifier(
    n_estimators=300,
    learning_rate=0.1,
    max_depth=5,
    subsample=0.8,
    random_state=42
)

# Pipeline avec SMOTE
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler()),
    ('sampler', SMOTE(random_state=42)),
    ('classifier', clf)
])

# Entraînement
print("Entraînement du modèle...")
pipeline.fit(X_train, y_train)

# Évaluation
print("Évaluation du modèle...")
y_pred = pipeline.predict(X_test)
y_proba = pipeline.predict_proba(X_test)[:, 1]

# Affichage des résultats
print("\nRapport de classification :")
print(classification_report(y_test, y_pred))

print("\nMatrice de confusion :")
conf_matrix = confusion_matrix(y_test, y_pred)
print(conf_matrix)

print(f"\nScore AUC-ROC : {roc_auc_score(y_test, y_proba):.3f}")

# Importance des features
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': pipeline.named_steps['classifier'].feature_importances_
}).sort_values('importance', ascending=False)

print("\nImportance des features :")
print(feature_importance)

# Analyse détaillée
print("\nAnalyse des prédictions :")
for i in [0, 1]:
    mask = y_test == i
    if mask.any():
        probas = y_proba[mask]
        print(f"\nClasse {i} ({'Sain' if i == 0 else 'Malade'}):")
        print(f"Nombre d'échantillons : {mask.sum()}")
        print(f"Précision : {(y_pred[mask] == i).mean():.3f}")
        print(f"Probabilité moyenne : {probas.mean():.3f}")
        print(f"Confiance (écart-type) : {probas.std():.3f}")

# Sauvegarde
print("\nSauvegarde du modèle...")
with open('best_model_optimized.pkl', 'wb') as file:
    pickle.dump(pipeline, file)

model_info = {
    'feature_importance': feature_importance.to_dict(),
    'binary_conversion': True,
    'feature_names': X.columns.tolist()
}
with open('model_info.pkl', 'wb') as file:
    pickle.dump(model_info, file)

print("Terminé!")

Chargement des données...
Entraînement du modèle...
Évaluation du modèle...

Rapport de classification :
              precision    recall  f1-score   support

           0       0.93      0.85      0.89        33
           1       0.84      0.93      0.88        28

    accuracy                           0.89        61
   macro avg       0.89      0.89      0.89        61
weighted avg       0.89      0.89      0.89        61


Matrice de confusion :
[[28  5]
 [ 2 26]]

Score AUC-ROC : 0.951

Importance des features :
     feature  importance
12      thal    0.221454
2         cp    0.153583
11        ca    0.105273
0        age    0.095498
4       chol    0.091347
7    thalach    0.084317
3   trestbps    0.083937
9    oldpeak    0.071607
1        sex    0.041719
10     slope    0.019401
8      exang    0.016845
6    restecg    0.009212
5        fbs    0.005808

Analyse des prédictions :

Classe 0 (Sain):
Nombre d'échantillons : 33
Précision : 0.848
Probabilité moyenne : 0.209
Confian