In [48]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
import joblib
import os

In [62]:
data = pd.read_csv(r"C:\Users\Eliezer\Projets_methode_avancee\dataset_maladies.csv")

In [64]:
data.columns

Index(['Fièvre', 'Palpitations', 'Douleurs thoraciques',
       'Troubles de la parole', 'Douleurs mammaires', 'Douleurs lombaires',
       'Tremblements', 'Perte de poids', 'Maux de tête', 'Difficulté à parler',
       'Masse mammaire', 'Essoufflement', 'Fatigue intense', 'Agitation',
       'Troubles de mémoire', 'Engourdissement', 'Troubles du sommeil',
       'Vertiges', 'Oppression thoracique', 'Douleurs musculaires',
       'Gonflement des articulations', 'Changement de la peau',
       'Raideur matinale', 'Toux persistante', 'Vision trouble',
       'Transpiration excessive', 'Douleurs articulaires', 'Jaunisse',
       'Faiblesse musculaire', 'Écoulement mammaire', 'Urination fréquente',
       'Soif excessive', 'Toux nocturne', 'Toux sèche', 'Prise de poids',
       'Désorientation', 'Sueurs nocturnes', 'Confusion',
       'Douleurs abdominales', 'Toux', 'Perte de goût ou d'odorat',
       'Humeur triste', 'Nausées', 'Perte d'intérêt', 'Sifflements',
       'Maladie'],
      dt

In [66]:
# df = data.drop(labels=['Unnamed: 0'], axis=1)

In [70]:
df = data.copy()

In [72]:
df

Unnamed: 0,Fièvre,Palpitations,Douleurs thoraciques,Troubles de la parole,Douleurs mammaires,Douleurs lombaires,Tremblements,Perte de poids,Maux de tête,Difficulté à parler,...,Sueurs nocturnes,Confusion,Douleurs abdominales,Toux,Perte de goût ou d'odorat,Humeur triste,Nausées,Perte d'intérêt,Sifflements,Maladie
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,COVID-19
1,0,1,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Cardiopathies
2,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,Hypertension artérielle
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,1,0,Dépression
4,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,Hypertension artérielle
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,0,0,0,0,0,0,0,1,0,0,...,1,0,0,0,0,0,0,0,0,Tuberculose
996,0,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,Troubles anxieux
997,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Cancer du poumon
998,0,0,0,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,0,Maladie d'Alzheimer


In [74]:
symptoms = [col for col in df.columns if col != "Maladie"]


# Séparation des données
X = df[symptoms]
y = df["Maladie"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [76]:
# Définition des modèles et hyperparamètres
models_params = {
    "RandomForest": {
        "model": RandomForestClassifier(random_state=42),
        "params": {"n_estimators": [50, 100, 200], "max_depth": [10, 20, None]}
    },
    # "SVM": {
    #     "model": SVC(probability=True, random_state=42),
    #     "params": {"C": [0.1, 1, 10], "kernel": ["linear", "rbf"]}
    # },
    # "XGBoost": {
    #     "model": XGBClassifier(use_label_encoder=False, eval_metric='mlogloss', random_state=42),
    #     "params": {"n_estimators": [50, 100, 200], "learning_rate": [0.01, 0.1, 0.2]}
    # },
    "LogisticRegression": {
        "model": LogisticRegression(max_iter=1000, random_state=42),
        "params": {"C": [0.1, 1, 10]}
    }
}

best_model = None
best_score = 0
best_model_name = ""

# Optimisation et évaluation
for name, mp in models_params.items():
    grid = GridSearchCV(mp["model"], mp["params"], cv=5, n_jobs=-1, scoring="accuracy")
    grid.fit(X_train, y_train)
    
    best_model_current = grid.best_estimator_
    predictions = best_model_current.predict(X_test)
    score = accuracy_score(y_test, predictions)
    
    print(f"Modèle: {name}, Meilleurs paramètres: {grid.best_params_}, Précision: {score:.4f}")
    print(classification_report(y_test, predictions))
    
    if score > best_score:
        best_score = score
        best_model = best_model_current
        best_model_name = name

# Sauvegarde des meilleurs modèles après ajustement
joblib.dump(grid.best_estimator_, "RandomForest_model.pkl")  # Sauvegarde du RandomForest ajusté
joblib.dump(grid.best_estimator_, "LogisticRegression_model.pkl")  # Sauvegarde de LogisticRegression ajusté

# Sauvegarde du meilleur modèle
joblib.dump(best_model, f"{best_model_name}_model.pkl")

print(f"Meilleur modèle sélectionné: {best_model_name} avec une précision de {best_score:.4f}")

Modèle: RandomForest, Meilleurs paramètres: {'max_depth': 10, 'n_estimators': 50}, Précision: 1.0000
                          precision    recall  f1-score   support

                     AVC       1.00      1.00      1.00         6
                Arthrite       1.00      1.00      1.00         9
                  Asthme       1.00      1.00      1.00        13
                COVID-19       1.00      1.00      1.00         6
        Cancer du poumon       1.00      1.00      1.00        12
          Cancer du sein       1.00      1.00      1.00         7
           Cardiopathies       1.00      1.00      1.00        11
                 Diabète       1.00      1.00      1.00         9
              Dépression       1.00      1.00      1.00        15
                  Grippe       1.00      1.00      1.00         7
 Hypertension artérielle       1.00      1.00      1.00         9
         Hépatite B et C       1.00      1.00      1.00        12
     Maladie d'Alzheimer       1.00     

In [None]:
# Sauvegarde du meilleur modèle
joblib.dump(best_model, "modele_diagnostic.pkl")
print(f"Meilleur modèle sélectionné: {best_model_name} avec une précision de {best_score:.4f}")

In [80]:
X.columns

Index(['Fièvre', 'Palpitations', 'Douleurs thoraciques',
       'Troubles de la parole', 'Douleurs mammaires', 'Douleurs lombaires',
       'Tremblements', 'Perte de poids', 'Maux de tête', 'Difficulté à parler',
       'Masse mammaire', 'Essoufflement', 'Fatigue intense', 'Agitation',
       'Troubles de mémoire', 'Engourdissement', 'Troubles du sommeil',
       'Vertiges', 'Oppression thoracique', 'Douleurs musculaires',
       'Gonflement des articulations', 'Changement de la peau',
       'Raideur matinale', 'Toux persistante', 'Vision trouble',
       'Transpiration excessive', 'Douleurs articulaires', 'Jaunisse',
       'Faiblesse musculaire', 'Écoulement mammaire', 'Urination fréquente',
       'Soif excessive', 'Toux nocturne', 'Toux sèche', 'Prise de poids',
       'Désorientation', 'Sueurs nocturnes', 'Confusion',
       'Douleurs abdominales', 'Toux', 'Perte de goût ou d'odorat',
       'Humeur triste', 'Nausées', 'Perte d'intérêt', 'Sifflements'],
      dtype='object')