In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
data=pd.read_csv("training_data.csv")

In [3]:
data.drop("Unnamed: 133",axis=1,inplace=True)

In [4]:
new_row = {col: 0 for col in data.columns if col != 'prognosis'}
new_row['prognosis'] = 'sain'
# Conversion de la nouvelle ligne en DataFrame
new_row_df = pd.DataFrame([new_row])

# Ajout de la nouvelle ligne au DataFrame existant
data = pd.concat([data, new_row_df], ignore_index=True)

In [5]:
data_test=pd.read_csv("test_data.csv")

In [6]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score,classification_report
from sklearn.preprocessing import LabelEncoder


# Encoder la variable cible avant la séparation
label_encoder = LabelEncoder()

# Fusionner les ensembles de train et de test pour l'encodage
full_data = pd.concat([data, data_test], ignore_index=True)
label_encoder.fit(full_data['prognosis'])

X_train=data.drop("prognosis",axis=1)
y_train=data["prognosis"]
X_test=data_test.drop("prognosis",axis=1)
y_test=data_test["prognosis"]

# Encoder les variables cibles
y_train = label_encoder.transform(y_train)
y_test = label_encoder.transform(y_test)

#creation du model
model=RandomForestClassifier(n_estimators=200,criterion='entropy',random_state=42)

# Entraînement du modèle
model.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = model.predict(X_test)

# Évaluation du modèle
accuracy = accuracy_score(y_test, y_pred)

# Obtenir les classes présentes dans l'ensemble de test
test_classes = label_encoder.inverse_transform(sorted(set(y_test)))

# Générer le rapport de classification uniquement pour les classes présentes dans les données de test
report = classification_report(y_test, y_pred, target_names=test_classes)

print(f'Accuracy: {accuracy}')
print('Classification Report:')
print(report)


Accuracy: 1.0
Classification Report:
                                         precision    recall  f1-score   support

(vertigo) Paroymsal  Positional Vertigo       1.00      1.00      1.00         1
                                   AIDS       1.00      1.00      1.00         1
                                   Acne       1.00      1.00      1.00         1
                    Alcoholic hepatitis       1.00      1.00      1.00         1
                                Allergy       1.00      1.00      1.00         1
                              Arthritis       1.00      1.00      1.00         1
                       Bronchial Asthma       1.00      1.00      1.00         1
                   Cervical spondylosis       1.00      1.00      1.00         1
                            Chicken pox       1.00      1.00      1.00         1
                    Chronic cholestasis       1.00      1.00      1.00         1
                            Common Cold       1.00      1.00      1.00 

In [7]:
# Exemple de symptômes donnés pour prédiction
new_symptoms = {
    'itching': 0,
    'skin_rash': 0,
    'nodal_skin_eruptions': 0,
    'continuous_sneezing': 0,
    'shivering': 0,
    'chills': 0,
}

# Créer un dictionnaire avec toutes les colonnes du dataset
all_columns =data.columns

# Initialiser un dictionnaire avec toutes les colonnes mises à 0
new_data_dict = {col: 0 for col in all_columns}
# Mettre à jour les valeurs avec les symptômes donnés
for symptom, value in new_symptoms.items():
    if symptom in new_data_dict:
        new_data_dict[symptom] = value

# Convertir en DataFrame avec une seule ligne
new_data = pd.DataFrame([new_data_dict])

# Supprimer la colonne 'prognosis' si elle existe
if 'prognosis' in new_data.columns:
    new_data = new_data.drop('prognosis', axis=1)

# Prédiction sur les nouveaux symptômes
new_prediction = model.predict(new_data)

# Décoder la prédiction
new_prediction_decoded = label_encoder.inverse_transform(new_prediction)

# Affichage des résultats
print(f'Prédiction du pronostic pour les symptômes donnés : {new_prediction_decoded[0]}')

Prédiction du pronostic pour les symptômes donnés : sain


In [8]:
import joblib

# Save the trained model
joblib.dump(model, 'random_forest_model.pkl')


['random_forest_model.pkl']