In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# Charger les données
data = pd.read_csv("ObesityDataSet_raw_and_data_sinthetic.csv")

# Sélectionner uniquement les caractéristiques nécessaires
X = data[["Gender", "Age", "Height", "SMOKE", "family_history_with_overweight", "FAVC"]]
y = data["NObeyesdad"]

# Encoder les variables catégorielles
label_encoders = {}
for column in X.select_dtypes(include=['object']).columns:
    label_encoders[column] = LabelEncoder()
    X[column] = label_encoders[column].fit_transform(X[column])

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Utiliser les meilleurs hyperparamètres trouvés
best_hyperparameters = {
    'max_depth': 20,
    'min_samples_leaf': 1,
    'min_samples_split': 5,
    'n_estimators': 100
}

# Initialiser le modèle de forêt aléatoire avec les meilleurs hyperparamètres
random_forest = RandomForestClassifier(**best_hyperparameters, random_state=42)

# Entraîner le modèle
random_forest.fit(X_train, y_train)

# Faire des prédictions sur l'ensemble de test
predictions = random_forest.predict(X_test)

# Évaluer les performances du modèle
print("Accuracy:", accuracy_score(y_test, predictions))
print("\nClassification Report:")
print(classification_report(y_test, predictions))
