In [21]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

In [7]:
# Chargement des données
data = pd.read_csv('fetal_health.csv')

In [9]:
# Séparation des données en train et test
X_train, X_test, y_train, y_test = train_test_split(data.drop('fetal_health', axis=1), data['fetal_health'], test_size=0.2, random_state=42)

In [11]:
# Définition du modèle
rf = RandomForestRegressor()

In [12]:
# Définition de la grille de recherche des hyperparamètres
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [5, 10, 20, None],
              'min_samples_split': [2, 5, 10],
              'min_samples_leaf': [1, 2, 4]}

In [13]:
# Recherche des meilleurs hyperparamètres avec la validation croisée
grid_rf = GridSearchCV(rf, param_grid=param_grid, cv=5, n_jobs=-1)
grid_rf.fit(X_train, y_train)

In [15]:
# Affichage des meilleurs hyperparamètres et de la performance sur le jeu de test
print("Meilleurs hyperparamètres : ", grid_rf.best_params_)

Meilleurs hyperparamètres :  {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}


In [22]:
# Evaluation avec les métriques de régression 
y_pred = grid_rf.predict(X_test)
print("Performance sur le jeu de test (MSE) : ", mean_squared_error(y_test, y_pred, squared=False))
print("Performance sur le jeu de test (RMSE) : ", mean_squared_error(y_test, y_pred, squared=True)) #Racine carre (MSE)
print("Performance sur le jeu de test (R2) : ", r2_score(y_test, y_pred)) #le coefficient de détermination R2

Performance sur le jeu de test (MSE) :  0.22439119512740294
Performance sur le jeu de test (RMSE) :  0.050351408450704224
Performance sur le jeu de test (R2) :  0.8521332739983171
