In [16]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error

In [17]:
# Charger le fichier CSV
file_path = 'OurData.csv'
df = pd.read_csv(file_path)
# Supprimer les colonnes 'Date' et 'Heure'
data = df.drop(["Date", "Heure"], axis=1)
# Convertir toutes les colonnes en float
data = data.astype(float)

In [18]:
data.isnull().sum()

RH         1081
AirTC      1081
G          1081
Rn_Avg     1081
Le_flux    1096
Ws         1097
Psat       1081
P_air      1081
VPD        1081
Rs            0
dtype: int64

In [19]:
# Imputer les valeurs manquantes par la moyenne
imputer = SimpleImputer(strategy='mean')
# Remplacer les valeurs manquantes par la moyenne dans les colonnes spécifiées
colonnes_a_traiter = ['RH', 'AirTC', 'G', 'Rn_Avg', 'Le_flux', 'Ws', 'Psat', 'P_air', 'VPD', 'Rs']
data[colonnes_a_traiter] = data[colonnes_a_traiter].fillna(-9999999999999)

In [20]:
data.isnull().sum()

RH         0
AirTC      0
G          0
Rn_Avg     0
Le_flux    0
Ws         0
Psat       0
P_air      0
VPD        0
Rs         0
dtype: int64

In [21]:
# Séparer les données en entrées (features) et cible (target)
X = data.drop("Le_flux", axis=1)
y = data["Le_flux"]

In [22]:
# Calculer la moyenne et l'écart-type des caractéristiques (features)
mean = X.mean(axis=0)
std = X.std(axis=0)

In [23]:
# Normaliser les caractéristiques (features)
X -= mean
X /= std

In [24]:
# Fractionner les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=20)
# Normaliser la cible (target)
mean_target = y_train.mean()
std_target = y_train.std()
y_train -= mean_target
y_train /= std_target
y_test -= mean_target
y_test /= std_target

In [25]:
# Instancier le modèle Random Forest avec des hyperparamètres optionnels
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Entraîner le modèle sur les données d'entraînement
rf_model.fit(X_train, y_train)


In [26]:
# Faire des prédictions sur les données de test
test_predictions = rf_model.predict(X_test)


In [27]:
# Calculer l'erreur quadratique moyenne (MSE) sur les données de test
mse = mean_squared_error(y_test, test_predictions)
print("Mean Squared Error on Test Data:", mse)
# Calculer l'erreur absolue moyenne (MAE) sur les données de test
mae = mean_absolute_error(y_test, test_predictions)
print("Mean Absolute Error on Test Data:", mae)


Mean Squared Error on Test Data: 0.010150053978772661
Mean Absolute Error on Test Data: 0.005938071802527017


In [28]:
# Créer un DataFrame avec les valeurs réelles et prédites
results_df = pd.DataFrame({'Actual': y_test, 'Predicted': test_predictions})

# Afficher le DataFrame
print(results_df)

        Actual  Predicted
7437  0.346609   0.346609
3382  0.346609   0.346609
6209 -2.884745  -2.884745
8292  0.346609   0.346609
2208  0.346609   0.346609
...        ...        ...
9583  0.346609   0.346609
171   0.346609   0.346609
4018  0.346609   0.346609
9820  0.346609   0.346609
1056  0.346609   0.346609

[2059 rows x 2 columns]
