In [2]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [3]:
#Configuration
srcFolder = "../data/processed/tempo_202510201126/"

In [4]:
#Chargement des données
df = pd.read_csv(srcFolder+"phenologie.csv")
dfr = df[(df["genre"] == "Aesculus") & (df["espece"] == "hippocastanum")]
df = dfr.copy()

In [5]:
#Liste des stades
#Début de fleuraison : 61,60 
df["code_du_stade_phenologique"].unique()

array([61, 65])

In [6]:
#On conserve uniquement les stades 60 et 61
df = df[df["code_du_stade_phenologique"].isin([60, 61])]
df = df.copy()

In [7]:
#On détermine la cible (les Y)
Y = df["jour_de_l_annee"]
Y

408       110
409       122
411       123
416       123
418       135
         ... 
638734    128
638736    123
638738    125
638740    131
638742    129
Name: jour_de_l_annee, Length: 792, dtype: int64

In [8]:
df

Unnamed: 0.1,Unnamed: 0,date,annee,jour_de_l_annee,source_donnees,latitude_du_site,longitude_du_site,regne,genre,espece,code_du_stade_phenologique
408,3126,1974-04-20,1974,110,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61
409,3127,1975-05-02,1975,122,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61
411,3129,1977-05-03,1977,123,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61
416,3154,1950-05-03,1950,123,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61
418,3156,1950-05-15,1950,135,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61
...,...,...,...,...,...,...,...,...,...,...,...
638734,711580,1992-05-07,1992,128,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61
638736,711582,1991-05-03,1991,123,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61
638738,711584,1990-05-05,1990,125,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61
638740,711586,1965-05-11,1965,131,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61


In [9]:
#1. On regroupe les colonnes regne genre et espece
df['plante'] = df['regne'] + '-' + df['genre'] + '-' + df['espece']
df

Unnamed: 0.1,Unnamed: 0,date,annee,jour_de_l_annee,source_donnees,latitude_du_site,longitude_du_site,regne,genre,espece,code_du_stade_phenologique,plante
408,3126,1974-04-20,1974,110,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
409,3127,1975-05-02,1975,122,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
411,3129,1977-05-03,1977,123,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
416,3154,1950-05-03,1950,123,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
418,3156,1950-05-15,1950,135,AgroClim Pheno,48.80,2.08,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
...,...,...,...,...,...,...,...,...,...,...,...,...
638734,711580,1992-05-07,1992,128,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
638736,711582,1991-05-03,1991,123,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
638738,711584,1990-05-05,1990,125,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum
638740,711586,1965-05-11,1965,131,Forêt,45.07,3.90,Plantae,Aesculus,hippocastanum,61,Plantae-Aesculus-hippocastanum


In [10]:
#2. On supprime les colonnes inutiles
#df_reduit = df.drop(["Unnamed: 0", "jour_de_l_annee", "date", "source_donnees", "regne", "genre", "espece", "code_du_stade_phenologique"], axis=1)
df_reduit = df.drop(["Unnamed: 0", "date", "source_donnees", "regne", "genre", "espece", "code_du_stade_phenologique"], axis=1)
df_reduit

Unnamed: 0,annee,jour_de_l_annee,latitude_du_site,longitude_du_site,plante
408,1974,110,48.80,2.08,Plantae-Aesculus-hippocastanum
409,1975,122,48.80,2.08,Plantae-Aesculus-hippocastanum
411,1977,123,48.80,2.08,Plantae-Aesculus-hippocastanum
416,1950,123,48.80,2.08,Plantae-Aesculus-hippocastanum
418,1950,135,48.80,2.08,Plantae-Aesculus-hippocastanum
...,...,...,...,...,...
638734,1992,128,45.07,3.90,Plantae-Aesculus-hippocastanum
638736,1991,123,45.07,3.90,Plantae-Aesculus-hippocastanum
638738,1990,125,45.07,3.90,Plantae-Aesculus-hippocastanum
638740,1965,131,45.07,3.90,Plantae-Aesculus-hippocastanum


In [11]:
#3. on remplace les données catégorielles
df_reduit['plante_idx'], plantes = pd.factorize(df_reduit['plante'])
mapping_dict = dict(enumerate(plantes))
print(f"Mapping : {len(mapping_dict)} classes")
df_remplace = df_reduit.drop(["plante"], axis=1)
df_remplace

Mapping : 1 classes


Unnamed: 0,annee,jour_de_l_annee,latitude_du_site,longitude_du_site,plante_idx
408,1974,110,48.80,2.08,0
409,1975,122,48.80,2.08,0
411,1977,123,48.80,2.08,0
416,1950,123,48.80,2.08,0
418,1950,135,48.80,2.08,0
...,...,...,...,...,...
638734,1992,128,45.07,3.90,0
638736,1991,123,45.07,3.90,0
638738,1990,125,45.07,3.90,0
638740,1965,131,45.07,3.90,0


In [12]:
#On divise en jeu de test et jeu d'entraînement
# Division train/test
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    df_remplace, Y, test_size=0.2, random_state=42
)

print(f"Taille du jeu d'entraînement (X) : {X_train_reg.shape[0]}")
print(f"Taille du jeu de test (X) : {X_test_reg.shape[0]}")
print(f"Taille du jeu d'entraînement (Y) : {y_train_reg.shape[0]}")
print(f"Taille du jeu de test (Y) : {y_test_reg.shape[0]}")

Taille du jeu d'entraînement (X) : 633
Taille du jeu de test (X) : 159
Taille du jeu d'entraînement (Y) : 633
Taille du jeu de test (Y) : 159


In [13]:
#Standardisation (normalisation)

scaler_reg = StandardScaler()
X_train_scaled = scaler_reg.fit_transform(X_train_reg)
X_test_scaled = scaler_reg.transform(X_test_reg)

X_train_scaled

array([[ 0.83764807, -0.31254549, -0.43875604,  0.22450842,  0.        ],
       [ 1.03121963, -0.6687756 ,  0.51205183, -0.50942795,  0.        ],
       [ 0.83764807,  0.04368462, -1.35789374, -0.19174166,  0.        ],
       ...,
       [ 0.99250532, -0.93594819, -1.08489537, -1.42098157,  0.        ],
       [ 1.06993395, -0.71330437,  0.87937247,  0.29926521,  0.        ],
       [-1.1754962 ,  1.11237495,  0.84250047,  1.19081733,  0.        ]],
      shape=(633, 5))

In [14]:
#Entraînement du modèle
model_reg = LinearRegression()
model_reg.fit(X_train_scaled, y_train_reg)
print("OK !")

OK !


In [15]:
y_test_reg

627858    134
331604    106
604841    135
604857    131
273648    121
         ... 
326230    113
327993    103
300837    116
272913    131
283321    121
Name: jour_de_l_annee, Length: 159, dtype: int64

In [None]:
#Faire des prédictions

y_pred_train = model_reg.predict(X_train_scaled)
y_pred_test = model_reg.predict(X_test_scaled)


for i in range(20):
    print(f"Prédiction : {y_pred_test[i]} - valeur réelle : {y_test_reg.iloc[i]}")
    #print(f"Prédiction : {y_pred_test[i]} - valeur réelle : {y_test_reg[i]}")

    #

array([134., 106., 135., 131., 121., 132., 122., 113., 141., 130., 101.,
       115., 125., 117.,  99., 147., 113., 122., 144., 108.,  99., 131.,
        98., 131.,  99., 138., 116., 107., 115., 132., 119.,  94., 113.,
       138., 124., 129., 136., 130., 256., 132., 111., 113., 117., 123.,
       141., 111., 117., 121., 123.,  93., 101., 121., 132., 144., 106.,
       108., 114., 102., 120., 107., 106., 108., 130., 140., 131., 129.,
        98., 111., 128., 123., 115., 117., 128., 117., 121., 108., 122.,
       111., 140., 119., 135., 103., 109., 122., 131., 131., 105., 129.,
       115., 120., 134., 120., 124., 145., 117., 121., 107., 114., 125.,
       125., 131., 104., 135., 125., 144., 114., 103., 143., 120., 112.,
       108., 115., 122., 107., 114., 107.,  97., 114., 135., 131., 120.,
       103., 137.,  98., 106., 140., 102., 115., 105., 102., 143., 133.,
       146., 125., 111., 256., 106., 108., 120., 130., 114., 105., 101.,
       124., 123., 114., 114., 107., 105., 127., 13

In [17]:
#Evaluation

print("Évaluation de la performance")

# Erreur quadratique moyenne (MSE)
mse_train = mean_squared_error(y_train_reg, y_pred_train)
mse_test = mean_squared_error(y_test_reg, y_pred_test)

# Coefficient de détermination (R²) : de 0 à 1, plus c'est proche de 1, mieux c'est
r2_train = r2_score(y_train_reg, y_pred_train)
r2_test = r2_score(y_test_reg, y_pred_test)

print(f"Performance sur les données d'ENTRAÎNEMENT :")
print(f"  - MSE  : {mse_train:.4f}")
print(f"  - R²   : {r2_train:.4f}")

print(f"\nPerformance sur les données de TEST :")
print(f"  - MSE  : {mse_test:.4f}")
print(f"  - R²   : {r2_test:.4f}")

print(f"""
Interprétation du R² :
- R² = {r2_test:.2%} signifie que le modèle explique {r2_test:.2%} de la variance.
- Plus R² est proche de 100%, meilleur est le modèle.
""")

Évaluation de la performance
Performance sur les données d'ENTRAÎNEMENT :
  - MSE  : 0.0000
  - R²   : 1.0000

Performance sur les données de TEST :
  - MSE  : 0.0000
  - R²   : 1.0000

Interprétation du R² :
- R² = 100.00% signifie que le modèle explique 100.00% de la variance.
- Plus R² est proche de 100%, meilleur est le modèle.

