# Jeu de données complet - XGRegressor

17/12/2025

## Import Modules

In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import sklearn
import xgboost

## Import Data

In [2]:
data = pd.read_csv("Donnees_IA_2025.csv", sep=";", encoding="latin1")

data.head(5)

Unnamed: 0,Ordre,Code,Classe,Nom,Nom détaillé,Pays,Année récolte,Date mesure,MS % brut,PB % brut,...,ED porc croissance (kcal) kcal/kg brut,EM porc croissance (kcal) kcal/kg brut,EN porc croissance (kcal) kcal/kg brut,EMAn coq (kcal) kcal/kg brut,EMAn poulet (kcal) kcal/kg brut,UFL 2018 par kg brut,UFV 2018 par kg brut,PDIA 2018 g_kg brut,PDI 2018 g_kg brut,BalProRu 2018 g_kg brut
0,1,657397,Céréales,Avoine,Avoine,Canada,01/01/1976,01/01/1976,87,95,...,2460,2380,1850,2610,2480,81,76,17,62,-10
1,2,657400,Céréales,Avoine,Avoine,Canada,01/01/1976,01/01/1976,87,119,...,2580,2480,1880,2590,2460,88,85,22,69,5
2,3,657402,Céréales,Avoine,Avoine,Canada,01/01/1976,01/01/1976,874,122,...,2760,2660,2030,2690,2560,95,92,22,70,6
3,4,657404,Céréales,Avoine,Avoine,Canada,01/01/1976,01/01/1976,888,108,...,2150,2060,1500,2080,1950,77,72,20,65,-1
4,5,657405,Céréales,Avoine,Avoine,Canada,01/01/1976,01/01/1976,883,116,...,2690,2590,2000,2750,2620,92,89,21,68,3


## Suppression des colonnes inutiles 

In [3]:
data2 = data.drop(columns=['Ordre', 'Code', 'Nom détaillé', 'Pays', 'Année récolte', 'Date mesure'])
data2.head(5)

Unnamed: 0,Classe,Nom,MS % brut,PB % brut,CB % brut,MGR % brut,MM % brut,NDF % brut,ADF % brut,Lignine % brut,...,ED porc croissance (kcal) kcal/kg brut,EM porc croissance (kcal) kcal/kg brut,EN porc croissance (kcal) kcal/kg brut,EMAn coq (kcal) kcal/kg brut,EMAn poulet (kcal) kcal/kg brut,UFL 2018 par kg brut,UFV 2018 par kg brut,PDIA 2018 g_kg brut,PDI 2018 g_kg brut,BalProRu 2018 g_kg brut
0,Céréales,Avoine,87,95,126,32,38,334,154,24,...,2460,2380,1850,2610,2480,81,76,17,62,-10
1,Céréales,Avoine,87,119,118,26,25,317,145,23,...,2580,2480,1880,2590,2460,88,85,22,69,5
2,Céréales,Avoine,874,122,107,42,18,297,135,22,...,2760,2660,2030,2690,2560,95,92,22,70,6
3,Céréales,Avoine,888,108,167,27,37,419,197,27,...,2150,2060,1500,2080,1950,77,72,20,65,-1
4,Céréales,Avoine,883,116,117,46,28,318,145,23,...,2690,2590,2000,2750,2620,92,89,21,68,3


### Liste des colonnes d'entrées : 

- Catégorielle : 'Classe', 'Nom', 

- Numériques : 'MS % brut', 'PB % brut', 'CB % brut', 'MGR % brut', 'MM % brut', 'NDF % brut', 'ADF % brut', 'Lignine % brut', 'Amidon % brut', 'Sucres % brut'

### Liste des colonnes de sorties : 

- Porc : ['EB (kcal) kcal/kg brut', 'ED porc croissance (kcal) kcal/kg brut', 'EM porc croissance (kcal) kcal/kg brut', 'EN porc croissance (kcal) kcal/kg brut', 

- Poulet : 'EMAn coq (kcal) kcal/kg brut', 'EMAn poulet (kcal) kcal/kg brut', 

- Autres : 'UFL 2018 par kg brut', 'PDI 2018 g/kg brut', 'BalProRu 2018 g/kg brut']

In [4]:
colonnes = data2.columns
colonnes_X = list(colonnes[:12])
colonnes_Y = list(colonnes[12:])

print(colonnes_X)
print(colonnes_Y)

colonnes_cat = colonnes_X[:2]
colonnes_num = colonnes_X[2:]
print(colonnes_cat)

['Classe', 'Nom', 'MS % brut', 'PB % brut', 'CB % brut', 'MGR % brut', 'MM % brut', 'NDF % brut', 'ADF % brut', 'Lignine % brut', 'Amidon % brut', 'Sucres % brut']
['EB (kcal) kcal/kg brut', 'ED porc croissance (kcal) kcal/kg brut', 'EM porc croissance (kcal) kcal/kg brut', 'EN porc croissance (kcal) kcal/kg brut', 'EMAn coq (kcal) kcal/kg brut', 'EMAn poulet (kcal) kcal/kg brut', 'UFL 2018 par kg brut', 'UFV 2018 par kg brut', 'PDIA 2018 g_kg brut', 'PDI 2018 g_kg brut', 'BalProRu 2018 g_kg brut']
['Classe', 'Nom']


## One Hot encoding des variables catégorielles

In [5]:
from sklearn.preprocessing import OneHotEncoder
categorical_cols = colonnes_cat
numerical_cols = colonnes_num
# OneHotEncoder
enc = OneHotEncoder(sparse_output=False)
X_cat = enc.fit_transform(data[categorical_cols])


column_names = []
for i, cat in enumerate(enc.categories_):
    column_names.extend([f"{categorical_cols[i]}_{c}" for c in cat])


X_cat_df = pd.DataFrame(X_cat, columns=column_names)


data_final = pd.concat([ X_cat_df, data2[numerical_cols], data2[colonnes_Y]], axis=1)
data_final.head(5)


Unnamed: 0,"Classe_Amidon, racines et tubercules",Classe_Autres coproduits des céréales,Classe_Autres produits végétaux,Classe_Coproduits d'animaux terrestres,Classe_Coproduits de fruits et légumes,Classe_Coproduits du blé,Classe_Coproduits du maïs,Classe_Céréales,Classe_Farines et solubles de poisson,Classe_Fourrages déshydratés,...,ED porc croissance (kcal) kcal/kg brut,EM porc croissance (kcal) kcal/kg brut,EN porc croissance (kcal) kcal/kg brut,EMAn coq (kcal) kcal/kg brut,EMAn poulet (kcal) kcal/kg brut,UFL 2018 par kg brut,UFV 2018 par kg brut,PDIA 2018 g_kg brut,PDI 2018 g_kg brut,BalProRu 2018 g_kg brut
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,2460,2380,1850,2610,2480,81,76,17,62,-10
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,2580,2480,1880,2590,2460,88,85,22,69,5
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,2760,2660,2030,2690,2560,95,92,22,70,6
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,2150,2060,1500,2080,1950,77,72,20,65,-1
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,2690,2590,2000,2750,2620,92,89,21,68,3


## Jeu de données final

In [6]:
# Colonnes à retirer pour X et à garder pour y
colonnes_cibles = [
    'EB (kcal) kcal/kg brut', 
    'ED porc croissance (kcal) kcal/kg brut', 
    'EM porc croissance (kcal) kcal/kg brut', 
    'EN porc croissance (kcal) kcal/kg brut', 
    'EMAn coq (kcal) kcal/kg brut', 
    'EMAn poulet (kcal) kcal/kg brut', 
    'UFL 2018 par kg brut', 
    'UFV 2018 par kg brut', 
    'PDIA 2018 g_kg brut', 
    'PDI 2018 g_kg brut', 
    'BalProRu 2018 g_kg brut'
]

# Génération des descripteurs
X = data_final.drop(columns=colonnes_cibles)
print(X)

# Génération de la variable cible
y = data_final[colonnes_cibles]
print(y)


      Classe_Amidon, racines et tubercules  \
0                                      0.0   
1                                      0.0   
2                                      0.0   
3                                      0.0   
4                                      0.0   
...                                    ...   
3993                                   0.0   
3994                                   0.0   
3995                                   0.0   
3996                                   0.0   
3997                                   0.0   

      Classe_Autres coproduits des céréales  Classe_Autres produits végétaux  \
0                                       0.0                              0.0   
1                                       0.0                              0.0   
2                                       0.0                              0.0   
3                                       0.0                              0.0   
4                                       0.0    

## Formatage des données

In [7]:
cols_num = ['MS % brut', 'PB % brut', 'CB % brut', 'MGR % brut', 'MM % brut', 
            'NDF % brut', 'ADF % brut', 'Lignine % brut', 'Amidon % brut', 'Sucres % brut']

for col in cols_num:
    X[col] = X[col].astype(str).str.replace(',', '.')
    X[col] = pd.to_numeric(X[col], errors='coerce') 


print(X.dtypes)

Classe_Amidon, racines et tubercules      float64
Classe_Autres coproduits des céréales     float64
Classe_Autres produits végétaux           float64
Classe_Coproduits d'animaux terrestres    float64
Classe_Coproduits de fruits et légumes    float64
                                           ...   
NDF % brut                                float64
ADF % brut                                float64
Lignine % brut                            float64
Amidon % brut                             float64
Sucres % brut                             float64
Length: 66, dtype: object


In [8]:
for col in y.columns:
    y[col] = y[col].astype(str).str.strip().str.replace(',', '.')
    y[col] = pd.to_numeric(y[col], errors='coerce') 

print(y.dtypes)

EB (kcal) kcal/kg brut                      int64
ED porc croissance (kcal) kcal/kg brut      int64
EM porc croissance (kcal) kcal/kg brut      int64
EN porc croissance (kcal) kcal/kg brut      int64
EMAn coq (kcal) kcal/kg brut                int64
EMAn poulet (kcal) kcal/kg brut             int64
UFL 2018 par kg brut                      float64
UFV 2018 par kg brut                      float64
PDIA 2018 g_kg brut                         int64
PDI 2018 g_kg brut                          int64
BalProRu 2018 g_kg brut                     int64
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[col] = y[col].astype(str).str.strip().str.replace(',', '.')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[col] = pd.to_numeric(y[col], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[col] = y[col].astype(str).str.strip().str.replace(',', '.')
A value is trying to be set on a 

## Séparation des différents ensembles de train et test

### Définition des variables cibles à garder

#### Variables cibles : Classe, Nom, MS et PB

In [9]:
Xpspb = X.drop(columns=['CB % brut', 'MGR % brut', 'MM % brut', 
            'NDF % brut', 'ADF % brut', 'Lignine % brut', 'Amidon % brut', 'Sucres % brut'])
print(Xpspb.columns)

Index(['Classe_Amidon, racines et tubercules',
       'Classe_Autres coproduits des céréales',
       'Classe_Autres produits végétaux',
       'Classe_Coproduits d'animaux terrestres',
       'Classe_Coproduits de fruits et légumes', 'Classe_Coproduits du blé',
       'Classe_Coproduits du maïs', 'Classe_Céréales',
       'Classe_Farines et solubles de poisson', 'Classe_Fourrages déshydratés',
       'Classe_Graines protéagineuses et oléagineuses',
       'Classe_Tourteaux d'oléagineux', 'Nom_Avoine ', 'Nom_Blé tendre ',
       'Nom_Concentré protéique de luzerne ', 'Nom_Coproduits de biscuiterie ',
       'Nom_Coques de soja ', 'Nom_Corn gluten feed ', 'Nom_Corn gluten meal ',
       'Nom_Drêches de blé de distillerie, amidon < 7 % ',
       'Nom_Drêches de blé de distillerie, amidon > 7 % ',
       'Nom_Farine basse de blé tendre ', 'Nom_Farine de poisson (toutes) ',
       'Nom_Farine de viande (toutes) ', 'Nom_Féverole à fleurs blanches ',
       'Nom_Gluten feed de blé, type 20% 

#### Variables cibles : Classe et Nom

In [10]:
Xtable = X.drop(columns=['MS % brut', 'PB % brut','CB % brut', 'MGR % brut', 'MM % brut', 
            'NDF % brut', 'ADF % brut', 'Lignine % brut', 'Amidon % brut', 'Sucres % brut'])
print(Xtable.columns)

Index(['Classe_Amidon, racines et tubercules',
       'Classe_Autres coproduits des céréales',
       'Classe_Autres produits végétaux',
       'Classe_Coproduits d'animaux terrestres',
       'Classe_Coproduits de fruits et légumes', 'Classe_Coproduits du blé',
       'Classe_Coproduits du maïs', 'Classe_Céréales',
       'Classe_Farines et solubles de poisson', 'Classe_Fourrages déshydratés',
       'Classe_Graines protéagineuses et oléagineuses',
       'Classe_Tourteaux d'oléagineux', 'Nom_Avoine ', 'Nom_Blé tendre ',
       'Nom_Concentré protéique de luzerne ', 'Nom_Coproduits de biscuiterie ',
       'Nom_Coques de soja ', 'Nom_Corn gluten feed ', 'Nom_Corn gluten meal ',
       'Nom_Drêches de blé de distillerie, amidon < 7 % ',
       'Nom_Drêches de blé de distillerie, amidon > 7 % ',
       'Nom_Farine basse de blé tendre ', 'Nom_Farine de poisson (toutes) ',
       'Nom_Farine de viande (toutes) ', 'Nom_Féverole à fleurs blanches ',
       'Nom_Gluten feed de blé, type 20% 

In [11]:
Xm= X.values
ym= y.values
X2= Xpspb.values
X3= Xtable.values

### Séparation de l'ensemble de test et d'apprentissage

In [12]:
#Séparation de l'ensemble de test et d'apprentissage

from sklearn.model_selection import train_test_split
X_train, X_test, X2_train, X2_test,X3_train, X3_test, y_train, y_test = train_test_split(Xm, X2,X3, ym, train_size= 0.70)
print(X_train.shape)
print(X_test.shape)
print(X2_train.shape)
print(X2_test.shape)
print(X3_train.shape)
print(X3_test.shape)


(2798, 66)
(1200, 66)
(2798, 58)
(1200, 58)
(2798, 56)
(1200, 56)


## Définition des métriques

In [13]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
def evaluation_regression(model, X_train, X_test, y_train, y_test, model_name = ""):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    print("____________")
    print(f'Essai sur échantillon de test {model_name}')
    print("y_pred min/max :", round(y_pred.min(),3), round(y_pred.max(),3))
    print(f"MAE: {mae:.3f} | RMSE: {rmse:.3f} | R²: {r2:.3f}")
    return [model_name, mae, rmse, r2]

### Mise en place des modèles

### Variables cibles : Variables cibles : Classe, Nom, MS % brut,PB % brut,CB % brut,MGR % brut, MM % brut, NDF % brut, ADF % brut, Lignine % brut, Amidon % brut, Sucres % brut

In [14]:
from xgboost import XGBRegressor
df_exp = pd.DataFrame(columns=["Model Name", "MAE", "RMSE", "R2"])
# XGBRegressor
model_xgb = XGBRegressor()
df_exp.loc[len(df_exp)] = evaluation_regression(model_xgb, X_train, X_test, y_train, y_test, "XGBRegressor")

____________
Essai sur échantillon de test XGBRegressor
y_pred min/max : -91.239 6497.785
MAE: 18.320 | RMSE: 45.137 | R²: 0.993


### Variables cibles : Variables cibles : Classe, Nom, MS % brut,PB % brut

In [15]:
model_xgb2 = XGBRegressor()
df_exp.loc[len(df_exp)] = evaluation_regression(model_xgb2, X2_train, X2_test, y_train, y_test, "XGBRegressor")

____________
Essai sur échantillon de test XGBRegressor
y_pred min/max : -88.934 6423.648
MAE: 41.655 | RMSE: 94.604 | R²: 0.968


### Variables cibles : Variables cibles : Classe, Nom

In [16]:
model_xgb3 = XGBRegressor()
df_exp.loc[len(df_exp)] = evaluation_regression(model_xgb3, X3_train, X3_test, y_train, y_test, "XGBRegressor")

____________
Essai sur échantillon de test XGBRegressor
y_pred min/max : -76.442 6291.056
MAE: 52.667 | RMSE: 119.802 | R²: 0.945


### Essai avec random Forest sur le premier modèle

In [17]:
from sklearn.ensemble import RandomForestRegressor
model_rfr = RandomForestRegressor()
df_exp.loc[len(df_exp)] = evaluation_regression(model_rfr, X_train, X_test, y_train, y_test, "RandomForestRegressor")

____________
Essai sur échantillon de test RandomForestRegressor
y_pred min/max : -87.87 6461.0
MAE: 20.489 | RMSE: 49.215 | R²: 0.988


In [18]:
df_exp

Unnamed: 0,Model Name,MAE,RMSE,R2
0,XGBRegressor,18.319831,45.137176,0.992565
1,XGBRegressor,41.655097,94.60446,0.96816
2,XGBRegressor,52.666631,119.802143,0.945135
3,RandomForestRegressor,20.488799,49.215135,0.987876


## Test sur une valeur précise

### Modèle xgb 1 (avec toutes les variables cibles)

In [25]:
instance_X = X_test[10]
instance_y = y_test[10]

y_chap_tot = model_xgb.predict([instance_X])
df_ychap = pd.DataFrame(columns=colonnes_Y)

df_ychap.loc[len(df_ychap)] = instance_y
df_ychap.loc[len(df_ychap)] = y_chap_tot[0]



df_ychap.T

Unnamed: 0,0,1
EB (kcal) kcal/kg brut,4560.0,4590.99707
ED porc croissance (kcal) kcal/kg brut,4240.0,4176.981934
EM porc croissance (kcal) kcal/kg brut,4130.0,3993.874268
EN porc croissance (kcal) kcal/kg brut,3120.0,3159.240234
EMAn coq (kcal) kcal/kg brut,3590.0,3497.228027
EMAn poulet (kcal) kcal/kg brut,3490.0,3354.814941
UFL 2018 par kg brut,1.27,1.256213
UFV 2018 par kg brut,1.3,1.276543
PDIA 2018 g_kg brut,17.0,18.119413
PDI 2018 g_kg brut,73.0,73.176933


### Modèle xgb 2 (avec comme variables cibles Nom, Classe, MS et PB)

In [26]:
instance_X2 = X2_test[10]
instance_y = y_test[10]

y_chap_tot = model_xgb2.predict([instance_X2])
df_ychap.loc[len(df_ychap)] = y_chap_tot[0]



df_ychap.T

Unnamed: 0,0,1,2
EB (kcal) kcal/kg brut,4560.0,4590.99707,4476.032227
ED porc croissance (kcal) kcal/kg brut,4240.0,4176.981934,4249.013184
EM porc croissance (kcal) kcal/kg brut,4130.0,3993.874268,4329.730469
EN porc croissance (kcal) kcal/kg brut,3120.0,3159.240234,3088.333496
EMAn coq (kcal) kcal/kg brut,3590.0,3497.228027,3640.900879
EMAn poulet (kcal) kcal/kg brut,3490.0,3354.814941,3574.618164
UFL 2018 par kg brut,1.27,1.256213,1.250653
UFV 2018 par kg brut,1.3,1.276543,1.29731
PDIA 2018 g_kg brut,17.0,18.119413,16.90201
PDI 2018 g_kg brut,73.0,73.176933,73.50573


### Modèle xgb 3 (avec comme variables cibles Classe et nom)

In [27]:
instance_X3 = X3_test[10]
instance_y = y_test[10]

y_chap_tot = model_xgb3.predict([instance_X3])
df_ychap.loc[len(df_ychap)] = y_chap_tot[0]


df_ychap.T

Unnamed: 0,0,1,2,3
EB (kcal) kcal/kg brut,4560.0,4590.99707,4476.032227,4418.53418
ED porc croissance (kcal) kcal/kg brut,4240.0,4176.981934,4249.013184,3984.462891
EM porc croissance (kcal) kcal/kg brut,4130.0,3993.874268,4329.730469,3886.663086
EN porc croissance (kcal) kcal/kg brut,3120.0,3159.240234,3088.333496,2990.344971
EMAn coq (kcal) kcal/kg brut,3590.0,3497.228027,3640.900879,3303.887207
EMAn poulet (kcal) kcal/kg brut,3490.0,3354.814941,3574.618164,3208.108887
UFL 2018 par kg brut,1.27,1.256213,1.250653,1.207014
UFV 2018 par kg brut,1.3,1.276543,1.29731,1.225479
PDIA 2018 g_kg brut,17.0,18.119413,16.90201,22.035501
PDI 2018 g_kg brut,73.0,73.176933,73.50573,74.655258


### Modèle random forest (avec toutes les variables cibles)

In [28]:
y_chap_tot = model_rfr.predict([instance_X])
df_ychap.loc[len(df_ychap)] = y_chap_tot[0]

df_ychap.T

Unnamed: 0,0,1,2,3,4
EB (kcal) kcal/kg brut,4560.0,4590.99707,4476.032227,4418.53418,4427.6
ED porc croissance (kcal) kcal/kg brut,4240.0,4176.981934,4249.013184,3984.462891,4143.3
EM porc croissance (kcal) kcal/kg brut,4130.0,3993.874268,4329.730469,3886.663086,4038.7
EN porc croissance (kcal) kcal/kg brut,3120.0,3159.240234,3088.333496,2990.344971,3079.7
EMAn coq (kcal) kcal/kg brut,3590.0,3497.228027,3640.900879,3303.887207,3478.8
EMAn poulet (kcal) kcal/kg brut,3490.0,3354.814941,3574.618164,3208.108887,3381.3
UFL 2018 par kg brut,1.27,1.256213,1.250653,1.207014,1.2336
UFV 2018 par kg brut,1.3,1.276543,1.29731,1.225479,1.2582
PDIA 2018 g_kg brut,17.0,18.119413,16.90201,22.035501,20.47
PDI 2018 g_kg brut,73.0,73.176933,73.50573,74.655258,75.03
