La **régression** est une technique d'apprentissage supervisé utilisée en statistiques et en apprentissage automatique pour modéliser et analyser les relations entre une variable cible (dépendante) et une ou plusieurs variables indépendantes (ou prédicteurs). L’objectif principal de la régression est de prédire des valeurs continues pour la variable cible en se basant sur les valeurs des variables indépendantes.

**Installation de scikit-learn**

In [24]:
!pip install scikit-learn




[notice] A new release of pip is available: 23.2.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


**Importer l'ensemble de données**

In [25]:
import pandas as pd
df=pd.read_csv("cleaned_data.csv",sep=',',on_bad_lines='skip', low_memory=False)

**Un aperçu des données dans notre DataFrame**

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122240 entries, 0 to 122239
Data columns (total 25 columns):
 #   Column                                                 Non-Null Count   Dtype  
---  ------                                                 --------------   -----  
 0   code                                                   122240 non-null  object 
 1   product_name                                           119205 non-null  object 
 2   quantity                                               109931 non-null  object 
 3   brands                                                 117764 non-null  object 
 4   categories                                             122240 non-null  object 
 5   categories_en                                          122240 non-null  object 
 6   pnns_groups_1                                          122240 non-null  object 
 7   pnns_groups_2                                          122240 non-null  object 
 8   main_category_en                  

**Suppresssion des variables de type objet**

In [27]:
df=df.drop(['energy-kj_100g','code','nutrition-score-fr_100g','product_name','quantity','brands','categories','categories_en','pnns_groups_1','main_category_en','ingredients_text','countries_en','nutriscore_grade','product_name_lower','brands_lower'], axis = 1)

**Encodage de la variable nutriscore_grade**

In [28]:
# Assure-toi d'utiliser le bon nom de colonne

try:
    df = pd.get_dummies(df, columns=['pnns_groups_2'], drop_first=True)
except:
    print(df.columns)

**Affichage des premières lignes**

In [29]:
df.head()

Unnamed: 0,nutriscore_score,energy-kcal_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,fruits-vegetables-nuts-estimate-from-ingredients_100g,pnns_groups_2_Appetizers,...,pnns_groups_2_Salty and fatty products,pnns_groups_2_Sandwiches,pnns_groups_2_Soups,pnns_groups_2_Sweetened beverages,pnns_groups_2_Sweets,pnns_groups_2_Teas and herbal teas and coffees,pnns_groups_2_Unsweetened beverages,pnns_groups_2_Vegetables,pnns_groups_2_Waters and flavored waters,pnns_groups_2_unknown
0,19.0,578.0,40.9,21.5,35.0,8.4,7.5,0.0,12.0,False,...,False,False,False,False,False,False,False,False,False,False
1,-2.0,208.0,0.0,0.0,8.0,88.0,0.0,0.23,50.0,False,...,False,False,False,False,False,False,False,True,False,False
2,13.0,442.0,22.0,2.6,25.0,1.4,6.4,0.53,22.666667,False,...,False,False,False,False,False,False,False,False,False,False
3,17.0,460.0,24.0,6.0,31.0,1.4,6.4,0.48,16.25,False,...,False,False,False,False,False,False,False,False,False,False
4,16.0,467.0,25.0,6.1,29.0,2.5,6.3,0.45,16.25,False,...,False,False,False,False,False,False,False,False,False,False


**Préparer les données pour prédire la variable nutriscore**

In [30]:
X = df.drop("nutriscore_score", axis = 1)
y = df["nutriscore_score"]

**Sépartion des données d'entrainnement et les données de test**

In [31]:
from sklearn.model_selection import train_test_split
import random
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2,random_state=12)

**Normalisation des données**

In [32]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

**Un arbre de régression de type CART**

In [33]:
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor(
    learning_rate=0.05,  # Réduit le pas d'apprentissage
    n_estimators=100,    # Réduit le nombre d'estimateurs
    max_depth=3,         # Limite la profondeur des arbres
    random_state=12
)
model.fit(X_train_scaled,y_train)
y_pred = model .predict(X_test_scaled)

**Evaluation du modèle**

In [34]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


print("MAE:", mean_absolute_error(y_test, y_pred))
print("MSE:", mean_squared_error(y_test, y_pred))
print("R²:", r2_score(y_test, y_pred))

MAE: 1.494814957565672
MSE: 4.521594752511058
R²: 0.9414981136216239
