# IA de prédiction de l'impact environnemental
Cette IA à pour but de prédir l'impact sur le changement climatique (CO2 équivalent) d'un produit alimentaire.


# Import

In [4]:
# Manipulation de données
import pandas as pd
import numpy as np

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns

# Machine learning - modèles
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

# Prétraitement
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Évaluation
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

# Data d'entraînement
Les données pour entraîner le modèle proviennent de l'ADEME et sont disponibles [à cette adresse](https://www.data.gouv.fr/datasets/agribalyse-3-1-synthese/).

In [5]:
df = pd.read_csv("agribalyse_data.csv", sep=",")
# Aperçu
df.head()

Unnamed: 0,Code AGB,Code CIQUAL,Groupe d'aliment,Sous-groupe d'aliment,Nom du Produit en Français,LCI Name,code saison,code avion,Livraison,Approche emballage,...,Eutrophisation marine,Eutrophisation terrestre,Écotoxicité pour écosystèmes aquatiques d'eau douce,Utilisation du sol,Épuisement des ressources eau,Épuisement des ressources énergétiques,Épuisement des ressources minéraux,Changement climatique - émissions biogéniques,Changement climatique - émissions fossiles,Changement climatique - émissions liées au changement d'affectation des sols
0,11172,11172.0,aides culinaires et ingrédients divers,aides culinaires,"Court-bouillon pour poissons, déshydraté","Aromatic stock cube, for fish, dehydrated",2.0,0.0,Ambiant (long),PACK PROXY,...,0.0268,0.137,70.2,106.0,3.38,700.0,5.1e-05,0.104,7.46,0.0212
1,25525,25525.0,aides culinaires et ingrédients divers,aides culinaires,"Pizza, sauce garniture pour",Topping sauce for pizza,2.0,0.0,Ambiant (long),PACK PROXY,...,0.00416,0.0303,11.0,67.7,2.47,24.4,6e-06,0.0336,1.02,-0.108
2,11214,11214.0,aides culinaires et ingrédients divers,aides culinaires,"Préparation culinaire à base de soja, type ""cr...","Soy ""cream"" preparation",2.0,0.0,Ambiant (long),PACK PROXY,...,0.00723,0.0244,30.8,116.0,0.422,22.4,4e-06,0.0252,0.965,0.184
3,11084,11084.0,aides culinaires et ingrédients divers,algues,"Agar (algue), cru","Seaweed, agar, raw",2.0,0.0,Ambiant (long),PACK PROXY,...,0.015,0.144,57.9,26.7,4.83,396.0,7.9e-05,0.0401,11.7,0.00655
4,20995,20995.0,aides culinaires et ingrédients divers,algues,"Ao-nori (Enteromorpha sp.), séchée ou déshydratée","Sea lettuce (Enteromorpha sp.), dried or dehyd...",2.0,0.0,Ambiant (long),PACK PROXY,...,0.015,0.144,57.9,26.7,4.83,396.0,7.9e-05,0.0401,11.7,0.00655


L'ensemble des colonnes est séparé selon leur type de données (catégorielles ou numériques). Nous pourrons ensuite effectuer des tests pour identifier et supprimer les colonnes ayant peu d'influence sur la variable cible.

In [6]:
all_cat_cols = ["Groupe d'aliment", "Sous-groupe d'aliment", "Préparation", "Approche emballage", "Livraison"] 
all_num_cols = ["Score unique EF", "code saison", "code avion", "Utilisation du sol", "DOR",
            "Appauvrissement de la couche d'ozone", "Rayonnements ionisants", "Formation photochimique d'ozone",
           "Particules fines", "Effets toxicologiques sur la santé humaine : substances non-cancérogènes",
           "Effets toxicologiques sur la santé humaine : substances cancérogènes", "Acidification terrestre et eaux douces",
           "Eutrophisation eaux douces", "Eutrophisation marine", "Eutrophisation terrestre", "Écotoxicité pour écosystèmes aquatiques d'eau douce",
           "Utilisation du sol", "Épuisement des ressources eau", "Épuisement des ressources énergétiques", "Épuisement des ressources minéraux",
           "Changement climatique - émissions biogéniques", "Changement climatique - émissions fossiles",
            "Changement climatique - émissions liées au changement d'affectation des sols"]

# Variable cible
y = "Changement climatique"

# Pipeline de transformation
Les données non numériques ne peuvent pas être traitées directement par notre modèle, il faut donc les transformer. Plusieurs solutions existent, comme l'encodage par label (non adapté aux modèles linéaires) ou l'encodage one-hot, qui est préférable ici.
Il faut également décider comment gérer les données manquantes : supprimer les lignes concernées ou les remplacer par une valeur par défaut.