In [48]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

## 💶 Coûts des Aliments
- Prix des Aliments
- Cout en CO2


In [49]:
cout_co2 = pd.read_csv("co2_couts.csv")
cout_co2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Nom                       35 non-null     object 
 1   Kg CO2 pour 1 kilo ou 1L  35 non-null     float64
 2   Portion 100G              35 non-null     float64
 3   Prix Unitaire Kg          35 non-null     object 
dtypes: float64(2), object(2)
memory usage: 1.2+ KB


## 🍽️ Composition des repas

- Code_entrée, Entrée
- Code_plat, Plat
- Code_légumes, Légumes
- Code_laitage, Laitage
- Code_dessert, Dessert
- Code_gouter, Gouter / Code_gouter_02, Gouter_02

## 🌦️ Conditions météorologiques

- Température
- Humidité
- Vitesse du vent moyen 10 mn

Cela joue un rôle sur l'appetit des gens ( en été pas de repas lourd alors que qu'en hiver cela est plus préféré)

## ⏳Facteurs logistiques

- Attente moyenne → Un temps d’attente trop long peut décourager les convives et entraîner plus de gaspillage.
- Allergies → Certains plats peuvent être évités et donc plus gaspillés.

In [85]:
data_meteo = pd.read_csv("data-meteo.csv")
print(data_meteo.columns)
data_meteo.fillna('0' , inplace=True)
print(data_meteo.isna().sum())

Index(['Index', 'Date', 'Secteur', 'Commentaire semaine', 'Commentaire jour',
       'Code_entrée', 'Entrée', 'Code_plat', 'Plat', 'Code_légumes', 'Légumes',
       'Code_laitage', 'Laitage', 'Code_dessert', 'Dessert', 'Code_gouter',
       'Gouter', 'Code_gouter_02', 'Gouter_02', 'Taux participation',
       'Température', 'Humidité', 'Vitesse du vent moyen 10 mn',
       'Taux gaspillage', 'Attente moyenne', 'Allergies'],
      dtype='object')
Index                          0
Date                           0
Secteur                        0
Commentaire semaine            0
Commentaire jour               0
Code_entrée                    0
Entrée                         0
Code_plat                      0
Plat                           0
Code_légumes                   0
Légumes                        0
Code_laitage                   0
Laitage                        0
Code_dessert                   0
Dessert                        0
Code_gouter                    0
Gouter                

  data_meteo.fillna('0' , inplace=True)


In [86]:
data_meteo["Date"] = pd.to_datetime(data_meteo["Date"])
data_meteo["Year"] = data_meteo["Date"].dt.year
data_meteo["Month"] = data_meteo["Date"].dt.month
data_meteo["Day"] = data_meteo["Date"].dt.day

data_meteo["Taux gaspillage"] = pd.to_numeric(data_meteo["Taux gaspillage"])
data_meteo = data_meteo.dropna()

data_meteo = pd.get_dummies(data_meteo, columns=["Entrée" , "Dessert" , "Laitage" , "Légumes" , "Plat" , "Secteur" , "Allergies", "Gouter", "Gouter_02" ])

y = data_meteo['Taux gaspillage']
X = data_meteo.drop(columns=["Taux gaspillage", "Date" , "Commentaire semaine" , "Commentaire jour",
                             "Code_gouter", "Code_gouter_02" , "Code_entrée" , "Code_entrée" , "Code_plat" , "Code_légumes" , "Code_laitage"
                             , "Code_dessert"])

print(X.info())


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5137 entries, 0 to 5136
Columns: 3137 entries, Index to Gouter_02_VACANCES SCOLAIRES
dtypes: bool(3128), float64(3), int32(3), int64(2), object(1)
memory usage: 15.6+ MB
None


In [58]:
data_meteo

Unnamed: 0,Index,Date,Secteur,Commentaire semaine,Commentaire jour,Code_entrée,Entrée,Code_plat,Plat,Code_légumes,...,Taux participation,Température,Humidité,Vitesse du vent moyen 10 mn,Taux gaspillage,Attente moyenne,Allergies,Year,Month,Day
0,0,2016-03-21,3.0,0,0,FLS,Pamplemousse,VPF,Rôti de porc au jus,0,...,0.93,10.7,58,4.5,0.04,38.346453,0.00,2016,3,21
1,1,2016-03-21,1.0,0,0,FLS,Pamplemousse,VPF,Rôti de porc au jus,0,...,0.95,10.7,58,4.5,0.04,0.000000,0.02,2016,3,21
2,2,2016-03-21,2.0,0,0,FLS,Pamplemousse,VPF,Rôti de porc au jus,0,...,0.89,10.7,58,4.5,0.04,13.527442,0.02,2016,3,21
3,3,2016-03-22,3.0,0,0,AB,"Salade floride (carotte râpée, dé d'orange)",0,Poulet rôti,0,...,0.93,11.2,50,4.3,0.35,17.617790,0.02,2016,3,22
4,4,2016-03-22,1.0,0,0,AB,"Salade floride (carotte râpée, dé d'orange)",0,Poulet rôti,0,...,0.92,11.2,50,4.3,0.40,14.935822,0.00,2016,3,22
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5132,5132,2023-01-20,1.0,0,0,BIO,Crème de carottes,DUR,Filet de saumon à l'oseille,0,...,0.90,3.3,86,0.5,0.04,6.870966,0.02,2023,1,20
5133,5133,2023-01-20,3.0,0,0,BIO,Crème de carottes,DUR,Filet de saumon à l'oseille,0,...,0.93,3.3,86,0.5,0.04,5.905211,0.00,2023,1,20
5134,5134,2023-01-23,1.0,0,0,BIO,Betteraves au miel,FR / BIO / DUR,Sauté de porc sauce charcutière OU Rôti de din...,0,...,0.93,3.8,76,3.6,0.04,0.000000,0.00,2023,1,23
5135,5135,2023-01-23,3.0,0,0,BIO,Betteraves au miel,FR / BIO / DUR,Rôti de porc OU Rôti de dinde OU Galette texas*,0,...,0.92,3.8,76,3.6,0.04,37.807232,0.02,2023,1,23


In [87]:

print(f'Mean Squared Error: {mse}')
print(f'Coefficients: {model.coef_}')
print(f'Intercept: {model.intercept_}')

Mean Squared Error: 0.0189841030857645
Coefficients: [ 4.55450827e-05  3.49280789e-02 -6.51368056e-04 ...  3.60376451e-02
 -7.30727501e-03 -2.08851353e-03]
Intercept: 55.94434476938744


nan