# Projet : réaliser une étude sur les produits alimentaires

## 1 - Contexte

Vous réalisez une mission "UFC-Que Choisir". Cette association vous demande de réaliser une étude 
sur la qualité des produits alimentaires mis à disposition des consommateurs par les marques. Cette étude a vocation à aider les consommateurs dans leurs choix.

L'objectif est d'analyser les marques sur au moins les critères suivants : la qualité nutritionnelle, l'impact environnemental, la part des produits biologiques.


Pour cela, vous proposer d'utiliser les données de l'application Yuka

Voici une liste des questions que se pose l'association : 

- Quelles sont les marques qui jouent le jeu et affichent le nutriscore ? Lesquelles ne le font pas?

- Quelles sont les marques qui ont le plus recours aux additifs nocifs

- Quelles sont les marques qui présentent des produits avec la meilleure qualité nutritionnelle ? Les pires ?

- Quelles sont les marques qui jouent le jeu et affichent l'ecosore ? Lesquelles ne le font pas?

- Quelles sont les marques qui semblent le plus respectueuses de l'environnement ? le moins?

- Quelles sont les marques qui proposent essentiellement des produits biologiques ?

- Observe-t-on une corrélation entre le caratère bio des produits et la qualité nutritionnelle ? 

- Observe-t-on une corrélation entre le caratère bio des produits et l'aspect envionnemental ?

- Observe-t-on une corrélation entre la la qualité nutritionnelle et l'aspec envionnemental ?

- Quelles marques faut-il recommander ? 

- Quelles marques ne faut-il surtout pas recommander ? 




## 2 - Données

3 fichiers issues de l'application Yuka sont à exploiter pour réaliser l'analyse. 


Agriculture_biologique_final.csv

Qualite nutritionnelle_final.csv

Impact environnemental_final.csv

Voici le lien pour récupérer les fichiers

https://www.dropbox.com/sh/pwsv4coi2sbbhyo/AABJ81-xWu3K2Cl0DOCmwbGsa?dl=0

## 3 - Consignes

Travail de groupe de 3 personnes. 

Pour l'évaluation CC, chaque groupe doit livrer à la fin des sessions :

    - un rapport synthétisant l'analyse faite et les conculusions obtenues
    
    - un notebook nettoyé et commenté

## 4 - Contraintes

Votre analyse doit inclure des analyses univariées et multivariées


## 5 - Préparation de l'environnement

In [1]:
# Import de la librairie Pandas
import pandas as pd

# Import de la librairie matplotlib
import matplotlib.pyplot as plt

## 6 - A vous de jouer¶

Inspirez-vous du TP vu en cours

In [2]:
bio = pd.read_csv("Agriculture_biologique_final.csv", sep ="\t")
impact_envi = pd.read_csv("Impact environnemental_final.csv", sep ="\t")
qualité_nutriti = pd.read_csv("Qualite nutritionnelle_final.csv", sep ="\t")

  impact_envi = pd.read_csv("Impact environnemental_final.csv", sep ="\t")
  qualité_nutriti = pd.read_csv("Qualite nutritionnelle_final.csv", sep ="\t")


# EXERCICE

## Quelles sont les marques qui jouent le jeu et affichent le nutriscore ? Lesquelles ne le font pas?

In [52]:
#importe le dataframe en copy pour ne pas toucher l'original
quest_1 = qualité_nutriti.copy()
# je conserve uniquement les colonnes qui m'interesse
quest_1 = quest_1[["brands_tags", "nutriscore_grade", "code" ]]
# Supprime les doublons
quest_1 = quest_1.drop_duplicates()
# Je supprime les NaN dans la colonne brands_tags
quest_1.dropna(subset=['brands_tags'], inplace=True)
# Je remplace les Nan de la colonnes "Nutri_score" par NC (Non Communiqué)
quest_1.nutriscore_grade = quest_1.nutriscore_grade.fillna('NC')
# Ont fait un pivot table avec le margins
quest_1 = quest_1.pivot_table(index='brands_tags', columns='nutriscore_grade', aggfunc='count', values='code', margins=True)
# Je conserve les marques qui ont plus de 500 produit
quest_1 = quest_1[quest_1.All>500]
# Je crée une colonne "Ratio_NC" qui va me calculer le ratio de NC sur ALL
quest_1["ratio_NC"] = round(quest_1.NC/quest_1.All*100,2)

* **Les marques qui joue + le jeu sont :**

In [53]:
quest_1.sort_values(by='ratio_NC', ascending = True).head()

nutriscore_grade,NC,a,b,c,d,e,All,ratio_NC
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"u-saveurs,u",59.0,33.0,31.0,107.0,180.0,94.0,504,11.71
belle-france,259.0,257.0,184.0,334.0,373.0,251.0,1658,15.62
"carrefour-bio,carrefour",83.0,136.0,63.0,91.0,94.0,55.0,522,15.9
monique-ranou,133.0,35.0,77.0,130.0,133.0,94.0,602,22.09
la-nouvelle-agriculture,230.0,505.0,233.0,25.0,28.0,5.0,1026,22.42


* **Les marques qui joue - le jeu sont :**

In [54]:
quest_1.sort_values(by='ratio_NC', ascending = False).head()

nutriscore_grade,NC,a,b,c,d,e,All,ratio_NC
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
palais-des-thes,877.0,,32.0,13.0,3.0,2.0,927,94.61
ducros,557.0,13.0,10.0,8.0,27.0,6.0,621,89.69
maggi,496.0,5.0,26.0,35.0,36.0,10.0,608,81.58
myprotein,873.0,47.0,39.0,37.0,65.0,23.0,1084,80.54
prozis,465.0,35.0,43.0,42.0,29.0,8.0,622,74.76


## Quelles sont les marques qui ont le plus recours aux additifs nocifs

In [66]:
# Importe le dataframe en copy() pour garder la version originile
quest_2 = qualité_nutriti.copy()
# Supprime les doublons
quest_2 = quest_2.drop_duplicates()
# Je conserve uniquement les colonnes qui m'interresse
quest_2 = quest_2[['code', 'product_name', 'brands_tags', 'nb_nocif']]
# Je regroupe par "brands_tags" et sum par nb_nocif
quest_2.groupby("brands_tags").sum("nb_nocif").sort_values(by ='nb_nocif',ascending = False).head(10)


Unnamed: 0_level_0,nb_nocif
brands_tags,Unnamed: 1_level_1
sodastream,29.0
"nestle,sveltesse",10.0
a-rom,9.0
dove,8.0
nestle,7.0
schweppes,7.0
freeway,6.0
steff,4.0
fruiss,4.0
san-benedetto,4.0


## Quelles sont les marques qui présentent des produits avec la meilleure qualité nutritionnelle ? Les pires ?

In [7]:
# Je recupère le tableau de de la premiere question
quest_3 = quest_1.copy()

# Ont crée des colonnes pour faire des ratio sur chaque grades
quest_3["ratio_A"] = round(quest_3.a/quest_3.All*100,2)
quest_3["ratio_B"] = round(quest_3.b/quest_3.All*100,2)
quest_3["ratio_C"] = round(quest_3.c/quest_3.All*100,2)
quest_3["ratio_D"] = round(quest_3.d/quest_3.All*100,2)
quest_3["ratio_E"] = round(quest_3.e/quest_3.All*100,2)


# Scoring par grade
# A = 5 points, B = 4 points, C = 3 points, D = 2 points, E = 1 point
# Ont recupére une note sur 500
quest_3["Note_Ratio"] = quest_3["ratio_A"] * 5 + quest_3["ratio_B"] * 4 + quest_3["ratio_C"] * 3 + quest_3["ratio_D"] * 2 + quest_3["ratio_E"] * 1 


* **Les marques qui presente des produits avec la meilleure qualité nutritionnelle sont :**

In [8]:
# Trie par Note_Ratio
quest_3.sort_values(by = "Note_Ratio", ascending = False).head(11)

nutriscore_grade,NC,a,b,c,d,e,All,ratio_NC,ratio_A,ratio_B,ratio_C,ratio_D,ratio_E,Note_Ratio
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
la-nouvelle-agriculture,246.0,560.0,261.0,27.0,32.0,5.0,1131,21.75,49.51,23.08,2.39,2.83,0.44,353.14
cereal-bio,86.0,147.0,36.0,29.0,9.0,10.0,317,27.13,46.37,11.36,9.15,2.84,3.15,313.57
tendre-plus,68.0,12.0,189.0,62.0,24.0,2.0,357,19.05,3.36,52.94,17.37,6.72,0.56,294.67
saint-eloi,176.0,217.0,63.0,20.0,8.0,1.0,485,36.29,44.74,12.99,4.12,1.65,0.21,291.53
marie,51.0,38.0,111.0,82.0,67.0,5.0,354,14.41,10.73,31.36,23.16,18.93,1.41,287.84
jacquet,96.0,85.0,78.0,28.0,16.0,2.0,305,31.48,27.87,25.57,9.18,5.25,0.66,280.33
"delisse,marque-repere",51.0,25.0,82.0,145.0,38.0,5.0,346,14.74,7.23,23.7,41.91,10.98,1.45,280.09
markal,149.0,178.0,30.0,17.0,21.0,6.0,401,37.16,44.39,7.48,4.24,5.24,1.5,276.57
"carrefour-bio,carrefour",88.0,141.0,64.0,96.0,95.0,58.0,542,16.24,26.01,11.81,17.71,17.53,10.7,276.18
"jardin-bio,lea-nature",93.0,104.0,58.0,46.0,44.0,21.0,366,25.41,28.42,15.85,12.57,12.02,5.74,272.99


* **Les marques qui presente des produits avec la pire qualité nutritionnelle sont :**

In [9]:
# Trie par Note_Ratio
quest_3.sort_values(by = "Note_Ratio", ascending = True).head(11)

nutriscore_grade,NC,a,b,c,d,e,All,ratio_NC,ratio_A,ratio_B,ratio_C,ratio_D,ratio_E,Note_Ratio
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
bledina,293.0,5.0,5.0,1.0,1.0,3.0,308,95.13,1.62,1.62,0.32,0.32,0.97,17.15
hipp,401.0,6.0,5.0,5.0,3.0,2.0,422,95.02,1.42,1.18,1.18,0.71,0.47,17.25
ducros,649.0,13.0,10.0,8.0,27.0,6.0,713,91.02,1.82,1.4,1.12,3.79,0.84,26.48
sainte-lucie,455.0,5.0,9.0,19.0,38.0,9.0,535,85.05,0.93,1.68,3.55,7.1,1.68,37.9
teisseire,277.0,7.0,9.0,14.0,16.0,27.0,350,79.14,2.0,2.57,4.0,4.57,7.71,49.13
maggi,552.0,6.0,27.0,35.0,40.0,10.0,670,82.39,0.9,4.03,5.22,5.97,1.49,49.71
albert-heijn,268.0,11.0,12.0,7.0,11.0,20.0,329,81.46,3.34,3.65,2.13,3.34,6.08,50.45
hema,538.0,10.0,17.0,25.0,71.0,90.0,751,71.64,1.33,2.26,3.33,9.45,11.98,56.56
myprotein,978.0,50.0,39.0,39.0,65.0,23.0,1194,81.91,4.19,3.27,3.27,5.44,1.93,56.65
continente,246.0,6.0,6.0,21.0,32.0,21.0,332,74.1,1.81,1.81,6.33,9.64,6.33,60.89


## Quelles sont les marques qui jouent le jeu et affichent l'ecosore ? Lesquelles ne le font pas?

In [10]:
#importe le dataframe en copy pour ne pas toucher l'original
quest_4 = impact_envi.copy()
# je conserve uniquement les colonnes qui m'interesse
quest_4 = quest_4[["code", "product_name", "brands_tags", "ecoscore_grade"]]
# Je supprime les NaN dans la colonne brands_tags
quest_4.dropna(subset=['brands_tags'], inplace=True)
# Je transforme toute les valeurs différente de a,b,c,d,e par NC
quest_4.loc[~quest_4['ecoscore_grade'].isin(['a', 'b', 'c', 'd', 'e']), 'ecoscore_grade'] = 'NC'
# Ont fait un pivot table avec le margins
quest_4 = quest_4.pivot_table(index='brands_tags', columns='ecoscore_grade', aggfunc='count', values='code', margins=True)
# Je conserve les marques qui ont plus de 300 produit
quest_4 = quest_4[quest_4.All>300]
# Je crée une colonne "Ratio_NC" qui va me calculer le ratio de NC sur ALL
quest_4["ratio_NC"] = round(quest_4.NC/quest_4.All*100,2)

* **Les marques qui joue + le jeu sont :**

In [11]:
quest_4.sort_values(by='ratio_NC', ascending = True).head()

ecoscore_grade,NC,a,b,c,d,e,All,ratio_NC
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
la-belle-iloise,41.0,8.0,26.0,40.0,131.0,95.0,341,12.02
saveurs-de-nos-regions,59.0,8.0,32.0,47.0,193.0,46.0,385,15.32
la-nouvelle-agriculture,189.0,1.0,4.0,87.0,779.0,71.0,1131,16.71
belle-france,329.0,64.0,437.0,279.0,338.0,227.0,1674,19.65
"carrefour-bio,carrefour",110.0,83.0,172.0,93.0,56.0,28.0,542,20.3


* **Les marques qui joue - le jeu sont :**

In [12]:
quest_4.sort_values(by='ratio_NC', ascending = False).head()

ecoscore_grade,NC,a,b,c,d,e,All,ratio_NC
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
coca-cola,508.0,,3.0,1.0,1.0,,513,99.03
schweppes,326.0,,1.0,4.0,3.0,,334,97.6
myprotein,1127.0,,12.0,16.0,26.0,13.0,1194,94.39
palais-des-thes,977.0,17.0,46.0,2.0,4.0,,1046,93.4
mentos,310.0,,1.0,,5.0,17.0,333,93.09


## Quelles sont les marques qui semblent le plus respectueuses de l'environnement ? le moins?

In [13]:
# Je recupère le tableau de de la premiere question
quest_5 = quest_4.copy()

# Ont crée des colonnes pour faire des ratio sur chaque grades
quest_5["ratio_A"] = round(quest_5.a/quest_5.All*100,2)
quest_5["ratio_B"] = round(quest_5.b/quest_5.All*100,2)
quest_5["ratio_C"] = round(quest_5.c/quest_5.All*100,2)
quest_5["ratio_D"] = round(quest_5.d/quest_5.All*100,2)
quest_5["ratio_E"] = round(quest_5.e/quest_5.All*100,2)


# Scoring par grade
# A = 5 points, B = 4 points, C = 3 points, D = 2 points, E = 1 point
# Ont recupére une note sur 500
quest_5["Note_Ratio"] = quest_5["ratio_A"] * 5 + quest_5["ratio_B"] * 4 + quest_5["ratio_C"] * 3 + quest_5["ratio_D"] * 2 + quest_5["ratio_E"] * 1 


* **Les marques les + respectueuse de l'environnement :**

In [14]:
quest_5.sort_values(by = "Note_Ratio", ascending = False).head(11)

ecoscore_grade,NC,a,b,c,d,e,All,ratio_NC,ratio_A,ratio_B,ratio_C,ratio_D,ratio_E,Note_Ratio
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
"jardin-bio,lea-nature",112.0,88.0,108.0,47.0,10.0,1.0,366,30.6,24.04,29.51,12.84,2.73,0.27,282.49
"carrefour-bio,carrefour",110.0,83.0,172.0,93.0,56.0,28.0,542,20.3,15.31,31.73,17.16,10.33,5.17,280.78
"u-bio,u",154.0,123.0,158.0,116.0,56.0,11.0,618,24.92,19.9,25.57,18.77,9.06,1.78,277.99
jacquet,115.0,47.0,135.0,2.0,3.0,3.0,305,37.7,15.41,44.26,0.66,0.98,0.98,259.01
"casino-bio,casino",124.0,61.0,148.0,54.0,47.0,19.0,453,27.37,13.47,32.67,11.92,10.38,4.19,258.74
"bio-village,marque-repere",264.0,91.0,274.0,140.0,74.0,23.0,866,30.48,10.51,31.64,16.17,8.55,2.66,247.38
"delisse,marque-repere",116.0,20.0,124.0,42.0,24.0,20.0,346,33.53,5.78,35.84,12.14,6.94,5.78,228.34
belle-france,329.0,64.0,437.0,279.0,338.0,227.0,1674,19.65,3.82,26.11,16.67,20.19,13.56,227.49
grand-jury,195.0,30.0,167.0,139.0,112.0,72.0,715,27.27,4.2,23.36,19.44,15.66,10.07,214.15
"pouce,auchan",87.0,11.0,79.0,65.0,59.0,39.0,340,25.59,3.24,23.24,19.12,17.35,11.47,212.69


* **Les marques les - respectueuse de l'environnement :**

In [15]:
quest_5.sort_values(by = "Note_Ratio", ascending = True).head(11)

ecoscore_grade,NC,a,b,c,d,e,All,ratio_NC,ratio_A,ratio_B,ratio_C,ratio_D,ratio_E,Note_Ratio
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
maggi,620.0,7.0,17.0,4.0,3.0,19.0,670,92.54,1.04,2.54,0.6,0.45,2.84,20.9
prozis,598.0,1.0,13.0,23.0,17.0,9.0,661,90.47,0.15,1.97,3.48,2.57,1.36,25.57
nescafe,269.0,1.0,5.0,5.0,18.0,66.0,364,73.9,0.27,1.37,1.37,4.95,18.13,38.97
bledina,275.0,5.0,21.0,1.0,4.0,2.0,308,89.29,1.62,6.82,0.32,1.3,0.65,39.59
albert-heijn,278.0,4.0,10.0,15.0,11.0,11.0,329,84.5,1.22,3.04,4.56,3.34,3.34,41.96
hema,596.0,2.0,45.0,21.0,29.0,58.0,751,79.36,0.27,5.99,2.8,3.86,7.72,49.15
marque-repere,366.0,6.0,22.0,12.0,28.0,13.0,447,81.88,1.34,4.92,2.68,6.26,2.91,49.85
cemoi,234.0,1.0,13.0,10.0,14.0,66.0,338,69.23,0.3,3.85,2.96,4.14,19.53,53.59
waitrose,235.0,1.0,8.0,17.0,32.0,16.0,309,76.05,0.32,2.59,5.5,10.36,5.18,54.36
nestle,2207.0,25.0,190.0,164.0,123.0,154.0,2863,77.09,0.87,6.64,5.73,4.3,5.38,62.08


## Quelles sont les marques qui proposent essentiellement des produits biologiques ?

In [42]:
#J'appelle le dataframe
quest_6 = qualité_nutriti.copy()
# je conserve uniquement les colonnes qui m'interesse
quest_6  = quest_6[["code", "product_name", "quantity", "brands_tags", "serving_size"]]
# je merge les deux datframe
quest_6 = quest_6.merge(bio, on=["product_name", "brands_tags", "serving_size"], how='outer')
# Supprime les doublons
quest_6 = quest_6.drop_duplicates()
# Je remplace les NaN par False
quest_6['est_bio'].fillna(False, inplace=True)
# Je converse uniqumement les colonnes qui m'interesse
quest_6 = quest_6[["brands_tags","est_bio"]]
# Je regroupe par la colonne [brands_tags] est sum + count sur la colonne [est_bio]
quest_6 = quest_6.groupby(by="brands_tags").est_bio.agg([sum,"count"]).sort_values("sum", ascending=False)
# je fait un ratio
quest_6["ratio%"] = quest_6["sum"]/quest_6["count"]*100
# Je garde uniquement les marques qui ont plus de 300 produits dans le catalogues
quest_6 = quest_6[quest_6["count"] >300]
# je trie les valeur du grand au plus petit
quest_6.sort_values("ratio%", ascending=False)

Unnamed: 0_level_0,sum,count,ratio%
brands_tags,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"jardin-bio,lea-nature",364,364,100.000000
"casino-bio,casino",444,445,99.775281
"carrefour-bio,carrefour",519,522,99.425287
"u-bio,u",611,620,98.548387
"bio-village,marque-repere",846,862,98.143852
...,...,...,...
comtesse-du-barry,0,338,0.000000
eco,0,632,0.000000
"delisse,marque-repere",0,343,0.000000
haagen-dazs,0,371,0.000000
