# Projet d'application en lien avec l'alimentation

Etude data - Projet 3 - Nalron (Octobre 2020) OpenClassrooms / CentraleSupélec

Traitement des données sur Jupyter Notebook (Distribution Anaconda)

Etude réalisée en langage Python

*Data source* : [Open Food Fact](https://fr.openfoodfacts.org/data) - 
*Variables info* : [Open Food Variables](https://world.openfoodfacts.org/data/data-fields.txt)

---

L'agence [Santé publique France](http://www.santepubliquefrance.fr/) a lancé un appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation. L'objectif est d'y participer et de proposer une idée d’application.

## Les données
**Extrait de l’appel à projets :**

Le jeu de données Open Food Fact est disponible sur le site officiel. Les variables sont définies à cette adresse.

Les champs sont séparés en quatre sections :

- Les informations générales sur la fiche du produit : nom, date de modification, etc.
- Un ensemble de tags : catégorie du produit, localisation, origine, etc.
- Les ingrédients composant les produits et leurs additifs éventuels.
- Des informations nutritionnelles : quantité en grammes d’un nutriment pour 100 grammes du produit.

---

## Application proposée 
## "De nutri-score à NOVA, des outils pour s’y retrouver… "
**Le principe est simple, pouvoir répondre à la demande des consommateurs par un double affichage : Nutri-score + classification NOVA.**

### NUTRI-SCORE : COMMENT ÇA MARCHE ?
Le Nutri-Score prend en compte pour 100 grammes de produit, la teneur en nutriments et aliments à favoriser : fibres, protéines, fruits et légumes ; il tient compte des nutriments à limiter (énergie, acides gras saturés, sucres, sel). Après calcul, le score obtenu permet d’attribuer une lettre (A à E) et une couleur à chaque produit sous forme d’un logo à 5 couleurs. Le logo désigne ainsi en 5 niveaux la qualité nutritionnelle des aliments. Apposé sur la face avant des produits emballés, il permet une comparaison entre produits du même rayon et par conséquent aide le consommateur à choisir des produits de meilleure qualité nutritionnelle.

![Nutriscore](p3_image/nutriscore.png)

**Le ”A” est attribué aux produits les plus favorables pour la santé tandis que la ”E” identifie les moins favorables.**\
Grâce au logo Nutri-Score, le consommateur fait rapidement la comparaison entre les produits alignés dans un même rayon.

### LA CLASSIFICATION NOVA : UN COMPLÉMENT AU NUTRI-SCORE
La classification NOVA (qui n’est pas un acronyme), mise au point par le Professeur Monteiro et son équipe au Brésil, est une répartition des aliments en 4 groupes en fonction du degré de transformation qu’ils ont subi. Leur objectif était de trouver une indication simple, accessible aux moins favorisés (y compris les analphabètes), pour comprendre les différentes sortes d’aliments à leur disposition. Rappelons que le Brésil est le pays où l’incidence de l’obésité chez les enfants est le plus élevé au monde. Ces chercheurs ont démontré l’efficience de cette classification qui se résumé en 4 catégories : 1 à 4, du plus simple au plus transformé. Du plus naturel au plus complexe avec additifs et de multiples étapes de fabrication.

![nova](p3_00_image/nova.png)

**1 à 4, du plus simple au plus transformé.**\
Du plus naturel au plus complexe avec additifs et de multiples étapes de fabrication.

***L'objectif est d'identifier des arguments justifiant la faisabilité (ou non) de l’application à partir des données Open Food Facts.***

---

In [1]:
import pandas as pd
import datetime as dt
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [2]:
pd.set_option('display.max_rows', 1000)

In [3]:
openfoodfacts = pd.read_csv('p3_00_data/en.openfoodfacts.org.products.csv', 
                            sep='/t', delimiter=';', encoding='utf-8', engine='python')
openfoodfacts.head()

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,carbon-footprint-from-meat-or-fish_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g,choline_100g,phylloquinone_100g,beta-glucan_100g,inositol_100g,carnitine_100g
0,17,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1529059080,2018-06-15T10:38:00Z,1561463718,2019-06-25T11:55:18Z,Vitória crackers,,,...,,,,,,,,,,
1,31,http://world-en.openfoodfacts.org/product/0000...,isagoofy,1539464774,2018-10-13T21:06:14Z,1539464817,2018-10-13T21:06:57Z,Cacao,,130 g,...,,,,,,,,,,
2,3327986,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1574175736,2019-11-19T15:02:16Z,1574175737,2019-11-19T15:02:17Z,Filetes de pollo empanado,,,...,,,,,,,,,,
3,100,http://world-en.openfoodfacts.org/product/0000...,del51,1444572561,2015-10-11T14:09:21Z,1444659212,2015-10-12T14:13:32Z,moutarde au moût de raisin,,100g,...,,18.0,,,,,,,,
4,1111111111,http://world-en.openfoodfacts.org/product/0000...,openfoodfacts-contributors,1560020173,2019-06-08T18:56:13Z,1560020173,2019-06-08T18:56:13Z,Sfiudwx,,dgesc,...,,,,,,,,,,


### Informations descriptives globales de l'échantillon
Affichage de quelques informations représentatives de l'échantillon : taille de l'échantillon, type de variables, valeurs manquantes, doublons, etc…

In [4]:
openfoodfacts.shape

(32309, 181)

In [5]:
openfoodfacts.dtypes

code                                           object
url                                            object
creator                                        object
created_t                                       int64
created_datetime                               object
last_modified_t                                 int64
last_modified_datetime                         object
product_name                                   object
generic_name                                   object
quantity                                       object
packaging                                      object
packaging_tags                                 object
brands                                         object
brands_tags                                    object
categories                                     object
categories_tags                                object
categories_en                                  object
origins                                        object
origins_tags                

In [802]:
def missing_value(data):
    return data.isna().sum().sum(), data.isna().sum().sort_values()

missing_value(openfoodfacts)

(4365327,
 code                                              0
 url                                               0
 creator                                           0
 created_t                                         0
 created_datetime                                  0
 last_modified_t                                   0
 last_modified_datetime                            0
 pnns_groups_2                                     0
 states                                            0
 states_tags                                       0
 states_en                                         0
 pnns_groups_1                                    53
 countries                                        64
 countries_tags                                   64
 countries_en                                     64
 product_name                                    701
 energy_100g                                    2203
 carbohydrates_100g                             2224
 fat_100g                           

Notons que plusieurs variables sont totalement vides, sans aucune valeur ni modalité. Dans l'immédiat la variable 'states' apporte plus de précisions, en quelque sorte un "état de santé" des données du fichier.

In [6]:
states_tags = {}
for i in openfoodfacts.index:
    tags = str(openfoodfacts.at[i, 'states']).split(",")
    for tag in tags:
        if tag in states_tags:
            states_tags[tag] += 1
        else:
            states_tags[tag] = 1
            
sorted_states_tags = sorted(states_tags, key=states_tags.get, reverse=True)

for tag in sorted_states_tags:
    print(f"{tag}: {states_tags[tag]}")

 en:packaging-code-to-be-completed: 32194
en:to-be-completed: 31762
 en:product-name-completed: 31607
 en:characteristics-to-be-completed: 31494
 en:expiration-date-to-be-completed: 31370
 en:packaging-to-be-completed: 31307
 en:nutrition-facts-completed: 30798
 en:quantity-to-be-completed: 30260
 en:ingredients-completed: 27332
 en:categories-completed: 25401
 en:photos-to-be-uploaded: 24754
 en:brands-completed: 18727
 en:brands-to-be-completed: 13581
 en:photos-uploaded: 7555
 en:categories-to-be-completed: 6907
 en:photos-to-be-validated: 6132
 en:ingredients-to-be-completed: 4977
 en:quantity-completed: 2048
 en:nutrition-facts-to-be-completed: 1511
 en:photos-validated: 1423
 en:packaging-completed: 1002
 en:expiration-date-completed: 939
 en:characteristics-completed: 815
 en:product-name-to-be-completed: 701
 en:complete: 542
en:to-be-checked: 536
 en:packaging-code-completed: 113
en:checked: 6
en:empty: 5
 en:to-be-completed: 5


La variable 'states' apporte une information synthétique rapide sur l'état de santé global du jeu de données comme l'atteste l'affichage ci-dessus.\
Elle peut être utilisée pour des opérations de resctriction, afin d'obtenir la qualité des données qui nous intéresse en fonction des objectifs définis.

In [7]:
def restriction_state(data, state_carac):
    data = data[data['states'].str.contains(state_carac)]
    return data

restriction_state(openfoodfacts, 'en:product-name-completed')

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,carbon-footprint-from-meat-or-fish_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g,choline_100g,phylloquinone_100g,beta-glucan_100g,inositol_100g,carnitine_100g
0,17,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1529059080,2018-06-15T10:38:00Z,1561463718,2019-06-25T11:55:18Z,Vitória crackers,,,...,,,,,,,,,,
1,31,http://world-en.openfoodfacts.org/product/0000...,isagoofy,1539464774,2018-10-13T21:06:14Z,1539464817,2018-10-13T21:06:57Z,Cacao,,130 g,...,,,,,,,,,,
2,000000000003327986,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1574175736,2019-11-19T15:02:16Z,1574175737,2019-11-19T15:02:17Z,Filetes de pollo empanado,,,...,,,,,,,,,,
4,00000000001111111111,http://world-en.openfoodfacts.org/product/0000...,openfoodfacts-contributors,1560020173,2019-06-08T18:56:13Z,1560020173,2019-06-08T18:56:13Z,Sfiudwx,,dgesc,...,,,,,,,,,,
5,123,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1535737982,2018-08-31T17:53:02Z,1535737986,2018-08-31T17:53:06Z,Sauce Sweety chili 0%,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32303,20138137263,http://world-en.openfoodfacts.org/product/0020...,usda-ndb-import,1489135968,2017-03-10T08:52:48Z,1587627863,2020-04-23T07:44:23Z,Mustard Sauce,,,...,,7.0,,,,,,,,
32304,20138138093,http://world-en.openfoodfacts.org/product/0020...,org-database-usda,1587667197,2020-04-23T18:39:57Z,1587667197,2020-04-23T18:39:57Z,Mixed berry pepper relish,,,...,,6.0,,,,,,,,
32305,20138138109,http://world-en.openfoodfacts.org/product/0020...,org-database-usda,1587667205,2020-04-23T18:40:05Z,1587667206,2020-04-23T18:40:06Z,Peach mango chutney,,,...,,7.0,,,,,,,,
32306,20138150668,http://world-en.openfoodfacts.org/product/0020...,usda-ndb-import,1489093992,2017-03-09T21:13:12Z,1587593373,2020-04-22T22:09:33Z,Roasted Pineapple Habanero Sauce,,,...,,7.0,,,,,,,,


Un risque d'erreur dans la variable 'states' est possible, un test complémentaire de modalité manquante est recommandé.

In [8]:
openfoodfacts.dropna(subset=["product_name"], axis=0, how='any').shape

(31608, 181)

Résultat concluant sur l'utilisation de la variable 'states'… 

In [9]:
openfoodfacts = restriction_state(openfoodfacts, 'en:product-name-completed')
openfoodfacts.shape

(31607, 181)

In [10]:
print(openfoodfacts[openfoodfacts['nutriscore_score'].isna()].shape[0])
print(openfoodfacts[openfoodfacts['nutriscore_grade'].isna()].shape[0])
print(openfoodfacts[openfoodfacts['nutrition-score-uk_100g'].isna()].shape[0])

11441
11441
31607


Notons un point positif concernant les données propres au Nutri-score, les deux variables 'nutriscore_score' et 'nutriscore_grade' semblent avoir le même degré de complétude. Deuxièmement la variable 'nutrition-score-uk_100g' ressort comme étant beaucoup moins qualitative.

Rappelons que dans le contexte métier de l'application, une observation sans désignation produit n'est pas qualitative, mais une observation sans Nutri-score (ou Nutri-grade) l'est encore moins. **Une restriction complémentaire peut-être opérée en ne conservant que les observations avec l'info du Nutri-score.**

In [11]:
openfoodfacts = openfoodfacts[openfoodfacts['nutriscore_score'].notna()]
openfoodfacts.shape

(20166, 181)

In [12]:
openfoodfacts = restriction_state(openfoodfacts, 'en:nutrition-facts-completed')
openfoodfacts.shape

(20166, 181)

La restiction des données via 'en:nutrition-facts-completed' (from variable 'states'), ne permet pas d'optimiser plus les observations.

### Nettoyage et pré-traitement des variables
Recherche de variables en doublon, de valeurs manquantes en forte quantité, etc… ayant pour effet d'alourdir inutilement l'échantillon.

In [13]:
def missing_value_clean(data):
    sample_data_part = (data.count()/data.shape[0]*100).round(0)
    sample_data_part.sort_values(ascending=False, inplace=True)
    return sample_data_part

missing_value_clean(openfoodfacts)

code                                          100.0
main_category_en                              100.0
pnns_groups_1                                 100.0
pnns_groups_2                                 100.0
states                                        100.0
states_tags                                   100.0
states_en                                     100.0
main_category                                 100.0
energy_100g                                   100.0
proteins_100g                                 100.0
fat_100g                                      100.0
saturated-fat_100g                            100.0
carbohydrates_100g                            100.0
sugars_100g                                   100.0
sodium_100g                                   100.0
salt_100g                                     100.0
nutriscore_grade                              100.0
nutriscore_score                              100.0
categories                                    100.0
categories_e

Le seuil des 50% de données disponibles / variable semble répondre aux besoins essentiels de l'application(fibres, protéines, énergie, acides gras saturés, sucres, sel). **Une première sélection peut-être opérée selon cette condition.**

In [15]:
openfoodfacts = openfoodfacts.loc[:, missing_value_clean(openfoodfacts) >= 50]
openfoodfacts.shape

(20166, 52)

In [16]:
def variable_duplicate(data, var1, var2):
    return data[var1].nunique() == data[var2].nunique() 
    
display(variable_duplicate(openfoodfacts, 'states', 'states_tags'))
display(variable_duplicate(openfoodfacts, 'additives_en', 'additives_tags'))
display(variable_duplicate(openfoodfacts, 'countries_en', 'countries_tags'))
display(variable_duplicate(openfoodfacts, 'categories_en', 'categories_tags'))

True

True

True

True

In [18]:
def variable_duplicate_clean(data):
    data = data.loc[:, ~data.columns.str.contains('_tags', case=False, na=False)]
    return data

openfoodfacts = variable_duplicate_clean(openfoodfacts)
display(openfoodfacts.shape)
display(openfoodfacts.head())

(20166, 47)

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,brands,categories,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
13,949,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1523440813,2018-04-11T10:00:13Z,1565268412,2019-08-08T12:46:52Z,Salade de carottes râpées,,"Plats préparés, Légumes préparés, Carottes râp...",...,3.9,,0.9,0.42,0.168,,,,,1.0
21,1281,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1517830801,2018-02-05T11:40:01Z,1527070794,2018-05-23T10:19:54Z,Tarte noix de coco,"Crous Resto',Crous","Tartes, Tartes sucrées, Tartes à la noix de coco",...,21.9,4.4,4.6,0.1,0.04,,,,,14.0
31,1885,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1511180337,2017-11-20T12:18:57Z,1518126491,2018-02-08T21:48:11Z,Compote de poire,Crous,"Aliments et boissons à base de végétaux, Alime...",...,27.0,3.6,0.6,0.0,0.0,,,,,-2.0
35,2257,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1520506122,2018-03-08T10:48:42Z,1561463749,2019-06-25T11:55:49Z,Salade de macedoine de légumes,,"Plats préparés, Légumes préparés, Entrées, Ent...",...,1.0,,1.9,0.27,0.108,,,,,1.0
59,5005,http://world-en.openfoodfacts.org/product/0000...,kiliweb,1521663684,2018-03-21T20:21:24Z,1545934272,2018-12-27T18:11:12Z,Abondance,,"Produits laitiers, Produits fermentés, Produit...",...,0.1,,25.0,1.3,0.52,,,,,14.0


*Le dédoublonnage des variables réduit l'échantillon à 47 features.*

Arrêtons-nous sur les variables temporelles, sans intérêt majeur semble t-il… Ceci étant, le format n'est pas facilement exploitable, il peut-être pertinent de le modifier pour rendre son usage plus explicite et décider ensuite de la prise en compte ou non pour la suite de l'analyse.

In [19]:
def time_clean(data):
    for var in data.columns :
        if var[-2:] == "_t":
            data[var] = pd.to_datetime(data[var], unit='s')
        if var[-9:] == "_datetime":
            data[var] = pd.to_datetime(data[var]).dt.strftime('%Y-%m-%d %H:%M%:%S')
    return data
            
openfoodfacts = time_clean(openfoodfacts)
display(openfoodfacts.shape)
display(openfoodfacts.head())

(20166, 47)

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,brands,categories,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
13,949,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-04-11 10:00:13,2018-04-11 10:00:13,2019-08-08 12:46:52,2019-08-08 12:46:52,Salade de carottes râpées,,"Plats préparés, Légumes préparés, Carottes râp...",...,3.9,,0.9,0.42,0.168,,,,,1.0
21,1281,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-02-05 11:40:01,2018-02-05 11:40:01,2018-05-23 10:19:54,2018-05-23 10:19:54,Tarte noix de coco,"Crous Resto',Crous","Tartes, Tartes sucrées, Tartes à la noix de coco",...,21.9,4.4,4.6,0.1,0.04,,,,,14.0
31,1885,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2017-11-20 12:18:57,2017-11-20 12:18:57,2018-02-08 21:48:11,2018-02-08 21:48:11,Compote de poire,Crous,"Aliments et boissons à base de végétaux, Alime...",...,27.0,3.6,0.6,0.0,0.0,,,,,-2.0
35,2257,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-03-08 10:48:42,2018-03-08 10:48:42,2019-06-25 11:55:49,2019-06-25 11:55:49,Salade de macedoine de légumes,,"Plats préparés, Légumes préparés, Entrées, Ent...",...,1.0,,1.9,0.27,0.108,,,,,1.0
59,5005,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-03-21 20:21:24,2018-03-21 20:21:24,2018-12-27 18:11:12,2018-12-27 18:11:12,Abondance,,"Produits laitiers, Produits fermentés, Produit...",...,0.1,,25.0,1.3,0.52,,,,,14.0


Notons une similitude dans les variables 'created_t' et	'created_datetime', ainsi que 'last_modified_t'	et 'last_modified_datetime'.

_Vérifions le à l'aide de la fonction variable_duplicate()…_

In [20]:
display(variable_duplicate(openfoodfacts, 'created_t', 'created_datetime'))
display(variable_duplicate(openfoodfacts, 'last_modified_t', 'last_modified_datetime'))

True

True

In [21]:
openfoodfacts.drop(columns=['created_datetime', 'last_modified_datetime'], inplace=True)

In [22]:
openfoodfacts.columns

Index(['code', 'url', 'creator', 'created_t', 'last_modified_t',
       'product_name', 'brands', 'categories', 'categories_en', 'countries',
       'countries_en', 'ingredients_text', 'serving_size', 'serving_quantity',
       'additives_n', 'additives_en', 'ingredients_from_palm_oil_n',
       'ingredients_that_may_be_from_palm_oil_n', 'nutriscore_score',
       'nutriscore_grade', 'nova_group', 'pnns_groups_1', 'pnns_groups_2',
       'states', 'states_en', 'brand_owner', 'main_category',
       'main_category_en', 'energy-kcal_100g', 'energy_100g', 'fat_100g',
       'saturated-fat_100g', 'trans-fat_100g', 'cholesterol_100g',
       'carbohydrates_100g', 'sugars_100g', 'fiber_100g', 'proteins_100g',
       'salt_100g', 'sodium_100g', 'vitamin-a_100g', 'vitamin-c_100g',
       'calcium_100g', 'iron_100g', 'nutrition-score-fr_100g'],
      dtype='object')

Les variables de l'échantillon ne sont pas toutes utiles pour l'application choisie, mais les données sont disponibles pour la plupart (au minimum 50% valeurs disponibles pour chaque variable).

Des variables non indispensables au bon fonctionnement de l'application souhaitée. Malgré tout ces variables informatives sont pour le moment conservées **à l'exception que quelques colonnes qui semblent être présentées en doublon, vérifions ces cas de duplications possibles.**

In [23]:
def display_duplicate_var(data, var1, var2):
    return data[var1].unique(), data[var2].unique()

`energy-kcal_100g / energy_100g` (0.239kcal = 1kJ ou 4,184kJ = 1kcal)\
Il existe deux unités pour définir l’apport énergétique d’un aliment, la calorie (en Kcal) et le
Joule (en Kj). La quantité d’énergie est mesurée en Joule, ou J (et donc 1 kiloJoule, noté kJ, vaut 1000 Joules).

In [34]:
display(openfoodfacts['energy-kcal_100g']*4,184)
display(openfoodfacts['energy_100g'])

13        128.0
21       1524.0
31        628.0
35        572.0
59       1588.0
          ...  
32302     700.0
32303     900.0
32304     400.0
32305     500.0
32306     500.0
Name: energy-kcal_100g, Length: 20166, dtype: float64

184

13        134.0
21       1594.0
31        657.0
35        598.0
59       1661.0
          ...  
32302     732.0
32303     941.0
32304     418.0
32305     523.0
32306     523.0
Name: energy_100g, Length: 20166, dtype: float64

Notons que ces deux variables, après vérification de nos hypothèses et intuitions de départ, sont bien similaires.\
**La variable 'energy-kcal_100g' sera donc supprimée.**

In [38]:
openfoodfacts.drop(columns='energy-kcal_100g', inplace=True)

`nutriscore_score / nutrition-score-fr_100g`

In [39]:
display_duplicate_var(openfoodfacts, 'nutriscore_score', 'nutrition-score-fr_100g')

(array([  1.,  14.,  -2.,   4.,   0.,  -4.,  15.,  17.,  21.,   2.,   3.,
         29.,   6.,  22.,   9.,   7.,   5.,  28.,  24.,  13.,  12.,  16.,
         18.,  26.,  19.,  11.,  36.,  -3.,  20.,  27.,  10.,  23.,  25.,
         -7.,  -1.,  -5.,  -8.,  -6.,  -9., -11.,   8.,  30., -10., -13.,
        -12., -14.,  33.,  31.,  34.]),
 array([  1.,  14.,  -2.,   4.,   0.,  -4.,  15.,  17.,  21.,   2.,   3.,
         29.,   6.,  22.,   9.,   7.,   5.,  28.,  24.,  13.,  12.,  16.,
         18.,  26.,  19.,  11.,  36.,  -3.,  20.,  27.,  10.,  23.,  25.,
         -7.,  -1.,  -5.,  -8.,  -6.,  -9., -11.,   8.,  30., -10., -13.,
        -12., -14.,  33.,  31.,  34.]))

In [40]:
openfoodfacts.drop(columns='nutriscore_score', inplace=True)

`categories / categories_en`

In [41]:
display_duplicate_var(openfoodfacts, 'categories', 'categories_en')

(array(['Plats préparés, Légumes préparés, Carottes râpées, Carottes râpées assaisonnées',
        'Tartes, Tartes sucrées, Tartes à la noix de coco',
        "Aliments et boissons à base de végétaux, Aliments d'origine végétale, Desserts, Aliments à base de fruits et de légumes, Fruits et produits dérivés, Compotes, Compotes de poire",
        ..., 'Meals, Prepared vegetables, Cooked vegetables',
        'Groceries, Sauces, Pestos, Green pestos',
        'Alimentos y bebidas de origen vegetal, Alimentos de origen vegetal, Frutas y verduras y sus productos, Frutas y sus productos, Frutas, Cítricos, Naranjas'],
       dtype=object),
 array(['Meals,Prepared vegetables,Grated carrots,Seasoned shredded carrots',
        'Pies,Sweet pies,Coconut pies',
        'Plant-based foods and beverages,Plant-based foods,Desserts,Fruits and vegetables based foods,Fruits based foods,Compotes,Pear compotes',
        ..., 'Dried products',
        'Meals,Prepared vegetables,Cooked vegetables',
        'P

Notons une similitude des modalités, des différences de traduction sont détectées, le dédoublonnage est donc recommandé.

In [42]:
openfoodfacts.drop(columns='categories_en', inplace=True)

`countries / countries_en`

In [43]:
display_duplicate_var(openfoodfacts, 'countries', 'countries_en')

(array(['France', 'en:fr', 'United States', 'Canada', 'en:be',
        'France, États-Unis', 'Deutschland', 'en:france', 'United Kingdom',
        'en:DE', 'en:Italy', 'Belgium', 'en:spain', 'España', 'Spain',
        'en:es', 'France, United States', 'Portugal', 'en:de', 'México',
        'en:France', 'France, United Kingdom', 'France, Royaume-Uni',
        'France,United Kingdom', 'Belgique, France, Pays-Bas, Royaume-Uni',
        'Royaume-Uni', 'États-Unis, en:france', 'France,Royaume-Uni',
        'en:GB', 'en:Germany', 'France,France', 'en:FR',
        'en:fr, United States', 'Spain,en:switzerland', nan, 'en:gb',
        'Royaume-Uni,en:united-kingdom', 'en:United Kingdom',
        'Alemania, Spain', 'Royaume-Uni, en:france', 'en:United States',
        'États-Unis,en:united-states', 'us', 'France,Spain,en:spain',
        'en:france, United States', 'en:UK',
        'Frankreich, Deutschland, en:at', 'Mexico,United States',
        'en:Australia', 'Australia', 'États-Unis',
       

Notons une similitude des modalités des pays, des différences de traduction sont détectées, le dédoublonnage est donc recommandé.

In [44]:
openfoodfacts.drop(columns='countries', inplace=True)

`serving_size / serving_quantity`

In [45]:
display_duplicate_var(openfoodfacts, 'serving_size', 'serving_quantity')

(array([nan, '30 g (0.25 cup)', '285 g', ..., '1.5 ONZ (40 g)',
        '2 Tbsp (56 g)', '0.25 cup (85 g)'], dtype=object),
 array([           nan, 3.00000000e+01, 2.85000000e+02, 3.00000000e+02,
        1.00000000e+02, 1.70000000e+02, 1.50000000e+02, 9.00000000e+01,
        3.30000000e+02, 2.80000000e+02, 4.00000000e+01, 8.50000000e+01,
        1.25000000e+01, 1.13500000e+02, 4.26000000e+01, 1.50000000e+01,
        1.76000000e+01, 1.40000000e+01, 5.70000000e+01, 2.10000000e+01,
        3.40000000e+01, 3.90000000e+01, 3.20000000e+01, 2.50000000e+01,
        2.80000000e+01, 7.10000000e+01, 1.17000000e+02, 2.20000000e+01,
        5.60000000e+01, 4.30000000e+01, 3.60000000e+01, 3.80000000e+01,
        3.50000000e+01, 1.28000000e+02, 8.20000000e+01, 8.90000000e+01,
        1.48000000e+02, 1.20000000e+02, 8.40000000e+01, 1.10000000e+02,
        3.70000000e+01, 3.25000000e+02, 2.40000000e+02, 2.00000000e+01,
        2.26800000e+01, 1.00000000e+01, 2.30000000e+01, 4.25000000e+01,
        2.90

Aucune utilité évidente, **la suppression des deux variables est retenue.**

In [46]:
openfoodfacts.drop(columns=['serving_size', 'serving_quantity'], inplace=True)

`additives_n / additives_en`

In [47]:
display_duplicate_var(openfoodfacts, 'additives_n', 'additives_en')

(array([nan,  3.,  0.,  2.,  4.,  8.,  1.,  7.,  5.,  6., 11.,  9., 13.,
        10., 12., 17., 15., 20., 14., 18., 21., 16., 23., 25., 24., 26.,
        19., 22., 27., 32.]),
 array([nan,
        'E14XX - Modified Starch,E262 - Sodium acetates,E262i - Sodium acetate,E326 - Potassium lactate',
        'E14XX - Modified Starch,E451 - Triphosphates,E451i - Pentasodium triphosphate',
        ..., 'E260 - Acetic acid,E330 - Citric acid,E440 - Pectins',
        'E297 - Fumaric acid,E330 - Citric acid,E440 - Pectins',
        'E414 - Acacia gum,E415 - Xanthan gum'], dtype=object))

Information complémentaire sur le produit, le nombre d'additifs + le type d'additif, aucune suppression.

`ingredients_from_palm_oil_n / ingredients_that_may_be_from_palm_oil_n`

In [48]:
display(openfoodfacts.ingredients_from_palm_oil_n.unique())
display(openfoodfacts.ingredients_that_may_be_from_palm_oil_n.unique())

array([nan,  0.,  1.])

array([nan,  0.,  2.,  1.,  3.,  4.])

Notons que les valeurs de la variable 'ingredients_from_palm_oil_n' font penser à un choix binaire, présence d'ingrédients d'huile de palme (1:oui - 0:non). Sans explication complémentaire (dans l'immédiat), les deux variables sont conservées pour deux raisons. Le degré de complétude est supérieur à 97%, et la notion d'huile de palme pourrait avoir une forte importance dans le Nutri-score, le caractère graisse végétale est à prendre en compte.

`states / states_en`

In [49]:
display_duplicate_var(openfoodfacts, 'states', 'states_en')

(array(['en:to-be-completed, en:nutrition-facts-completed, en:ingredients-to-be-completed, en:expiration-date-to-be-completed, en:packaging-code-to-be-completed, en:characteristics-to-be-completed, en:categories-completed, en:brands-to-be-completed, en:packaging-to-be-completed, en:quantity-to-be-completed, en:product-name-completed, en:photos-to-be-validated, en:photos-uploaded',
        'en:to-be-completed, en:nutrition-facts-completed, en:ingredients-to-be-completed, en:expiration-date-to-be-completed, en:packaging-code-to-be-completed, en:characteristics-to-be-completed, en:categories-completed, en:brands-completed, en:packaging-completed, en:quantity-to-be-completed, en:product-name-completed, en:photos-to-be-validated, en:photos-uploaded',
        'en:to-be-completed, en:nutrition-facts-completed, en:ingredients-to-be-completed, en:expiration-date-to-be-completed, en:packaging-code-to-be-completed, en:characteristics-to-be-completed, en:categories-completed, en:brands-completed, 

In [50]:
openfoodfacts.drop(columns='states_en', inplace=True)

In [51]:
openfoodfacts.shape

(20166, 38)

### Nettoyage et pré-traitement des observations
Vérifications complémentaires des éventuelles observations en doublon, sans désignation, etc… 

In [52]:
def sample_clean(data, product_variable):
    """Suppression des observations selon les conditions suivantes :
        - noms de produits manquants
        - Code + nom de produit en doublon"""
    data = data[~data[product_variable].isna()]
    data = data[~data.duplicated(subset=['code', 'product_name'], keep=False)]
    return data

openfoodfacts = sample_clean(openfoodfacts, 'product_name')
display(openfoodfacts.shape)
display(openfoodfacts.head())

(20164, 38)

Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
13,949,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-04-11 10:00:13,2019-08-08 12:46:52,Salade de carottes râpées,,"Plats préparés, Légumes préparés, Carottes râp...",France,,...,3.9,,0.9,0.42,0.168,,,,,1.0
21,1281,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-02-05 11:40:01,2018-05-23 10:19:54,Tarte noix de coco,"Crous Resto',Crous","Tartes, Tartes sucrées, Tartes à la noix de coco",France,,...,21.9,4.4,4.6,0.1,0.04,,,,,14.0
31,1885,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2017-11-20 12:18:57,2018-02-08 21:48:11,Compote de poire,Crous,"Aliments et boissons à base de végétaux, Alime...",France,,...,27.0,3.6,0.6,0.0,0.0,,,,,-2.0
35,2257,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-03-08 10:48:42,2019-06-25 11:55:49,Salade de macedoine de légumes,,"Plats préparés, Légumes préparés, Entrées, Ent...",France,,...,1.0,,1.9,0.27,0.108,,,,,1.0
59,5005,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-03-21 20:21:24,2018-12-27 18:11:12,Abondance,,"Produits laitiers, Produits fermentés, Produit...",France,,...,0.1,,25.0,1.3,0.52,,,,,14.0


In [53]:
openfoodfacts.describe(exclude=[np.object]).T

Unnamed: 0,count,unique,top,freq,first,last,mean,std,min,25%,50%,75%,max
created_t,20164,12234.0,2017-03-09 09:59:38,12.0,2012-04-27 14:47:56,2020-09-27 13:24:37,,,,,,,
last_modified_t,20164,12027.0,2020-04-23 07:44:06,12.0,2014-11-24 23:59:16,2020-09-28 17:08:51,,,,,,,
additives_n,19471,,NaT,,NaT,NaT,2.90976,3.70718,0.0,0.0,2.0,4.0,32.0
ingredients_from_palm_oil_n,19471,,NaT,,NaT,NaT,0.00220841,0.046943,0.0,0.0,0.0,0.0,1.0
ingredients_that_may_be_from_palm_oil_n,19471,,NaT,,NaT,NaT,0.0582918,0.246479,0.0,0.0,0.0,0.0,4.0
nova_group,18935,,NaT,,NaT,NaT,3.47262,0.962088,1.0,3.0,4.0,4.0,4.0
energy_100g,20164,,NaT,,NaT,NaT,1184.34,748.428,0.0,456.0,1255.0,1699.0,10594.0
fat_100g,20164,,NaT,,NaT,NaT,12.6375,15.6031,0.0,0.42,6.19,20.0,100.0
saturated-fat_100g,20163,,NaT,,NaT,NaT,4.55784,7.05421,0.0,0.0,1.61,6.67,92.86
trans-fat_100g,18377,,NaT,,NaT,NaT,0.0493835,0.707541,0.0,0.0,0.0,0.0,44.25


Les métriques min. et max. sont très utiles pour savoir si oui ou non des valeurs outliers sont à traiter.\
**Voyons les critères d'identification de ces valeurs sur les données nutritionnelles.**

### Traitement des outliers
**Rappelons les conditions du fonctionnement du Nutri-Score**\
Ici les nutriments et aliments à favoriser (fibres, protéines, fruits et légumes) s'expriment en teneur pour 100 grammes de produit. Au-dessus de 100g la valeur peut-être considérée comme "aberrante".

Concernant les nutriments à limiter (énergie, acides gras saturés, sucres, sel), l'énergie nutritionnelle s'exprime en Kj. Afin de déterminer un "seuil", considérons que la moyenne nutritionnelle journalière pour un adulte est d'environ 2000 kcal (1kJ = 0.239kcal). Cette valeur sera considérée outlier à partir de 2000kcal (8373,6kJ) pour 100g de produit.

In [54]:
def outlier_count(data, regex, limit):
    for var in data.loc[:, data.columns.str.contains(regex)].columns :
        print(var + ' : ' + str(len(data[data[var] > limit])))

In [55]:
outlier_count(openfoodfacts, '^(?!energy).*_100g.*', 100)

fat_100g : 0
saturated-fat_100g : 0
trans-fat_100g : 0
cholesterol_100g : 1
carbohydrates_100g : 1
sugars_100g : 0
fiber_100g : 0
proteins_100g : 1
salt_100g : 3
sodium_100g : 1
vitamin-a_100g : 0
vitamin-c_100g : 0
calcium_100g : 0
iron_100g : 0
nutrition-score-fr_100g : 0


In [56]:
outlier_count(openfoodfacts, '^energy*', 8373.6)

energy_100g : 1


Les outliers identifiés ne représentent qu'une part négligeable des données. **Identification des produits concernés avant traitement ou suppression.**

In [57]:
display(openfoodfacts[openfoodfacts.cholesterol_100g > 100])
display(openfoodfacts[openfoodfacts.proteins_100g > 100])
display(openfoodfacts[openfoodfacts.carbohydrates_100g > 100])
display(openfoodfacts[openfoodfacts.salt_100g > 100])
display(openfoodfacts[openfoodfacts.sodium_100g > 100]) 
display(openfoodfacts[openfoodfacts.energy_100g > 8373.6]) 

Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
19515,13800747785,http://world-en.openfoodfacts.org/product/0013...,org-database-usda,2020-04-23 10:08:20,2020-04-23 10:08:20,"Scrambled eggs, roasted russet potatoes & saus...",,Meals,United States,Eggs & potatoes: cooked scrambled eggs (whole ...,...,1.49,1.0,8.46,0.9325,0.373,0.000149,0.0012,0.1,0.0009,2.0


Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
16668,118668,http://world-en.openfoodfacts.org/product/0011...,openfoodfacts-contributors,2018-09-14 16:09:54,2019-02-04 21:20:30,skyr,migros,"Produits laitiers, Produits fermentés, Produit...",Switzerland,séré maigre au lait pasteurisé élaboré avec du...,...,4.0,0.0,110.0,0.1,0.04,,,,,-5.0


Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
19045,13600000691,http://world-en.openfoodfacts.org/product/0013...,openfoodfacts-contributors,2018-11-07 23:06:48,2020-04-03 21:16:34,Truvia,Truvia,Sweeteners,Canada,"ERYTHRITOL, STEVIA LEAF EXTRACT, NATURAL FLAVOURS",...,0.0,0.0,0.0,0.0,0.0,,,,,0.0


Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
2357,62251,http://world-en.openfoodfacts.org/product/0006...,waistline-app,2019-05-07 06:02:15,2019-07-11 09:48:15,Cream Line Whole Milk Yogurt: Plain,Trader Joe's,"Dairies, Fermented foods, Fermented milk produ...",United States,,...,5.29,0.0,4.41,157.0,62.7,,,,,13.0
9496,11110980410,http://world-en.openfoodfacts.org/product/0011...,openfoodfacts-contributors,2019-05-23 15:33:54,2019-07-18 07:36:09,Smoked Coho Salmon,Private Selection,"Seafood, Fishes, Salmons, Smoked fishes, Smoke...",United States,,...,1.75,0.0,22.8,3340.0,1340.0,,,,,14.0
25751,16073622346,http://world-en.openfoodfacts.org/product/0016...,openfoodfacts-contributors,2019-02-27 13:52:12,2019-02-27 13:57:51,Betty Lou's Apple Cinnamon Bars,Betty Lou's,Breakfast bars,United States,"apple fruit filling, mixed fruit juice concent...",...,24.0,4.0,1.0,228.6,91.44,,,,,13.0


Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
9496,11110980410,http://world-en.openfoodfacts.org/product/0011...,openfoodfacts-contributors,2019-05-23 15:33:54,2019-07-18 07:36:09,Smoked Coho Salmon,Private Selection,"Seafood, Fishes, Salmons, Smoked fishes, Smoke...",United States,,...,1.75,0.0,22.8,3340.0,1340.0,,,,,14.0


Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
1472,147,http://world-en.openfoodfacts.org/product/0001...,openfoodfacts-contributors,2020-04-12 13:09:55,2020-05-12 19:56:23,Açai en polvo,NaturaleBio,Suplementos dietéticos,Spain,Açai,...,1.0,20.0,9.0,0.0,0.0,0.000645,,0.217,0.00416,5.0


In [840]:
def drop_outliers(data, regex, limit):
    for var in data.loc[:, data.columns.str.contains(regex)]:
        indexNames = data[data[var] > limit].index
        data.drop(indexNames , inplace=True)
    return data

#drop_outliers(openfoodfacts, '^(?!energy).*_100g.*', 100)        
#drop_outliers(openfoodfacts, '^energy*', 8373.6)

Notons que ces 8 produits sont proposés soit en Suisse, Canada, USA ou Espagne. Il ne semble pas que ces teneurs soient aberrantes, certainement liées à leur pays d'origine. Ceci étant, ces 8 produits peuvent être supprimés, ou laissés sans aucune modification. 

**La dernière possibilité sera retenue, car ces valeurs un peu au dessus des seuils attendus ne concernent qu'une part négligeable d'observations.**

### Traitement des pays
L'échantillon ne concerne pas que notre pays la France, mais d'autres pays du Monde. Dans le contexte d'élaboration d'une application ayant pour principale vocation de renseigner le consommateurs sur le Nutri Score, la variable pays n'aura peut-être pas d'utilité première. Ceci étant, il est important d'avoir une idée du poids de la France dans l'échantillon par rapport aux autres pays.

In [58]:
openfoodfacts.countries_en.unique()

array(['France', 'United States', 'Canada', 'Belgium',
       'France,United States', 'Germany', 'United Kingdom', 'Italy',
       'Spain', 'Portugal', 'Mexico', 'France,United Kingdom',
       'Belgium,France,Netherlands,United Kingdom', 'Spain,Switzerland',
       nan, 'Germany,Spain', 'France,Spain', 'Austria,France,Germany',
       'Mexico,United States', 'Australia',
       'France,Switzerland,United States', 'United States,Francia-spain',
       'Canada,Switzerland,United States', 'France,Thailand',
       'Germany,United States', 'French Polynesia,United States',
       'United Kingdom,United States', 'Egypt,United States',
       'Belgium,United States', 'Spain,United States', 'Croatia',
       'Canada,France', 'Haiti', 'Singapore',
       'Australia,Belgium,France,Germany,Switzerland', 'Switzerland',
       'Belgium,Spain', 'Belgium,France', 'France,Germany',
       'France,Switzerland', 'Australia,France,New Zealand',
       'French Polynesia', 'Australia,United States', 'Sau

Les données ne sont pas exploitables en l'état, une fonction est nécessaire à son traitement.

In [59]:
def country_list(data, country_variable):
    country_tags = {}
    for i in data.index:
        tags = str(data.at[i, country_variable]).split(",")
        for tag in tags:
            if tag in country_tags:
                country_tags[tag] += 1
            else:
                country_tags[tag] = 1

    sorted_labels_tags = sorted(country_tags, key=country_tags.get, reverse=True)

    for tag in sorted_labels_tags[:]:
        print(f"{tag}: {country_tags[tag]}")
        
        
country_list(openfoodfacts, 'countries_en')     

United States: 18977
France: 1124
United Kingdom: 284
Spain: 227
Mexico: 70
Germany: 40
Canada: 29
Switzerland: 22
Australia: 16
Belgium: 15
French Polynesia: 9
Sweden: 8
Singapore: 6
Italy: 5
Netherlands: 5
New Caledonia: 5
Costa Rica: 5
nan: 4
United Arab Emirates: 4
Thailand: 3
Saudi Arabia: 3
Colombia: 3
Austria: 2
New Zealand: 2
Portugal: 1
Francia-spain: 1
Egypt: 1
Croatia: 1
Haiti: 1
Czech Republic: 1
العراق: 1
فرنسا: 1
Vietnam: 1
Martinique: 1
Puerto Rico: 1
India: 1
Lebanon: 1
Panama: 1
Vereinigtes-konigreich: 1
Malaysia: 1
Andorra: 1
Trinidad and Tobago: 1
Jordan: 1
Poland: 1
Guadeloupe: 1


**Notons que la France est représentative de l'échantillon juste après les USA.**

L'agence **"Santé publique France"** est à l'origine de l'appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation, le choix de se limiter uniquement aux produits vendus en France peut sembler pertinent. Mais cette option serait contre productive pour les raisons suivantes :

- L'objectif final d'application sera l'attribution d'un Nutri-score quand celui-ci est inexistant
- Les teneurs nutritionnelles sont universelles quelque soit le pays de vente
- Le but est et sera toujours la qualité des données, l'équilibre entre les données manquantes et celles disponibles
- Ci-dessous les explications…

In [61]:
openfoodfacts_france = openfoodfacts[openfoodfacts['countries_en']
                                     .str.contains('France', case=False) == True]
openfoodfacts_france

Unnamed: 0,code,url,creator,created_t,last_modified_t,product_name,brands,categories,countries_en,ingredients_text,...,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g
13,949,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-04-11 10:00:13,2019-08-08 12:46:52,Salade de carottes râpées,,"Plats préparés, Légumes préparés, Carottes râp...",France,,...,3.90,,0.90,0.42,0.168,,,,,1.0
21,1281,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-02-05 11:40:01,2018-05-23 10:19:54,Tarte noix de coco,"Crous Resto',Crous","Tartes, Tartes sucrées, Tartes à la noix de coco",France,,...,21.90,4.4,4.60,0.10,0.040,,,,,14.0
31,1885,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2017-11-20 12:18:57,2018-02-08 21:48:11,Compote de poire,Crous,"Aliments et boissons à base de végétaux, Alime...",France,,...,27.00,3.6,0.60,0.00,0.000,,,,,-2.0
35,2257,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-03-08 10:48:42,2019-06-25 11:55:49,Salade de macedoine de légumes,,"Plats préparés, Légumes préparés, Entrées, Ent...",France,,...,1.00,,1.90,0.27,0.108,,,,,1.0
59,5005,http://world-en.openfoodfacts.org/product/0000...,kiliweb,2018-03-21 20:21:24,2018-12-27 18:11:12,Abondance,,"Produits laitiers, Produits fermentés, Produit...",France,,...,0.10,,25.00,1.30,0.520,,,,,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32171,20009494822,http://world-en.openfoodfacts.org/product/0020...,kiliweb,2019-09-09 05:49:12,2019-12-19 17:57:09,Tartelettes framboise,,"Tartes, Tartelettes, Tartelettes à la framboise",France,,...,7.74,,3.12,0.36,0.144,,,,,8.0
32174,20009495935,http://world-en.openfoodfacts.org/product/0020...,kiliweb,2018-04-04 11:11:43,2018-09-19 18:35:38,Flan Nature *2,Leclerc,"Snacks, Snacks sucrés, Biscuits et gâteaux, Pâ...",France,"_Lait_ écrémé , sucre, farine de _blé_ (_glute...",...,22.00,,3.70,0.37,0.148,,,,,15.0
32176,20009799613,http://world-en.openfoodfacts.org/product/0020...,kiliweb,2018-11-14 18:36:52,2020-04-15 22:37:09,Pudding 6/8 personnes,Leclerc,"Desserts, Puddings",France,,...,25.60,,2.80,1.60,0.640,,,,,19.0
32179,20011083908,http://world-en.openfoodfacts.org/product/0020...,kiliweb,2018-05-24 08:39:26,2019-11-21 20:43:11,Baguette aux céréales,,"Aliments et boissons à base de végétaux, Alime...",France,,...,2.28,,8.40,1.50,0.600,,,,,5.0


In [844]:
missing_value_clean(openfoodfacts_france)

nutrition-score-fr_100g                    100.0
energy_100g                                100.0
url                                        100.0
creator                                    100.0
created_t                                  100.0
last_modified_t                            100.0
product_name                               100.0
categories                                 100.0
countries_en                               100.0
nutriscore_grade                           100.0
pnns_groups_1                              100.0
pnns_groups_2                              100.0
main_category                              100.0
main_category_en                           100.0
states                                     100.0
fat_100g                                   100.0
sugars_100g                                100.0
sodium_100g                                100.0
salt_100g                                  100.0
proteins_100g                              100.0
saturated-fat_100g  

Un choix de restriction sur un seul pays (France), pourtant très représentatif de l'échantillon, n'est pas la meilleure option, très peu de données ≃ 1100 observations et des valeurs manquantes. Voyons une autre possibilité…

In [62]:
display(openfoodfacts.shape)
display(missing_value_clean(openfoodfacts))

(20164, 38)

nutrition-score-fr_100g                    100.0
energy_100g                                100.0
url                                        100.0
creator                                    100.0
created_t                                  100.0
last_modified_t                            100.0
product_name                               100.0
categories                                 100.0
countries_en                               100.0
nutriscore_grade                           100.0
pnns_groups_1                              100.0
pnns_groups_2                              100.0
main_category                              100.0
main_category_en                           100.0
states                                     100.0
fat_100g                                   100.0
sugars_100g                                100.0
sodium_100g                                100.0
salt_100g                                  100.0
proteins_100g                              100.0
saturated-fat_100g  

La comparaison démontre la dangerosité d'une restriction uniquement à la France, la qualité des données, ainsi que le volume ne sont pas suffisants.\
**Aucune restriction sur le pays de vente ne sera appliquée, maintenant voyons comment traiter les valeurs manquantes.**

In [63]:
openfoodfacts.dropna(subset=['ingredients_that_may_be_from_palm_oil_n',
                             'ingredients_from_palm_oil_n', 'additives_n',
                             'nova_group', 'fiber_100g', 'iron_100g', 'trans-fat_100g',
                             'calcium_100g', 'vitamin-c_100g', 'vitamin-a_100g',
                             'additives_en'], axis=0, how='any', inplace=True)                        

In [64]:
display(openfoodfacts.shape)
display(missing_value_clean(openfoodfacts))

(10521, 38)

nutrition-score-fr_100g                    100.0
iron_100g                                  100.0
pnns_groups_1                              100.0
nova_group                                 100.0
nutriscore_grade                           100.0
ingredients_that_may_be_from_palm_oil_n    100.0
ingredients_from_palm_oil_n                100.0
additives_en                               100.0
additives_n                                100.0
ingredients_text                           100.0
countries_en                               100.0
categories                                 100.0
product_name                               100.0
last_modified_t                            100.0
created_t                                  100.0
creator                                    100.0
url                                        100.0
pnns_groups_2                              100.0
states                                     100.0
sugars_100g                                100.0
main_category       

**L'échantillon de travail est optimal, plus de 10000 observations avec des données disponibles en totalité sur nos variables clés.**

In [65]:
openfoodfacts.rename(columns={'vitamin-c_100g': 'vitamin_c_100g', 'vitamin-a_100g': 'vitamin_a_100g', 
                  'nutrition-score-fr_100g': 'nutrition_score_fr_100g',
                  'trans-fat_100g': 'trans_fat_100g', 'saturated-fat_100g': 'saturated_fat_100g'}
                     , inplace=True)

In [66]:
openfoodfacts.to_csv('p3_00_data/df.csv', sep=';', encoding='utf-8')