## Importation des différentes librairies dont nous avons besoin et ouverture d'une partie du fichier de données que nous allons étudier

In [1]:
# Import all the libraries we need for the brief
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import re

# Reading of the TSV file by choosing 10 000 random rows
read_food_data = pd.read_csv('/home/apprenant/Documents/Brief-5-Rachid-Karbiche/data/01_raw_data/en.openfoodfacts.org.products.tsv', sep= '\t', low_memory= False)

# Showing all the rows and the columns
pd.options.display.max_columns = None
pd.options.display.max_rows = None

# read_food_data.shape

Comme le fichier de données est assez volumineux, j'ai choisi de faire un premier tri en ne gardant que les entrées ayant comme valeur de countries 'France' car notre étude se concentre sur le marché français.

In [2]:
# Converting in the countries_en column all values containing 'France' into 'France'
read_food_data["countries_en"] = read_food_data["countries_en"].apply(
    lambda x: "France" if re.match(r".*(France).*", str(x), re.IGNORECASE) else x)

read_food_data = read_food_data.loc[read_food_data.countries_en == 'France']
read_food_data.shape

(129320, 163)

Au lieu des 356 027 entrées initiales, nous avons au final 129 320 entrées dont la valeur du pays est la France. On travaillera donc sur ce nouveau tableau que nous allons enregistrer.

In [3]:
# Saving of the random rows in a new file
# exported_data = read_food_data.to_csv('/home/apprenant/Documents/Brief-5-Rachid-Karbiche-2/data/01_raw_data/french_openfoodfacts_data.csv', index=False)

# Reading of the new TSV file
french_food_data = pd.read_csv('/home/apprenant/Documents/Brief-5-Rachid-Karbiche-2/data/01_raw_data/french_openfoodfacts_data.csv', low_memory= False)
french_food_data.shape

(129320, 163)

Nous avons donc bien dans notre nouveau tableau 129 320 entrées.

## Examen des différentes colonnes de la base de données

In [4]:
print(french_food_data.shape)
print('------------------------------')
print(french_food_data.columns.values)
print('------------------------------')

(129320, 163)
------------------------------
['code' 'url' 'creator' 'created_t' 'created_datetime' 'last_modified_t'
 'last_modified_datetime' 'product_name' 'generic_name' 'quantity'
 'packaging' 'packaging_tags' 'brands' 'brands_tags' 'categories'
 'categories_tags' 'categories_en' 'origins' 'origins_tags'
 'manufacturing_places' 'manufacturing_places_tags' 'labels' 'labels_tags'
 'labels_en' 'emb_codes' 'emb_codes_tags' 'first_packaging_code_geo'
 'cities' 'cities_tags' 'purchase_places' 'stores' 'countries'
 'countries_tags' 'countries_en' 'ingredients_text' 'allergens'
 'allergens_en' 'traces' 'traces_tags' 'traces_en' 'serving_size'
 'no_nutriments' 'additives_n' 'additives' 'additives_tags' 'additives_en'
 'ingredients_from_palm_oil_n' 'ingredients_from_palm_oil'
 'ingredients_from_palm_oil_tags'
 'ingredients_that_may_be_from_palm_oil_n'
 'ingredients_that_may_be_from_palm_oil'
 'ingredients_that_may_be_from_palm_oil_tags' 'nutrition_grade_uk'
 'nutrition_grade_fr' 'pnns_group

Dans un premier temps, on constate que nous retrouvons 163 colonnes au total dans la base. Il faut donc procéder à un premier tri en enlevant les variables qui nous sont complètement inutiles dans le cadre de notre projet.

In [5]:
selected_french_food_data = french_food_data[['product_name', 'generic_name', 'brands', 'brands_tags', 'categories', 'categories_tags', 'categories_en', 'origins', 'origins_tags', 'labels', 'labels_tags', 'labels_en', 'countries_en', 'ingredients_text', 'allergens', 'allergens_en', 'traces', 'traces_tags', 'traces_en', 'additives_n', 'additives', 'additives_tags', 'additives_en', 'ingredients_from_palm_oil_n', 'ingredients_from_palm_oil', 'ingredients_from_palm_oil_tags', 'ingredients_that_may_be_from_palm_oil_n', 'ingredients_that_may_be_from_palm_oil', 'ingredients_that_may_be_from_palm_oil_tags', 'nutrition_grade_fr', 'pnns_groups_1', 'pnns_groups_2', 'energy_100g', 'fat_100g', 'saturated-fat_100g', 'sugars_100g', '-sucrose_100g', '-glucose_100g', '-fructose_100g', '-lactose_100g', '-maltose_100g', '-maltodextrins_100g', 'fiber_100g', 'proteins_100g', 'salt_100g', 'sodium_100g', 'vitamin-d_100g', 'vitamin-c_100g', 'calcium_100g', 'iron_100g', 'fruits-vegetables-nuts_100g', 'fruits-vegetables-nuts-estimate_100g', 'carbon-footprint_100g', 'nutrition-score-fr_100g', 'nutrition-score-uk_100g', 'glycemic-index_100g']]
selected_french_food_data.head()

Unnamed: 0,product_name,generic_name,brands,brands_tags,categories,categories_tags,categories_en,origins,origins_tags,labels,labels_tags,labels_en,countries_en,ingredients_text,allergens,allergens_en,traces,traces_tags,traces_en,additives_n,additives,additives_tags,additives_en,ingredients_from_palm_oil_n,ingredients_from_palm_oil,ingredients_from_palm_oil_tags,ingredients_that_may_be_from_palm_oil_n,ingredients_that_may_be_from_palm_oil,ingredients_that_may_be_from_palm_oil_tags,nutrition_grade_fr,pnns_groups_1,pnns_groups_2,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,-sucrose_100g,-glucose_100g,-fructose_100g,-lactose_100g,-maltose_100g,-maltodextrins_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-d_100g,vitamin-c_100g,calcium_100g,iron_100g,fruits-vegetables-nuts_100g,fruits-vegetables-nuts-estimate_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g
0,Farine de blé noir,,Ferme t'y R'nao,ferme-t-y-r-nao,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Naturablue original,,Natura4ever,natura4ever,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Filet de bœuf,,,,Filet de bœuf,fr:filet-de-boeuf,fr:Filet-de-boeuf,,,,,,France,,,,,,,,,,,,,,,,,,unknown,unknown,,,,,,,,,,,,,,,,,,,,,,,,
3,,,,,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Naturakrill original,,Natura4ever,natura4ever,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


Après observation de ces différentes colonnes, on constate que :
- beaucoup de ces colonnes sont de la métadonnée (code, url, creator, ...). Elles concernent uniquement la création de la data dans la base. Elles ne nous serviront pas
- de nombreux éléments présentés concernant l'aliment nous semblent superflus (potassium, phosphore, zinc, ...). Le but ici est de se concentrer sur ce qui concerne le nutri-score mais aussi d'autres éléments connus largement des consommateurs (vitamines C et D, huile de palme, calcium, fer, ...)
- certaines colonnes devront être observées plus précisément afin de ne pas faire doublon avec d'autres (les différents sucres, le nutrition score fr et uk, ...)

Procédons à un deuxième examen de nos colonnes en vérifiant les données manquantes dans chacune d'entre elles.

In [6]:
selected_french_food_data.isnull().sum(axis = 0)

product_name                                    6287
generic_name                                   87722
brands                                         11858
brands_tags                                    11873
categories                                     52451
categories_tags                                52451
categories_en                                  52451
origins                                       111565
origins_tags                                  111575
labels                                         82937
labels_tags                                    82902
labels_en                                      82902
countries_en                                       0
ingredients_text                               42603
allergens                                      98572
allergens_en                                  129320
traces                                        106760
traces_tags                                   106761
traces_en                                     

A première vue, on constate que de nombreuses colonnes ne présentent quasiment que des données manquantes (glycemic-index_100g par exemple). Pour ce genre de données, on sait qu'elles ne dépendent pas réellement d'autres dans la base ou que leur calcul ne peut pas se faire. Ces colonnes n'ont donc pas à être gardées.



In [18]:
selected_french_food_data.head()

Unnamed: 0,product_name,generic_name,brands,brands_tags,categories,categories_tags,categories_en,origins,origins_tags,labels,labels_tags,labels_en,countries_en,ingredients_text,allergens,allergens_en,traces,traces_tags,traces_en,additives_n,additives,additives_tags,additives_en,ingredients_from_palm_oil_n,ingredients_from_palm_oil,ingredients_from_palm_oil_tags,ingredients_that_may_be_from_palm_oil_n,ingredients_that_may_be_from_palm_oil,ingredients_that_may_be_from_palm_oil_tags,nutrition_grade_fr,pnns_groups_1,pnns_groups_2,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,-sucrose_100g,-glucose_100g,-fructose_100g,-lactose_100g,-maltose_100g,-maltodextrins_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-d_100g,vitamin-c_100g,calcium_100g,iron_100g,fruits-vegetables-nuts_100g,fruits-vegetables-nuts-estimate_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g
0,Farine de blé noir,,Ferme t'y R'nao,ferme-t-y-r-nao,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Naturablue original,,Natura4ever,natura4ever,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Filet de bœuf,,,,Filet de bœuf,fr:filet-de-boeuf,fr:Filet-de-boeuf,,,,,,France,,,,,,,,,,,,,,,,,,unknown,unknown,,,,,,,,,,,,,,,,,,,,,,,,
3,,,,,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Naturakrill original,,Natura4ever,natura4ever,,,,,,,,,France,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


6255

In [22]:
selected_french_food_data.product_name.isnull().value_counts()

False    123065
True       6255
Name: product_name, dtype: int64

In [42]:
selected_french_food_data.loc[(selected_french_food_data.product_name.isnull()) & (selected_french_food_data.generic_name.notnull())]
selected_french_food_data.loc[(selected_french_food_data.product_name.isnull()),'product_name'] = selected_french_food_data['generic_name']
selected_french_food_data.product_name.isnull().value_counts()

False    123065
True       6255
Name: product_name, dtype: int64

In [12]:
selected_french_food_data[(selected_french_food_data.product_name.isnull()) & (selected_french_food_data.generic_name.notnull())]

Unnamed: 0,product_name,generic_name,brands,brands_tags,categories,categories_tags,categories_en,origins,origins_tags,labels,labels_tags,labels_en,countries_en,ingredients_text,allergens,allergens_en,traces,traces_tags,traces_en,additives_n,additives,additives_tags,additives_en,ingredients_from_palm_oil_n,ingredients_from_palm_oil,ingredients_from_palm_oil_tags,ingredients_that_may_be_from_palm_oil_n,ingredients_that_may_be_from_palm_oil,ingredients_that_may_be_from_palm_oil_tags,nutrition_grade_fr,pnns_groups_1,pnns_groups_2,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,-sucrose_100g,-glucose_100g,-fructose_100g,-lactose_100g,-maltose_100g,-maltodextrins_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-d_100g,vitamin-c_100g,calcium_100g,iron_100g,fruits-vegetables-nuts_100g,fruits-vegetables-nuts-estimate_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g


In [9]:
#selected_french_food_data.loc[(selected_french_food_data.product_name.isnull()) & (selected_french_food_data.generic_name.notnull())]


In [13]:
selected_french_food_data.shape

(129320, 56)