# Importation des dependances 

In [1]:
import pandas as pd

# 1) Idée d'application sur le jeu de données `open Food Fac`

L'analyse du jeu de données **open Food Fac** peut donner lieu à plusieurs d'idées d'application pour les professionnels de santé. Aujourd'hui, un consommateur français est très souvent confrontés à l'ambarant de choix par rapport à la qualité ou à une multitude de version d'un même produit. L'utilisateur s'interroge sur plusieurs caractéristiques du produit notamment est-ce que naturel/bio, éco ou encore responsable. Ce dilenme de choix constitue une partie du problème. L'autre partie du problème concerne la corrélation qui pourrait exister entre ce que l'on mange ou bois et notre performance au quotidient dans le travail notamment. Pour elaborer notre idée d'application, nous allons nous intéressé à l'un de ces cas de corrélation cachés qui venons d'evoquer.

Pour notre d'idée d'application, nous avons pensé à la `corrélation qui existent entre notre alimentation et la qualité de notre sommeil`. Nous allons être specifique quand la nature du produit concerné. Notre problématique peut se être reformuler en posant la question suivante: `Quels sont les vitamines, ingrédients ou nutriments qui contribuent à la qualité de notre sommeil quotidient?`. 

Comme vous le saviez le sommeil a une importance capital dans notre `système immunitaire`. Il contribue également à notre `performance au travail`. Comme indicateur majeur de l'importance du sujet, d'après le service  CHU de Bordeau, spécialisé sur les troubles du sommeil, le manque de sommeil peut favoriser la contraction du `COVID-LONG`.

Pour mener notre étude, nous allons au préalable, identifier ces ingredients, nutriments ou vitamines en faisant un bref état d'art sur la thématique. Ensuite, nous justifiérons ces faits en faisant une analyse exploratoire de notre jeu de donées nettoyé.

## 1.1) Etat d'art sur la thématique `alimentation ou nutrition et sommeil`

Nous pouvons lire sur l'article **sommeils: Ces 5 vitamines et minéreaux qui aideraient a mieux dormir** de CNEWS publié le 23 juin `2021` (pour lire l'article cliquer [ici](https://www.cnews.fr/nutrition/2021-06-23/sommeil-ces-5-vitamines-et-mineraux-qui-aideraient-mieux-dormir-1096566)) que l'insomnie, réveil matinal, nuit agitéé, etc peuvent être lutter en consommant au quotidient les 5 vitanimes ou minéreaux suivants:
> - **La vitamine B3 ou Niacine**: present dans `les abats, les volailles et les poissons gras, les céréales`. Elle sert à créer de la sérotonine et de la mélatonine communément appelée « hormone du sommeil ».
> - **La Vitamine D**: une étude publiée dans le Journal of Clinical Sleep Medicine a montré qu'il existe une forte corrélation entre la somnolence excessive et la carence en vitamine D. A défaut du soleil, la vitamine D peut être récuperée en consommant `saumon, thon, foie de morue`… 
> - **Le magnesium**: en plus de ses bienfaits pour lutter contre le stress, le minéral magnesium se revéle efficace contre les insomnies. Il est présent dans `les céréales complètes, le chocolat noir, les noix et les amandes et enfin certaines eaux minérales`.
> - **Le potassium**: c'est un sel minéral qu'on trouve dans `les bananes, les avocats, les haricots ou encore les patates douces`. Il est connue pour son efficacité contre les reveils précoces qui se muent en insomnie.

En plus de ces informations, nous avons consulté d'autres références qui nous ont permit de rdecouvrir d'autres indices sur le sujet tels que [source](https://institut-sommeil-vigilance.org/sommeil-et-alimentation/):
> - **Les féculents** riches en **glucides** et présents dans `le riz, les pâtes, la semoule, le pain, la pomme de terre`…
> - **Les sucre lents** qui facilitent a production de la sérotonine indispensable à la sécrétion de la mélatonine, hormone qui apporte l’information à l’organisme qu’il fait nuit et qu’il est temps de dormir.
> - Le **tryptophane**, un acide aminé que le corps ne sait pas fabriquer, favorise l’endormissement. On trouve le `tryptophane` dans Les œufs, Les noix, amandes et noisettes, Les produits laitiers, Certaines céréales et féculents : avoine, soja, mais, seigle, sésame, riz, quinoa, etc.
> - **La caféine, la taurine, la nicotine, alcool**, dont les propriétés éveillantes sont connues, est présente dans le café, le thé, le chocolat, l'alcool et la plupart des boissons énergisantes ou à base de cola sont un impact négatif sur le sommeil notamment lorsqu'on les consomment dans l'après-midi.

Les indices `Vitamine D, magnesium, potassium, glucides, sucre, caféine, taurine et alcool` sont definis dans notre jeu de données. Par contre le `tryptophane` est manquant. Nous pouvons retrouver sur [wikipedia](https://en.wikipedia.org/wiki/Tryptophan) la composition en tryptophane des aliments riches en tryptophane. Comme il s'agit d'un indice essentiel pour notre analyse, nous avons pensé à l'ajouter à notre jeu de données après le nettaoyage de ce dernier.

## 1.2) Strategie de mise en application

# 2) Analyse pré-exploratoire

## 2.1) Mission 
Notre objectif dans cette première phase du projet consiste à charger le jeu de données disponible sur `Open Food Fac` et prendre connaissance des données dans un premier temps. Dans un second temps, nous examinons la qualité des données et ensuite apporter des actions correctives afin de la préparer pour la seconde phase, **phase d'exploration !**

## 2.2) Chargement des données
Nous avons télecharger le jeu de données disponible [ici](https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/parcours-data-scientist/P2/fr.openfoodfacts.org.products.csv.zip). Il s'agit d'un fichier au format `.csv`. Donc nous allons le chargé à l'aide de la founction `read_csv` de `pandas`. Le résultat du chaegement est stocké dans la variable `df_foods` de type 'DataFrame`.

Comme l'indique le [fichier descriptif des données](https://world.openfoodfacts.org/data/data-fields.txt):
- les colonnes sont uniquement separarées par des tabulations
- l'encodage utilisé est *UTF-8*
- les entêtes des colonnes sont déjà définis 
Ces informations nous permettent d'initialiser les arguments de la fonction `read_csv`.

In [4]:
df_foods = pd.read_csv('data/fr.openfoodfacts.org.products.csv', sep = '\t', encoding = 'UTF-8')

  exec(code_obj, self.user_global_ns, self.user_ns)


**👉  Observons les 5 premières lignes de notre dataframe pour verifier si les données sont correctements chargées**

In [5]:
df_foods.head(5)

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,ph_100g,fruits-vegetables-nuts_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
0,3087,http://world-fr.openfoodfacts.org/produit/0000...,openfoodfacts-contributors,1474103866,2016-09-17T09:17:46Z,1474103893,2016-09-17T09:18:13Z,Farine de blé noir,,1kg,...,,,,,,,,,,
1,4530,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Banana Chips Sweetened (Whole),,,...,,,,,,,14.0,14.0,,
2,4559,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Peanuts,,,...,,,,,,,0.0,0.0,,
3,16087,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055731,2017-03-09T10:35:31Z,1489055731,2017-03-09T10:35:31Z,Organic Salted Nut Mix,,,...,,,,,,,12.0,12.0,,
4,16094,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055653,2017-03-09T10:34:13Z,1489055653,2017-03-09T10:34:13Z,Organic Polenta,,,...,,,,,,,,,,


##### 🧠 Comme vous pouvez le constater, notre jeu de données est correctement chargé.

## 2.3) Le DataFrame

**👉 Voyons combien de `lignes` et de `colonnes` sont contenues dans `df_foods`**

In [None]:
df_foods.shape

(320772, 162)

In [None]:
df_foods.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 320772 entries, 0 to 320771
Columns: 162 entries, code to water-hardness_100g
dtypes: float64(106), object(56)
memory usage: 396.5+ MB


##### 🧠 Nous avons 56 colonnes de `type` objet qui correspodent à des chaînes de caractères. Le jeu de données occupe presque `400 MB de la mémoire RAM`. Ce qui est considérable. Mais il reste à savoir si tous ces colonnes aussi utiles par rapport à notre objectif. Pensons aux **données manquantes!**. Il va falloir identifier les colonnes qui nous seront utiles à notre application par la suite et se debarasser des autres.

## 2.4) Qualité des données

**👉 Mesurons le pourcentage de `valeurs manquantes` par colonne**

In [8]:
df_foods.isna().mean(axis=0)

code                       0.000072
url                        0.000072
creator                    0.000006
created_t                  0.000009
created_datetime           0.000028
                             ...   
carbon-footprint_100g      0.999165
nutrition-score-fr_100g    0.310382
nutrition-score-uk_100g    0.310382
glycemic-index_100g        1.000000
water-hardness_100g        1.000000
Length: 162, dtype: float64

**👉 Mesurons la moyen du nombre des colonnes pour lesquelles le pourcentage de `valeurs manquantes` est superieur à `50%*`**

In [16]:
s = df_foods.isnull().mean(axis=0) >= 0.5
s.mean()

0.7901234567901234

In [17]:
s.sum()

128

##### 🧠 Nous pouvons constater que les valeurs pour certaines colonnes sont quasi inéxistantes. En occurrence plus `128` de `79%` des colonnes ont dont le pourcentage de `valeurs manquantes` est supérieure à `50%`. Ce qui signie nous sommes en face d'un jeu de données relativement `moins riches`. Nous allons apporter une solution à ce problème en fonction de notre application.

**👉 Vérifions si les colonnes `date` sont bien typées**

In [None]:
df_foods[['created_t','created_datetime','last_modified_t',	'last_modified_datetime']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 320772 entries, 0 to 320771
Data columns (total 4 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   created_t               320769 non-null  object
 1   created_datetime        320763 non-null  object
 2   last_modified_t         320772 non-null  object
 3   last_modified_datetime  320772 non-null  object
dtypes: object(4)
memory usage: 9.8+ MB


##### 🧠 Comme nous pouvons le voir, les dates ne sont pas bien typées. Nous adapterons les formats des dates dans la section suivante.

**👉 Voyons s'il existe des duplicatas en scrutant le feature `code`**

In [None]:
df_foods.duplicated(subset=['code']).sum()

133

##### 🧠 Vue que les duplicatas n'ont pas de valeur ajouté, il va falloir les supprimer pour reduire la taille du jeu de données. ####

##### Faisons la description metier afin de comprendre la signification de quelques importantes colonnes.

## 2.5) Description metier

### `Généralité`
Les 162 champs sont repartis sur quatre catégaries:
> Les données de references telsque code, nom, date de création, date de modification \
> Un ensemble de tags relatif aux à l'origine, fabriquant, catégaries du produit, localisation, place de vente et pays de vente \
> La Composition du produit: ingrédients naturals et additifs associés \
> Les informations nutritionnelles: quantité du nutriment pour 100g du produit, score nutritionnel attribué par UK FSA pour 100g 

## 2.6) Nettoyage du jeu de données

**👉 Supprimons les duplicatas**

In [None]:
df_foods = df_foods.drop_duplicates(subset=['code'])

In [None]:
df_foods.duplicated(subset=['code']).sum()

0

**👉 Supprimons toutes les colonnes avec tous les champs inconnus, ou `NaN` en anglais**

In [None]:
df_foods = df_foods.loc[:, ~df_foods.isnull().all()]

In [None]:
df_foods = df_foods.drop(columns=[col for col in df_foods.columns if not df_foods[col].isna().mean()<0.9], axis=1)

In [None]:
df_foods

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,fiber_100g,proteins_100g,salt_100g,sodium_100g,vitamin-a_100g,vitamin-c_100g,calcium_100g,iron_100g,nutrition-score-fr_100g,nutrition-score-uk_100g
0,3087,http://world-fr.openfoodfacts.org/produit/0000...,openfoodfacts-contributors,1474103866,2016-09-17T09:17:46Z,1474103893,2016-09-17T09:18:13Z,Farine de blé noir,,1kg,...,,,,,,,,,,
1,4530,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Banana Chips Sweetened (Whole),,,...,3.6,3.57,0.00000,0.000,0.0,0.0214,0.000,0.00129,14.0,14.0
2,4559,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Peanuts,,,...,7.1,17.86,0.63500,0.250,0.0,0.0000,0.071,0.00129,0.0,0.0
3,16087,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055731,2017-03-09T10:35:31Z,1489055731,2017-03-09T10:35:31Z,Organic Salted Nut Mix,,,...,7.1,17.86,1.22428,0.482,,,0.143,0.00514,12.0,12.0
4,16094,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055653,2017-03-09T10:34:13Z,1489055653,2017-03-09T10:34:13Z,Organic Polenta,,,...,5.7,8.57,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
320767,9948282780603,http://world-fr.openfoodfacts.org/produit/9948...,openfoodfacts-contributors,1490631299,2017-03-27T16:14:59Z,1491244498,2017-04-03T18:34:58Z,Tomato & ricotta,,1,...,,,,,,,,,,
320768,99567453,http://world-fr.openfoodfacts.org/produit/9956...,usda-ndb-import,1489059076,2017-03-09T11:31:16Z,1491244499,2017-04-03T18:34:59Z,"Mint Melange Tea A Blend Of Peppermint, Lemon ...",,,...,0.0,0.00,0.00000,0.000,0.0,0.0000,0.000,0.00000,0.0,0.0
320769,9970229501521,http://world-fr.openfoodfacts.org/produit/9970...,tomato,1422099377,2015-01-24T11:36:17Z,1491244499,2017-04-03T18:34:59Z,乐吧泡菜味薯片,Leba pickle flavor potato chips,50 g,...,,,,,,,,,,
320770,9980282863788,http://world-fr.openfoodfacts.org/produit/9980...,openfoodfacts-contributors,1492340089,2017-04-16T10:54:49Z,1492340089,2017-04-16T10:54:49Z,Tomates aux Vermicelles,,67g,...,,,,,,,,,,


## To do 
1 - Description metiers\
2 - Visual pour presenter les valeurs misingo \
3 - install plotly \
4 - Univarier des colonnes selectionnés \
6-  supprimer les colonnes constants \
7-  analyse univariée \
6-  analyse multivariée

**👉 Mainténant il serait utile d'avoir quelques informations sur le `type` de chacune des `colonnes`**