# Modèle basé sur les données manuellement étiquetées

L'objet de ce notebook est de mettre en place le modèle basé sur les données manuellement étiquetées.

## Récupération des données

### Préambule technique



In [1]:
# setting up sys.path for relative imports
from pathlib import Path
import sys
project_root = str(Path(sys.path[0]).parents[1].absolute())
if project_root not in sys.path:
    sys.path.append(project_root)

In [33]:
# imports and customization of diplay
import os
import pandas as pd
pd.options.display.min_rows = 6
pd.options.display.width=108
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

from src.pimapi import Requester
from src.pimest import ContentGetter
from src.pimest import PathGetter
from src.pimest import PDFContentParser
from src.pimest import BlockSplitter
from src.pimest import SimilaritySelector

### Chargement du fichier des données manuellement étiquetées

On commence par charger le fichier csv contenant les données manuellement étiquetées.

In [3]:
ground_truth_df = pd.read_csv(Path('..') / '..' / 'ground_truth' / 'manually_labelled_ground_truth.csv',
                              sep=';',
                              encoding='latin-1',
                              index_col='uid')
ground_truth_df.head()

Unnamed: 0_level_0,designation,ingredients
uid,Unnamed: 1_level_1,Unnamed: 2_level_1
a0492df6-9c76-4303-8813-65ec5ccbfa70,Concentré liquide Asian en bouteille 980 ml CHEF,"Eau, maltodextrine, sel, arômes, sucre, arôme ..."
d183e914-db2f-4e2f-863a-a3b2d054c0b8,Pain burger curry 80 g CREATIV BURGER,"Farine de blé T65, eau, levure, vinaigre de ci..."
ab48a1ed-7a3d-4686-bb6d-ab4f367cada8,Macaroni en sachet 500 g PANZANI,- 100% Semoule de BLE dur de qualité supérieur...
528d4be3-425c-4f8b-8a87-12f1bc645ddd,Fève de Tonka en sachet 100 g COMPTOIR COLONIAL,fève de tonka (graines ridées de 25 à 50mm de ...
51b38427-b2ea-4c56-93e8-4242361ef31b,Caviar d'aubergine en pot 500 g PUGET RESTAURA...,"Aubergine 60,5% (aubergine, huile de tournesol..."


In [4]:
ground_truth_uids = list(ground_truth_df.index)
ground_truth_uids[:5]

['a0492df6-9c76-4303-8813-65ec5ccbfa70',
 'd183e914-db2f-4e2f-863a-a3b2d054c0b8',
 'ab48a1ed-7a3d-4686-bb6d-ab4f367cada8',
 '528d4be3-425c-4f8b-8a87-12f1bc645ddd',
 '51b38427-b2ea-4c56-93e8-4242361ef31b']

### Pipeline d'acquisition du contenu des données

On commence par construire un premier pipeline d'acquisition des données.
Il fonctionne en 3 étapes : 
- détermination du chemin vers lequel aller chercher les fiches techniques
- récupération du contenu binaire du fichier
- conversion de ce contenu binaire en texte

In [5]:
acqui_pipe = Pipeline([('PathGetter', PathGetter(ground_truth_uids=ground_truth_uids,
                                                  train_set_path=Path('..') / '..' / 'ground_truth',
                                                  ground_truth_path=Path('..') / '..' / 'ground_truth',
                                                  )),
                        ('ContentGetter', ContentGetter(missing_file='to_nan')),
                        ('ContentParser', PDFContentParser(none_content='to_empty')),
                       ],
                       verbose=True)

In [6]:
texts_df = acqui_pipe.fit_transform(ground_truth_df)
texts_df

[Pipeline] ........ (step 1 of 3) Processing PathGetter, total=   0.1s
[Pipeline] ..... (step 2 of 3) Processing ContentGetter, total=   0.1s
Launching 8 processes.
[Pipeline] ..... (step 3 of 3) Processing ContentParser, total=  36.7s


Unnamed: 0_level_0,designation,ingredients,path,content,text
uid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a0492df6-9c76-4303-8813-65ec5ccbfa70,Concentré liquide Asian en bouteille 980 ml CHEF,"Eau, maltodextrine, sel, arômes, sucre, arôme ...",../../ground_truth/a0492df6-9c76-4303-8813-65e...,b'%PDF-1.5\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,Concentré Liquide Asian CHEF® \n\nBouteille de...
d183e914-db2f-4e2f-863a-a3b2d054c0b8,Pain burger curry 80 g CREATIV BURGER,"Farine de blé T65, eau, levure, vinaigre de ci...",../../ground_truth/d183e914-db2f-4e2f-863a-a3b...,b'%PDF-1.5\r%\xe2\xe3\xcf\xd3\r\n4 0 obj\r<</L...,
ab48a1ed-7a3d-4686-bb6d-ab4f367cada8,Macaroni en sachet 500 g PANZANI,- 100% Semoule de BLE dur de qualité supérieur...,../../ground_truth/ab48a1ed-7a3d-4686-bb6d-ab4...,b'%PDF-1.4\n%\xc7\xec\x8f\xa2\n5 0 obj\n<</Len...,Direction Qualité \n\n \n\n \n\nPATES ALIMENTA...
...,...,...,...,...,...
e67341d8-350f-46f4-9154-4dbbb8035621,PRÉPARATION POUR CRÈME BRÛLÉE BIO 6L,"Sucre roux de canne*° (64%), amidon de maïs*, ...",../../ground_truth/e67341d8-350f-46f4-9154-4db...,b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,FICHE TECHNIQUE \n\nCREME BRÛLÉE 6L \n\nREF : ...
a8f6f672-20ac-4ff8-a8f2-3bc4306c8df3,Céréales instantanées en poudre saveur caramel...,"Farine 87,1 % (Blé (GLUTEN), Blé hydrolysé (GL...",../../ground_truth/a8f6f672-20ac-4ff8-a8f2-3bc...,b'%PDF-1.5\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,81 rue de Sans Souci – CS13754 – 69576 Limones...
0faad739-ea8c-4f03-b62e-51ee592a0546,"FARINE DE BLÉ TYPE 45, 10KG",Farine de blé T45,../../ground_truth/0faad739-ea8c-4f03-b62e-51e...,b'%PDF-1.5\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,\n1050/10502066400 \n\n10502055300/1050202520...


On peut afficher quelques textes récupérés par le pipeline :

In [7]:
with pd.option_context("max_colwidth", 1000):
    print(texts_df.sample(3, random_state=42)['text'])
#    (texts_df.sample(3, random_state=42)['text']
#             .to_latex(Path('..') / 'tbls' / 'processed_FT.tex',
#                       index=False,
#                       index_names=False,
#                       column_format='p{\linewidth}',
#                       na_rep='-',
#                       escape=True,
#                      )
#    )

uid
2892dd68-e3a6-474c-b543-3ebfd3490658    NESCAFÉ® SPÉCIAL FILTRE\n\nDose individuelle de 2 g\nTechnologie micro-grains\n\nCODE EAN (UC)\n\n3033710076017\n\nDENOMINATION LEGALE DU PRODUIT\n\nDESCRIPTION DU PRODUIT\n\nCafé instantané et café torréfié moulu.\n\nUne dominante Arabica pour l'arôme et une pointe de Robusta pour le \ncorsé, associés à une torréfaction légère pour un café équilibré et peu \namer.\nSachet dose pour une tasse.\n\nDOSAGE PRECONISÉ\n\nMODE OPERATOIRE\n\nPour obtenir\n\n1 café Court (DA)\n\n1 café Long (DA)\n\nEau\n\n7\n\n12\n\ncl\n\ncl\n\nNESCAFÉ®\n\n SPÉCIAL FILTRE\n\n2\n\n2\n\ng\n\ng\n\nA reconstituer avec de l'eau. \nTempérature de l'eau : 75°C\nPour une qualité optimale, utilisez de l'eau filtrée.\n\nIngrédients : Café instantané, café torrefié moulu (3%).\n\nINGRÉDIENTS\n\nPROFIL GUSTATIF\n\nIntensité\n\nConditionné sous atmosphère protectrice.\n\nENGAGEMENT QUALITÉ\n\n- NESTLÉ a un système de management de la qualité, le NMS (NESTLÉ \nManagement System), 

## Découpage en blocs

On découpe les longs textes en blocs. Chaque texte devient une liste de strings plus court.

In [8]:
def splitter(text):
    return(text.split('\n\n'))

In [9]:
split_transfo = BlockSplitter(splitter_func=splitter)
splitted_df = split_transfo.fit_transform(texts_df)
splitted_df

Launching 8 processes.


Unnamed: 0_level_0,designation,ingredients,path,content,text,blocks
uid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a0492df6-9c76-4303-8813-65ec5ccbfa70,Concentré liquide Asian en bouteille 980 ml CHEF,"Eau, maltodextrine, sel, arômes, sucre, arôme ...",../../ground_truth/a0492df6-9c76-4303-8813-65e...,b'%PDF-1.5\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,Concentré Liquide Asian CHEF® \n\nBouteille de...,"[Concentré Liquide Asian CHEF® , Bouteille de ..."
d183e914-db2f-4e2f-863a-a3b2d054c0b8,Pain burger curry 80 g CREATIV BURGER,"Farine de blé T65, eau, levure, vinaigre de ci...",../../ground_truth/d183e914-db2f-4e2f-863a-a3b...,b'%PDF-1.5\r%\xe2\xe3\xcf\xd3\r\n4 0 obj\r<</L...,,[]
ab48a1ed-7a3d-4686-bb6d-ab4f367cada8,Macaroni en sachet 500 g PANZANI,- 100% Semoule de BLE dur de qualité supérieur...,../../ground_truth/ab48a1ed-7a3d-4686-bb6d-ab4...,b'%PDF-1.4\n%\xc7\xec\x8f\xa2\n5 0 obj\n<</Len...,Direction Qualité \n\n \n\n \n\nPATES ALIMENTA...,"[Direction Qualité , , , PATES ALIMENTAIRES ..."
...,...,...,...,...,...,...
e67341d8-350f-46f4-9154-4dbbb8035621,PRÉPARATION POUR CRÈME BRÛLÉE BIO 6L,"Sucre roux de canne*° (64%), amidon de maïs*, ...",../../ground_truth/e67341d8-350f-46f4-9154-4db...,b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,FICHE TECHNIQUE \n\nCREME BRÛLÉE 6L \n\nREF : ...,"[FICHE TECHNIQUE , CREME BRÛLÉE 6L , REF : NAP..."
a8f6f672-20ac-4ff8-a8f2-3bc4306c8df3,Céréales instantanées en poudre saveur caramel...,"Farine 87,1 % (Blé (GLUTEN), Blé hydrolysé (GL...",../../ground_truth/a8f6f672-20ac-4ff8-a8f2-3bc...,b'%PDF-1.5\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,81 rue de Sans Souci – CS13754 – 69576 Limones...,[81 rue de Sans Souci – CS13754 – 69576 Limone...
0faad739-ea8c-4f03-b62e-51ee592a0546,"FARINE DE BLÉ TYPE 45, 10KG",Farine de blé T45,../../ground_truth/0faad739-ea8c-4f03-b62e-51e...,b'%PDF-1.5\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n...,\n1050/10502066400 \n\n10502055300/1050202520...,"[ \n1050/10502066400 , 10502055300/10502025200..."


On peut afficher un exemple de texte découpé en blocs :

In [10]:
sep = '\n-----------------------------------------------------------\n'
sample = splitted_df.sample(1, random_state=39)['blocks'].iloc[0]
print(sep.join(sample))

tex_str = (
pd.DataFrame(sample, columns=['Blocs'])
  .to_latex(column_format='p{10cm}',
            index=False,
            index_names=False,
            escape=True,
           )
  .replace(r'\textbackslash n', '\\newline ')
)

#with open(Path('..') / 'tbls' / 'block_example.tex', mode='w') as file:
#    file.write(sep.join(sample).replace('\n', r' \newline '))

30/12/19
-----------------------------------------------------------
Date d'impression : 
Remarque : 
Les informations contenues dans cette fiche technique sont données de bonne foi, en l’état actuel de nos connaissances, et selon 
les indications communiquées par le producteur ou le fournisseur. Il appartient au client de vérifier la conformité de la marchandise 
par rapport à l’usage qu’il en fait.
-----------------------------------------------------------
Création : 
-----------------------------------------------------------
12/06/12
-----------------------------------------------------------
12 rue René Cassin
37390 NOTRE DAME
-----------------------------------------------------------
Tél :
02 47 85 55 00
Fax :02 47 41 33 32
-----------------------------------------------------------
FICHE TECHNIQUE
-----------------------------------------------------------
Mélange du trappeur, 70 g
Trapper blend, 70g
-----------------------------------------------------------
Code article KERE

## Train / Test split

On procède au découpage en un jeu d'entrainement et un jeu de test en gardant 400 produits pour l'entrainement et 100 produits pour le test : 

In [11]:
train, test = train_test_split(splitted_df, train_size=400, random_state=42)

## Entraînement sur le jeu d'entrainement

On entraîne un modèle `SimilaritySelector`, sur le set d'entraînement :

In [12]:
model = SimilaritySelector(fit_col='ingredients')

In [13]:
model.fit(train)

<src.pimest.SimilaritySelector at 0x7f3d0d1ce6d0>

In [15]:
predicted = model.transform(test)[['ingredients', 'predicted']] 
predicted

Unnamed: 0_level_0,ingredients,predicted
uid,Unnamed: 1_level_1,Unnamed: 2_level_1
2892dd68-e3a6-474c-b543-3ebfd3490658,"Café instantané, café torrefié moulu (3%).",- NESTLÉ a un système de management de la qual...
a57c1561-b88e-4694-8bd8-55623f2afa17,Lentilles blondes,Cette fiche technique n’a pas de valeur contra...
3634fb1e-ee79-41d1-8aaa-084c1fae5bd5,"Poire 99,9%, antioxydant: acide ascorbique.",Ce produit est une purée de fruits obtenue à p...
...,...,...
ebfc9e73-5d91-4b45-8331-8c8f9bed3bb3,Jus d'orange à base de concentré,\n \nVALEURS NUTRITIONNELLES pour 100mL / NUT...
c33aa83e-a502-4339-a8e0-c56db2e59e69,"Farine de BLÉ, sucre, huile de colza,, cacao m...","Ingrédients : Farine de BLÉ, sucre, huile de c..."
54f40033-f9cf-411c-81a5-11974f6715aa,"Piment rouge fort équeuté* (85%), cumin, ail m...",A) Ingrédients : \n \nPiment rouge fort équ...


In [16]:
predicted['pred_len'] = predicted['predicted'].apply(len)
sub_sample = predicted.loc[predicted['pred_len'] <= 500, ['ingredients', 'predicted']]
sub_sample

Unnamed: 0_level_0,ingredients,predicted
uid,Unnamed: 1_level_1,Unnamed: 2_level_1
2892dd68-e3a6-474c-b543-3ebfd3490658,"Café instantané, café torrefié moulu (3%).",- NESTLÉ a un système de management de la qual...
3634fb1e-ee79-41d1-8aaa-084c1fae5bd5,"Poire 99,9%, antioxydant: acide ascorbique.",Ce produit est une purée de fruits obtenue à p...
345591f4-d887-4ddc-bb40-21337fa9269d,"Gésier de dinde émincé 50%, graisse de canard ...","Gésier de dinde émincé 50%, graisse de canard..."
...,...,...
ebfc9e73-5d91-4b45-8331-8c8f9bed3bb3,Jus d'orange à base de concentré,\n \nVALEURS NUTRITIONNELLES pour 100mL / NUT...
c33aa83e-a502-4339-a8e0-c56db2e59e69,"Farine de BLÉ, sucre, huile de colza,, cacao m...","Ingrédients : Farine de BLÉ, sucre, huile de c..."
54f40033-f9cf-411c-81a5-11974f6715aa,"Piment rouge fort équeuté* (85%), cumin, ail m...",A) Ingrédients : \n \nPiment rouge fort équ...


In [35]:
with pd.option_context("max_colwidth", 100000):
    tex_str = (
    sub_sample.sample(20, random_state=41)
              .replace(r'^\s*$', np.nan, regex=True)
              .to_latex(index=False,
                   index_names=False,
                   column_format='p{7cm}p{7cm}',
                   na_rep='<rien>',
                   longtable=True,
                   header=["Liste d'ingrédients cible", "Liste d'ingrédients prédite"],
                   label='tbl:GT_prediction_sample',
                   caption="Extrait des résultats de la prédiction",
                        
                  )
             .replace(r'\textbackslash n', r' \newline ')
    )
    print(tex_str)
    
with open(Path('..') / 'tbls' / 'GT_prediction_sample.tex', 'w') as file:
    file.write(tex_str)

\begin{longtable}{p{7cm}p{7cm}}
\toprule
                                                                                                                                                                                                                                                                              Liste d'ingrédients cible &                                                                                                                                                                                                                                                                                                                                                                                                                                             Liste d'ingrédients prédite \\
\midrule
\endhead
\midrule
\multicolumn{2}{r}{{Continued on next page}} \\
\midrule
\endfoot

\bottomrule
\endlastfoot
                                                                                   

In [20]:
sub_sample.sample(10, random_state=41)

Unnamed: 0_level_0,ingredients,predicted
uid,Unnamed: 1_level_1,Unnamed: 2_level_1
d1be6f74-1e0e-4631-bb4a-6b16b9fc908f,"sucre*, LAIT en poudre*, beurre de cacao*, pât...","Liste des Ingrédients:\nsucre*, LAIT en poudr..."
49b11281-34ea-44b0-a11c-4ae21d4c58e3,,
d59d96cb-0230-4090-8220-78ce8496fd91,Amidon de maïs* - Lait écrémé* - Sel - Fécule ...,Amidon de maïs* - Lait écrémé* - Sel - Fécule ...
5adc7512-6168-4966-ae3f-f6ec133bf56e,semoule de blé dur supérieure et de l'eau,Ingrédients: semoule de blé dur supérieure et ...
75088d85-f350-4d81-a7f4-954411ba089e,,Boisson gazeuse aromatisée au jus de fruit à b...
a0492df6-9c76-4303-8813-65ec5ccbfa70,"Eau, maltodextrine, sel, arômes, sucre, arôme ...","Eau, maltodextrine, sel, arômes, sucre, arôme ..."
e521bd01-f2bb-4e00-9ae0-0151a1c7a047,"Sucre, cacao maigre en poudre (beurre de cacao...","Sucre, cacao maigre en poudre (beurre de cacao..."
8dec0469-c9f5-4139-be25-efa258959444,Sucre; sirop de glucose; graisse de palme; hum...,
345591f4-d887-4ddc-bb40-21337fa9269d,"Gésier de dinde émincé 50%, graisse de canard ...","Gésier de dinde émincé 50%, graisse de canard..."
41da4d6f-7e9f-4f95-bf2a-2acdd7138cd9,"Purée de tomates mi réduite (64%), sucre, vina...",Liste des ingrédients : Purée de tomates mi r...


In [25]:
sub_sample.sample(10, random_state=41).iloc[7,1].strip()

''

In [27]:
import numpy as np

In [32]:
sub_sample.sample(20, random_state=41).replace(r'^\s*$', np.nan, regex=True)

Unnamed: 0_level_0,ingredients,predicted
uid,Unnamed: 1_level_1,Unnamed: 2_level_1
d1be6f74-1e0e-4631-bb4a-6b16b9fc908f,"sucre*, LAIT en poudre*, beurre de cacao*, pât...","Liste des Ingrédients:\nsucre*, LAIT en poudr..."
49b11281-34ea-44b0-a11c-4ae21d4c58e3,,
d59d96cb-0230-4090-8220-78ce8496fd91,Amidon de maïs* - Lait écrémé* - Sel - Fécule ...,Amidon de maïs* - Lait écrémé* - Sel - Fécule ...
5adc7512-6168-4966-ae3f-f6ec133bf56e,semoule de blé dur supérieure et de l'eau,Ingrédients: semoule de blé dur supérieure et ...
75088d85-f350-4d81-a7f4-954411ba089e,,Boisson gazeuse aromatisée au jus de fruit à b...
a0492df6-9c76-4303-8813-65ec5ccbfa70,"Eau, maltodextrine, sel, arômes, sucre, arôme ...","Eau, maltodextrine, sel, arômes, sucre, arôme ..."
e521bd01-f2bb-4e00-9ae0-0151a1c7a047,"Sucre, cacao maigre en poudre (beurre de cacao...","Sucre, cacao maigre en poudre (beurre de cacao..."
8dec0469-c9f5-4139-be25-efa258959444,Sucre; sirop de glucose; graisse de palme; hum...,
345591f4-d887-4ddc-bb40-21337fa9269d,"Gésier de dinde émincé 50%, graisse de canard ...","Gésier de dinde émincé 50%, graisse de canard..."
41da4d6f-7e9f-4f95-bf2a-2acdd7138cd9,"Purée de tomates mi réduite (64%), sucre, vina...",Liste des ingrédients : Purée de tomates mi r...
