## 0. Notebook Parameters

---

### Notebook Settings

In [None]:
"""Google Colab settings"""
# from google.colab import drive
# drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


In [1]:
"""Jupyter settings"""
# Enable autoreload
%load_ext autoreload
%autoreload 2

# Pylint parameters
%config Completer.use_jedi = False

# Measure Runtime
# !pip install ipython-autotime
%load_ext autotime

time: 514 µs (started: 2021-03-01 00:38:39 +01:00)


### Imported Packages

In [2]:
"""Packages for manipulation of vectors, arrays, dataframes"""
import numpy as np
import pandas as pd
pd.set_option('display.max_colwidth', None) # Change display settings of class

"""Packages for cleaning dataset"""
import json
import string
import unicodedata

"""Packages for data visualization"""
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn

time: 872 ms (started: 2021-03-01 00:38:42 +01:00)


## 1. Preprocessing

---

### Clean OCR Dataset

#### Import the Data

In [5]:
# Load the dataset
file = '../raw_data/ocr_fr_text_only.jsonl'

def load_json_data(file):
    """Load the dataset"""
    data = []
    with open(file) as f:
        for line in f:
            data.append(json.loads(line))
    return pd.DataFrame(data)

ocr_df_base = load_json_data(file)

time: 6.04 s (started: 2021-02-28 23:38:48 +01:00)


In [6]:
# Deep copy of the dataframe to avoid to reload it
ocr_df = ocr_df_base.copy()

time: 27.4 ms (started: 2021-02-28 23:39:39 +01:00)


In [8]:
# Brief look at the dataset
print(f"Shape of the dataset: {ocr_df.shape}")
print("head of ocr_df:")
display(ocr_df.head())
print("Content of the first element:")
display(ocr_df.fr_text[0])

Shape of the dataset: (795609, 2)
head of ocr_df:


Unnamed: 0,source,fr_text
0,/319/966/047/6748/1.json,"NE\nELEVE\nABATTU\nEN BRETAGNE\nLES ÉLEVEURS\nDE BRETAGNE\nDécoupe de\nPodlet noir\nferfier\nlabe\nCaractéristiques certifiées: Fermier-élevé en plein air. Durée d'élevage 81 jours minimum.\n75% de céréales.\nAlimenté avec 100% de végétaux, minéraux et vitamines do mation : voir étiquette poids/prix\nA conserver entre O°C et +4°C -A consommer cuit à caeur-Date limite de co 35650 Le Rheu\nCertifié par: CERTIS-Immeuble Le Millepertuis- Les Landes d'Ap\nProduit frais\nClasse A\nPour toute réclamation, s'adresser à\nFERMIERS D'ARGOAT: BP77-22440 PLOUFRAGAN\nDécoupé et conditionné par: LDC Bretagne BP 256-2280 QUINTIN\nHomologation\nN° LA/02/75\n099 002\nCE\n2\nAbattoir agréé n'FR 22.099.002 CE\n2FLT.PLT FER.LR SAT\nEL.BRET.PF 2\nORIGINE France\nyo\nVOLAISE\nPrixtrg\nPoids net\nPrix a payer\n0,240kg\nLot\n005809 19 45\nR consommer jusqu au\nR conserver entre O C et +4 C\n10/04/18\nExpedie Le 30/03/18\nLOC BRETAGNE 22 LANFAINS\n22.039.002\ne01\n172225-0/196A\n3 19966014\nAU TRIT ASTE\nwww.CONSIGNESDETRFR\n"
1,/319/966/021/9208/1.json,"..\n1cg% LOCAL\nKer\nchAnt\nPOULET\nDecoupes de\nConditionné par D\nBretagne\nOrigine FRANCE. Produit Frais, Classe A\nconsommer cuit à coeur\nNE ELEVÉ PREPARE\n100% LOCAL\nDANS NOTRE REGION\nFILETS POOLET\n720GR\nVOLAILLE\nORIGINE France\nPrixtkg\nPoids net\nPrix a pave\n0,720kg\nO058067878\nA consommer jusqu au\n04/10/18\nCot\nA conserver entre O C et 4C\nExpedie Le\nLOc BRETAGNE 22 LANFAINS\n22.099.002\nCE\n250498-0/181\n01\n3 11199660121\nCONSGNE POUANT REOCLMENT\nwww.cONSIGNT\n"
2,/319/966/021/9208/2.json,FILETS POULET\n720GR\nORIGINE France\nPrixtkg\nVOLAILLE\nFRANÇAISE\nPoids net\nPrix a payer\n0720kg\nLot\n0058067878\nA consommer jusqu au\n04/10/18\nA conserver entre O C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\nFR\nCE\nBARQUETTE ET\n22.099.002\n250498-0/18 1C\ne01\nPENSEZ\nAU TRI!\nCONSIGNE POUVANTVARIER LOCALEMENT\nFILM PLASTIQUE\nA JETER\n3 |199 66012 19208\nwww.CONSIGNESDETRI.FR\n
3,/319/966/021/9192/1.json,"Ker\nchant\n100% LOCAL\nDecoupes de\nPOULET\nConditionné par LDC Bretagne\nLanfains (22) 18\nrais Classe A\nOrigine FRANCE. Prodtre 0 et +4""C\nOFFRE\nSPECIALE\nNE ELEVE PREPARE\n100% LOCAL\nDANS NOTRE REGION\n1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANÇAISE\nPrix/kg\nPaids net\nPrin apayer\n1,000kg\nto\n005806444\nA consommer jusqu au\n27/09/18\nR conserver entre D C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\n2.09.02\n256-106-0/1818\nAUTRIT\nPENS\n3 199660112 19192\n"
4,/319/966/021/9192/2.json,"1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANCAISE\nPrix/kg\nPoids net\nPrix a payer\n1,000kg\n0058064444\nA consommer jusqu'au\nR conserver entre OC et 4 C\nExpedie Le\n27/09/18\nLOC BRETAGNE 22 LANFAINS\n22.099.002\nCE\n256 106-0/1818\ne03\n3 199 660112 191921\nPENSEZ\nAU TRI!\nBARQUETTE ET\nFILM PLASTIQUE\nAJETER\nCONSIGNE POUVANTVARIER LOCALEMENT\nwww.CONSIGNESDETRLFR\n"


Content of the first element:


"NE\nELEVE\nABATTU\nEN BRETAGNE\nLES ÉLEVEURS\nDE BRETAGNE\nDécoupe de\nPodlet noir\nferfier\nlabe\nCaractéristiques certifiées: Fermier-élevé en plein air. Durée d'élevage 81 jours minimum.\n75% de céréales.\nAlimenté avec 100% de végétaux, minéraux et vitamines do mation : voir étiquette poids/prix\nA conserver entre O°C et +4°C -A consommer cuit à caeur-Date limite de co 35650 Le Rheu\nCertifié par: CERTIS-Immeuble Le Millepertuis- Les Landes d'Ap\nProduit frais\nClasse A\nPour toute réclamation, s'adresser à\nFERMIERS D'ARGOAT: BP77-22440 PLOUFRAGAN\nDécoupé et conditionné par: LDC Bretagne BP 256-2280 QUINTIN\nHomologation\nN° LA/02/75\n099 002\nCE\n2\nAbattoir agréé n'FR 22.099.002 CE\n2FLT.PLT FER.LR SAT\nEL.BRET.PF 2\nORIGINE France\nyo\nVOLAISE\nPrixtrg\nPoids net\nPrix a payer\n0,240kg\nLot\n005809 19 45\nR consommer jusqu au\nR conserver entre O C et +4 C\n10/04/18\nExpedie Le 30/03/18\nLOC BRETAGNE 22 LANFAINS\n22.039.002\ne01\n172225-0/196A\n3 19966014\nAU TRIT ASTE\nwww.C

time: 14 ms (started: 2021-02-28 23:41:00 +01:00)


#### Format the Dataset

In [9]:
# Format the content of the column SOURCE
# CREATE BARCODE

def to_barcode(text):
    """Transform strings in barcodes"""
    return int(''.join(text.split('/')[0:-1]))


# Apply function to create barcodes
ocr_df['barcode'] = ocr_df.source.apply(lambda text: to_barcode(text))

time: 692 ms (started: 2021-02-28 23:41:08 +01:00)


In [12]:
# Format the content of the column TEXT
# CLEAN OCR TEXT

def lower_case(text):
    """Lower case"""
    return text.lower()

def replace_slashn(text):
    """Replace '/n' """
    return text.replace('\n',' ')

def remove_punc(text):
    """Remove punctuation"""
    for punctuation in string.punctuation:
        return text.replace(punctuation, '')

def remove_digit(text):
    """Remove digits"""
    return ''.join(word for word in text if not word.isdigit())

def remove_nonalpha(text):
    """Remove nonalpha characters"""
    return ''.join(word for word in text if word.isalpha() or word == ' ')

def remove_accents(text):
    """Remove accents"""
    return ''.join(
        c for c in unicodedata.normalize('NFKD', text) 
        if unicodedata.category(c) != 'Mn'
        )

def remove_specialchar(text):
    """Remove special characters"""
    return ''.join(word for word in text if word.isalpha() or word == ' ')

def text_formatting_workflow():
    """Workflow of text formatting"""
    ocr_df['clean_text'] = ocr_df.fr_text.apply(lambda text: lower_case(text))
    ocr_df['clean_text'] = ocr_df.clean_text.apply(lambda text: replace_slashn(text))
    ocr_df['clean_text'] = ocr_df.clean_text.apply(lambda text: remove_punc(text))
    ocr_df['clean_text'] = ocr_df.clean_text.apply(lambda text: remove_digit(text))
    # ocr_df['clean_text'] = ocr_df.clean_text.apply(lambda text: remove_nonalpha(text))
    ocr_df['clean_text'] = ocr_df.clean_text.apply(lambda text: remove_accents(text))
    ocr_df['clean_text'] = ocr_df.clean_text.apply(lambda text: remove_specialchar(text))
    
    return ocr_df


Unnamed: 0,source,fr_text,barcode,clean_text
0,/319/966/047/6748/1.json,"NE\nELEVE\nABATTU\nEN BRETAGNE\nLES ÉLEVEURS\nDE BRETAGNE\nDécoupe de\nPodlet noir\nferfier\nlabe\nCaractéristiques certifiées: Fermier-élevé en plein air. Durée d'élevage 81 jours minimum.\n75% de céréales.\nAlimenté avec 100% de végétaux, minéraux et vitamines do mation : voir étiquette poids/prix\nA conserver entre O°C et +4°C -A consommer cuit à caeur-Date limite de co 35650 Le Rheu\nCertifié par: CERTIS-Immeuble Le Millepertuis- Les Landes d'Ap\nProduit frais\nClasse A\nPour toute réclamation, s'adresser à\nFERMIERS D'ARGOAT: BP77-22440 PLOUFRAGAN\nDécoupé et conditionné par: LDC Bretagne BP 256-2280 QUINTIN\nHomologation\nN° LA/02/75\n099 002\nCE\n2\nAbattoir agréé n'FR 22.099.002 CE\n2FLT.PLT FER.LR SAT\nEL.BRET.PF 2\nORIGINE France\nyo\nVOLAISE\nPrixtrg\nPoids net\nPrix a payer\n0,240kg\nLot\n005809 19 45\nR consommer jusqu au\nR conserver entre O C et +4 C\n10/04/18\nExpedie Le 30/03/18\nLOC BRETAGNE 22 LANFAINS\n22.039.002\ne01\n172225-0/196A\n3 19966014\nAU TRIT ASTE\nwww.CONSIGNESDETRFR\n",3199660476748,ne eleve abattu en bretagne les eleveurs de bretagne decoupe de podlet noir ferfier labe caracteristiques certifiees fermiereleve en plein air duree delevage jours minimum de cereales alimente avec de vegetaux mineraux et vitamines do mation voir etiquette poidsprix a conserver entre oc et c a consommer cuit a caeurdate limite de co le rheu certifie par certisimmeuble le millepertuis les landes dap produit frais classe a pour toute reclamation sadresser a fermiers dargoat bp ploufragan decoupe et conditionne par ldc bretagne bp quintin homologation n la ce abattoir agree nfr ce fltplt ferlr sat elbretpf origine france yo volaise prixtrg poids net prix a payer kg lot r consommer jusqu au r conserver entre o c et c expedie le loc bretagne lanfains e a au trit aste wwwconsignesdetrfr
1,/319/966/021/9208/1.json,"..\n1cg% LOCAL\nKer\nchAnt\nPOULET\nDecoupes de\nConditionné par D\nBretagne\nOrigine FRANCE. Produit Frais, Classe A\nconsommer cuit à coeur\nNE ELEVÉ PREPARE\n100% LOCAL\nDANS NOTRE REGION\nFILETS POOLET\n720GR\nVOLAILLE\nORIGINE France\nPrixtkg\nPoids net\nPrix a pave\n0,720kg\nO058067878\nA consommer jusqu au\n04/10/18\nCot\nA conserver entre O C et 4C\nExpedie Le\nLOc BRETAGNE 22 LANFAINS\n22.099.002\nCE\n250498-0/181\n01\n3 11199660121\nCONSGNE POUANT REOCLMENT\nwww.cONSIGNT\n",3199660219208,cg local ker chant poulet decoupes de conditionne par d bretagne origine france produit frais classe a consommer cuit a coeur ne eleve prepare local dans notre region filets poolet gr volaille origine france prixtkg poids net prix a pave kg o a consommer jusqu au cot a conserver entre o c et c expedie le loc bretagne lanfains ce consgne pouant reoclment wwwconsignt
2,/319/966/021/9208/2.json,FILETS POULET\n720GR\nORIGINE France\nPrixtkg\nVOLAILLE\nFRANÇAISE\nPoids net\nPrix a payer\n0720kg\nLot\n0058067878\nA consommer jusqu au\n04/10/18\nA conserver entre O C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\nFR\nCE\nBARQUETTE ET\n22.099.002\n250498-0/18 1C\ne01\nPENSEZ\nAU TRI!\nCONSIGNE POUVANTVARIER LOCALEMENT\nFILM PLASTIQUE\nA JETER\n3 |199 66012 19208\nwww.CONSIGNESDETRI.FR\n,3199660219208,filets poulet gr origine france prixtkg volaille francaise poids net prix a payer kg lot a consommer jusqu au a conserver entre o c et c expedie le loc bretagne lanfains fr ce barquette et c e pensez au tri consigne pouvantvarier localement film plastique a jeter wwwconsignesdetrifr
3,/319/966/021/9192/1.json,"Ker\nchant\n100% LOCAL\nDecoupes de\nPOULET\nConditionné par LDC Bretagne\nLanfains (22) 18\nrais Classe A\nOrigine FRANCE. Prodtre 0 et +4""C\nOFFRE\nSPECIALE\nNE ELEVE PREPARE\n100% LOCAL\nDANS NOTRE REGION\n1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANÇAISE\nPrix/kg\nPaids net\nPrin apayer\n1,000kg\nto\n005806444\nA consommer jusqu au\n27/09/18\nR conserver entre D C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\n2.09.02\n256-106-0/1818\nAUTRIT\nPENS\n3 199660112 19192\n",3199660219192,ker chant local decoupes de poulet conditionne par ldc bretagne lanfains rais classe a origine france prodtre et c offre speciale ne eleve prepare local dans notre region cuisdej plt sat kerchant fx origine france volaille francaise prixkg paids net prin apayer kg to a consommer jusqu au r conserver entre d c et c expedie le loc bretagne lanfains autrit pens
4,/319/966/021/9192/2.json,"1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANCAISE\nPrix/kg\nPoids net\nPrix a payer\n1,000kg\n0058064444\nA consommer jusqu'au\nR conserver entre OC et 4 C\nExpedie Le\n27/09/18\nLOC BRETAGNE 22 LANFAINS\n22.099.002\nCE\n256 106-0/1818\ne03\n3 199 660112 191921\nPENSEZ\nAU TRI!\nBARQUETTE ET\nFILM PLASTIQUE\nAJETER\nCONSIGNE POUVANTVARIER LOCALEMENT\nwww.CONSIGNESDETRLFR\n",3199660219192,cuisdej plt sat kerchant fx origine france volaille francaise prixkg poids net prix a payer kg a consommer jusquau r conserver entre oc et c expedie le loc bretagne lanfains ce e pensez au tri barquette et film plastique ajeter consigne pouvantvarier localement wwwconsignesdetrlfr
...,...,...,...,...
795604,/339/492/729/1007/2.json,"Le produit est gratine au four traditionnel\nAssociation de Promotion des Produits Alimentaires à base\ne Reblochon AOP (APPARe)-Maison du Reblochon-28 rue\naase-BP 55-74230 THONES\nHomalogation noLA02/14\nngrédients : Pommes de terre 52%, Reblochon AOP 20% (lait\ncru de vache, sel, ferments lactiques, présure, colorant de croute:\nocou), lardons fumés 10% (poitrine de porc (origine: France), sel,\nextrose, acidifiant:E330, antioxydant:E301, conservateur: E250),\nignons, crème fraiche, eau,fécule de pomme de terre, sel, poivre\nTaces eventuelles de céréales contenant du gluten, oeufs, poissons,\nmollusques, crustaces, céléri, moutarde, soja et fruits à coque.\nALEURS NUTRITIONELLES MOYENNES POUR 100g:Energie :686\n(164 kcal), Matières grasses :9.6g dont acides gras saturés\nS.lg Glucides: 12g dont sucres :0.7g Protéines : 6.6g, sel:0.7g\nconsornmer cans Les 24 heures apras ouverture.\nONSEILS DE PREPARATION\nu four traditionnel : apres avoir ate Le film, mettre Lla\nargaette au four 15 a 20 min a 180°C\nfour micre andes : transferer Le produit dans un plat\nprapris at rechauffer pandant 4 minutes a 9001\n792730199\n",3394927291007,le produit est gratine au four traditionnel association de promotion des produits alimentaires a base e reblochon aop apparemaison du reblochon rue aasebp thones homalogation nola ngredients pommes de terre reblochon aop lait cru de vache sel ferments lactiques presure colorant de croute ocou lardons fumes poitrine de porc origine france sel extrose acidifiante antioxydante conservateur e ignons creme fraiche eaufecule de pomme de terre sel poivre taces eventuelles de cereales contenant du gluten oeufs poissons mollusques crustaces celeri moutarde soja et fruits a coque aleurs nutritionelles moyennes pour genergie kcal matieres grasses g dont acides gras satures slg glucides g dont sucres g proteines g selg consornmer cans les heures apras ouverture onseils de preparation u four traditionnel apres avoir ate le film mettre lla argaette au four a min a c four micre andes transferer le produit dans un plat prapris at rechauffer pandant minutes a
795605,/339/492/036/6344/1.json,"mon traiteur\nPierre\nClot\nIngrédients:\nPISSALADIERE NICOISE\nTarte garnie d'une sauce aux oignons et de filets d'anchois.\nGARNITURE 63 % : Oignons 50,7%, huile de tournesol. filets d'anchois 2,3% (anchois 1.5%,\nhuile de tournesol, sel), olives noires (olives, eau, sel, stabilisant de couleur : E579), eau\namidon transforme de mais, sel, herbes de Provence, poivre, cannelle, girofle, muscade.\ngingembre, thym, origan.\nATE 37% : Farine de ble, eau, huile de tournesol, sUcre, Levure, sel, emulsifiants E322, E471\nfarine de ble malte.\n(Pourcentages exprimes sur le total de la recette).\nTraces eventuelles de moutarde, oeufs, Lait, soja et fruits a coque.\nA consommer dans Les 24 heures apres ouverture\nVALEURS NUTRITIONELLES MOYENNES POUR 100g : Energie :978 kJ (234 kcal), Matieres grasses\n11.2g dont acides gras satures : 1.2g: GLucides 28.3g dont sucres: 6.5g: Proteines: 5.0g: sel\n1.47g\nCONSEILS DE PREPARATION: Prechauffer votre four a 180°C. Oter le film de la barquette et\nrechauffer dans sa barquette au four traditionnel pendant 10 minutes a 180°C (therm.6)\nconsommer\njusqu'au:\n26/04/18\nPoids fixe\nLot no 780940197\n0,450\n16:57\nFR\n38-565-001\nPENSEZ\nAU TRI !\nBAROUEWEAE\nA JETER\nCE\n3 113 9 49 20113 66344\nCONSIGNES POUVANT VARIER LOCALEMENT\nwww.CONSIGNESDETRI FR\nFabriqué par Pierre CLOT\n436 rue Emile Romanet\n38340 VOREPPE\nwww.pierre-clot.fr\nTraiteur Frais\nélaboré en Région\n",3394920366344,mon traiteur pierre clot ingredients pissaladiere nicoise tarte garnie dune sauce aux oignons et de filets danchois garniture oignons huile de tournesol filets danchois anchois huile de tournesol sel olives noires olives eau sel stabilisant de couleur e eau amidon transforme de mais sel herbes de provence poivre cannelle girofle muscade gingembre thym origan ate farine de ble eau huile de tournesol sucre levure sel emulsifiants e e farine de ble malte pourcentages exprimes sur le total de la recette traces eventuelles de moutarde oeufs lait soja et fruits a coque a consommer dans les heures apres ouverture valeurs nutritionelles moyennes pour g energie kj kcal matieres grasses g dont acides gras satures g glucides g dont sucres g proteines g sel g conseils de preparation prechauffer votre four a c oter le film de la barquette et rechauffer dans sa barquette au four traditionnel pendant minutes a c therm consommer jusquau poids fixe lot no fr pensez au tri baroueweae a jeter ce consignes pouvant varier localement wwwconsignesdetri fr fabrique par pierre clot rue emile romanet voreppe wwwpierreclotfr traiteur frais elabore en region
795606,/339/492/036/6344/2.json,"Conditionné sous atmosphère protectrice. A conserver entre 0°C et +4°C.\nPiere\nmon traiteur\nClot\nIngrédients:\nPISSALADIERE NICOISE\nTarte garnie d'une sauce aux oignons et de filets d'anchois.\nGARNITURE 63 % : Oignons 50,7%, huile de tournesol, filets d'anchois 2,3% (anchois 1.5%,\nhuile de tournesol, sel), olives noires (olives, eau, sel, stabilisant de couleur E579), eau,\namidon transforme de maïs, sel, herbes de Provence, poivre, cannelle, girofle, muscade.\ngingembre, thym, origan.\nPATE 37% : Farine de ble, eau, huile de tournesol, sucre, Levure, sel, emulsifiants E322, E471\nfarine de ble malte.\n(Pourcentages exprimes sur le total de La recette).\nTraces eventuelles de moutarde, oeufs, Lait, soja et fruits a coque.\nA consommer dans les 24 heures apres ouverture.\nVALEURS NUTRITIONELLES MOYENNES POUR 100g: Energie: 978 kJ (234 kcal), Matieres grasses\n11.2g dont acides gras satures 1.2g: Glucides 28.3g dont sucres 6.5g: Proteines 5.0g: sel\n1.47 g\nCONSEILS DE PREPARATION Prechauffer votre four a 180°C. Oter le film de la barquette et\nrechauffer dans sa barquette au four traditionnel pendant 10 minutes a 180°C (therm.6)\nà consommer\njusqu au:\n26/04/18\nPoids fixe\nLot no 780940197\n0,450g\nFR\n38-565-001\n16:57\nPENSEZ ROUETTE Bo\n",3394920366344,conditionne sous atmosphere protectrice a conserver entre c et c piere mon traiteur clot ingredients pissaladiere nicoise tarte garnie dune sauce aux oignons et de filets danchois garniture oignons huile de tournesol filets danchois anchois huile de tournesol sel olives noires olives eau sel stabilisant de couleur e eau amidon transforme de mais sel herbes de provence poivre cannelle girofle muscade gingembre thym origan pate farine de ble eau huile de tournesol sucre levure sel emulsifiants e e farine de ble malte pourcentages exprimes sur le total de la recette traces eventuelles de moutarde oeufs lait soja et fruits a coque a consommer dans les heures apres ouverture valeurs nutritionelles moyennes pour g energie kj kcal matieres grasses g dont acides gras satures g glucides g dont sucres g proteines g sel g conseils de preparation prechauffer votre four a c oter le film de la barquette et rechauffer dans sa barquette au four traditionnel pendant minutes a c therm a consommer jusqu au poids fixe lot no g fr pensez rouette bo
795607,/339/385/244/7152/1.json,"JGRADE\nCEUFS DE SAUMON SAUVAGE\nKETA DU PACIFIQUE\nINGREDIENTS:\nCEufs de saumon (Oncorhynchus keta\npêché en Océan Pacifique) 97%, sel.\nFR\n94.022.002\nCE\nLE RO\nDE 0°C à +4°C. K.S.F.-7 AVENUE DANVILLE 94600- CHOISY\n",3393852447152,jgrade ceufs de saumon sauvage keta du pacifique ingredients ceufs de saumon oncorhynchus keta peche en ocean pacifique sel fr ce le ro de c a c ksf avenue danville choisy


time: 1min 49s (started: 2021-02-28 23:43:20 +01:00)


In [13]:
# Apply workflow of text formatting
text_formatting_workflow()

Unnamed: 0,source,fr_text,barcode,clean_text
0,/319/966/047/6748/1.json,"NE\nELEVE\nABATTU\nEN BRETAGNE\nLES ÉLEVEURS\nDE BRETAGNE\nDécoupe de\nPodlet noir\nferfier\nlabe\nCaractéristiques certifiées: Fermier-élevé en plein air. Durée d'élevage 81 jours minimum.\n75% de céréales.\nAlimenté avec 100% de végétaux, minéraux et vitamines do mation : voir étiquette poids/prix\nA conserver entre O°C et +4°C -A consommer cuit à caeur-Date limite de co 35650 Le Rheu\nCertifié par: CERTIS-Immeuble Le Millepertuis- Les Landes d'Ap\nProduit frais\nClasse A\nPour toute réclamation, s'adresser à\nFERMIERS D'ARGOAT: BP77-22440 PLOUFRAGAN\nDécoupé et conditionné par: LDC Bretagne BP 256-2280 QUINTIN\nHomologation\nN° LA/02/75\n099 002\nCE\n2\nAbattoir agréé n'FR 22.099.002 CE\n2FLT.PLT FER.LR SAT\nEL.BRET.PF 2\nORIGINE France\nyo\nVOLAISE\nPrixtrg\nPoids net\nPrix a payer\n0,240kg\nLot\n005809 19 45\nR consommer jusqu au\nR conserver entre O C et +4 C\n10/04/18\nExpedie Le 30/03/18\nLOC BRETAGNE 22 LANFAINS\n22.039.002\ne01\n172225-0/196A\n3 19966014\nAU TRIT ASTE\nwww.CONSIGNESDETRFR\n",3199660476748,ne eleve abattu en bretagne les eleveurs de bretagne decoupe de podlet noir ferfier labe caracteristiques certifiees fermiereleve en plein air duree delevage jours minimum de cereales alimente avec de vegetaux mineraux et vitamines do mation voir etiquette poidsprix a conserver entre oc et c a consommer cuit a caeurdate limite de co le rheu certifie par certisimmeuble le millepertuis les landes dap produit frais classe a pour toute reclamation sadresser a fermiers dargoat bp ploufragan decoupe et conditionne par ldc bretagne bp quintin homologation n la ce abattoir agree nfr ce fltplt ferlr sat elbretpf origine france yo volaise prixtrg poids net prix a payer kg lot r consommer jusqu au r conserver entre o c et c expedie le loc bretagne lanfains e a au trit aste wwwconsignesdetrfr
1,/319/966/021/9208/1.json,"..\n1cg% LOCAL\nKer\nchAnt\nPOULET\nDecoupes de\nConditionné par D\nBretagne\nOrigine FRANCE. Produit Frais, Classe A\nconsommer cuit à coeur\nNE ELEVÉ PREPARE\n100% LOCAL\nDANS NOTRE REGION\nFILETS POOLET\n720GR\nVOLAILLE\nORIGINE France\nPrixtkg\nPoids net\nPrix a pave\n0,720kg\nO058067878\nA consommer jusqu au\n04/10/18\nCot\nA conserver entre O C et 4C\nExpedie Le\nLOc BRETAGNE 22 LANFAINS\n22.099.002\nCE\n250498-0/181\n01\n3 11199660121\nCONSGNE POUANT REOCLMENT\nwww.cONSIGNT\n",3199660219208,cg local ker chant poulet decoupes de conditionne par d bretagne origine france produit frais classe a consommer cuit a coeur ne eleve prepare local dans notre region filets poolet gr volaille origine france prixtkg poids net prix a pave kg o a consommer jusqu au cot a conserver entre o c et c expedie le loc bretagne lanfains ce consgne pouant reoclment wwwconsignt
2,/319/966/021/9208/2.json,FILETS POULET\n720GR\nORIGINE France\nPrixtkg\nVOLAILLE\nFRANÇAISE\nPoids net\nPrix a payer\n0720kg\nLot\n0058067878\nA consommer jusqu au\n04/10/18\nA conserver entre O C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\nFR\nCE\nBARQUETTE ET\n22.099.002\n250498-0/18 1C\ne01\nPENSEZ\nAU TRI!\nCONSIGNE POUVANTVARIER LOCALEMENT\nFILM PLASTIQUE\nA JETER\n3 |199 66012 19208\nwww.CONSIGNESDETRI.FR\n,3199660219208,filets poulet gr origine france prixtkg volaille francaise poids net prix a payer kg lot a consommer jusqu au a conserver entre o c et c expedie le loc bretagne lanfains fr ce barquette et c e pensez au tri consigne pouvantvarier localement film plastique a jeter wwwconsignesdetrifr
3,/319/966/021/9192/1.json,"Ker\nchant\n100% LOCAL\nDecoupes de\nPOULET\nConditionné par LDC Bretagne\nLanfains (22) 18\nrais Classe A\nOrigine FRANCE. Prodtre 0 et +4""C\nOFFRE\nSPECIALE\nNE ELEVE PREPARE\n100% LOCAL\nDANS NOTRE REGION\n1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANÇAISE\nPrix/kg\nPaids net\nPrin apayer\n1,000kg\nto\n005806444\nA consommer jusqu au\n27/09/18\nR conserver entre D C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\n2.09.02\n256-106-0/1818\nAUTRIT\nPENS\n3 199660112 19192\n",3199660219192,ker chant local decoupes de poulet conditionne par ldc bretagne lanfains rais classe a origine france prodtre et c offre speciale ne eleve prepare local dans notre region cuisdej plt sat kerchant fx origine france volaille francaise prixkg paids net prin apayer kg to a consommer jusqu au r conserver entre d c et c expedie le loc bretagne lanfains autrit pens
4,/319/966/021/9192/2.json,"1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANCAISE\nPrix/kg\nPoids net\nPrix a payer\n1,000kg\n0058064444\nA consommer jusqu'au\nR conserver entre OC et 4 C\nExpedie Le\n27/09/18\nLOC BRETAGNE 22 LANFAINS\n22.099.002\nCE\n256 106-0/1818\ne03\n3 199 660112 191921\nPENSEZ\nAU TRI!\nBARQUETTE ET\nFILM PLASTIQUE\nAJETER\nCONSIGNE POUVANTVARIER LOCALEMENT\nwww.CONSIGNESDETRLFR\n",3199660219192,cuisdej plt sat kerchant fx origine france volaille francaise prixkg poids net prix a payer kg a consommer jusquau r conserver entre oc et c expedie le loc bretagne lanfains ce e pensez au tri barquette et film plastique ajeter consigne pouvantvarier localement wwwconsignesdetrlfr
...,...,...,...,...
795604,/339/492/729/1007/2.json,"Le produit est gratine au four traditionnel\nAssociation de Promotion des Produits Alimentaires à base\ne Reblochon AOP (APPARe)-Maison du Reblochon-28 rue\naase-BP 55-74230 THONES\nHomalogation noLA02/14\nngrédients : Pommes de terre 52%, Reblochon AOP 20% (lait\ncru de vache, sel, ferments lactiques, présure, colorant de croute:\nocou), lardons fumés 10% (poitrine de porc (origine: France), sel,\nextrose, acidifiant:E330, antioxydant:E301, conservateur: E250),\nignons, crème fraiche, eau,fécule de pomme de terre, sel, poivre\nTaces eventuelles de céréales contenant du gluten, oeufs, poissons,\nmollusques, crustaces, céléri, moutarde, soja et fruits à coque.\nALEURS NUTRITIONELLES MOYENNES POUR 100g:Energie :686\n(164 kcal), Matières grasses :9.6g dont acides gras saturés\nS.lg Glucides: 12g dont sucres :0.7g Protéines : 6.6g, sel:0.7g\nconsornmer cans Les 24 heures apras ouverture.\nONSEILS DE PREPARATION\nu four traditionnel : apres avoir ate Le film, mettre Lla\nargaette au four 15 a 20 min a 180°C\nfour micre andes : transferer Le produit dans un plat\nprapris at rechauffer pandant 4 minutes a 9001\n792730199\n",3394927291007,le produit est gratine au four traditionnel association de promotion des produits alimentaires a base e reblochon aop apparemaison du reblochon rue aasebp thones homalogation nola ngredients pommes de terre reblochon aop lait cru de vache sel ferments lactiques presure colorant de croute ocou lardons fumes poitrine de porc origine france sel extrose acidifiante antioxydante conservateur e ignons creme fraiche eaufecule de pomme de terre sel poivre taces eventuelles de cereales contenant du gluten oeufs poissons mollusques crustaces celeri moutarde soja et fruits a coque aleurs nutritionelles moyennes pour genergie kcal matieres grasses g dont acides gras satures slg glucides g dont sucres g proteines g selg consornmer cans les heures apras ouverture onseils de preparation u four traditionnel apres avoir ate le film mettre lla argaette au four a min a c four micre andes transferer le produit dans un plat prapris at rechauffer pandant minutes a
795605,/339/492/036/6344/1.json,"mon traiteur\nPierre\nClot\nIngrédients:\nPISSALADIERE NICOISE\nTarte garnie d'une sauce aux oignons et de filets d'anchois.\nGARNITURE 63 % : Oignons 50,7%, huile de tournesol. filets d'anchois 2,3% (anchois 1.5%,\nhuile de tournesol, sel), olives noires (olives, eau, sel, stabilisant de couleur : E579), eau\namidon transforme de mais, sel, herbes de Provence, poivre, cannelle, girofle, muscade.\ngingembre, thym, origan.\nATE 37% : Farine de ble, eau, huile de tournesol, sUcre, Levure, sel, emulsifiants E322, E471\nfarine de ble malte.\n(Pourcentages exprimes sur le total de la recette).\nTraces eventuelles de moutarde, oeufs, Lait, soja et fruits a coque.\nA consommer dans Les 24 heures apres ouverture\nVALEURS NUTRITIONELLES MOYENNES POUR 100g : Energie :978 kJ (234 kcal), Matieres grasses\n11.2g dont acides gras satures : 1.2g: GLucides 28.3g dont sucres: 6.5g: Proteines: 5.0g: sel\n1.47g\nCONSEILS DE PREPARATION: Prechauffer votre four a 180°C. Oter le film de la barquette et\nrechauffer dans sa barquette au four traditionnel pendant 10 minutes a 180°C (therm.6)\nconsommer\njusqu'au:\n26/04/18\nPoids fixe\nLot no 780940197\n0,450\n16:57\nFR\n38-565-001\nPENSEZ\nAU TRI !\nBAROUEWEAE\nA JETER\nCE\n3 113 9 49 20113 66344\nCONSIGNES POUVANT VARIER LOCALEMENT\nwww.CONSIGNESDETRI FR\nFabriqué par Pierre CLOT\n436 rue Emile Romanet\n38340 VOREPPE\nwww.pierre-clot.fr\nTraiteur Frais\nélaboré en Région\n",3394920366344,mon traiteur pierre clot ingredients pissaladiere nicoise tarte garnie dune sauce aux oignons et de filets danchois garniture oignons huile de tournesol filets danchois anchois huile de tournesol sel olives noires olives eau sel stabilisant de couleur e eau amidon transforme de mais sel herbes de provence poivre cannelle girofle muscade gingembre thym origan ate farine de ble eau huile de tournesol sucre levure sel emulsifiants e e farine de ble malte pourcentages exprimes sur le total de la recette traces eventuelles de moutarde oeufs lait soja et fruits a coque a consommer dans les heures apres ouverture valeurs nutritionelles moyennes pour g energie kj kcal matieres grasses g dont acides gras satures g glucides g dont sucres g proteines g sel g conseils de preparation prechauffer votre four a c oter le film de la barquette et rechauffer dans sa barquette au four traditionnel pendant minutes a c therm consommer jusquau poids fixe lot no fr pensez au tri baroueweae a jeter ce consignes pouvant varier localement wwwconsignesdetri fr fabrique par pierre clot rue emile romanet voreppe wwwpierreclotfr traiteur frais elabore en region
795606,/339/492/036/6344/2.json,"Conditionné sous atmosphère protectrice. A conserver entre 0°C et +4°C.\nPiere\nmon traiteur\nClot\nIngrédients:\nPISSALADIERE NICOISE\nTarte garnie d'une sauce aux oignons et de filets d'anchois.\nGARNITURE 63 % : Oignons 50,7%, huile de tournesol, filets d'anchois 2,3% (anchois 1.5%,\nhuile de tournesol, sel), olives noires (olives, eau, sel, stabilisant de couleur E579), eau,\namidon transforme de maïs, sel, herbes de Provence, poivre, cannelle, girofle, muscade.\ngingembre, thym, origan.\nPATE 37% : Farine de ble, eau, huile de tournesol, sucre, Levure, sel, emulsifiants E322, E471\nfarine de ble malte.\n(Pourcentages exprimes sur le total de La recette).\nTraces eventuelles de moutarde, oeufs, Lait, soja et fruits a coque.\nA consommer dans les 24 heures apres ouverture.\nVALEURS NUTRITIONELLES MOYENNES POUR 100g: Energie: 978 kJ (234 kcal), Matieres grasses\n11.2g dont acides gras satures 1.2g: Glucides 28.3g dont sucres 6.5g: Proteines 5.0g: sel\n1.47 g\nCONSEILS DE PREPARATION Prechauffer votre four a 180°C. Oter le film de la barquette et\nrechauffer dans sa barquette au four traditionnel pendant 10 minutes a 180°C (therm.6)\nà consommer\njusqu au:\n26/04/18\nPoids fixe\nLot no 780940197\n0,450g\nFR\n38-565-001\n16:57\nPENSEZ ROUETTE Bo\n",3394920366344,conditionne sous atmosphere protectrice a conserver entre c et c piere mon traiteur clot ingredients pissaladiere nicoise tarte garnie dune sauce aux oignons et de filets danchois garniture oignons huile de tournesol filets danchois anchois huile de tournesol sel olives noires olives eau sel stabilisant de couleur e eau amidon transforme de mais sel herbes de provence poivre cannelle girofle muscade gingembre thym origan pate farine de ble eau huile de tournesol sucre levure sel emulsifiants e e farine de ble malte pourcentages exprimes sur le total de la recette traces eventuelles de moutarde oeufs lait soja et fruits a coque a consommer dans les heures apres ouverture valeurs nutritionelles moyennes pour g energie kj kcal matieres grasses g dont acides gras satures g glucides g dont sucres g proteines g sel g conseils de preparation prechauffer votre four a c oter le film de la barquette et rechauffer dans sa barquette au four traditionnel pendant minutes a c therm a consommer jusqu au poids fixe lot no g fr pensez rouette bo
795607,/339/385/244/7152/1.json,"JGRADE\nCEUFS DE SAUMON SAUVAGE\nKETA DU PACIFIQUE\nINGREDIENTS:\nCEufs de saumon (Oncorhynchus keta\npêché en Océan Pacifique) 97%, sel.\nFR\n94.022.002\nCE\nLE RO\nDE 0°C à +4°C. K.S.F.-7 AVENUE DANVILLE 94600- CHOISY\n",3393852447152,jgrade ceufs de saumon sauvage keta du pacifique ingredients ceufs de saumon oncorhynchus keta peche en ocean pacifique sel fr ce le ro de c a c ksf avenue danville choisy


time: 1min 54s (started: 2021-02-28 23:45:09 +01:00)


In [14]:
# Drop superfluous columns

# Rough variant (keeping the raw text as well)
ocr_rough_df = ocr_df[['barcode','clean_text', 'fr_text']].copy()
# Replace column names of the dataset
ocr_rough_df.rename(columns={'fr_text':'raw_text'}, inplace=True)

# Clean variant
ocr_clean_df = ocr_df[['barcode','clean_text']].copy()

time: 240 ms (started: 2021-02-28 23:47:04 +01:00)


In [15]:
ocr_rough_df.dtypes , ocr_clean_df.dtypes

(barcode        int64
 clean_text    object
 raw_text      object
 dtype: object,
 barcode        int64
 clean_text    object
 dtype: object)

time: 4.96 ms (started: 2021-02-28 23:47:04 +01:00)


In [16]:
"""Uncomment method if needed"""

# Save formatted dataset to csv
# ocr_clean_df.to_csv('/content/drive/My Drive/OFF_Drive/raw_data/ocr_clean.csv', index = False)
# ocr_rough_df.to_csv('/content/drive/My Drive/OFF_Drive/raw_data/ocr_clean_vs_rough.csv', index = False)

'Uncomment method if needed'

time: 4.68 ms (started: 2021-02-28 23:47:11 +01:00)


### Clean OFF Dataset

#### Import the Data

In [18]:
# Load the dataset
file = '../raw_data/en.openfoodfacts.org.products.csv'
off_df_base = pd.read_csv(file, sep='\t')

time: 8min 59s (started: 2021-02-28 23:48:06 +01:00)


In [19]:
# Deep copy of the dataframe to avoid to reload it
data_off = off_df_base.copy()

time: 7.76 s (started: 2021-02-28 23:57:06 +01:00)


In [20]:
# Brief look at the dataset
print(f"Shape of the dataset: {data_off.shape}")
print("head of data_off:")
display(data_off.head())

Shape of the dataset: (1634734, 184)
head of data_off:


Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,abbreviated_product_name,generic_name,...,carbon-footprint-from-meat-or-fish_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g,choline_100g,phylloquinone_100g,beta-glucan_100g,inositol_100g,carnitine_100g
0,17,http://world-en.openfoodfacts.org/product/0000000000017/vitoria-crackers,kiliweb,1529059080,2018-06-15T10:38:00Z,1561463718,2019-06-25T11:55:18Z,Vitória crackers,,,...,,,,,,,,,,
1,31,http://world-en.openfoodfacts.org/product/0000000000031/cacao,isagoofy,1539464774,2018-10-13T21:06:14Z,1539464817,2018-10-13T21:06:57Z,Cacao,,,...,,,,,,,,,,
2,3327986,http://world-en.openfoodfacts.org/product/000000000003327986/filetes-de-pollo-empanado,kiliweb,1574175736,2019-11-19T15:02:16Z,1574175737,2019-11-19T15:02:17Z,Filetes de pollo empanado,,,...,,,,,,,,,,
3,100,http://world-en.openfoodfacts.org/product/0000000000100/moutarde-au-mout-de-raisin-courte-paille,del51,1444572561,2015-10-11T14:09:21Z,1444659212,2015-10-12T14:13:32Z,moutarde au moût de raisin,,,...,,18.0,,,,,,,,
4,1111111111,http://world-en.openfoodfacts.org/product/00000000001111111111/sfiudwx-watt,openfoodfacts-contributors,1560020173,2019-06-08T18:56:13Z,1560020173,2019-06-08T18:56:13Z,Sfiudwx,,,...,,,,,,,,,,


time: 2.09 s (started: 2021-02-28 23:57:14 +01:00)


#### Format the Dataset

In [21]:
# Drop columns
data_off_small = data_off[['code', 'pnns_groups_1', 'pnns_groups_2']].copy()

time: 137 ms (started: 2021-02-28 23:58:08 +01:00)


In [22]:
# Replace empty values with NaN
data_off_small['pnns_groups_1'] = data_off_small['pnns_groups_1'].replace('unknown',np.nan)
data_off_small['pnns_groups_2'] = data_off_small['pnns_groups_2'].replace('unknown',np.nan)

time: 131 ms (started: 2021-02-28 23:58:13 +01:00)


In [23]:
# Drop rows with NaN
off_df = data_off_small.dropna(subset=['pnns_groups_1', 'pnns_groups_2']).copy()

time: 266 ms (started: 2021-02-28 23:59:41 +01:00)


In [24]:
# Brief look at the dataset
print(f"Shape of the dataset: {off_df.shape}")
print("head of the dataset:")
display(off_df.head())

Shape of the dataset: (641233, 3)
head of the dataset:


Unnamed: 0,code,pnns_groups_1,pnns_groups_2
3,100,Fat and sauces,Dressings and sauces
14,949,Composite foods,One-dish meals
23,1281,Sugary snacks,Biscuits and cakes
33,1885,Fruits and vegetables,Fruits
35,2103,Fish Meat Eggs,Meat


time: 13.6 ms (started: 2021-02-28 23:59:44 +01:00)


In [25]:
# Replace column names of the dataset
off_df.rename(columns={'code':'barcode'}, inplace=True)

time: 3.29 ms (started: 2021-02-28 23:59:49 +01:00)


In [26]:
# Verify columns of the dataset
off_df.dtypes

barcode          object
pnns_groups_1    object
pnns_groups_2    object
dtype: object

time: 7.83 ms (started: 2021-02-28 23:59:52 +01:00)


In [27]:
"""Uncomment method if needed"""

# Save formatted dataset to csv
# off_df.to_csv('/content/drive/My Drive/OFF_Drive/raw_data/off_categories_only.csv', index = False)

'Uncomment method if needed'

time: 3.15 ms (started: 2021-02-28 23:59:59 +01:00)


### Merge OCR & OFF Datasets

Columns of the final dataset (rough variant):
- `barcode`
- `clean_text`
- `raw_text`
- `pnns_group_1`
- `pnns_group_2`

In [28]:
# Merge the 2 dataframes
merged_df = ocr_rough_df.merge(off_df, how='left', on='barcode')

time: 779 ms (started: 2021-03-01 00:00:07 +01:00)


In [29]:
# Brief look at the dataset
print(f"Shape of the dataset: {merged_df.shape}")
print("head of the dataset:")
display(merged_df.head())

Shape of the dataset: (795609, 5)
head of the dataset:


Unnamed: 0,barcode,clean_text,raw_text,pnns_groups_1,pnns_groups_2
0,3199660476748,ne eleve abattu en bretagne les eleveurs de bretagne decoupe de podlet noir ferfier labe caracteristiques certifiees fermiereleve en plein air duree delevage jours minimum de cereales alimente avec de vegetaux mineraux et vitamines do mation voir etiquette poidsprix a conserver entre oc et c a consommer cuit a caeurdate limite de co le rheu certifie par certisimmeuble le millepertuis les landes dap produit frais classe a pour toute reclamation sadresser a fermiers dargoat bp ploufragan decoupe et conditionne par ldc bretagne bp quintin homologation n la ce abattoir agree nfr ce fltplt ferlr sat elbretpf origine france yo volaise prixtrg poids net prix a payer kg lot r consommer jusqu au r conserver entre o c et c expedie le loc bretagne lanfains e a au trit aste wwwconsignesdetrfr,"NE\nELEVE\nABATTU\nEN BRETAGNE\nLES ÉLEVEURS\nDE BRETAGNE\nDécoupe de\nPodlet noir\nferfier\nlabe\nCaractéristiques certifiées: Fermier-élevé en plein air. Durée d'élevage 81 jours minimum.\n75% de céréales.\nAlimenté avec 100% de végétaux, minéraux et vitamines do mation : voir étiquette poids/prix\nA conserver entre O°C et +4°C -A consommer cuit à caeur-Date limite de co 35650 Le Rheu\nCertifié par: CERTIS-Immeuble Le Millepertuis- Les Landes d'Ap\nProduit frais\nClasse A\nPour toute réclamation, s'adresser à\nFERMIERS D'ARGOAT: BP77-22440 PLOUFRAGAN\nDécoupé et conditionné par: LDC Bretagne BP 256-2280 QUINTIN\nHomologation\nN° LA/02/75\n099 002\nCE\n2\nAbattoir agréé n'FR 22.099.002 CE\n2FLT.PLT FER.LR SAT\nEL.BRET.PF 2\nORIGINE France\nyo\nVOLAISE\nPrixtrg\nPoids net\nPrix a payer\n0,240kg\nLot\n005809 19 45\nR consommer jusqu au\nR conserver entre O C et +4 C\n10/04/18\nExpedie Le 30/03/18\nLOC BRETAGNE 22 LANFAINS\n22.039.002\ne01\n172225-0/196A\n3 19966014\nAU TRIT ASTE\nwww.CONSIGNESDETRFR\n",Fish Meat Eggs,Meat
1,3199660219208,cg local ker chant poulet decoupes de conditionne par d bretagne origine france produit frais classe a consommer cuit a coeur ne eleve prepare local dans notre region filets poolet gr volaille origine france prixtkg poids net prix a pave kg o a consommer jusqu au cot a conserver entre o c et c expedie le loc bretagne lanfains ce consgne pouant reoclment wwwconsignt,"..\n1cg% LOCAL\nKer\nchAnt\nPOULET\nDecoupes de\nConditionné par D\nBretagne\nOrigine FRANCE. Produit Frais, Classe A\nconsommer cuit à coeur\nNE ELEVÉ PREPARE\n100% LOCAL\nDANS NOTRE REGION\nFILETS POOLET\n720GR\nVOLAILLE\nORIGINE France\nPrixtkg\nPoids net\nPrix a pave\n0,720kg\nO058067878\nA consommer jusqu au\n04/10/18\nCot\nA conserver entre O C et 4C\nExpedie Le\nLOc BRETAGNE 22 LANFAINS\n22.099.002\nCE\n250498-0/181\n01\n3 11199660121\nCONSGNE POUANT REOCLMENT\nwww.cONSIGNT\n",,
2,3199660219208,filets poulet gr origine france prixtkg volaille francaise poids net prix a payer kg lot a consommer jusqu au a conserver entre o c et c expedie le loc bretagne lanfains fr ce barquette et c e pensez au tri consigne pouvantvarier localement film plastique a jeter wwwconsignesdetrifr,FILETS POULET\n720GR\nORIGINE France\nPrixtkg\nVOLAILLE\nFRANÇAISE\nPoids net\nPrix a payer\n0720kg\nLot\n0058067878\nA consommer jusqu au\n04/10/18\nA conserver entre O C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\nFR\nCE\nBARQUETTE ET\n22.099.002\n250498-0/18 1C\ne01\nPENSEZ\nAU TRI!\nCONSIGNE POUVANTVARIER LOCALEMENT\nFILM PLASTIQUE\nA JETER\n3 |199 66012 19208\nwww.CONSIGNESDETRI.FR\n,,
3,3199660219192,ker chant local decoupes de poulet conditionne par ldc bretagne lanfains rais classe a origine france prodtre et c offre speciale ne eleve prepare local dans notre region cuisdej plt sat kerchant fx origine france volaille francaise prixkg paids net prin apayer kg to a consommer jusqu au r conserver entre d c et c expedie le loc bretagne lanfains autrit pens,"Ker\nchant\n100% LOCAL\nDecoupes de\nPOULET\nConditionné par LDC Bretagne\nLanfains (22) 18\nrais Classe A\nOrigine FRANCE. Prodtre 0 et +4""C\nOFFRE\nSPECIALE\nNE ELEVE PREPARE\n100% LOCAL\nDANS NOTRE REGION\n1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANÇAISE\nPrix/kg\nPaids net\nPrin apayer\n1,000kg\nto\n005806444\nA consommer jusqu au\n27/09/18\nR conserver entre D C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\n2.09.02\n256-106-0/1818\nAUTRIT\nPENS\n3 199660112 19192\n",Fish Meat Eggs,Meat
4,3199660219192,cuisdej plt sat kerchant fx origine france volaille francaise prixkg poids net prix a payer kg a consommer jusquau r conserver entre oc et c expedie le loc bretagne lanfains ce e pensez au tri barquette et film plastique ajeter consigne pouvantvarier localement wwwconsignesdetrlfr,"1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANCAISE\nPrix/kg\nPoids net\nPrix a payer\n1,000kg\n0058064444\nA consommer jusqu'au\nR conserver entre OC et 4 C\nExpedie Le\n27/09/18\nLOC BRETAGNE 22 LANFAINS\n22.099.002\nCE\n256 106-0/1818\ne03\n3 199 660112 191921\nPENSEZ\nAU TRI!\nBARQUETTE ET\nFILM PLASTIQUE\nAJETER\nCONSIGNE POUVANTVARIER LOCALEMENT\nwww.CONSIGNESDETRLFR\n",Fish Meat Eggs,Meat


time: 12.1 ms (started: 2021-03-01 00:00:26 +01:00)


In [30]:
# Drop rows with NaN from the DataFrame
labeled_df = merged_df.dropna(subset=['pnns_groups_1', 'pnns_groups_2'])

time: 291 ms (started: 2021-03-01 00:00:31 +01:00)


In [31]:
# Brief look at the dataset
print(f"Shape of the dataset: {labeled_df.shape}")
print("head of the dataset:")
display(labeled_df.head())

Shape of the dataset: (434896, 5)
head of the dataset:


Unnamed: 0,barcode,clean_text,raw_text,pnns_groups_1,pnns_groups_2
0,3199660476748,ne eleve abattu en bretagne les eleveurs de bretagne decoupe de podlet noir ferfier labe caracteristiques certifiees fermiereleve en plein air duree delevage jours minimum de cereales alimente avec de vegetaux mineraux et vitamines do mation voir etiquette poidsprix a conserver entre oc et c a consommer cuit a caeurdate limite de co le rheu certifie par certisimmeuble le millepertuis les landes dap produit frais classe a pour toute reclamation sadresser a fermiers dargoat bp ploufragan decoupe et conditionne par ldc bretagne bp quintin homologation n la ce abattoir agree nfr ce fltplt ferlr sat elbretpf origine france yo volaise prixtrg poids net prix a payer kg lot r consommer jusqu au r conserver entre o c et c expedie le loc bretagne lanfains e a au trit aste wwwconsignesdetrfr,"NE\nELEVE\nABATTU\nEN BRETAGNE\nLES ÉLEVEURS\nDE BRETAGNE\nDécoupe de\nPodlet noir\nferfier\nlabe\nCaractéristiques certifiées: Fermier-élevé en plein air. Durée d'élevage 81 jours minimum.\n75% de céréales.\nAlimenté avec 100% de végétaux, minéraux et vitamines do mation : voir étiquette poids/prix\nA conserver entre O°C et +4°C -A consommer cuit à caeur-Date limite de co 35650 Le Rheu\nCertifié par: CERTIS-Immeuble Le Millepertuis- Les Landes d'Ap\nProduit frais\nClasse A\nPour toute réclamation, s'adresser à\nFERMIERS D'ARGOAT: BP77-22440 PLOUFRAGAN\nDécoupé et conditionné par: LDC Bretagne BP 256-2280 QUINTIN\nHomologation\nN° LA/02/75\n099 002\nCE\n2\nAbattoir agréé n'FR 22.099.002 CE\n2FLT.PLT FER.LR SAT\nEL.BRET.PF 2\nORIGINE France\nyo\nVOLAISE\nPrixtrg\nPoids net\nPrix a payer\n0,240kg\nLot\n005809 19 45\nR consommer jusqu au\nR conserver entre O C et +4 C\n10/04/18\nExpedie Le 30/03/18\nLOC BRETAGNE 22 LANFAINS\n22.039.002\ne01\n172225-0/196A\n3 19966014\nAU TRIT ASTE\nwww.CONSIGNESDETRFR\n",Fish Meat Eggs,Meat
3,3199660219192,ker chant local decoupes de poulet conditionne par ldc bretagne lanfains rais classe a origine france prodtre et c offre speciale ne eleve prepare local dans notre region cuisdej plt sat kerchant fx origine france volaille francaise prixkg paids net prin apayer kg to a consommer jusqu au r conserver entre d c et c expedie le loc bretagne lanfains autrit pens,"Ker\nchant\n100% LOCAL\nDecoupes de\nPOULET\nConditionné par LDC Bretagne\nLanfains (22) 18\nrais Classe A\nOrigine FRANCE. Prodtre 0 et +4""C\nOFFRE\nSPECIALE\nNE ELEVE PREPARE\n100% LOCAL\nDANS NOTRE REGION\n1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANÇAISE\nPrix/kg\nPaids net\nPrin apayer\n1,000kg\nto\n005806444\nA consommer jusqu au\n27/09/18\nR conserver entre D C et 4 C\nExpedie Le\nLOC BRETAGNE 22 LANFAINS\n2.09.02\n256-106-0/1818\nAUTRIT\nPENS\n3 199660112 19192\n",Fish Meat Eggs,Meat
4,3199660219192,cuisdej plt sat kerchant fx origine france volaille francaise prixkg poids net prix a payer kg a consommer jusquau r conserver entre oc et c expedie le loc bretagne lanfains ce e pensez au tri barquette et film plastique ajeter consigne pouvantvarier localement wwwconsignesdetrlfr,"1CUIS.DEJ. PLT SAT\nKERCHANT FX 1\nORIGINE France\nVOLAILLE\nFRANCAISE\nPrix/kg\nPoids net\nPrix a payer\n1,000kg\n0058064444\nA consommer jusqu'au\nR conserver entre OC et 4 C\nExpedie Le\n27/09/18\nLOC BRETAGNE 22 LANFAINS\n22.099.002\nCE\n256 106-0/1818\ne03\n3 199 660112 191921\nPENSEZ\nAU TRI!\nBARQUETTE ET\nFILM PLASTIQUE\nAJETER\nCONSIGNE POUVANTVARIER LOCALEMENT\nwww.CONSIGNESDETRLFR\n",Fish Meat Eggs,Meat
8,3199660747848,ker chant logal decoupes de poulet cooduogne pnm lin ne eleve prepare local aiguillette poulet gr dans not origine france prixiky tui et prix a pavar kg region lot consommer jusquau r conserver entre cet c expedie le loc bretrgne lrnfrins a pense au tri,"Ker\nChant\n100% LOGAL\nDécoupes de\nPOULET\nCooduogne pNM LIN\nNE\nELEVE\nPREPARE\n100% LOCAL\nAIGUILLETTE POULET\n500GR\nDANS NOT\nORIGINE France\nPrixiky\ntui et\nPrix a pavar\n0,500kg\nREGION\n0059308701\nLot\n8 consommer JusQU'au\n27/12/19\nR conserver entre 0 Cet 4C\nExpedie Le 18/12/13\nLOC BRETRGNE 22 LRNFRINS\n22 088.002\n38397-0/6A\nPENSE\nAU TRI\n3 1996601747848\n",Fish Meat Eggs,Meat
22,3196203800091,preparation deshydratee aromatisee et coloree pour sucre pour barbe a papa parfum fraise ingredients sucre dextrose colorant e arome antiagglomerant dioxyde de silicium nano peut contenir des traces de gluten oeuf soja lait fruits a coque g produit deshydrate pour g de poids net valeur energetique kcal valeur energetique kj matieres grasses g dont acides gras satures glucides dont sucres proteines sel traces g g traces g falbrique en fra par emb,"PREPARATION DÉSHYDRATÉE, AROMATISÉE ET COLOREE\nPOUR SUCRE POUR BARBE À PAPA PARFUM FRAISE\nINGREDIENTS Sucre. Dextrose. Colorant: E120, Aróme\nAntiagglomérant: dioxyde de silicium [nano]. Peut contenir\ndes traces de gluten, oeuf, soja, lait, fruits à coque.\n500 g\nproduit déshydraté\n409\nPour 100 g de\nPoids net\nValeur énergétique kcal\nValeur énergétique kJ\nMatières grasses\n1736\n<0,9 g\ndont acides gras saturés\nGlucides\ndont sucres\nProteines\nSel\nTraces\n99,7 g\n99,6 g\nTraces\n<0,1 g\n380 007\nFalbriqué en Fra\nPar EMB 51\n",Sugary snacks,Sweets


time: 16.1 ms (started: 2021-03-01 00:00:53 +01:00)


In [32]:
# Check the number of barcodes
print(f"Count of unique barcodes: {labeled_df.barcode.nunique()}")

Count of unique barcodes: 127888
time: 66.6 ms (started: 2021-03-01 00:00:57 +01:00)


In [33]:
"""Uncomment method if needed"""
# Save sample dataset to csv
# labeled_df.to_csv('../raw_data/ocr_labeled_rough.csv', index = False)

'Uncomment method if needed'

time: 4.03 ms (started: 2021-03-01 00:01:00 +01:00)


In [34]:
# Create a subset dataframe to test the code without waiting time
labeled_df_1K = labeled_df[:1000].copy()

"""Uncomment method if needed"""
# Save sample dataset to csv
# labeled_df_1K.to_csv('../raw_data/ocr_labeled_1K.csv', index = False)

'Uncomment method if needed'

time: 4.78 ms (started: 2021-03-01 00:01:04 +01:00)
