# Advanced Machine Learning for NLP and Text Processing
## Project 1 : OpenFoodFacts


### Part 1 : Define and clean the vocabulary of ingredients

In [1]:
# Install packages

# !pip install chardet
# !pip install python-magic
# !pip install pyenchant
# !pip install hunspell 
# !pip install tensorflow
# !pip install nltk
# !pip install langdetect
# !pip install pyspellchecker
# !pip install google_trans_new
# !pip install translate
# !pip install deep_translator

In [2]:
# import librairies

# import enchant
from langdetect import detect
import nltk
from nltk.metrics import *
from nltk.tokenize import RegexpTokenizer
import pandas as pd
from spellchecker import SpellChecker
import tensorflow as tf
import re
import time
from google_trans_new import google_translator
from translate import Translator
from deep_translator import GoogleTranslator

nltk.download('words')

[nltk_data] Downloading package words to
[nltk_data]     C:\Users\cheic\AppData\Roaming\nltk_data...
[nltk_data]   Package words is already up-to-date!


True

### Load clean and export dataset

In [3]:
translator = GoogleTranslator(source='auto', target='en')

In [4]:
# Detect language used in ingredients and translate in english
count = 0

def translate(x):
    global count 
    count += 1

    x = x.lower()
    x = x.strip()
    
    x = x.replace('ã©', 'é')
    x = x.replace('&quot;', '')
    x = x.replace('cã¨', 'è')
    x = x.replace('ã', 'à')
    x = x.replace('ã´', 'ô')
    x = x.replace('à´', 'ô')
    x = x.replace('à¢', 'â')

    # Remove special characters : _ - @ :// * ( ) [ ] % . · + # { }
    x = re.sub('_|-|@|:\/\/|\*|\(|\)|\[|\]|%|\.|\·|\+|\#|\{|\}', '', x)
    # Remove digits
    x = re.sub('\d', '', x)
    
    # Detect language and translate into english
    try: 
        lang = detect(x)
        print(f"Row n°{count} ==> {lang} - {x}", flush = True)

        if lang != 'en': 
            return translator.translate(x)
        else: 
            return x
    except : 
        print(f"Invalid character at row {count} : {x}", flush = True)
        return "INVALID"
    

In [5]:
def clean_dataset(PATH): 
    dataset = pd.read_csv(PATH, sep = '\t', encoding='latin1') 
    start_time = time.time()

    columns_to_drop = [
        'url', 
        'code',
        'creator',
        'created_t',
        'created_datetime',
        'last_modified_t',
        'last_modified_datetime',
        'abbreviated_product_name',
        'generic_name',
        'packaging',
        'packaging_tags',
        'packaging_text',
        'brands',
        'categories',
        'categories_en',
        'origins',
        'origins_en',
        'manufacturing_places',
        'labels',
        'labels_en',
        'emb_codes',
        'emb_codes_tags',
        'first_packaging_code_geo',
        'cities',
        'purchase_places',
        'stores',
        'countries',
        'countries_en',
        'traces',
        'traces_en',
        'allergens_en',
        'serving_size',
        'serving_quantity',
        'additives',
        'additives_en',
        'ingredients_from_palm_oil',
        'ingredients_that_may_be_from_palm_oil',
        'states',
        'states_tags',
        'states_en',
        'main_category_en',
        'image_small_url',
        'image_ingredients_url',
        'image_ingredients_small_url',
        'image_nutrition_url',
        'image_nutrition_small_url'
    ]

    # Drop unnecessary columns
    df = dataset.drop(columns = columns_to_drop)

    # Drop rows where product_name, categories_tags or ingredients_text are empty
    df = df.dropna(subset = ['product_name', 'categories_tags', 'ingredients_text'])

    # Detect language and translate in english
    df["ingredients_en"] = df["ingredients_text"].apply(translate) 

    end_time = time.time()
    
    print(f"PATH : {PATH} -- Execution Time : {end_time - start_time}")
    
    return df
    

In [None]:
for i in range(1, 41): 
    PATH = './datasets/openfoodfacts_part'+ str(i) +'.csv'
    df = clean_dataset(PATH)
    df.to_csv('./datasets/clean/openfoodfacts_part'+ str(i) +'.csv', sep = "\t")

  df = clean_dataset(PATH)


Row n°1 ==> fr - eau graines de téguments de moutarde vinaigre de vin rouge sel vin rouge sucre   moà»t de raisin  oignons colorants extraits de carotte et extrait de paprika huile de tournesol son de moutarde sel cette moutarde uniquement disponible chez courte paille
Row n°2 ==> fr - jus et purée d'abricots  minimun, eau, sucre
Row n°3 ==> fr - bâguette bressan pain baguette ,,' farine de blà, eau, sel, levure, gluten, farine de ble malté, levure désactivée, acide ascorbique, garniture ,: filet de poulet braisé , filet de poulet , eau, acidifiant : lactate de potassium et acétate de sodium, amidon modifié de manioc, sel, dextrose glucose, arômes, gélifiants eayam$xydant : érythà¨fbate de sodium, colorant : grafnel â¢ origine ue, tomatenx, oeuf dur ,/ , 'salade ,/ o
Row n°4 ==> fr - glycérine d'origine naturelle stabilisant, spiruline spirulina maxima d'origine naturelle, extrait de fruits de camu camu myrciaria dubia, arôme naturel de citron vert
Row n°5 ==> en - organic baby lima 

Row n°37 ==> vi - à¸à¸µà¸à¹à¸à¹
Row n°38 ==> fr - pâtes à  l'épeautre  ràªve de neptune  spelt neptunes dream g e ingrédients ingredià«nten speltbloem, tomaat, spinazie, biet, spirulina farine d'épeautre , tomates , épinards , betteraves , spiruline 
Row n°39 ==> fr - medjoul dates origine: palestine  origin: palestinia ce produit provient d'une fabrique oà¹ ler
Row n°40 ==> fr - vin rouge, sec contient des sulfites
Row n°41 ==> en - unbleached enriched flour wheat flour, barley malt flour, niacin, reduced iron, thiamin mononitrate, riboflavin, folic acid, water, sugar, contains  or less of: wheat gluten, wheat flour, salt, yeast, distilled vinegar, cultured corn syrup solids, cul
Row n°42 ==> en - wheatflour, sugar, eggs, soybean oil, water, chocolate chips sugar, chocolate liquor, cocoa butter, soy lecithin an emulsifier, and vanilla, cocoa powder treated with alkali, dairy whey milk, corn starch, leavening potassium bicarbonate, calcium ac
Row n°43 ==> en - pastry: unbleached w

Row n°66 ==> es - ingredientes: quenelles de lucio  huevo, agua, harina de tngo tierno carne de lucio ' aceite de colza, lactosa y proteina léctea, sal, salsa nantua'  agua, nata, salsa de tomate, crustéceos, caldo de mariscos langosta, cangrejos, jugo de coccià³n de crustéceos cangrejos, langosta, camaron boreal, sal, concentrado de tomates, almidon modificado de patatas, vino blanco, aceite de girasol, sal, cognac, azà¼car, espesante goma xantana, pimienta negra
Row n°67 ==> fr - oreillons d'abricots au sirop  abricots, eau, sucre, farine de blé, sucre, beurre , nappage eau, sirop de glucose, sucre, gélifiant pectines, acidifiant acide citrique, correcteur d'acidité citrates de sodium, stabilisant chlorure de calcium, oeuf entier liquide, eau, crà¨me pâtissià¨re sucre, amidon modifié de pomme de terre, lactosérum, lait entier en poudre, arôme naturel de vanille, extraits végétaux colorants carotte, amandes en poudre , , poudres à  lever diphosphates, carbonates de sodium, amidon de b

Row n°105 ==> it -  tea & passion
Row n°106 ==> fr - madeleines choconoir  madeleines nappées de chocolat noir : farine de blé , chocolat noir  pâte de cacao, sucre, beurre de cacao, matià¨re grasse laitià¨re anhydre, émulsifiant : lécithines soja, arôme naturel de vanille, sucre, huile de colza, åufs de poules élevées en plein air , sirop de glucosefructose, stabilisant : glycérol, poudres à  lever : carbonates d'ammonium  carbonates de sodium  citrates de sodium blé, sel, gluten de blé, lait écrémé en poudre, fibres végétales, arôme naturel peut contenir des traces de fruits à  coque toutes vos remarques et suggestions sont les bienvenues : contactez notre service qualité en indiquant le nom et le numéro du lot du produit concerné figurant sur le dessus de la boà®te pour conserver toutes les qualités de ce produit, le maintenir dans un milieu tempéré à  l'abri de la chaleur, de l'humidité et du froid
Row n°107 ==> en - enriched bleached flour wheat flour, malt barley flour, niacin, 

Row n°142 ==> fr - purée de tomates ,, thon ,, olives ,, huile dâolive extra vierge ,, oignons, sel, persil issus de l'agriculture biologique
Row n°143 ==> en - tomato puree ,, beef mince meat ,, carrots ,, extravirgin olive oil ,, onions ,, celery ,, red wine, salt, black pepper, laurel storage:once opened, store in the fridge, and consume within  days advice for use: shake well before opening from organic farming à consommer avant le : voir couvercle /to be consumed before : see the lid otogbo
Row n°144 ==> de - molkenproteinkonzentrat wheyproteinkonzentrat, nur schoko kakaopulver entà¶lt, aroma, pflanzenà¶l aus raps, sà¼àungsmittel acesulfamk und sucralose
Row n°145 ==> fr - purée de tomates , carottes ,, huile d'olive extra vierge , oignons , courgettes ,, aubergines ,, céleri ,, basilic ,, sel  issus de l'agriculture biologique
Row n°146 ==> en - tomates 
Row n°147 ==> fr - sucre, blanc dâåufs frais, poudre dâamande , beurre pâtissier, farine de blé, pépites au citron  su

Row n°181 ==> en - water, glycerin, citric acid, xylitol, apple juice concentrate, ascorbic acid, xanthan gum, sucralose, malic acid, natural and artificial flavors, sodium benzoate and potassium sorbate as preservatives, yellow , blue 
Row n°182 ==> en - purified water, xylitol, stevia, malic acid, sodium benzoate and potassium sorbate as preservatives
Row n°183 ==> en - handharvested artichokes
Row n°184 ==> sk - spinach
Row n°185 ==> en - romaine hearts
Row n°186 ==> fi - romaine
Row n°187 ==> nl - green leaf
Row n°188 ==> sk - spinach
Row n°189 ==> tl - cooking spinach
Row n°190 ==> af - brussels sprouts
Row n°191 ==> af - brussels sprouts
Row n°192 ==> af - brussels sprouts
Row n°193 ==> af - brussels sprouts
Row n°194 ==> af - brussels sprouts
Row n°195 ==> en - celery
Row n°196 ==> en - hig gluten flour sugar water salt instant yeast
Row n°197 ==> en - unbleached enriched flour wheat flour, niacin, reduced iron, thiamine mononitrate, riboflavin, folioacid, peanut butter roasted 

Row n°233 ==> en - crunchy candy dextrose, sugar malic acid, and less than  of corn syrup, artificial flavors, carnauba wax, color added, caramine color, blue , blue  lake, blue , blue  lake, red , red  lake, yellow , yellow  lake, yellow , yellow  lake carbonated crystals sugar, lactose, milk, corn syrup solids, natural and artificial flavor, red , blue  and yellow ; processed with carbon dioxide for popping effect
Row n°234 ==> en - sugar, corn syrup, white grape juice from concentrate, gelatin, citric acid, sorbitol, natural & artificial flavors, carnauba wax, artificial colors fd&c blue , yellow , yellow , red 
Row n°235 ==> en - sugar, corn syrup, modified corn starch, maltodextrin, citric acid, lactic acid, sodium lactate, artificial flavors, glazing agents: beeswax, carnauba wax, confectioners glaze, palm oil, artificial colors: fd&c blue , yellow , yellow , red , titanium dioxide
Row n°236 ==> en - sugar, corn syrup, wheat flour, modified corn starch, palm oil, gelatin, lactic 

Row n°275 ==> en - corn syrup, sugar, water, apple juice concentrate, modified food starch corn, gelatin, dextrose, apple puree, citric acid, natural & artificial flavor, ascorbic acid vitamin c, mineral oil, carnauba wax, artificial colors fd&c red , yellow , yellow , blue 
Row n°276 ==> en - enriched wheat flour wheat flour, niacin, iron, thiamin mononitrate, riboflavin, folic acid, sugar, dextrose, palm oil with tbhq for freshness, contains  or less of: cornstarch, cocoa powder, salt, baking soda, artificial colors red , yellow , yellow , and blue , soy lecithin
Row n°277 ==> en - enriched wheat flour wheat flour, niacin, iron, thiamin mononitrate, riboflavin, folic acid, sugar, dextrose, palm oil with tbhq for freshness, contains  or less of: cornstarch, salt, baking soda, artificial colors red , soy lecithin, artificial strawberry flavor, citric acid
Row n°278 ==> en - sucrose, lactose milk, corn syrup solids, natural and artificial flavor, fd&c blue , processed with carbon dioxid

Row n°325 ==> en - creamer maltodxtrin, palm oil, modified food starch, chicken soup base corn syrup solids, salt, corn starch, hydrolyzed corn, soy protein, rendered chicken fat, sugar, onion powder, disodium inosinate, disodium guanylate, spices, turmeric, dehydrated parsley, silicon dioxide, chopped onion, chicken flavor autolyzed yeast extract, maltodextrin, salt, chicken flavor, chicken stock, natural flavor, chicken fat, silicon dioxide anticaking agent, celery slices, carrot dices, salt, onion powder, yeast extract, parsley flakes
Row n°326 ==> en - sweet whey, creamer coconut oil, corn syrup solids, sodium caseinate a milk derivative, dipotassium phosphate, sugar, mono and diglycerides, polysorbate , sodium silicoaluminate, tetrasodium pyrophosphate, soy lecithin, nonfat milk, sugar, guar gum, vitamin a, vitamin d
Row n°327 ==> en - sugar, creamer coconut oil, corn syrup solids, sodium caseinate a milk derivative, dipotassium phosphate, sugar, mono and diglycerides, polysorbate

Row n°348 ==> fr - farine de blé contient gluten avec farine de blé, carbonate de calcium, fer, niacine, thiamine  sucre  beurre lait  raisins de smyrne   sirop de glucose  lait en poudre écrémé  poudre à  lever: e, bicarbonate de soude, e  sel
Row n°349 ==> fr - morceaux de chocolat blanc   sucre  lait en poudre entier  beurre de cacao  lait en poudre écrémé émulsifiant : lécithine de soja, arôme vanille  farine de blé avec farine de blé, carbonate de calcium, fer, niacine, thiamine  beurre    sucre  fécule de maà¯s  poudre à  lever: e, bicarbonate de soude, e  sirop de sucre inverti  sel
Row n°350 ==> fr - sucre â¢ beurre lait  â¢ flocons d'avoine contient du gluten â¢ farine de blécontient du gluten avec du blé, du carbonate de calcium, du fer, de la niacine, de la thiamine â¢ raisins secs  â¢ noix de coco desséchée   â¢ abricots séchés   abricots â¢ farine de riz â¢ conservateur: e sulfites â¢ golden syrup sirop de sucre inverti â¢ åufs pasteurisés â¢ agent de levage: b

Row n°368 ==> fr - pain de mie complet , : farine complà¨te de ble , eau, farine de ble, huile de colza, dextrose, sucre, sel, gluten de ble, arôme contient alcool, levure, vinaigre, conservateur : propionate de calcium, émulsifiant : mono et diglycérides d'acides gras, antioxydant : acide ascorbique garniture ,: blanc de volaille , filet de dinde , origine france, salaison eau, sel, arômes, dextrose et sirop de glucose, gélifiant, algues euchémas transformées, poivre, extrait de levures dont orge, arôme naturel de romarin, conservateur : nitrite de sodium, colorant : de caramel ea, tomate , , salade batavia ,, bacon fumé , carré de porc origine france eau, sel acidifiant : acétate de sodium, antioxydant : érythorbate de sodium, conservateur : nitrite de sodium, cheddar râpé  lait de vache pasteurisé , sel, ferments lactiques coagulant, e, colorant : eb, antiagglomérant : cellulose sauce pommes frites , huile de colza , lait écrémé reconstitué, vinaigre, sucre, eau, amidon modifié, jau

Row n°388 ==> no - betteraves rouges 
Row n°389 ==> ro - extra virgin olive oil
Row n°390 ==> fr - aà§ai
Row n°391 ==> en - cooked linguine pasta  durum wheat semolina contains gluten ? water ? sunflower oil ? water ? king prawns crustacean    ? skimmed milk ? single cream milk  ? onions ? white wine ? extra mature cheddar cheese milk ? sunflower oil ? lemon juice ? cornflour ? tapioca starch ? garlic purée ? fish gelatine ? salt ? parsley ? cracked black pepper ? lemon oil ? acidity regulator: sodium bicarbonate for allergens see ingredients in bold important although extra care has been taken to remove all shell, some small pieces may remain
Row n°392 ==> en - water, expeller pressed canola oil, cornstarch, distilled vinegar, apple cider vinegar, salt, soy protein isolate, xanthan gum, lemon juice concentrate, onion powder, mixed tocopherols vitamin e and rosemary extract for freshness, mustard oil, oleoresin paprika, oleoresin turmeric
Row n°393 ==> en - dry roasted peanuts
Row n°39

Row n°418 ==> fr - lait de brebis écréme pasteurisé ferments lactiques sélectionnés  issu de l'agriculture biologique
Row n°419 ==> fr - pâte ' farine de blé , eau, sel, levure, sauce tomate  purée de tomate , oignon sucre , sel, ail , origan , basilic , poivre , persil , concentré de tomate , amidon de maà¯s , herbes de provence, mozzarella  marinée à  l'huile d'olive et au basilic , emmental râpé , tomates séchées marinées  tomates séchées , huile de tournesol , huile d'olive extra vierge , vinaigre de vin , sel, ail , persil , basilic, olives non dénoyautées huile infusée au piment et au basilic poids net g ingrédients issus de l'agriculture biologique matià¨res premià¨res surgelées, produit à  ne pas congeler les informations en gras sont destinées aux personnes intolérantes ou allergiques produit élaboré dans un atelier qui utilise : des céréales contenant du gluten, des crustacés, des mollusques, des oeufs, du poisson, du soja, des graines de sésames, des fruits à  coque et de la

Row n°446 ==> fr - farine de blé, fourrage lait et caramel  sirop de glucosefructose, lait concentré sucré , stabilisant : glycérol, caramel , sel, arôme, gélifiant : pectines, conservateur : sorbate de potassium, huile de colza, åufs frais, sucre, chocolat au lait  sucre, beurre de cacao, poudre de lait entier, pâte de cacao, émulsifiant : lécithines soja, arôme, sirop de glucosefructose, stabilisant : glycérol, poudres à  lever : carbonates d'ammonium  carbonates de sodium  diphosphates blé, sel, émulsifiants : mono et diglycérides dâacides gras, lait écrémé en poudre, arôme  exprimés sur le fourrage équivalent respectivement à   et  sur lâensemble du produit
Row n°447 ==> fr - farine de blé contient gluten avec farine de blé, calcium, fer, niacine, thiamine â¢ sucre â¢ noix de pécan  â¢ beurre lait â¢ huile de palme â¢ huile de colza â¢ sirop â¢ sirop de sucre inverti â¢ fructose â¢ sucre roux â¢ lait écrémé â¢ maltodextrine â¢ sirop de sucre â¢ åufs de poules en 

Row n°469 ==> fr - pommes de terre  huile de tournesol  lait déshydraté lait  fromage cheddar mà»r déshydraté lait  sel  oignons rouges séchés  oignons séchés  babeurre séché  levure sà¨che  extrait de levure séchée  aromatisant  acide: acide citrique  couleur: extrait de paprika  ail séché
Row n°470 ==> en - potatoes â¢ sunflower oil â¢ rice flour â¢ igar â¢ salt â¢ dried yeast extract â¢ dried onions  dried der vinegar â¢ dried garlic â¢ dried mint flavouring â¢ itish salt marsh lamb seasoning salt â¢ lamb fat â¢ semary extract â¢ ground black pepper â¢ acidity citric acid â¢ colour: paprika extract
Row n°471 ==> fr - farine de riz â¢ fécule de maà¯s â¢ amidon de tapioca â¢ farine de pois chiches â¢ abricots déshydratés contiennent conservateur : e sulfites  â¢ dattes hachées  â¢ graines de lin  â¢ graines de tournesol  â¢ sucre â¢ noix de cajou  â¢ poudre à  lever : bicarbonate de soude, e â¢ sirop de sucre â¢ huile de tournesol â¢ sel â¢ romarin déshydra

Row n°496 ==> fr - fromage blanc , matià¨re grasse ,, compote de pàªches , pàªche, sucre, sirop de glucosefructose, acide citrique, antioxydant : acide ascorbique
Row n°497 ==> en - glucose fructose syrup, wheat flour, sugar, apricots dried passed, cocoa butter, whey powder, cocoa mass, skimmed milk powder, caramel sugar syrup, raising agents: disodium diphosphate, sodium hydrogen carbonate, potassium carbonate; pure butterfat, lactose, acid: citric acid; gelling agent: pectin; spices; acidity regulator; potassium citrate; emulsifier; soya lecithins; salt, natural flavoring
Row n°498 ==> en - cooked rice  water, rice, cooked red rice  water, red rice, sweetcorn , red peppers , black beans, avocado , tomatoes, chilli infused sunflower oil, lime juice, coriander, sugar, ground spices cumin, smoked paprika, black pepper, sunflower oil, tomato paste, salt, cocoa powder, garlic purée
Row n°499 ==> ca - ananas, eau, sucre, acidifiant : e
Row n°500 ==> fr - pommes , sirop de glucosefructose, 

### Tokenize ingredients

In [None]:
tokenizer = RegexpTokenizer("[A-Za-z'%-]+")
dataset["ingredients"] = dataset["ingredients_text"].apply(
    lambda x : tokenizer.tokenize(x))

### Handle mistakes

#### First method : using NLTK's corpus vocabulary

In [None]:
english_vocab = set(w.lower() for w in nltk.corpus.words.words())
set_ingredients = set([_.lower() for list in dataset["ingredients"].to_list() for _ in list])

for word in list(set_ingredients):
    list_distance = list()
    for _ in english_vocab:
        list_distance.append(edit_distance(_, word))
    print(f"{word} ==> {list(english_vocab)[list_distance.index(min(list_distance))]}", flush = True)

#### Second method : using SpellChecker

In [None]:
spell = SpellChecker()
start_time = time.time()
for _ in set_ingredients:
    misspelled = spell.unknown([_])
    if len(misspelled):
        print(f"{_} ==> {spell.correction(list(misspelled)[0])}")
end_time = time.time()

print(f"Execution Time : {end_time - start_time}")