# Example of FIRe scoring system on 10 menus

In [1]:
import pandas as pd
import simplejson as json
from analysis.simple_spell import *
from scrapers.TestCorpusScraper_editing import *
from analysis.scoring import *
from analysis.Indexes import *
import warnings
warnings.filterwarnings('ignore')


## Background corpus 

The following code reads the corpus we created to assess authencity of restaurants' menu. We display some of the main features of this corpus as follows.

In [2]:
# Importing the background corpus
with open('data/Background Corpora.json', 'r') as j:
        Background_Corpora_Json = json.load(j)


In [3]:
all_tokens = get_alltokens(Background_Corpora_Json)

In [4]:
print('Example of tokens: ')
print(all_tokens[:30])

Example of tokens: 
['spaghetti', 'guanciale', 'tuorli', 'uova', 'medie', 'pecorino', 'romano', 'pepe', 'nero', 'preparare', 'carbonara', 'cominciate', 'mettendo', 'fuoco', 'pentola', 'lacqua', 'salata', 'cuocere', 'pasta', 'frattempo', 'eliminate', 'cotenna', 'tagliatelo', 'prima', 'fette', 'poi', 'striscioline', 'spesse', 'circa', 'cm']


In [5]:
all_ngrams = ngrams_it(Background_Corpora_Json)

In [6]:
print('Example of trigrams: ')
print(all_ngrams[:20])

Example of trigrams: 
[['spaghetti', 'guanciale', 'tuorli'], ['guanciale', 'tuorli', 'di'], ['tuorli', 'di', 'uova'], ['di', 'uova', 'medie'], ['uova', 'medie', 'pecorino'], ['medie', 'pecorino', 'romano'], ['pecorino', 'romano', 'pepe'], ['romano', 'pepe', 'nero'], ['pepe', 'nero', 'per'], ['nero', 'per', 'preparare'], ['per', 'preparare', 'gli'], ['preparare', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'alla'], ['spaghetti', 'alla', 'carbonara'], ['alla', 'carbonara', 'cominciate'], ['carbonara', 'cominciate', 'mettendo'], ['cominciate', 'mettendo', 'sul'], ['mettendo', 'sul', 'fuoco'], ['sul', 'fuoco', 'una'], ['fuoco', 'una', 'pentola']]


In [7]:
words_freq = tf(Background_Corpora_Json)

In [8]:
print('Example of TF: ')
print({k: words_freq[k] for k in list(words_freq)[:20]})

Example of TF: 
{'spaghetti': 40, 'guanciale': 26, 'tuorli': 22, 'uova': 72, 'medie': 16, 'pecorino': 54, 'romano': 10, 'pepe': 174, 'nero': 96, 'preparare': 85, 'carbonara': 8, 'cominciate': 21, 'mettendo': 6, 'fuoco': 123, 'pentola': 33, 'lacqua': 53, 'salata': 34, 'cuocere': 53, 'pasta': 100, 'frattempo': 47}


In [9]:
doc_terms = tf_doc(Background_Corpora_Json)

In [10]:
print('Example of TF per menu: ')
print({k: doc_terms[k] for k in list(doc_terms)[:1]})

Example of TF per menu: 
{'0': {'spaghetti': 4, 'guanciale': 4, 'tuorli': 2, 'uova': 2, 'medie': 1, 'pecorino': 4, 'romano': 1, 'pepe': 3, 'nero': 3, 'preparare': 1, 'carbonara': 2, 'cominciate': 1, 'mettendo': 1, 'fuoco': 3, 'pentola': 1, 'lacqua': 1, 'salata': 1, 'cuocere': 1, 'pasta': 4, 'frattempo': 2, 'eliminate': 1, 'cotenna': 2, 'tagliatelo': 1, 'prima': 1, 'fette': 1, 'poi': 1, 'striscioline': 1, 'spesse': 1, 'circa': 2, 'cm': 1, 'avanzata': 1, 'potrà': 1, 'essere': 1, 'riutilizzata': 1, 'insaporire': 1, 'altre': 1, 'preparazioni': 1, 'versate': 3, 'pezzetti': 1, 'padella': 1, 'antiaderente': 1, 'rosolate': 1, 'minuti': 1, 'fiamma': 1, 'media': 1, 'fate': 1, 'attenzione': 1, 'bruciarlo': 1, 'altrimenti': 1, 'rilascerà': 1, 'aroma': 1, 'troppo': 1, 'forte': 1, 'tuffate': 1, 'nellacqua': 1, 'bollente': 1, 'cuoceteli': 1, 'tempo': 1, 'indicato': 1, 'confezione': 1, 'intanto': 2, 'ciotola': 1, 'aggiungete': 2, 'maggior': 1, 'parte': 3, 'previsto': 1, 'ricetta': 1, 'restante': 1, 's

In [None]:
term_docs = inv_index(Background_Corpora_Json, all_tokens)

In [None]:
print('Example of Inverted Index: ')
print({k: term_docs[k] for k in list(term_docs)[:4]})

In [11]:
grams_dic = term_grams(all_tokens, all_ngrams)

In [13]:
print('Example of grams associated with term: ')
print({k: grams_dic[k] for k in list(grams_dic)[:2]})

Example of grams associated with term: 
{'spaghetti': [['spaghetti', 'guanciale', 'tuorli'], ['preparare', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'alla'], ['spaghetti', 'alla', 'carbonara'], ['tuffate', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'nellacqua'], ['spaghetti', 'nellacqua', 'bollente'], ['subito', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'alla'], ['spaghetti', 'alla', 'carbonara'], ['spaghetti', 'pomodori', 'pelati'], ['preparare', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'allamatriciana'], ['spaghetti', 'allamatriciana', 'per'], ['versate', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'e'], ['spaghetti', 'e', 'cuoceteli'], ['cotti', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'scolateli'], ['spaghetti', 'scolateli', 'e'], ['i', 'vostri', 'spaghetti'], ['vostri', 'spaghetti', 'allamatriciana'], ['spaghetti', 'allamatriciana', 'sono'], ['spaghetti', 'cozze', 'kg'], ['preparare', 'gli', 'spaghetti'], ['gli', 'spaghetti', 'allo'], ['spaghetti', 'allo', 'scoglio'], ['cottura', '

## Examples from our Test corpus

Here we read and analyze the 10 menus from our scraped corpus and provide some insights as follows

In [9]:
# Importing the background corpus
with open('data/Test Corpus.json', 'r') as j:
        Test_Corpus_Json = json.load(j)
print(Test_Corpus_Json)

{'Ristorante Piccolo - Washington, DC': ['melanzane formaggio capra', 'calamari fritti', 'fritti', 'portobello', 'asparagi', 'funghi quattro formaggio', 'scarpariello', 'cozze alla parigina', 'gamberoni fradiavolo', 'arancini ragù formaggio', 'antipasto', 'carpaccio salmone', 'burrata altopiano delle murge', 'pappa pomodoro', 'fagioli alla veneto', 'margherita siciliano', 'ragu bolognese', 'pollo grigliata pesto', 'bruschetta pomodori', 'bruschetta caponata', 'bruschetta granchio', 'insalata mista', 'insalata cesare', 'insalata finocchio noci', 'insalata frutti', 'insalata pomodoro basilico', 'insalata arugula', 'insalata toscano tritare', 'caprese', 'italian burger', 'italiano hoagie', 'pollo parmigiano hoagie', 'italian salume hoagie', 'portobello', 'puttanesca', 'rigatoni gorgonzola', 'bucatini bolognese', 'paisano', 'capellini pomodoro', 'risotto porcini', 'agnolotti porcini', 'gnocchi spampinato', 'aragosta', 'verde', 'tortellini carbonara', 'polpettone', 'verdura', 'manicotti', '

In [11]:
all_tokens_test = get_tokens_test(Test_Corpus_Json)
print({k: all_tokens_test[k] for k in list(all_tokens_test)[:20]})

{'Ristorante Piccolo - Washington, DC': ['melanzane', 'formaggio', 'capra', 'calamari', 'fritti', 'fritti', 'portobello', 'asparagi', 'funghi', 'quattro', 'formaggio', 'scarpariello', 'cozze', 'parigina', 'gamberoni', 'fradiavolo', 'arancini', 'ragù', 'formaggio', 'antipasto', 'carpaccio', 'salmone', 'burrata', 'altopiano', 'murge', 'pappa', 'pomodoro', 'fagioli', 'veneto', 'margherita', 'siciliano', 'ragu', 'bolognese', 'pollo', 'grigliata', 'pesto', 'bruschetta', 'pomodori', 'bruschetta', 'caponata', 'bruschetta', 'granchio', 'insalata', 'mista', 'insalata', 'cesare', 'insalata', 'finocchio', 'noci', 'insalata', 'frutti', 'insalata', 'pomodoro', 'basilico', 'insalata', 'arugula', 'insalata', 'toscano', 'tritare', 'caprese', 'italian', 'burger', 'italiano', 'hoagie', 'pollo', 'parmigiano', 'hoagie', 'italian', 'salume', 'hoagie', 'portobello', 'puttanesca', 'rigatoni', 'gorgonzola', 'bucatini', 'bolognese', 'paisano', 'capellini', 'pomodoro', 'risotto', 'porcini', 'agnolotti', 'porcin

In [13]:
menus = set_menu(all_tokens_test)
print({k: menus[k] for k in list(menus)[:5]})

{'Ristorante Piccolo - Washington, DC': {'fritti', 'mista', 'capra', 'pappa', 'bruschetta', 'cioppino', 'antipasto', 'pistacche', 'caprese', 'pesto', 'pollo', 'burrata', 'noci', 'milanese', 'bucatini', 'carpaccio', 'calamari', 'risotto', 'vitello', 'spampinato', 'fettuccine', 'asparagi', 'cartoccio', 'melanzane', 'polpettone', 'agnolotti', 'incrostato', 'salmone', 'murge', 'salume', 'quattro', 'petto', 'piccata', 'insalata', 'siciliano', 'caponata', 'finocchio', 'frutti', 'porcini', 'italiano', 'scaloppine', 'cozze', 'parmigiano', 'paisano', 'italian', 'pomodoro', 'granchio', 'fagioli', 'tritare', 'gnocchi', 'vongole', 'oceano', 'formaggio', 'veneto', 'grigliata', 'gorgonzola', 'hoagie', 'burger', 'manicotti', 'tartufo', 'bistecca', 'puttanesca', 'capellini', 'marsala', 'arancini', 'funghi', 'fradiavolo', 'gamberoni', 'verdura', 'margherita', 'rigatoni', 'parigina', 'verde', 'altopiano', 'aragosta', 'linguine', 'scarpariello', 'toscano', 'basilico', 'ragù', 'tortellini', 'cesare', 'bol

### Check for typos in the menus

In [14]:
final_results = {}
for key, value in menus.items():
    result, errs = checker(words_freq.keys(), value)
    final_results[key] = result, errs

In [15]:
# cell to delete eventually once found out about the module error
def scoring(result):
    if result <= 5:
        scores = 5
        img = mpimg.imread('images/nonna-open.jpg')
    elif result >= 6 and result <= 10:
        scores = 4
        img = mpimg.imread('images/Red-Sauce-Raos.jpg')
    elif result >= 11 and result <= 15:
        scores = 3
        img = mpimg.imread('images/rosie-s-italian-grille.jpg')
    elif result >= 16 and result <= 20:
        scores = 2
        img = mpimg.imread('images/olive_garden.jpg')
    else:
        scores = 1
        img = mpimg.imread('images/pizza_deep.jpg')

    return scores, img

### Assign our scores to each menu

In [16]:
dic_scoring = {}
for key, value in final_results.items():
    score, img = scoring(value[0])
    dic_scoring[key] = value, score, img

In [17]:
df_errors = []
for key, value in dic_scoring.items():
    df = {'Restaurant': key, 'Errors': value[0][1], '# Errors': value[0][0], 'Score': value[1]}
    df_errors.append(df)
df_errors = pd.DataFrame(df_errors, columns=['Restaurant', 'Errors','# Errors', 'Score'])

### Here's how these restaurants performed and what mistakes our program detected

In [18]:
df_errors.sort_values('Score', ascending=False)

Unnamed: 0,Restaurant,Errors,# Errors,Score
5,"Il Canale - Washington, DC","[georgetown, tunnarella, ciliegina, rolle, imb...",5,5
1,"La Storia - Chicago, IL","[agnelo, sautee, neri, spalla, orecchitte, mal...",6,4
7,"Osteria la Spiga - Seattle, WA","[cestino, piadina, stuzzichini, ragu, stridoli...",7,4
4,"I Ricchi - Washington, DC","[romagnola, salsiccie, tagliarini, strascicate...",14,3
8,"Via dei Tribunali - Seattle, WA","[cappuccino, caffe, spaccanapoli, specialita, ...",11,3
9,"Il Terrazzo Carmine - Seattle, WA","[capriolo, cioppino, affogati, soffritti, camp...",15,3
3,"Otello - Washington, DC","[cappuccino, episelli, burli, scaloppini, diav...",18,2
6,"Valentinos - Nashville, TN","[gigli, rubb, cioppino, valentinos, oreganata,...",18,2
0,"Ristorante Piccolo - Washington, DC","[cioppino, pistacche, bucatini, spampinato, in...",26,1
2,"Portofino - Arlington, VA","[almondine, cioppino, linguini, costoletta, bu...",24,1


In [19]:
for key, value in sorted(dic_scoring.items(), key=lambda x:x[1]):
    print("------------------")
    print("Restaurant: ", key)
    print("# Errors: ", value[0][0])
    print("Errors: ", value[0][1])
    print('Score: ', value[1])

------------------
Restaurant:  Il Canale - Washington, DC
# Errors:  5
Errors:  ['georgetown', 'tunnarella', 'ciliegina', 'rolle', 'imbottito']
Score:  5
------------------
Restaurant:  La Storia - Chicago, IL
# Errors:  6
Errors:  ['agnelo', 'sautee', 'neri', 'spalla', 'orecchitte', 'malloreddus']
Score:  4
------------------
Restaurant:  Osteria la Spiga - Seattle, WA
# Errors:  7
Errors:  ['cestino', 'piadina', 'stuzzichini', 'ragu', 'stridoli', 'gnocco', 'ida']
Score:  4
------------------
Restaurant:  Via dei Tribunali - Seattle, WA
# Errors:  11
Errors:  ['cappuccino', 'caffe', 'spaccanapoli', 'specialita', 'lupino', 'puttanesca', 'espresso', 'americano', 'tribunali', 'campania', 'dante']
Score:  3
------------------
Restaurant:  I Ricchi - Washington, DC
# Errors:  14
Errors:  ['romagnola', 'salsiccie', 'tagliarini', 'strascicate', 'buratta', 'trota', 'neri', 'costoletta', 'vegetariano', 'bietola', 'cavatelli', 'allaglione', 'tortelloni', 'paillar']
Score:  3
------------------