# Indicizzatore di Ricette con Elasticsearch

Questo script Python indicizza i file `.txt` delle ricette in **Elasticsearch** utilizzando l'**analyzer italiano**,  
consentendo la ricerca full-text sui titoli e contenuti delle ricette.

Automaticamente:
- Crea o resetta l'indice (`index_recipes`)
- Indicizza in bulk tutte le ricette dalla cartella `files/`
- Supporta query `match` e `match_phrase`


In [60]:
from elasticsearch import Elasticsearch, helpers
import time
import os

# Connessione a Elasticsearch
ES_HOST = "http://localhost:9200"
es = Elasticsearch([ES_HOST])

# Elimina l'indice se esiste già
if es.indices.exists(index='index_recipes'):
    es.indices.delete(index='index_recipes')

# Definizione del mapping per l'indice
mapping = {
    "mappings": {
        "properties": {
            "title": {"type": "text",
                      "analyzer": "italian",
                      "search_analyzer": "italian"},
            "content": {"type": "text", 
                        "analyzer": "italian",
                        "search_analyzer": "italian"}
        }
    }
}

def bulk_index(directory, index_name):
    actions = []

    for filename in os.listdir(directory):
        if filename.endswith(".txt"):
            path = os.path.join(directory, filename)
            with open(path, "r", encoding="utf-8", errors="ignore") as f:
                text = f.read()

            # Rimuove l'estensione .txt per ottenere il titolo
            title = os.path.splitext(filename)[0]
            
            action = {
                "_index": index_name,
                "_source": {
                    "title": title,
                    "content": text
                }
            }
            actions.append(action)

    # Indicizza i documenti in bulk con una sola chiamata a Elasticsearch
    if actions:
        helpers.bulk(es, actions)
        print(f"{len(actions)} documenti indicizzati nell'indice '{index_name}'.")
    else:
        print("Nessun file .txt trovato nella directory.")

def search(query, query_text=""):
   # Aggiunge highlight alla query con tag personalizzati
   query['highlight'] = {
       "fields": {
           "title": {},
           "content": {"fragment_size": 200, "number_of_fragments": 1}
       },
       "pre_tags": ["<<<HIGHLIGHT>>>"],
       "post_tags": ["<<<ENDHIGHLIGHT>>>"]
   }
   
   res = es.search(index='index_recipes', body=query)
   total = res['hits']['total']['value']
   print(f"\n{'='*80}")
   if query_text:
       print(f"Risultati della ricerca per la query \'{query_text}\': {total} ricette trovate")
   else:
       print(f"Risultati della ricerca: {total} ricette trovate")
   print(f"{'='*80}\n")
   
   # Codici colore ANSI
   YELLOW = '\033[93m'
   RESET = '\033[0m'
   
   for i, hit in enumerate(res['hits']['hits'], 1):  # Mostra tutti i risultati
    res_doc = hit['_source']
    
    # Usa highlight se disponibile, altrimenti usa il testo normale
    if 'highlight' in hit:
        title = hit['highlight'].get('title', [res_doc['title']])[0]
        if 'content' in hit['highlight']:
            content_preview = hit['highlight']['content'][0] + "..."
        else:
            content_preview = res_doc['content'][:200] + "..." if len(res_doc['content']) > 200 else res_doc['content']
    else:
        title = res_doc['title']
        content_preview = res_doc['content'][:200] + "..." if len(res_doc['content']) > 200 else res_doc['content']
    
    # Sostituisce i tag di highlight con colori
    title = title.replace("<<<HIGHLIGHT>>>", YELLOW).replace("<<<ENDHIGHLIGHT>>>", RESET)
    content_preview = content_preview.replace("<<<HIGHLIGHT>>>", YELLOW).replace("<<<ENDHIGHLIGHT>>>", RESET)
    
    print(f"{i}. Titolo: {title}")
    print(f"   Contenuto: {content_preview}\n")

def parse_and_search(query):
    """
    Analizza la query utente ed esegue la ricerca Elasticsearch appropriata.
    
    Args:
        query (str): Input utente nel formato 'campo:termine' o 'campo:"frase esatta"'
                     oppure solo 'termine' per multi_match su entrambi i campi
                     Campi supportati: 'title', 'content'
    
    Returns:
        None: Stampa i risultati direttamente o messaggi di errore
    """
    # Controlla se è specificato un campo
    if ":" not in query:
        # Nessun campo specificato, usa multi_match su title e content
        content_query = query.strip()
        if content_query.startswith('"') and content_query.endswith('"'):
            phrase = content_query.strip('"')
            body = {
                "query": {
                    "multi_match": {
                        "query": phrase,
                        "fields": ["title", "content"],
                        "type": "phrase"
                    }
                },
                "size": 10000
            }
        else:
            body = {
                "query": {
                    "multi_match": {
                        "query": content_query,
                        "fields": ["title", "content"]
                    }
                },
                "size": 10000
            }
        search(body, query)
        return
    
    type_query, content_query = query.split(":", 1)
    type_query = type_query.strip().lower()
    content_query = content_query.strip()

    # Costruisce il body della query per il campo specifico
    if type_query in ["title", "content"]:
        if content_query.startswith('"') and content_query.endswith('"'):
            phrase = content_query.strip('"')
            body = {"query": {"match_phrase": {type_query: phrase}}, "size": 10000}
        else:
            body = {"query": {"match": {type_query: content_query}}, "size": 10000}
        search(body, query)
    else:
        print("Campo sconosciuto. Usa 'title:' o 'content:'.")


## Misurazione del Tempo di Indicizzazione

Questo snippet misura quanto tempo impiega il processo di indicizzazione.


In [61]:
# Indicizza i documenti dalla directory 'files'
before = time.time()
es.indices.create(index='index_recipes', body=mapping)
bulk_index("files", "index_recipes")
after = time.time()
print(f"L'indicizzazione ha richiesto {after - before} secondi")


5939 documenti indicizzati nell'indice 'index_recipes'.
L'indicizzazione ha richiesto 1.044405221939087 secondi


## Query di Ricerca Interattiva (con risultati illimitati)

Questo snippet permette all'utente di inserire una query di ricerca in formato naturale e costruisce  
dinamicamente una query Elasticsearch, supportando:
- `multi_match` (cerca in titolo e contenuto)
- `match` (ricerca su campo singolo)
- `match_phrase` (ricerca frase esatta)


In [65]:
# Chiede all'utente di inserire una query
print("\nInserisci la tua query di ricerca usando uno dei seguenti formati:")
print('  • tiramisu (cerca in titolo e contenuto)')
print('  • title: tiramisu (cerca solo nel titolo)')
print('  • content: "burro e salvia" (frase esatta nel contenuto)')
print('  • content: banane (cerca solo nel contenuto)')
print("Usa le virgolette per cercare una frase esatta.\n")

query = input("Ricerca → ").strip()

# Usa la funzione refactorizzata
parse_and_search(query)



Inserisci la tua query di ricerca usando uno dei seguenti formati:
  • tiramisu (cerca in titolo e contenuto)
  • title: tiramisu (cerca solo nel titolo)
  • content: "burro e salvia" (frase esatta nel contenuto)
  • content: banane (cerca solo nel contenuto)
Usa le virgolette per cercare una frase esatta.


Risultati della ricerca per la query '"spaghetti alle vongole"': 4 ricette trovate

1. Titolo: Spaghetti vongole e nduja
   Contenuto: Ora gli [93mspaghetti alle vongole[0m e nduia sono pronti da servire...

2. Titolo: [93mSpaghetti alle vongole[0m
   Contenuto: Per preparare gli [93mspaghetti alle vongole[0m, cominciate dalla Assicuratevi che non ci siano gusci rotti o vuoti, andranno scartati....

3. Titolo: [93mSpaghetti alle vongole[0m e pomodorini
   Contenuto: Per preparare gli [93mspaghetti alle vongole[0m e pomodorini prima di tutto assicuratevi che non ci siano gusci rotti o aperti, andranno scartati....

4. Titolo: [93mSpaghetti alle vongole[0m con fiori di z

## 10 query di test per l'analyzer italiano

Queste query testano **specificamente** i componenti della pipeline dell'analyzer italiano:

1. **italian_elision** → rimozione elisioni (l'origano → origano)
2. **light_italian stemmer** → plurali (mirtillo/mirtilli)
3. **lowercase** → non sensibile a maiuscole/minuscole (MOZZARELLA)
4. **italian_stop** → rimozione stopwords (della, di, il)
5. **light stemming** → preserva distinzioni semantiche (pomodoro ≠ pomodorino)
6. **genere** → variazioni maschile/femminile (fritto/fritta)
7. **elision + stop** → combinazione filtri (dell'uva → uva)
8. **stemming verbi** → participi passati (gratinato/gratinata)
9. **phrase query** → stopwords preservate in frasi esatte
10. **distinzioni semantiche** → ciliegia ≠ ciliegina (no over-stemming)


In [47]:
# Test 1: Elision filter - "l'origano" diventa "origano"
query = "l'origano"
parse_and_search(query)



Risultati della ricerca per la query 'l'origano': 163 ricette trovate

1. Titolo: Focaccia con pomodorini e [93morigano[0m
   Contenuto: La vostra focaccia con pomodorini e [93morigano[0m è pronta per essere gustata...

2. Titolo: Caprese sfiziosa con salsa [93mall'origano[0m
   Contenuto: Per preparare la caprese sfiziosa con salsa [93mall’origano[0m cominciate preparando la salsa [93mall’origano[0m....

3. Titolo: Piadina con pomodori secchi e mozzarella di bufala
   Contenuto: Procedete allo stesso modo per preparare l'altra e gustate la vostra piadina con pomodori secchi, bufala e [93morigano[0m...

4. Titolo: Roselline di melanzane
   Contenuto: melanzane, poi eliminate le due estremità e tagliatele per il lato corto a fettine sottili di circa 5 millimetri di spessore il sale Trascorso questo tempo, sfornate le melanzane Aromatizzate con [93ml’origano[0m...

5. Titolo: Filetto di platessa alla sorrentina
   Contenuto: Tritate [93ml’origano[0m versate la farina dis

In [49]:
# Test 2: Light stemming - "mirtillo" vs "mirtilli" (devono matchare)
query = 'mirtillo'
parse_and_search(query)


Risultati della ricerca per la query 'mirtillo': 60 ricette trovate

1. Titolo: Torta ai [93mmirtilli[0m
   Contenuto: e servire la vostra torta ai [93mmirtilli[0m....

2. Titolo: Confettura di ribes rosso e [93mmirtilli[0m
   Contenuto: La vostra confettura di ribes rosso e [93mmirtilli[0m è pronta...

3. Titolo: Muffin carote e [93mmirtilli[0m
   Contenuto: su ogni muffin (in totale vi serviranno circa 35 g di [93mmirtilli[0m) lasciate intiepidire i vostri muffin di carote e [93mmirtilli[0m prima di servirli!...

4. Titolo: Biscotti ai [93mmirtilli[0m
   Contenuto: Sfornate i biscotti ai [93mmirtilli[0m, fateli intiepidire su una gratella e poi serviteli...

5. Titolo: Flan di Bettelmatt
   Contenuto: qualche [93mmirtillo[0m fresco...

6. Titolo: Aspic ai frutti di bosco
   Contenuto: Per realizzare l’aspic ai frutti di bosco iniziate lavando e asciugando i [93mmirtilli[0m A parte in una ciotola e ponete i fogli di gelatina in acqua fredda per 10 minuti Scolate

In [55]:
# Test 3: Lowercase filter - test case-insensitive
query = 'MOZZARELLA'
parse_and_search(query)



Risultati della ricerca per la query 'MOZZARELLA': 150 ricette trovate

1. Titolo: [93mMozzarella[0m ripiena
   Contenuto: Per realizzare le [93mmozzarelle[0m ripiene per prima cosa ritagliate la calotta di ciascuna [93mmozzarella[0m così da ottenere un incavo riducete a cubetti le calotte e teneteli da parte Ponete le [93mmozzarelle[0m scavate...

2. Titolo: [93mMozzarella[0m fritta
   Contenuto: Ora potete servire i vostri bocconcini di [93mmozzarella[0m fritta ben caldi...

3. Titolo: Rotolo di [93mmozzarella[0m farcito
   Contenuto: Per realizzare il rotolo di [93mmozzarella[0m farcito, iniziate ponendo la [93mmozzarella[0m in una ciotola (scieglietene una poco più grande della [93mmozzarella[0m) con la propria acqua di conservazione e aggiungete altra...

4. Titolo: Spaghetti quadrati con sugo fresco e [93mmozzarella[0m
   Contenuto: la [93mmozzarella[0m...

5. Titolo: [93mMozzarella[0m ripiena con cime di rapa
   Contenuto: DOP creando un buco a cono Es

In [None]:
# Test 4: Light stemming 1 - "pomodoro" vs "pomodorino" (NON devono matchare)
query = 'pomodorino'
parse_and_search(query)



Risultati della ricerca per la query 'pomodorino': 402 ricette trovate

1. Titolo: Linguine con erbe miste, [93mpomodorini[0m e olio piccante
   Contenuto: Per preparare le linguine con erbe miste, [93mpomodorini[0m e olio piccante iniziate lavando con cura [93mpomodorini[0m e tagliando ogni [93mpomodorino[0m in quattro spicchi....

2. Titolo: [93mPomodorini[0m confit
   Contenuto: Per preparare i [93mpomodorini[0m confit, iniziate lavando i [93mpomodorini[0m sotto acqua corrente Asciugateli con un canovaccio o carta da cucina Ora disponete i [93mpomodorini[0m tagliati su una leccarda ricoperta di carta...

3. Titolo: Schiacciate con crema al basilico
   Contenuto: amalgamato decorate per ultimo con i [93mpomodorini[0m confit e servite....

4. Titolo: Spaghetti integrali con [93mpomodorini[0m confit, feta e pesto leggero di rucola
   Contenuto: Per preparare gli spaghetti integrali con [93mpomodorini[0m confit, feta e pesto di rucola cominciate occupandovi dei [

In [None]:
# Test 5: Light stemming 2
# NOTA: Questo può generare false positive, ad esempio cercando "ciliegina" (del cocktail)
# vengono trovati anche i "pomodorini ciliegini" perché condividono lo stesso stem
query = 'ciliegina'
parse_and_search(query)



Risultati della ricerca per la query 'ciliegina': 25 ricette trovate

1. Titolo: Pasta con stracchino, bresaola e [93mciliegini[0m
   Contenuto: Per realizzare la pasta con stracchino, bresaola e [93mciliegini[0m per prima cosa ponete sul fuoco una pentola colma di acqua, portatela al bollore e a quel punto salate....

2. Titolo: Penne alla crudaiola
   Contenuto: Per preparare le penne alla crudaiola lavate e tagliate a quarti i pomodorini [93mciliegino[0m Spuntate, lavate e tagliate a rondelline sottili le zucchine novelle In una ciotola mettete i pomodorini, i funghi...

3. Titolo: Noodles di zucchine e carote con tonno e pomodoro
   Contenuto: striscioline Sovrapponete due strisce per volta, ripiegatele su stesse e poi ritagliate delle listarelle sottili Trasferite le carote e le zucchine all’interno di un ampia ciotola Lavate i pomodorini [93mciliegino[0m...

4. Titolo: Verza alla salentina
   Contenuto: UniTe i pomodorini [93mciliegini[0m tagliati a metà la verza scola

In [None]:
# Test 6: Genere - "fritto/fritta/fritti/fritte" (devono matchare)
query = 'fritto'
parse_and_search(query)


In [None]:
# Test 7: Elision + stopwords - "dell'uva" → "uva"
query = 'uva'
parse_and_search(query)


In [None]:
# Test 8: Stemming su verbi - "gratinato/gratinata/gratinati" (root: gratin)
query = 'gratinato'
parse_and_search(query)


In [None]:
# Test 9: Phrase query con stopwords - "al forno" (stopwords preservate in phrase)
query = '"al forno"'
parse_and_search(query)


In [None]:
# Test 10: Distinzione semantica - "ciliegia" NON deve matchare "ciliegina"
query = 'ciliegia'
parse_and_search(query)
