# Imports


In [7]:
import json
from pprint import pprint

import pandas as pd
from ibm_watsonx_ai import Credentials
from langchain.load import dumps, loads
from langchain.retrievers import EnsembleRetriever, TFIDFRetriever
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain_community.document_loaders import DataFrameLoader
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_ibm import WatsonxLLM, WatsonxEmbeddings


# Functions


In [8]:
def levenshtein_distance(s1, s2):
    if len(s1) > len(s2):
        s1, s2 = s2, s1

    distances = range(len(s1) + 1)
    for i2, c2 in enumerate(s2):
        distances_ = [i2 + 1]
        for i1, c1 in enumerate(s1):
            if c1 == c2:
                distances_.append(distances[i1])
            else:
                distances_.append(1 + min((distances[i1], distances[i1 + 1], distances_[-1])))
        distances = distances_
    return distances[-1]


In [9]:
def generate_submission(json_data, rag_chain):
    import re, ast
    domande_test = pd.read_csv('./data/domande.csv')
    out = pd.DataFrame(columns=['row_id', 'result'])
    i = 1

    for q in domande_test['domanda']:
        response = rag_chain.invoke(q)
        match = re.search(r'\[[^\]]*\]', response)
        string_list = ast.literal_eval(match.group(0))

        string_list_proj = []

        for s1 in string_list:
            opt = float('inf')
            s1_proj = ''

            for s2 in list(json_data.keys()):
                dist = levenshtein_distance(s1, s2)
                if dist < opt:
                    opt = dist
                    s1_proj = s2

            string_list_proj += [json_data[s1_proj]]

        result = ",".join(str(s) for s in string_list_proj) if len(string_list_proj) > 0 else '1'

        out = pd.concat([out, pd.DataFrame(
            data=[[int(i), result]],
            columns=['row_id', 'result']
        )], ignore_index=True)
        i = i + 1

    return out


# Import Dataset


In [10]:
# Define the file path
csv_file_path = './output/menus.csv'

# Read the CSV file and assign headers explicitly
df = pd.read_csv(csv_file_path, header=None, names=["FileName", "Text"])

# Display the first few rows of the DataFrame
display(df)

# Confirm the data has been successfully loaded
print(f"DataFrame loaded with {len(df)} rows and {len(df.columns)} columns.")


Unnamed: 0,FileName,Text
0,Sapore del Dune.pdf,"Ristorante ""Sapore del Dune""\nChef Alessandra ..."
1,Universo Gastronomico di Namecc.pdf,Universo Gastronomico di Namecc\nChef Alice Qu...
2,L Equilibrio Quantico.pdf,"Ristorante ""L'Equilibrio Quantico""\nChef Aless..."
3,L Architetto dell Universo.pdf,"Ristorante ""L'Architetto dell'Universo""\nChef ..."
4,L Essenza Cosmica.pdf,"Ristorante ""L'Essenza Cosmica""\n\nChef Alessan..."
5,Stelle Astrofisiche.pdf,"Ristorante ""Stelle Astrofisiche""\nChef Alessan..."
6,L Essenza di Asgard.pdf,Ristorante: L'Essenza di Asgard\nChef Palissan...
7,Eco di Pandora.pdf,"Ristorante ""L'Eco di Pandora""\nChef Alessandra..."
8,L Eco dei Sapori.pdf,L'Eco dei Sapori\nChef Aurora Vessanti\n\nNell...
9,L Essenza delle Dune.pdf,"Ristorante ""L'Essenza delle Dune""\nChef Alessa..."


DataFrame loaded with 30 rows and 2 columns.


In [33]:
loader = DataFrameLoader(df, page_content_column="Text")
docs_data = loader.load()
docs_data[0]

Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti\n\nNel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.\n\nLa sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell\'universo subatomico. Fu proprio durante un\nesperimento particolarmente intenso con i Cristalli Kyber che scoprì la sua innata capacità di percepire le\nprobabilità culinarie, un dono che trasformò ogni sua c

In [12]:
# Possible improvements - future hypertuning of chunk_size and chunk_overlap to improve results and try different slitters
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs_data)
pprint(splits[0:6])
pprint(len(splits))


[Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti\n\nNel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content="La sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell'universo subatomico. Fu proprio durante un\nesperimento particolarmente intenso con i Cristalli Kyber che scoprì la sua innata capacità di

# Open AI

In [13]:
import os
os.environ['OPENAI_API_KEY'] = "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"

In [14]:
from langchain_openai import OpenAIEmbeddings
embd = OpenAIEmbeddings()

In [15]:
from langchain_community.vectorstores import FAISS
vectorstore = FAISS.from_documents(documents=splits, embedding=embd)
vectorstore.save_local("faiss_index_100")

In [16]:
vectorstore.index.ntotal

720

# Watsonx

## Standard RAG


In [17]:
# Post-processing
def format_docs(splits):
    return "\n\n".join(doc.page_content for doc in splits)


In [19]:
credentials = Credentials(
    url="https://us-south.ml.cloud.ibm.com",
    api_key="AnzfgthfcrfRzttoXGiKZUJDMRlcB3w4uemf0PJGFFT5"
)

OVERWRITE = False


In [20]:
watsonLLM = WatsonxLLM(
    model_id="mistralai/mistral-large",  # Che conosciamo bene 😊🏆
    url=credentials['url'],
    apikey=credentials['api_key'],
    project_id="5c33debb-5a25-4bfe-8392-ede4b20884fe",
    params={
        "max_new_tokens": 1024
    }
)


In [14]:
embeddings = WatsonxEmbeddings(
    model_id="ibm/granite-embedding-107m-multilingual",
    url=credentials["url"],
    apikey=credentials["api_key"],
    project_id="5c33debb-5a25-4bfe-8392-ede4b20884fe",
)


In [16]:
if OVERWRITE:
    vectorstore = FAISS.from_documents(splits, embeddings)
    vectorstore.save_local("local_model_index")


In [18]:
vectorstore = FAISS.load_local("local_model_index", embeddings, allow_dangerous_deserialization=True)
vectorstore.index.ntotal


1638

In [21]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
retriever


VectorStoreRetriever(tags=['FAISS', 'OpenAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x76a16e7afb00>, search_kwargs={'k': 5})

In [22]:
# Initialize the TFIDF retriever
sparse_retriever = TFIDFRetriever.from_documents(splits)
sparse_retriever.k = 5

# Initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(retrievers=[sparse_retriever, retriever], weights=[0.4, 0.6])


In [23]:
# Prompt
template = """
Rispondi a domande relative a piatti e ristoranti galattici.
Dato il contesto estratto dai documenti relativi a ristoranti di vari pianeti, ognuno con un menu di piatti e specifici ingredienti,
rispondi alla domanda del cliente basandoti solo su queste informazioni.

Istruzioni:
1. Leggi solo il contesto fornito, che include descrizioni dei piatti, degli ingredienti e delle tecniche.
2. Ritorna esclusivamente l'elenco dei nomi dei piatti che rispondono alla domanda, senza alcuna informazione aggiuntiva.
3. Assicurati di scrivere la risposta come nel seguente formato: ["Piatto 1", "Piatto 2"].

Contesto: {context}
Domanda: {question}"
"""
rag_chain_prompt = ChatPromptTemplate.from_template(template)


In [103]:
# Chain
rag_chain = (
        {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
        | rag_chain_prompt
        | watsonLLM
        | StrOutputParser()
)


In [38]:
with open('./data/Misc/dish_mapping.json', 'r') as f:
    json_data = json.load(f)
    out = generate_submission(json_data=json_data, rag_chain=rag_chain)
    out.to_csv(path_or_buf='submission.csv', index=False)


## RRF RAG - Reciprocal Rank Fusion RAG


In [24]:
q = "Quali piatti sono preparati utilizzando la tecnica della Sferificazione a Gravità Psionica Variabile?"
template = """
Sei un assistente AI progettato per supportare i clienti di un'applicazione galattica dedicata ai ristoranti. Ogni ristorante ha i propri piatti unici, preparati con ingredienti specifici e tecniche culinarie distintive. Il tuo compito è riscrivere una domanda fornita dall'utente in tre diverse versioni per facilitare il recupero di documenti rilevanti da un database vettoriale.

Istruzioni:

Riscrivi la domanda originale in tre varianti che ne mantengano il significato, esplorando diverse formulazioni, sfumature e prospettive.
Ogni variante deve essere chiara, naturale e ottimizzata per garantire un'efficace comprensione della richiesta, sia per un utente generico che per il sistema.
Presenta le tre versioni alternative come un elenco puntato, ciascuna su una nuova riga.
L'output deve contenere esclusivamente le versioni riscritte delle domande, senza aggiungere spiegazioni o commenti.
Obiettivo:
Migliora la formulazione originale esplorando diverse angolazioni che rendano più chiara e versatile la richiesta. Concentrati su variazioni che aiutino a cogliere meglio il contesto di piatti, ingredienti e tecniche culinarie.

Domanda originale: {question}
"""
generate_queries_prompt = ChatPromptTemplate.from_template(template)

generate_queries = (
        generate_queries_prompt
        | watsonLLM
        | StrOutputParser()
        | (lambda x: x.split("\n"))
        | (lambda x: list(filter(lambda y: y is not None and '?' in y, x)))
)


In [25]:
def reciprocal_rank_fusion(results: list[list], k=60):
    """ Reciprocal_rank_fusion that takes multiple lists of ranked documents
        and an optional parameter k used in the RRF formula """

    # Initialize a dictionary to hold fused scores for each unique document
    fused_scores = {}

    # Iterate through each list of ranked documents
    for docs in results:
        # Iterate through each document in the list, with its rank (position in the list)
        for rank, doc in enumerate(docs):
            # Convert the document to a string format to use as a key (assumes documents can be serialized to JSON)
            doc_str = dumps(doc)
            # If the document is not yet in the fused_scores dictionary, add it with an initial score of 0
            fused_scores.setdefault(doc_str, 0)
            # Update the score of the document using the RRF formula: 1 / (rank + k)
            # k is a constant smoothing factor that prevents documents from being overly penalized for being far down the list
            fused_scores[doc_str] += 1 / (rank + k)

    # Sort the documents based on their fused scores in descending order to get the final reranked results
    reranked_results = [
        (loads(doc), score)
        for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    ]

    # Return the reranked results as a list of tuples, each containing the document and its fused score
    return reranked_results


In [26]:
# Post-processing
def format_docs(splits):
    return "\n\n".join(doc[0].page_content for doc in splits)


In [27]:
rrf_rag_chain = (
        {"context": generate_queries | ensemble_retriever.map() | reciprocal_rank_fusion | format_docs,
         "question": RunnablePassthrough()}
        | rag_chain_prompt
        | watsonLLM
        | StrOutputParser()
)

In [28]:
with open('./data/Misc/dish_mapping.json', 'r') as f:
    json_data = json.load(f)
    out = generate_submission(json_data=json_data, rag_chain=rrf_rag_chain)
    out.to_csv(path_or_buf='submission.csv', index=False)

  (loads(doc), score)


In [29]:
out

Unnamed: 0,row_id,result
0,1,1
1,2,9520012
2,3,89
3,4,105
4,5,94
...,...,...
95,96,5715152747859
96,97,59228
97,98,9209193
98,99,88233253


In [30]:
import pickle

with open('./data/menus_metadata.pkl', 'rb') as f:
    metadata = pickle.load(f)

  metadata = pickle.load(f)


In [32]:
df.concat([df])

Unnamed: 0,FileName,Text
0,Sapore del Dune.pdf,"Ristorante ""Sapore del Dune""\nChef Alessandra ..."
1,Universo Gastronomico di Namecc.pdf,Universo Gastronomico di Namecc\nChef Alice Qu...
2,L Equilibrio Quantico.pdf,"Ristorante ""L'Equilibrio Quantico""\nChef Aless..."
3,L Architetto dell Universo.pdf,"Ristorante ""L'Architetto dell'Universo""\nChef ..."
4,L Essenza Cosmica.pdf,"Ristorante ""L'Essenza Cosmica""\n\nChef Alessan..."
5,Stelle Astrofisiche.pdf,"Ristorante ""Stelle Astrofisiche""\nChef Alessan..."
6,L Essenza di Asgard.pdf,Ristorante: L'Essenza di Asgard\nChef Palissan...
7,Eco di Pandora.pdf,"Ristorante ""L'Eco di Pandora""\nChef Alessandra..."
8,L Eco dei Sapori.pdf,L'Eco dei Sapori\nChef Aurora Vessanti\n\nNell...
9,L Essenza delle Dune.pdf,"Ristorante ""L'Essenza delle Dune""\nChef Alessa..."


In [31]:
metadata

Unnamed: 0,Ristorante,Pianeta,Chef,Licenze
0,Sapore del Dune,Tatooine,Alessandra Quanti,"[Psionica II, Temporale I, Gravitazionale I, Q..."
0,Universo Gastronomico di Namecc,Namecc,Alice Quantum-Rossi,"[Quantistica 15, Psionica II, Temporale I, Gra..."
0,L'Equilibrio Quantico,,Alessandro Quantum,"[Quantistica 11, Luce III, Magnetica I, Gravit..."
0,L'Architetto dell'Universo,Klyntar,Alessandra Tempesti,"[LTK V, Temporale III, Luce II, Gravitazionale I]"
0,L'Essenza Cosmica,Pandora,Alessandro Stellanova,"[Psionica (Livello V), Quantistica (Livello 3)..."
0,Stelle Astrofisiche,Krypton,Alessandro Zod-Marinetti,"[Licenza Quantistica Q: 4, Licenza Luce c: III..."
0,L'Essenza di Asgard,Asgard,Palissandro 'Sandro' Luminetti,"[LTK ben oltre superiore al VI, Quantistica 13..."
0,L'Eco di Pandora,Pandora,Alessandra Novastella,"[Psionica III, Temporale I, Gravitazionale I, ..."
0,L'Eco dei Sapori,Ego,Aurora Vessanti,"[certificazione Antimateria di livello I, cert..."
0,L'Essenza delle Dune,Arrakis,Alessandra Luminetti,"[Psionica di Quarta intensità, III livello di ..."
