# Import dataset

In [7]:
import pandas as pd

# Define the file path
csv_file_path = './output/menus.csv'

# Read the CSV file and assign headers explicitly
df = pd.read_csv(csv_file_path, header=None, names=["FileName", "Text"])

# Display the first few rows of the DataFrame
display(df)

# Confirm the data has been successfully loaded
print(f"DataFrame loaded with {len(df)} rows and {len(df.columns)} columns.")

Unnamed: 0,FileName,Text
0,Sapore del Dune.pdf,"Ristorante ""Sapore del Dune""\nChef Alessandra ..."
1,Universo Gastronomico di Namecc.pdf,Universo Gastronomico di Namecc\nChef Alice Qu...
2,L Equilibrio Quantico.pdf,"Ristorante ""L'Equilibrio Quantico""\nChef Aless..."
3,L Architetto dell Universo.pdf,"Ristorante ""L'Architetto dell'Universo""\nChef ..."
4,L Essenza Cosmica.pdf,"Ristorante ""L'Essenza Cosmica""\n\nChef Alessan..."
5,Stelle Astrofisiche.pdf,"Ristorante ""Stelle Astrofisiche""\nChef Alessan..."
6,L Essenza di Asgard.pdf,Ristorante: L'Essenza di Asgard\nChef Palissan...
7,Eco di Pandora.pdf,"Ristorante ""L'Eco di Pandora""\nChef Alessandra..."
8,L Eco dei Sapori.pdf,L'Eco dei Sapori\nChef Aurora Vessanti\n\nNell...
9,L Essenza delle Dune.pdf,"Ristorante ""L'Essenza delle Dune""\nChef Alessa..."


DataFrame loaded with 30 rows and 2 columns.


In [8]:
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

In [10]:
from langchain_community.document_loaders import DataFrameLoader

loader = DataFrameLoader(df, page_content_column="Text")
docs_data = loader.load()
docs_data[0]

Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti\n\nNel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.\n\nLa sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell\'universo subatomico. Fu proprio durante un\nesperimento particolarmente intenso con i Cristalli Kyber che scoprì la sua innata capacità di percepire le\nprobabilità culinarie, un dono che trasformò ogni sua c

In [206]:
# Split
import pprint
# Possible improvements - future hypertuning of chunk_size and chunk_overlap to improve results and try different slitters
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap = 200)
splits = text_splitter.split_documents(docs_data)
pprint.pprint(splits[0:6])
pprint.pprint(len(splits))

[Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Nel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content="La sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell'universo subatomico. Fu proprio durante un\nesperimento particolarme

# Watsonx

In [96]:
from ibm_watsonx_ai import Credentials
from ibm_watsonx_ai.foundation_models import ModelInference

In [107]:
credentials = Credentials(
    url="https://us-south.ml.cloud.ibm.com",
    api_key="AnzfgthfcrfRzttoXGiKZUJDMRlcB3w4uemf0PJGFFT5"
)

OVERWRITE = False


In [147]:
from langchain_ibm import WatsonxLLM, WatsonxEmbeddings

watsonLLM = WatsonxLLM(
    model_id="mistralai/mistral-large",  # Che conosciamo bene 😊🏆
    url="https://us-south.ml.cloud.ibm.com",
    apikey="AnzfgthfcrfRzttoXGiKZUJDMRlcB3w4uemf0PJGFFT5",
    project_id="5c33debb-5a25-4bfe-8392-ede4b20884fe",
    params={
        "max_new_tokens": 1024
    }
)

In [125]:
embeddings = WatsonxEmbeddings(
    model_id="ibm/granite-embedding-107m-multilingual",
    url=credentials["url"],
    apikey=credentials["api_key"],
    project_id="5c33debb-5a25-4bfe-8392-ede4b20884fe",
)

In [207]:
from langchain.vectorstores import FAISS
vectorstore = FAISS.from_documents(splits, embeddings)
vectorstore.save_local("local_model_index")

In [208]:
vectorstore = FAISS.load_local("local_model_index", embeddings, allow_dangerous_deserialization=True)
vectorstore.index.ntotal

1638

In [209]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
retriever

VectorStoreRetriever(tags=['FAISS', 'WatsonxEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x7ccd624ba120>, search_kwargs={'k': 5})

In [235]:
from langchain.retrievers import EnsembleRetriever, TFIDFRetriever, BM25Retriever

# Initialize the BM25 retriever
sparse_retriever = TFIDFRetriever.from_documents(splits)
sparse_retriever.k =  5

# Initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(retrievers=[sparse_retriever, retriever], weights=[0.4, 0.6])

In [237]:
from langchain_core.prompts import ChatPromptTemplate

# Prompt
template = """
Rispondi a domande relative a piatti e ristoranti galattici. 
Dato il contesto estratto dai documenti relativi a ristoranti di vari pianeti, ognuno con un menu di piatti e specifici ingredienti, 
rispondi alla domanda del cliente basandoti solo su queste informazioni.

Istruzioni:
1. Leggi solo il contesto fornito, che include descrizioni dei piatti, degli ingredienti e delle tecniche.
2. Ritorna esclusivamente l'elenco dei nomi dei piatti che rispondono alla domanda, senza alcuna informazione aggiuntiva.
3. Assicurati di scrivere la risposta come nel seguente formato: ["Piatto 1", "Piatto 2"].

Contesto: {context}
Domanda: {question}"
"""

prompt = ChatPromptTemplate.from_template(template)
prompt

# Post-processing
def format_docs(splits):
    return "\n\n".join(doc.page_content for doc in splits)

# Chain
rag_chain = (
    {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | watsonLLM
    | StrOutputParser()
)

# Question
question = "Quali piatti sono preparati utilizzando la tecnica della Sferificazione a Gravità Psionica Variabile?"
response_text = rag_chain.invoke(question)
print(response_text)


Assistente: ["Sinfonia Cosmica di Andromeda", "Risveglio Cosmico: Una Sinfonia di Sapori Universali", "Odissea Celestiale"]


In [238]:
import pprint
pprint.pprint(response_text)

('\n'
 'Assistente: ["Sinfonia Cosmica di Andromeda", "Risveglio Cosmico: Una '
 'Sinfonia di Sapori Universali", "Odissea Celestiale"]')


In [280]:
def levenshteinDistance(s1, s2):
    if len(s1) > len(s2):
        s1, s2 = s2, s1

    distances = range(len(s1) + 1)
    for i2, c2 in enumerate(s2):
        distances_ = [i2+1]
        for i1, c1 in enumerate(s1):
            if c1 == c2:
                distances_.append(distances[i1])
            else:
                distances_.append(1 + min((distances[i1], distances[i1 + 1], distances_[-1])))
        distances = distances_
    return distances[-1]

In [310]:
import json
with open('./data/Misc/dish_mapping.json', 'r') as f:
    json_data = json.load(f)

In [344]:
def generate_submission(json_data = json_data):
    import re, json, ast
    domande_test = pd.read_csv('./data/domande.csv')
    out = pd.DataFrame(columns=['row_id', 'result'])
    i = 1

    for q in domande_test['domanda'][:2]:
        response = rag_chain.invoke(q)
        match = re.search(r'\[[^\]]*\]', response)
        string_list = ast.literal_eval(match.group(0))
        
        string_list_proj = []

        for s1 in string_list:
            opt = float('inf')
            s1_proj = ''

            for s2 in list(json_data.keys()):
                dist = levenshteinDistance(s1, s2)
                if dist < opt:
                    opt = dist
                    s1_proj = s2

            string_list_proj += [json_data[s1_proj]]

        out = pd.concat([out, pd.DataFrame([[int(i), f'{",".join(str(s) for s in string_list_proj)}']], columns=['row_id', 'result'])], ignore_index=True)
        i=i+1
    
    return out

In [345]:
out = generate_submission()
out.to_csv(path_or_buf='submission.csv', index=False)

AttributeError: 'Index' object has no attribute '_format_native_types'

In [340]:
import csv

out = generate_submission()

with open('submission.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    
    # Write the header
    writer.writerow(out.columns)
    
    # Write the data rows
    writer.writerows(out.values)

#out.to_csv("submission.csv", ignore_index=True)

In [338]:
type(out['result'][0])

str

In [302]:
domande_test = pd.read_csv('./data/domande.csv')
domande_test['domanda'][0:2]

0    Quali sono i piatti che includono le Chocobo W...
1    Quali piatti dovrei scegliere per un banchetto...
Name: domanda, dtype: object

In [304]:
domande_test = pd.read_csv('./data/domande.csv')

for q in domande_test['domanda'][:2]:
    response = rag_chain.invoke(q)
    print(q, response)

Quali sono i piatti che includono le Chocobo Wings come ingrediente? 
Assistente: ["Il Viaggio Celeste"]
Quali piatti dovrei scegliere per un banchetto a tema magico che includa le celebri Cioccorane? 
["Gnocchi del Crepuscolo", "Sinfonia Celestiale dei Ricordi", "Sfere del Ricordo Astrale"]
