# Import dataset

In [7]:
import pandas as pd

# Define the file path
csv_file_path = './output/menus.csv'

# Read the CSV file and assign headers explicitly
df = pd.read_csv(csv_file_path, header=None, names=["FileName", "Text"])

# Display the first few rows of the DataFrame
display(df)

# Confirm the data has been successfully loaded
print(f"DataFrame loaded with {len(df)} rows and {len(df.columns)} columns.")

Unnamed: 0,FileName,Text
0,Sapore del Dune.pdf,"Ristorante ""Sapore del Dune""\nChef Alessandra ..."
1,Universo Gastronomico di Namecc.pdf,Universo Gastronomico di Namecc\nChef Alice Qu...
2,L Equilibrio Quantico.pdf,"Ristorante ""L'Equilibrio Quantico""\nChef Aless..."
3,L Architetto dell Universo.pdf,"Ristorante ""L'Architetto dell'Universo""\nChef ..."
4,L Essenza Cosmica.pdf,"Ristorante ""L'Essenza Cosmica""\n\nChef Alessan..."
5,Stelle Astrofisiche.pdf,"Ristorante ""Stelle Astrofisiche""\nChef Alessan..."
6,L Essenza di Asgard.pdf,Ristorante: L'Essenza di Asgard\nChef Palissan...
7,Eco di Pandora.pdf,"Ristorante ""L'Eco di Pandora""\nChef Alessandra..."
8,L Eco dei Sapori.pdf,L'Eco dei Sapori\nChef Aurora Vessanti\n\nNell...
9,L Essenza delle Dune.pdf,"Ristorante ""L'Essenza delle Dune""\nChef Alessa..."


DataFrame loaded with 30 rows and 2 columns.


In [8]:
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

In [10]:
from langchain_community.document_loaders import DataFrameLoader

loader = DataFrameLoader(df, page_content_column="Text")
docs_data = loader.load()
docs_data[0]

Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti\n\nNel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.\n\nLa sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell\'universo subatomico. Fu proprio durante un\nesperimento particolarmente intenso con i Cristalli Kyber che scoprì la sua innata capacità di percepire le\nprobabilità culinarie, un dono che trasformò ogni sua c

In [87]:
# Split
import pprint
# Possible improvements - future hypertuning of chunk_size and chunk_overlap to improve results and try different slitters
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500)
splits = text_splitter.split_documents(docs_data)
pprint.pprint(splits[0:6])
pprint.pprint(len(splits))

[Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Nel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content="La sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell'universo subatomico. Fu proprio durante un\nesperimento particolarme

In [88]:
trial = splits[:20]
trial

[Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Ristorante "Sapore del Dune"\nChef Alessandra Quanti'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Nel cuore arido di Tatooine, dove i mondi si mescolano e le stelle guidano i viaggiatori intergalattici, Chef\nAlessandra Quanti porta una rivoluzione culinaria che sfida le distanze siderali. Non è raro vedere i\ncommensali rimanere incantati osservando i suoi piatti che sembrano danzare tra le dune e le stelle, frutto\ndella sua straordinaria padronanza degli stati quantici, che le permette di esplorare e materializzare le infinite\npossibilità nascoste in ogni ingrediente rarefatto del deserto.'),
 Document(metadata={'FileName': 'Sapore del Dune.pdf'}, page_content="La sua storia ebbe inizio nei laboratori di spezie di Mos Eisley, dove la passione per la gastronomia\nmolecolare si fuse con la sua profonda comprensione dell'universo subatomico. Fu proprio durante un\nesperimento particolarme

In [89]:
from sentence_transformers import SentenceTransformer

#Model: "ibm-granite/granite-embedding-107m-multilingual"
#Number of dimensions: 384
#Input token limits: 512

model_path = "ibm-granite/granite-embedding-107m-multilingual"
# Load the Sentence Transformer model
model = SentenceTransformer(model_path)

In [80]:
class EmbeddingFunc:
    def embed_documents(self, texts):
        return model.encode(texts)
    
    def __call__(self, texts):
        return self.embed_documents(texts)

In [90]:
from langchain_community.vectorstores import FAISS
vectorstore = FAISS.from_documents(trial, EmbeddingFunc())
vectorstore.save_local("local_model_index")

`embedding_function` is expected to be an Embeddings object, support for passing in a function will soon be removed.


In [91]:
vectorstore.index.ntotal

20

In [92]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
retriever

VectorStoreRetriever(tags=['FAISS'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x7ccd622e51c0>, search_kwargs={'k': 5})

In [93]:
question = "Dimmi i piatti con Teste di idra"
retrieved_documents = retriever.invoke(question)

pprint.pprint(retrieved_documents)

[Document(id='95ea81a9-62f6-4a22-8c08-b0056388e81b', metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Le skill certificate dello Chef sono:\n\n           Psionica II\n           Temporale I\n           Gravitazionale I\n           Quantistica 13\n           Luce II\n\nIl ristorante possiede una tecnologia LTK II\n\nMenu\nSinfonia Quantistica delle Stelle\nIngredienti\n           Shard di Prisma Stellare\n           Lattuga Namecciana\n           Radici di SingolaritàFibra di Sintetex\n           Carne di Balena spaziale\n           Teste di Idra\n           Nettare di Sirena\n           Sale Temporale'),
 Document(id='2ecae0f5-ba21-46cf-96c0-14046c690211', metadata={'FileName': 'Sapore del Dune.pdf'}, page_content='Galassia di Sapore Quantico\nIngredienti\n           Polvere di Stelle\n           Alghe Bioluminescenti\n           Colonia di Mycoflora\n           Carne di Drago\n           Teste di Idra\n           Plasma Vitale\n           Nduja Fritta Tanto\n\nTecniche\n   

In [39]:
from langchain_ollama import ChatOllama

model_llama = ChatOllama(
    model="llama3.2", 
    temperature=0
)

In [94]:
from langchain.prompts import ChatPromptTemplate

# Prompt
template = """
Comportati come un assistente che risponde alle domande del cliente su vari cibi e ristoranti.
Rispondi alla domanda basandoti solo sui seguenti documenti: {context}

Domanda relativa alla galassia: {question}
"""

prompt = ChatPromptTemplate.from_template(template)
prompt

# Post-processing
def format_docs(splits):
    return "\n\n".join(doc.page_content for doc in splits)

# Chain
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | model_llama
    | StrOutputParser()
)

# Question
response_text = rag_chain.invoke(question)
pprint.pprint(response_text)

('Sono felice di aiutarti a scoprire i piatti della galassia di Chef Quanti!\n'
 '\n'
 'Secondo il menu, ci sono due piatti che contengono Teste di Idra:\n'
 '\n'
 '1.  Sinfonia Quantistica delle Stelle: contiene Teste di Idra\n'
 '2.  Galassia di Sapore Quantico: contiene Teste di Idra')


# Bge

In [95]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("BAAI/bge-m3")