In [10]:
import os

while not os.getcwd().endswith("hackathon"):
    os.chdir("..")
    print(f"Now in {os.getcwd()}")

Now in /Users/cristian/Personal/Projects/hackathon


In [11]:
from hackathon.utils.settings.settings_provider import SettingsProvider
import warnings
from langchain_chroma.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

with warnings.catch_warnings(action="ignore"):
    from langchain_ibm import ChatWatsonx
import dotenv
from langchain.schema import Document
import faiss
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_community.vectorstores import FAISS


dotenv.load_dotenv();

In [12]:
settings_provider = SettingsProvider()

In [13]:
llm = ChatWatsonx(
    model_id=settings_provider.get_ibm_model_name(),  # type: ignore
    url=settings_provider.get_ibm_endpoint_url(),  # type: ignore
    project_id=settings_provider.get_ibm_project_id(),  # type: ignore
)

In [14]:
from langchain_openai import OpenAIEmbeddings

model_kwargs = {"device": "cpu"}
encode_kwargs = {"normalize_embeddings": False}

embeddings = OpenAIEmbeddings(
    model=settings_provider.get_embeddings_model_name(),
    # With the `text-embedding-3` class
    # of models, you can specify the size
    # of the embeddings you want returned.
    # dimensions=1024
)

In [6]:
# import faiss
# from langchain_community.docstore.in_memory import InMemoryDocstore
# from langchain_community.vectorstores import FAISS

# index = faiss.IndexFlatL2(len(embeddings.embed_query("hello world")))

# vectorstore = FAISS(
#     embedding_function=embeddings,
#     index=index,
#     docstore=InMemoryDocstore(),
#     index_to_docstore_id={},
# )

In [15]:
vector_store = FAISS.load_local(
    "data/debug_vectorstore", embeddings, allow_dangerous_deserialization=True
)

In [8]:
# # from uuid import uuid4

# from langchain_core.documents import Document

# document_1 = Document(
#     page_content="I had chocalate chip pancakes and scrambled eggs for breakfast this morning.",
#     metadata={"source": "tweet", "options": ["pancakes", "eggs"]},
# )

# document_2 = Document(
#     page_content="The weather forecast for tomorrow is cloudy and overcast, with a high of 62 degrees.",
#     metadata={"source": "news", "options": ["weather", "forecast"]},
# )

# document_3 = Document(
#     page_content="Building an exciting new project with LangChain - come check it out!",
#     metadata={"source": "tweet", "options": ["LangChain", "project"]},
# )

# documents = [
#     document_1,
#     document_2,
#     document_3,
# ]
# uuids = [str(uuid4()) for _ in range(len(documents))]

# vector_store = FAISS.from_documents(documents=documents, embedding=embeddings)
# vector_store.save_local(folder_path="data/debug_vectorstore")

In [16]:
# Alternative: If you want exact array match

retriever = vector_store.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 5, "fetch_k": vector_store.index.ntotal},
)

documents = retriever.invoke(
    "Radici di Singolaavfavsavfdfdafrità",
    filter=lambda x: "Alessandra Quanti" in x.get("chef_name", ""),
)

In [17]:
from hackathon.session import SessionManager


vector_db_key_values = (
    SessionManager().vectorstore_manager.get_current_key_values_metadata()
)

INFO:hackathon.managers.vectore_store:Initializing vectorstore...
INFO:hackathon.managers.vectore_store:Vectorstore initialized successfully.


In [18]:
# Obtain a dict with all keys and for each key a list of values
# for that key from the documents

key_values = {}

for document in documents:
    for key, value in document.metadata.items():
        if key not in key_values:
            key_values[key] = set()
        if isinstance(value, list):
            for v in value:
                key_values[key].add(v)
        else:
            # Add value
            key_values[key].add(value)

In [19]:
key_values

{'header_1': {'Menu'},
 'header_2': {'Evanescenza Quantica',
  'Sinfonia Galattica',
  "Sinfonia Quantistica dell'Universo",
  'Sinfonia Quantistica delle Stelle',
  'Sinfonia Temporale delle Profondità Infrasoniche'},
 'source': {'Sapore del Dune.pdf'},
 'dish_name': {'Evanescenza Quantica',
  'Sinfonia Galattica',
  "Sinfonia Quantistica dell'Universo",
  'Sinfonia Quantistica delle Stelle',
  'Sinfonia Temporale delle Profondità Infrasoniche'},
 'dish_techniques': {'Affumicatura a Stratificazione Quantica',
  'Bollitura Infrasonica Armonizzata',
  'Bollitura Termografica a Rotazione Veloce',
  'Cottura Sottovuoto Frugale Energeticamente Negativa',
  'Cottura a Vapore Ecodinamico Bilanciato',
  'Cottura a Vapore Termocinetica Multipla',
  'Cottura a Vapore con Flusso di Particelle Isoarmoniche',
  'Grigliatura Eletro-Molecolare a Spaziatura Variabile',
  'Marinatura Temporale Sincronizzata',
  'Saltare in Padella Classica'},
 'dish_ingredients': {'Baccacedro',
  'Carne di Balena spaz

In [20]:
from hackathon.models import MenuMetadata


def query_with_metadata(query: str, metadata: MenuMetadata):
    conditions = []

    if metadata.chef_name is not None:
        conditions.append(lambda x: metadata.chef_name in x.get("chef_name", ""))

    if metadata.restaurant_name is not None:
        conditions.append(
            lambda x: metadata.restaurant_name in x.get("restaurant_name", "")
        )

    if metadata.planet_name is not None:
        conditions.append(lambda x: metadata.planet_name in x.get("planet_name", ""))

    if len(metadata.licences):
        conditions.append(
            lambda x: any(lic in x.get("licences", []) for lic in metadata.licences)
        )

    if len(conditions) == 0:
        filter_fn = None

    else:
        filter_fn = lambda x: any(cond(x) for cond in conditions)  # noqa

    return retriever.invoke(query, filter=filter_fn)

In [11]:
query_ex = "Quali piatti del ristorante Cosmica Essenza sono preparati utilizzando i Funghi dell’Etere o la tecnica di Marinatura Temporale Sincronizzata?"

In [12]:
def clean_string(string: str):
    return string.lower().replace("_", " ").replace("'", " ")


def search_string_in_dict(string: str, key: str, dictionary: dict):
    search_string = clean_string(string)

    if key not in dictionary:
        return False

    if dictionary[key] is None:
        return True

    if isinstance(dictionary[key], str):
        return search_string in clean_string(dictionary[key])

    elif isinstance(dictionary[key], list):
        return search_string in [clean_string(x) for x in dictionary[key]]

    else:
        raise ValueError(f"Unsupported type {type(dictionary[key])}")


def filter_with_metadata_local(metadata: MenuMetadata):
    conditions = []
    fields = []

    if metadata.chef_name is not None:
        fields.append("chef_name")
        conditions.append(
            lambda doc_metadata: search_string_in_dict(
                string=metadata.chef_name, key="chef_name", dictionary=doc_metadata
            )
        )

    if metadata.restaurant_name is not None:
        fields.append("restaurant_name")
        conditions.append(
            lambda doc_metadata: search_string_in_dict(
                string=metadata.restaurant_name,
                key="restaurant_name",
                dictionary=doc_metadata,
            )
        )

    if metadata.planet_name is not None:
        fields.append("planet_name")
        conditions.append(
            lambda doc_metadata: search_string_in_dict(
                string=metadata.planet_name, key="planet_name", dictionary=doc_metadata
            )
        )

    if len(metadata.licences):
        fields.append("licences")
        conditions.append(
            lambda doc_metadata: any(
                search_string_in_dict(
                    string=lic, key="licences", dictionary=doc_metadata
                )
                for lic in metadata.licences
            )
        )

    if len(conditions) == 0:
        print("No metadata fields to filter")
        filter_fn = None

    else:
        print(f"Filtering documents with metadata fields: {fields}")
        filter_fn = lambda x: any(cond(x) for cond in conditions)  # noqa

    return filter_fn

In [13]:
from hackathon.session import SessionManager

retriever = SessionManager().vectorstore_manager.retriever

INFO:hackathon.managers.vectore_store:Initializing vectorstore...
INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: sentence-transformers/all-mpnet-base-v2
INFO:hackathon.managers.vectore_store:Vectorstore initialized successfully.


In [17]:
from hackathon.graph.nodes.retrieve import filter_with_metadata

docs = retriever.invoke(
    query_ex,
    filter=filter_with_metadata(
        MenuMetadata(
            chef_name="Alessandra",
        )
    ),
)


for doc in docs:
    print(doc.page_content)
    print("---_")

INFO:hackathon.graph.nodes.retrieve:Filtering documents with metadata fields: ['chef_name']


Preparato con l'abilità senza pari di Chef Alessandra Tempesti, il Galassia a Tavola è un viaggio sensoriale
attraverso lo spazio e il tempo, incarnato in un piatto che fonde estetica e sapore. Questa creazione
culinaria, concepita al "L'Architetto dell'Universo", è una vera e propria danza tra le stelle, un omaggio agli
ingredienti più rari e alle tecniche più sofisticate dell'arte gastronomica cosmica.  
Alla base del piatto si trovano strati delicati di Carne di Xenodonte, grigliati alla perfezione mediante la
tecnica di Grigliatura Elettro-Molecolare a Spaziatura Variabile, rivelando un sapore umami profondo e
stratificato. Su questa base terrosa si adagiano le Teste di Idra, cucinate con maestria utilizzando la Cottura
al Forno con Paradosso Temporale Cronospeculare per assicurare una succulenza che sfida le ere, mentre
la preparazione scrupolosa ne garantisce la totale sicurezza.  
Le consistenze aromatiche dei Funghi Orbitali, coltivati su satelliti artificiali, avvolgono la com

In [46]:
query_ex = "Quali piatti del ristorante Cosmica Essenza sono preparati utilizzando i Funghi dell’Etere o la tecnica di Marinatura Temporale Sincronizzata?"

In [32]:
import numpy as np


embedding_dim = vector_store.index.d
dummy_vector = np.zeros(embedding_dim)

# Retrieve all documents by setting k to the total number of documents
docs_and_scores = vector_store.similarity_search_with_score_by_vector(
    dummy_vector, k=vector_store.index.ntotal
)

list(
    filter(
        lambda x: "cosmica" in x if x else False,
        list(map(lambda x: x[0].metadata.get("restaurant_name"), docs_and_scores)),
    )
)

['anima cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'cosmica essenza',
 'anima cosmica',
 'anima cosmica',
 'cosmica essenza',
 'anima cosmica',
 'anima cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'cosmica essenza',
 'cosmica essenza',
 'cosmica essenza',
 'cosmica essenza',
 'anima cosmica',
 'anima cosmica',
 'anima cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'l essenza cosmica',
 'cosmica essenza',
 'cosmica essenza',
 'cosmica essenza',
 'anima cosmica',
 'anima cosmica',
 'anima cosmica',
 'cosmica essenza',
 'cosmica essenza']

In [33]:
docs_and_scores

[(Document(id='87298088-803a-4e95-9959-cb35740c7526', metadata={'header_1': 'Menu', 'header_2': 'Sinfonia Cosmica ma Fatta Male', 'source': 'Anima Cosmica.pdf', 'chef_name': 'Aurora Stellaris', 'restaurant_name': 'anima cosmica', 'planet_name': 'Pandora', 'licences': ['Psionica III', 'Temporale I', 'Gravitazionale I', 'Antimateria I', 'Quantistica 16', 'Luce II', 'Gradi di influenza di livello tecnologico II']}, page_content='Metadata: {\'header_1\': \'Menu\', \'header_2\': \'Sinfonia Cosmica ma Fatta Male\', \'source\': \'Anima Cosmica.pdf\', \'chef_name\': \'Aurora Stellaris\', \'restaurant_name\': \'anima cosmica\', \'planet_name\': \'Pandora\', \'licences\': [\'Psionica III\', \'Temporale I\', \'Gravitazionale I\', \'Antimateria I\', \'Quantistica 16\', \'Luce II\', \'Gradi di influenza di livello tecnologico II\']}\nContent: Preparati a un viaggio sensoriale attraverso le galassie con la nostra "Sinfonia Cosmica ma Fatta Male", un\npiatto che fonde armoniosamente scienza ed arte c

In [36]:
import chromadb

chroma_client = chromadb.Client()

In [37]:
collection = chroma_client.create_collection(name="my_collection")

In [46]:
collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
    ],
    ids=["id3", "id5"],
    metadatas=[{"fruit": ["pineapple"]}, {"fruit": "orange"}],
)

ValueError: Expected metadata value to be a str, int, float or bool, got ['pineapple'] which is a list in add.

In [34]:
# Example documents
documents = [
    "Document about regression and classification",
    "Document about CNN architecture",
    "Document about both regression and CNN",
]

# Method 1: Using lists in metadata (Recommended)
metadata_list = [
    {"techniques": ["regression", "classification"], "difficulty": "intermediate"},
    {"techniques": ["CNN"], "difficulty": "advanced"},
    {"techniques": ["regression", "CNN"], "difficulty": "advanced"},
]

# Add documents with metadata using lists
collection.add(
    documents=documents, ids=["doc1", "doc2", "doc3"], metadatas=metadata_list
)

# Query examples
# 1. Find documents about regression
results = collection.query(
    query_texts=["regression"], where={"techniques": {"$in": ["regression"]}}
)

# 2. Find advanced documents about CNN
results_advanced_cnn = collection.query(
    query_texts=["CNN architecture"],
    where={"$and": [{"techniques": {"$in": ["CNN"]}}, {"difficulty": "advanced"}]},
)