# Búsqueda semántica

### Instalamos dependencias

In [None]:
pip install chromadb langchain openai tiktoken

### Agregamos la llave de OpenAI a nuestra variables globales.

In [None]:
%env OPENAI_API_KEY=<YOUR_OPENAI_API_KEY>

### Creamos nuestra base de datos a partir de documentos

In [12]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader

# Cargamos la información
loader = TextLoader("./state_of_the_union.txt")
documents = loader.load()

# Partimos la información en trozos (documentos)
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
docs = text_splitter.split_documents(documents)

# Creamos nuestra DB de Chroma a partir de los docs
db = Chroma.from_documents(
    documents=docs,
    embedding=OpenAIEmbeddings(),
    persist_directory="vector_store"
)


### Realizamos la búsqueda semántica

In [None]:

# Query
query = "What did the president say about Ketanji Brown Jackson?"
docs = db.similarity_search_with_score(query, k=2)


# Imprimimos el resultado
print(docs)
