In [19]:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from dotenv import load_dotenv
import os
import chromadb

load_dotenv()
os.environ["LANGSMITH_PROJECT"] = "data-chunking-txt"
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
chroma_client = chromadb.HttpClient(host='localhost', port=8000)
print(chroma_client.heartbeat())

vector_store = Chroma(
    collection_name="real-state",
    embedding_function=embeddings,
    client=chroma_client
)

1739318853256904350


In [27]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader

loader = TextLoader("../data/real-state/proyectos.txt")  # Reemplaza con la ruta de tu archivo
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,  # Tamaño de cada chunk (en caracteres)
    chunk_overlap=20,  # Superposición entre chunks
    length_function=len,  # Función para calcular la longitud del texto
)
chunks = text_splitter.split_documents(documents)

# 4. Almacenar los embeddings en una base de datos vectorial (FAISS en este caso)
vector_db = vector_store.from_documents(chunks, embeddings)
vector_store.add_documents(chunks)

['dde02031-2da8-405e-b52f-8e9837d7b35a',
 'd7d2e190-709e-47ce-9bcf-c852152d9c82',
 '7f331f82-0008-4921-a0a1-361ede744c7c',
 'c1f0561e-ce79-4869-bab6-96ef06d504b4',
 '80620b62-de99-46d0-a2ab-783e50b7d9cb',
 '15bcf299-5464-404b-af1f-b6ba8da930f3',
 '4a486572-21f5-4235-b41c-c264323d706e',
 '3395d74a-7f46-4c7e-89dd-352a2700c370',
 'fea786b5-b2f6-4fb2-acc3-3cea0d5e5bc9',
 '6e9b9c45-d41d-481e-a3ce-1138b9145b1f',
 'b6885fa3-8c55-4684-9668-9baefafe7da3',
 '6a0a398a-0090-4de0-acd8-9ff699ee59b4',
 '4725a401-1807-4860-9a02-9f6ed8fe40d2',
 '6f5d47b9-4fd3-45b5-8684-ca791bad6529',
 'ad04931d-8b26-4bb1-bf70-915910ff2721',
 'b2bf7897-2f77-4c39-b0ce-3f5742cbf210',
 'ef78a695-5d23-4e1c-b81b-eb06868787e0',
 '15627b1c-dc2d-462f-8678-93de77e98d06',
 'faa5f38c-e8c1-4345-8fc4-6fc31ce073e3',
 '63ba6e9e-bb25-403f-b295-9685da4b730e',
 '04589954-f657-41e2-8eb3-8992531c432d',
 'ae72fb7e-9c72-4b6c-94ef-0d35364c7578',
 '8541c1ac-d63a-4e3c-80e6-8de7cec5f541',
 'be52672f-aa06-4436-9f28-38f080fe46a6',
 'fcf96662-f71b-

In [21]:
query = "Altos del Mar"
docs = vector_db.similarity_search(query)
print(docs[0].page_content)

Proyecto C: Residencial de lujo "Altos del Mar"


In [28]:
query = "Altos del Mar"
docs = vector_store.similarity_search(query)
print(docs)

[Document(id='faa5f38c-e8c1-4345-8fc4-6fc31ce073e3', metadata={'source': '../data/real-state/proyectos.txt'}, page_content='Proyecto C: Residencial de lujo "Altos del Mar"'), Document(id='ae72fb7e-9c72-4b6c-94ef-0d35364c7578', metadata={'source': '../data/real-state/proyectos.txt'}, page_content='- Descripción: Edificio de 20 pisos con departamentos de 3 y 4 habitaciones, vista al mar,'), Document(id='8541c1ac-d63a-4e3c-80e6-8de7cec5f541', metadata={'source': '../data/real-state/proyectos.txt'}, page_content='vista al mar, amenities de lujo como spa, piscina infinita, gimnasio de última generación y'), Document(id='63be0dc0-f89c-4037-9f99-37c703c49e3b', metadata={'source': '../data/real-state/proyectos.txt'}, page_content='- Disponibilidad: 60% vendido. Últimas unidades con vista al mar disponibles.')]
