In [2]:
from langchain_community.document_loaders import TextLoader
from langchain_ollama import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_postgres.vectorstores import PGVector
from langchain_core.documents import Document
import uuid


# 도커 연결 설정
connection = "postgresql+psycopg2://langchain:langchain@localhost:6024/langchain"

# 문서를 로드 후 분할
raw_documents = TextLoader("../test.txt", encoding="utf-8").load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
documents = text_splitter.split_documents(raw_documents)

# 문서에 대한 임베딩 생성
embeddings_model = OllamaEmbeddings(model="nomic-embed-text")

# 시간이 좀 걸린다.
db = PGVector.from_documents(
    documents,
    embeddings_model,
    connection=connection,
)

In [3]:
results = db.similarity_search("query", k=4)

print(results)

[Document(id='9dd5e4da-a9d2-40e5-85f5-613224d47acc', metadata={'source': '../test.txt'}, page_content='III.'), Document(id='a6662b18-5cbc-432e-a226-3a5c3ba33829', metadata={'source': '../test.txt'}, page_content='III.'), Document(id='6e860de4-aa8f-4c53-aa19-9955451c19cf', metadata={'source': '../test.txt'}, page_content='III.'), Document(id='8f5b39f0-1ea2-4ea0-a5dc-1a47c371e6ee', metadata={'source': '../test.txt'}, page_content='III.')]


In [4]:
print("문서를 벡터 저장소에 저장")
ids = [str(uuid.uuid4()), str(uuid.uuid4())]
db.add_documents(
    [
        Document(
            page_content="there are cats in the pond",
            metadata={"location": "pond", "topic": "animals"},
        ),
        Document(
            page_content="ducks are also found in the pond",
            metadata={"location": "pond", "topic": "animals"},
        ),
    ],
    ids=ids,
)

print("문서 저장 성공.\n  전체 문서 수:", len(db.get_by_ids(ids)))

문서를 벡터 저장소에 저장
문서 저장 성공.
  전체 문서 수: 2


In [5]:
print("id로 문서 삭제\n  ", ids[1])
db.delete({"ids": ids})

print("문서 삭제 성공.\n  전체 문서 수:", len(db.get_by_ids(ids)))

id로 문서 삭제
   b9c64f32-9b3f-449d-b1ad-e9ff496b5084
문서 삭제 성공.
  전체 문서 수: 2
