In [10]:
import os
import shutil
from dotenv import load_dotenv

from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_chroma import Chroma

In [11]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document

In [12]:
with open("data/document1.txt", "r", encoding="utf-8") as f:
    content = f.read()

In [13]:
content

'조선(朝鮮, Joseon[42], Chosŏn[43])[44]은 한반도에 존재했던 한민족의 전제군주제 국가이다.\n\n원 제국을 등에 업은 권문세족[45]과 불교 세력[46]의 부정부패로 인하여 원명교체기의 혼란상을 견디지 못한 고려 말에, 황산대첩 등 여러 전쟁터의 활약으로 명성을 얻은 고려의 장군 이성계가 1392년에 역성혁명으로 왕씨의 고려를 무너뜨리고 조선을 건국하였다. 이성계가 1392년에 개국하여, 1910년에 경술국치로 멸망할 때까지 약 518년[47] 동안 한반도와 그 부속 도서들을 지배하였다.\n\n남북국시대의 통일신라 때부터 크게 성장[48]해오던 유교세력은 고려의 중앙집권화 정책의 수혜를 받아서 성장했으나, 고려가 불교국가라는 태생적 한계[49]와 고려 말에 보였던 왕실의 실망스러운 모습은 유학자들에게 \'고려\'는 이미 실패한 체제[50][51]로 보였다. 황산대첩 등 여러 전쟁터의 활약으로 명장으로 명성을 얻은 고려의 장군 이성계는 위화도 회군으로 정권을 장악한 이후에 신흥무인세력들, 신진사대부들의 지지를 받으면서 1392년에 역성혁명으로 고려를 무너뜨리고 조선을 건국했다. 이때 조선이라는 국호는 단군이 세웠던 고조선[52]에서 가저온 것[53]이다. 이후 개화기였던 1897년 10월 12일, 고종이 대한제국을 선포하면서 국호를 한(韓)으로 변경[54]했다.\n\n왕건의 역성혁명으로 태봉을 국가승계하여 건국된 고려[55]와 마찬가지로 조선 역시 이성계의 역성혁명으로 고려를 국가승계하여 건국된 왕조이므로 초기에는 고려를 그대로 계승한 것으로 봐도 무방하다.[56] 다만 여말 원 간섭기의 영향과 성리학의 유입이 고려와 조선의 차이를 크게 결정지었다.[57]\n\n조선 국왕의 어기는 태극팔괘도(太極八卦圖)라고도 불렸으며, 조선 시대 이전에도 도교적 우주원리에 따라 음과 양, 세상의 이치와 자연의 섭리를 나타내는 영험한 문양으로 여겨져 널리 사용되다가 조선 건국 이후에는 성리학이 국교가 되면서 군주의 어기로 사용되었다. 태극 문양은 사서삼경 

In [14]:
def split_documents(documents):
    """Split documents into chunks for embedding."""
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200
    )
    
    chunks = text_splitter.split_documents(documents)
    print(f"✓ Split into {len(chunks)} chunks")
    return chunks

In [15]:
doc = Document(page_content=content)

In [16]:
doc

Document(metadata={}, page_content='조선(朝鮮, Joseon[42], Chosŏn[43])[44]은 한반도에 존재했던 한민족의 전제군주제 국가이다.\n\n원 제국을 등에 업은 권문세족[45]과 불교 세력[46]의 부정부패로 인하여 원명교체기의 혼란상을 견디지 못한 고려 말에, 황산대첩 등 여러 전쟁터의 활약으로 명성을 얻은 고려의 장군 이성계가 1392년에 역성혁명으로 왕씨의 고려를 무너뜨리고 조선을 건국하였다. 이성계가 1392년에 개국하여, 1910년에 경술국치로 멸망할 때까지 약 518년[47] 동안 한반도와 그 부속 도서들을 지배하였다.\n\n남북국시대의 통일신라 때부터 크게 성장[48]해오던 유교세력은 고려의 중앙집권화 정책의 수혜를 받아서 성장했으나, 고려가 불교국가라는 태생적 한계[49]와 고려 말에 보였던 왕실의 실망스러운 모습은 유학자들에게 \'고려\'는 이미 실패한 체제[50][51]로 보였다. 황산대첩 등 여러 전쟁터의 활약으로 명장으로 명성을 얻은 고려의 장군 이성계는 위화도 회군으로 정권을 장악한 이후에 신흥무인세력들, 신진사대부들의 지지를 받으면서 1392년에 역성혁명으로 고려를 무너뜨리고 조선을 건국했다. 이때 조선이라는 국호는 단군이 세웠던 고조선[52]에서 가저온 것[53]이다. 이후 개화기였던 1897년 10월 12일, 고종이 대한제국을 선포하면서 국호를 한(韓)으로 변경[54]했다.\n\n왕건의 역성혁명으로 태봉을 국가승계하여 건국된 고려[55]와 마찬가지로 조선 역시 이성계의 역성혁명으로 고려를 국가승계하여 건국된 왕조이므로 초기에는 고려를 그대로 계승한 것으로 봐도 무방하다.[56] 다만 여말 원 간섭기의 영향과 성리학의 유입이 고려와 조선의 차이를 크게 결정지었다.[57]\n\n조선 국왕의 어기는 태극팔괘도(太極八卦圖)라고도 불렸으며, 조선 시대 이전에도 도교적 우주원리에 따라 음과 양, 세상의 이치와 자연의 섭리를 나타내는 영험한 문양으로 여겨져 널리 사용되다가 조선 건국 이후에는 성리학이 

In [17]:
chunks = split_documents([doc])

✓ Split into 8 chunks


In [18]:
def rebuild_vector_db(chunks):
    """Create and persist ChromaDB vector store."""
    persist_directory = "./chroma_db"
    collection_name = "my_rag_db"

    # Validate Google API key
    load_dotenv()
    api_key = os.getenv("GOOGLE_API_KEY")
    if not api_key or api_key.strip() == "":
        raise ValueError("GOOGLE_API_KEY is not set. Please add it to your .env file (Google AI Studio).")

    # Delete existing DB if it exists
    if os.path.exists(persist_directory):
        print(f"⚠ Removing existing database at {persist_directory}")
        shutil.rmtree(persist_directory)

    # Initialize embeddings (Gemini)
    embeddings = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
    print("✓ Initialized Google Generative AI embeddings")

    # Create and persist vector store
    vectorstore = Chroma.from_documents(
        documents=chunks,
        embedding=embeddings,
        collection_name=collection_name,
        persist_directory=persist_directory,
    )

    print(f"✓ Created ChromaDB at {persist_directory} (collection: {collection_name})")
    return vectorstore

In [19]:
rebuild_vector_db(chunks)

✓ Initialized Google Generative AI embeddings
✓ Created ChromaDB at ./chroma_db (collection: my_rag_db)


<langchain_chroma.vectorstores.Chroma at 0x208534fe3d0>

In [21]:
# Inspect ChromaDB contents
from pprint import pprint

load_dotenv()
api_key = os.getenv("GOOGLE_API_KEY")
if not api_key or api_key.strip() == "":
    raise ValueError("GOOGLE_API_KEY is not set. Please add it to your .env file (Google AI Studio).")

persist_directory = "./chroma_db"
collection_name = "my_rag_db"
embeddings = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")

# Load the existing persisted DB
vectorstore = Chroma(
    collection_name=collection_name,
    embedding_function=embeddings,
    persist_directory=persist_directory,
)

# Basic info
all_data = vectorstore._collection.get(include=["documents", "metadatas"])
print(f"Documents stored: {len(all_data['ids'])}")

# Show a sample document and metadata
if all_data["documents"]:
    print("\nSample document (truncated):\n")
    print(all_data["documents"][0][:500])
    print("\nSample metadata:\n")
    pprint(all_data["metadatas"][0])

# Optional: run a quick similarity search WITH SCORES
sample_query = "예시 질문: 문서 내용 요약해줘"
results = vectorstore.similarity_search_with_score(sample_query, k=2)
print("\nSimilarity search results (top 2):\n")
for i, (doc, score) in enumerate(results, 1):
    print(f"[{i}] score: {score:.4f}\n{doc.page_content[:500]}\n---")


Documents stored: 8

Sample document (truncated):

조선(朝鮮, Joseon[42], Chosŏn[43])[44]은 한반도에 존재했던 한민족의 전제군주제 국가이다.

원 제국을 등에 업은 권문세족[45]과 불교 세력[46]의 부정부패로 인하여 원명교체기의 혼란상을 견디지 못한 고려 말에, 황산대첩 등 여러 전쟁터의 활약으로 명성을 얻은 고려의 장군 이성계가 1392년에 역성혁명으로 왕씨의 고려를 무너뜨리고 조선을 건국하였다. 이성계가 1392년에 개국하여, 1910년에 경술국치로 멸망할 때까지 약 518년[47] 동안 한반도와 그 부속 도서들을 지배하였다.

남북국시대의 통일신라 때부터 크게 성장[48]해오던 유교세력은 고려의 중앙집권화 정책의 수혜를 받아서 성장했으나, 고려가 불교국가라는 태생적 한계[49]와 고려 말에 보였던 왕실의 실망스러운 모습은 유학자들에게 '고려'는 이미 실패한 체제[50][51]로 보였다. 황산대첩 등 여러 전쟁터의 활약으로 명장으로 명성을 얻은 고려의 장군 이성계는 위화도 회군으로 정권을 장악한 이후에 

Sample metadata:

None

Similarity search results (top 2):

[1] score: 0.7823
현재 한반도에서 "전통 문화"라고 부르는 것들의 거의 대다수가 조선 시대(특히 18세기 이후의 조선 중후기)에 형성된 것이다. 조선이 이미 역사의 뒤안길로 사라진지 100년이 넘게 지났고, 일제시대, 군사정권시대, 민주화의 이룩이라는 사회의 변화가 여러번이 있었지만 조선 시대의 영향을 받은 문화는 지금도 대한민국에서 깊이 뿌리를 내려있다. 성리학이나 과거 제도의 잔재는 현재도 교육, 결혼, 가족, 연애 문화 등에서 그 흔적이 있어 현재까지 이어지는 타국과의 차이를 만들어낸다. 주거의 형태[66]나 음주가무나 외모나 일부 장례와 관련된 풍습[67] 등은 성리학이 깊게 뿌리내리기 전부터 내려온 것이 지금까지 변형되어 있는 것이다. 시대가 변하면서 이런 요소