In [6]:
import os
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 텍스트 분할기 설정
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)

# 문서를 저장할 리스트
split_docs = []

# 디렉토리 경로 설정
directory_path = '/workspace/card_db/'

# 디렉토리 내 파일 목록 가져오기
for filename in os.listdir(directory_path):
    if filename.endswith('.txt'):  # .md 파일만 선택
        loader = TextLoader(os.path.join(directory_path, filename))
        split_doc = loader.load_and_split(text_splitter)
        
        # 각 청크에 메타데이터 추가
        for chunk in split_doc:
            chunk.metadata = {'source': filename}  # 문서 이름을 메타데이터로 추가
        
        split_docs.extend(split_doc)  # 리스트에 청크 추가

# 문서 개수 확인
document_counts = [len(doc.page_content) for doc in split_docs]  # page_content의 길이 확인
print(document_counts)

# 문서 개수 출력
total_chunks = len(split_docs)
print(f"총 청크 개수: {total_chunks}")

[440, 443, 487, 452, 247, 473, 227, 478, 424, 108, 207, 424, 108, 196, 424, 108, 250, 424, 108, 229, 424, 108, 256, 424, 108, 205, 435, 219, 435, 297, 426, 469, 360, 147, 416, 239, 299, 473, 373, 462, 457, 461, 250, 405, 285, 426, 141, 324, 439, 112]
총 청크 개수: 50


In [7]:
from langchain_community.embeddings import OllamaEmbeddings
from langchain_chroma import Chroma

# 임베딩 모델 설정
embedding_model = OllamaEmbeddings(model='gemma2')

# DB 생성
db = Chroma.from_documents(
    documents=split_docs,  # 통합된 청크 리스트 사용
    embedding=embedding_model,
    collection_name='card_db'
)

In [8]:
# 저장할 경로 지정
DB_PATH = '/workspace/card_db/vector'

# 문서를 디스크에 저장
persist_db = Chroma.from_documents(
    documents=split_docs,  # 통합된 청크 리스트 사용
    embedding=embedding_model,
    persist_directory=DB_PATH,
    collection_name='card_db'
)

In [9]:
# 디스크에서 문서를 로드
persist_db = Chroma(
    persist_directory=DB_PATH,
    embedding_function=embedding_model,
    collection_name='card_db',
)

In [17]:
# 저장된 데이터 확인
stored_documents = persist_db.get()

# 저장된 문서 내용 출력
print("저장된 문서 내용:")
if isinstance(stored_documents, list):  # 반환된 결과가 리스트인 경우
    for doc in stored_documents:
        # doc이 문자열이면 바로 출력
        if isinstance(doc, str):
            print(doc)
        else:  # doc이 문서 객체인 경우
            print(doc.page_content)  # 문서 객체의 내용 출력
else:
    print(stored_documents)  # 리스트가 아닌 경우, 결과를 그대로 출력

저장된 문서 내용:
{'ids': ['0340f866-c7ab-4025-acbb-c52ab8dea839', '6f8d83eb-123b-4371-aa49-75d0b1313315', 'ff2287af-fec7-4285-a91a-6a46e28d887b', 'd85b0b4b-c00e-4eb3-80fe-9528c9e37155', 'bb4f4960-40f0-4b13-8031-77520033169e', '88ce67a3-72a2-4e8c-a8c8-e8f38cf6f7cb', '37f0c0c8-cf11-422b-9f7f-68bb62eb8796', '85b46ad6-c6f1-47bd-9af7-a65da1c617e0', 'f0137492-aeb7-4a31-b434-b08626212351', 'b28b50c8-d179-4b7d-a159-3e13320aeabe', '61993a18-9bf5-4e6c-873a-05eaff4c74ba', '51e89c3e-8bfc-40ad-9538-7a0d60df1c59', '79c04fce-07c5-4e8b-95d9-febd50585815', 'd8a286f3-546c-4f7d-a005-1b5cd545a950', '09668e90-f4b0-41c9-9ace-978932393a08', '02fe79df-c5c4-48cf-9f38-835d423664ed', '26daaf0c-bd9d-4b22-9d5b-677f5dbd88e6', '5053f383-6dec-4194-84a9-e6e322d4151b', '43ba7291-2693-4e92-8182-9b0a9b37b35c', '5d1ef700-230d-4856-8e9c-2abb7e304356', 'fb01de52-31fb-462c-9f03-c3f8ba9b7ccf', '19752ba2-23ef-4b84-9def-30b802bd1675', 'a2599711-a09e-4ac6-9383-4df77673c986', 'ba2ca08d-54f3-40f5-8d31-5603b0af9632', '04847494-6b5b-46f4-