In [4]:
from dotenv import load_dotenv
from glob import glob
from pprint import pprint
import os

In [5]:
load_dotenv()

True

In [6]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

  from tqdm.autonotebook import tqdm, trange


In [4]:
from langchain_chroma import Chroma

chroma_db = Chroma(
   collection_name="ai_sample_collection",
   persist_directory="./chroma_db",
   embedding_function=embeddings_model, 
)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [5]:
chroma_db.get()

Failed to send telemetry event CollectionGetEvent: capture() takes 1 positional argument but 3 were given


{'ids': [],
 'embeddings': None,
 'documents': [],
 'uris': None,
 'data': None,
 'metadatas': [],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [7]:
from langchain_core.documents import Document

documents = [
    "인공지능은 컴퓨터 과학의 한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
    "컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다."
]

doc_objects = []

for i, content in enumerate(documents, start=1):
    doc = Document(
        page_content=content,
        metadata={"source": "AI_Textbook", "chapter": f"Chapter {i}"},
    )
    doc_objects.append(doc)

doc_ids = [f"doc_{i}" for i in range(1, len(doc_objects) + 1)]

added_docs_ids = chroma_db.add_documents(documents=doc_objects, ids=doc_ids)

print(f"{len(added_docs_ids)} 개의 문서가 성공적으로 DB에 추가되었습니다.")



5 개의 문서가 성공적으로 DB에 추가되었습니다.


In [8]:
query = "인공지능과 머신러닝의 관계는?"
results = chroma_db.similarity_search(query, k=2)

print(f"질문: {query}")
for doc in results:
    print(f"문서 ID: {doc.metadata['chapter']}, 내용: {doc.page_content}")

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


질문: 인공지능과 머신러닝의 관계는?
문서 ID: Chapter 2, 내용: 머신러닝은 인공지능의 하위 분야입니다.
문서 ID: Chapter 3, 내용: 딥러닝은 머신러닝의 한 종류입니다.


In [9]:
chroma_db.get()

{'ids': ['doc_1', 'doc_2', 'doc_3', 'doc_4', 'doc_5'],
 'embeddings': None,
 'documents': ['인공지능은 컴퓨터 과학의 한 분야입니다.',
  '머신러닝은 인공지능의 하위 분야입니다.',
  '딥러닝은 머신러닝의 한 종류입니다.',
  '자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.',
  '컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'chapter': 'Chapter 1', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 2', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 3', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 4', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 5', 'source': 'AI_Textbook'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [10]:
update_document_1 = Document(
    page_content="인공지능은 컴퓨터 과학의 한 분야로, 머신러닝과 답러닝을 포함합니다.",
    metadata={"source": "AI_Textbook", "chapter": "Chapter 6"}
)

chroma_db.update_document(document_id="doc_1", document=update_document_1)

print("문서 업데이트 완료")

Failed to send telemetry event CollectionUpdateEvent: capture() takes 1 positional argument but 3 were given


문서 업데이트 완료


In [11]:
chroma_db.get()

{'ids': ['doc_1', 'doc_2', 'doc_3', 'doc_4', 'doc_5'],
 'embeddings': None,
 'documents': ['인공지능은 컴퓨터 과학의 한 분야로, 머신러닝과 답러닝을 포함합니다.',
  '머신러닝은 인공지능의 하위 분야입니다.',
  '딥러닝은 머신러닝의 한 종류입니다.',
  '자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.',
  '컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'chapter': 'Chapter 6', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 2', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 3', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 4', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 5', 'source': 'AI_Textbook'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [12]:
chroma_db.delete(ids=["doc_5"])

Failed to send telemetry event CollectionDeleteEvent: capture() takes 1 positional argument but 3 were given


In [13]:
chroma_db.get()

{'ids': ['doc_1', 'doc_2', 'doc_3', 'doc_4'],
 'embeddings': None,
 'documents': ['인공지능은 컴퓨터 과학의 한 분야로, 머신러닝과 답러닝을 포함합니다.',
  '머신러닝은 인공지능의 하위 분야입니다.',
  '딥러닝은 머신러닝의 한 종류입니다.',
  '자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'chapter': 'Chapter 6', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 2', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 3', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 4', 'source': 'AI_Textbook'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [10]:
# 문서 로딩
from langchain_community.document_loaders import TextLoader
from tqdm import tqdm

text_files = glob(os.path.join('data', '*_KR.txt'))
print(text_files)

data  = []

for text_file in tqdm(text_files):
    loader = TextLoader(text_file, encoding='utf-8')
    data += loader.load()

len(data)

['data\\samsung_KR.txt', 'data\\skHynix_KR.txt', 'data\\리비안_KR.txt', 'data\\테슬라_KR.txt']


100%|██████████| 4/4 [00:00<00:00, 1336.72it/s]


4

In [11]:
print(data)

[Document(metadata={'source': 'data\\samsung_KR.txt'}, page_content='삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸쳐 있습니다.\n\n삼성전자의 반도체 부문은 크게 메모리 사업부와 시스템LSI 사업부로 구성되어 있습니다. 메모리 부문에서는 D램, 낸드플래시 등에서 수년간 세계 시장 점유율 1위를 유지하고 있으며, AI, 클라우드, 스마트폰 등 다양한 산업에 고성능 메모리 솔루션을 공급합니다. 특히 5세대 HBM3E, 1b 나노급 D램, V-NAND 9세대 기술 등에서 혁신을 주도하고 있습니다.\n\n시스템LSI 사업부는 SoC(System-on-Chip), 이미지 센서, 디스플레이 드라이버 IC 등 비메모리 분야를 담당하며, 모바일 애플리케이션 프로세서(Exynos)와 세계 1위 점유율을 가진 이미지 센서(ISOCELL)로 경쟁력을 강화하고 있습니다. 또한, 삼성 파운드리는 3nm GAA(Gate-All-Around) 공정 양산을 세계 최초로 시작하며 TSMC와 경쟁하고 있습니다.\n\n삼성전자 파운드리 사업의 시장 점유율이 지속적으로 하락하고 있습니다. 2025년 1분기 기준, 삼성전자의 파운드리 시장 점유율은 17.7%로, 전년 동기 대비 감소했습니다. 반면, TSMC는 시장 점유율을 확대하며 67.6%를 기록하여 격차가 더욱 커지고 있는 상황입니다. '), Document(metadata={'source': 'data\\skHynix_KR.txt'}, page_content='SK하이닉스는 1983년 현대전자산업으로 출발해, 2012년 SK그룹에 인수되면서 현재의 이름을 갖게 된 대한민국 대표 반도체 제조기업입니다. 본사는 경기도 이천에 위치하고 있으며, 글로벌 반도체 

In [17]:
# 문서 청킹
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=250,
    chunk_overlap=50,
    separator=r'(?<=[.!?])\s+',
    is_separator_regex=True,
    keep_separator=True
)

texts = text_splitter.split_documents(data)
print(f'생성된 텍스트 청크 수: {len(texts)}')
print(f'각 청크의 길이 {list(len(text.page_content) for text in texts)}')
# print(f'각 청크의 길이 {[len(text.page_content) for text in texts]}')

생성된 텍스트 청크 수: 14
각 청크의 길이 [214, 203, 217, 152, 149, 226, 218, 76, 175, 203, 178, 240, 192, 65]


In [19]:
# 문서 임베딩
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

# embeddings_model.embed_documents(data)


In [None]:
# 벡터DB 
from langchain_chroma import Chroma

chroma_db = Chroma(
   documents=texts,
   collection_name="ai_sample_collection",
   persist_directory="./chroma_db",
   embedding_function=embeddings_model, 
)

In [None]:
# 유사도 => 검색

In [23]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from transformers import AutoTokenizer

In [24]:
# 문서 로딩
def load_text_files(text_files):
    data = []
    for file in text_files:
        loader = TextLoader(file, encoding='utf-8')
        data += loader.load()

    return data

korean_text_files = glob(os.path.join('data', '*_KR.txt'))
korean_data = load_text_files(korean_text_files)

In [30]:
# 문서 청킹
tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-m3')

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    separator=r'(?<=[.!?])\s+',
    chunk_size=100,
    chunk_overlap=0,
    is_separator_regex=True,
    keep_separator=True
)

korean_docs = text_splitter.split_documents(korean_data)
print(f'생성된 텍스트 청크 수: {len(korean_docs)}')
print(f'각 청크의 길이 {list(len(text.page_content) for text in korean_docs)}')

생성된 텍스트 청크 수: 17
각 청크의 길이 [164, 145, 57, 143, 171, 55, 149, 172, 178, 170, 175, 157, 124, 52, 151, 174, 123]


In [29]:
# 문서 임베딩
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

In [None]:
# 벡터DB
from langchain_chroma import Chroma

chroma_db = Chroma.from_documents(
    documents=korean_docs,
    embedding=embeddings_model,
    collection_name='db_korean_cosine',
    persist_directory='./chroma_db',
    collection_metadata={'hnsw:space':'cosine'} # l2, cosine, ip
)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [33]:
chroma_db.get()

Failed to send telemetry event CollectionGetEvent: capture() takes 1 positional argument but 3 were given


{'ids': ['825feb6d-09e8-4c2e-af9b-9e7d4d709a96',
  '4435f331-d84d-4349-9a35-1a7777ee5e5f',
  'da8ccaa4-f4e1-4fc3-99be-50434ae051f8',
  '48861eed-2333-49dd-bf09-f22162b57bf9',
  '0c78b366-dbca-4c1b-824d-0e6451ce9b8c',
  '8a37de96-ce8e-4606-941e-22f73d25ea85',
  '0eb23035-b009-473d-b7f7-db1e13785e5a',
  'b7fb9129-8b65-422e-bc25-b325bafe6e4d',
  '1d3d0bf7-2dec-4732-a388-3074f820cd8a',
  'd661e086-fdd8-4c23-9b6f-c4da9736bac5',
  'b7e7813b-28d5-47d5-87e3-a38fb8fc0731',
  'b525473f-fccc-4291-b88e-0ff87e9a9dec',
  '49b0c7dd-6859-49c2-87f2-6b38e5f01941',
  'a255005d-ec83-4722-85e4-a960dbbf3232',
  '2072a1f9-34b0-4df2-999c-16f276a6abae',
  'f0c03b29-84e1-45a6-bb4e-ffcf06df1a9d',
  '34da3e3d-3515-4d08-a748-14b0849251d3'],
 'embeddings': None,
 'documents': ['삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸쳐 있습니다.',
  '삼성전자의 반도체 부문은 크게 메모리 사업부와 시스템LSI 사업부로 구성되어 있습니다. 메모리 부문에서는 D램, 낸드플래시 등에

In [35]:
# 검색기
retriever = chroma_db.as_retriever(
    search_kwargs={'k':2},
)

query = '삼성전자는 언제 사업을 시작했나요?'
retriever_docs = retriever.invoke(query)

print(f'쿼리:  {query}')
print('검색 결과')
for doc in retriever_docs:
    print(f' - {doc.page_content} [출처: {doc.metadata["source"]}]')

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


쿼리:  삼성전자는 언제 사업을 시작했나요?
검색 결과
 - 삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸쳐 있습니다. [출처: data\samsung_KR.txt]
 - SK하이닉스는 1983년 현대전자산업으로 출발해, 2012년 SK그룹에 인수되면서 현재의 이름을 갖게 된 대한민국 대표 반도체 제조기업입니다. 본사는 경기도 이천에 위치하고 있으며, 글로벌 반도체 시장에서 삼성전자에 이어 세계 2위 D램 제조업체로 자리잡고 있습니다. [출처: data\skHynix_KR.txt]
