In [8]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings

model_name = "BAAI/bge-m3"
hf_embeddings = HuggingFaceEmbeddings(model_name=model_name)

text_splitter = CharacterTextSplitter(
  chunk_size=100,
  chunk_overlap=20
)

loader = TextLoader("./docs/news.txt", encoding="utf-8")
documents = loader.load_and_split(text_splitter=text_splitter)

Created a chunk of size 130, which is longer than the specified 100
Created a chunk of size 131, which is longer than the specified 100
Created a chunk of size 134, which is longer than the specified 100
Created a chunk of size 159, which is longer than the specified 100
Created a chunk of size 139, which is longer than the specified 100
Created a chunk of size 141, which is longer than the specified 100
Created a chunk of size 136, which is longer than the specified 100
Created a chunk of size 135, which is longer than the specified 100
Created a chunk of size 135, which is longer than the specified 100


In [7]:
# meta에서 만든 고성능
!pip install faiss-cpu==1.10.0

Collecting faiss-cpu==1.10.0
  Downloading faiss_cpu-1.10.0-cp313-cp313-macosx_11_0_arm64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.10.0-cp313-cp313-macosx_11_0_arm64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m11.1 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0


In [9]:
from langchain.vectorstores import FAISS

db = FAISS.from_documents(documents=documents, embedding=hf_embeddings)

In [10]:
result = db.similarity_search("대선 후보 토론")

In [11]:
result = db.similarity_search("신종 바이러스", k=2)
result

[Document(id='4e16b31c-d5dc-42c6-ad3c-47c18d5604e7', metadata={'source': './docs/news.txt'}, page_content='보건 : 최근 신종 바이러스의 확산이 일부 국가에서 급격히 증가하고 있습니다. 이에 따라 각국 정부는 예방접종 캠페인과 함께 강력한 방역 조치를 시행하고 있습니다. 보건 전문가들은 지속적인 모니터링과 빠른 대응이 필요하다고 강조하고 있습니다.'),
 Document(id='3d6bce2f-7db7-46e0-93dc-ce9ae975aa02', metadata={'source': './docs/news.txt'}, page_content='과학 : 새로운 암 치료법이 임상시험에서 획기적인 성과를 거두었습니다. 연구팀은 유전자 편집 기술을 이용해 특정 암세포만을 표적으로 삼는 방법을 개발했습니다. 이 치료법이 상용화된다면 기존 치료법보다 부작용이 크게 줄어들 것으로 기대됩니다.')]

In [None]:
# 값이 작을 수록 유사도가 높다.
result = db.similarity_search_with_score("태양계 밖의 행성")
result

[(Document(id='c3291083-9605-44e5-a6a5-15262afbb74f', metadata={'source': './docs/news.txt'}, page_content='우주 : NASA가 새롭게 발사한 우주 망원경이 태양계 외곽의 신비로운 행성을 발견했습니다. 과학자들은 이 행성의 대기에서 생명체의 존재를 암시하는 화합물을 발견했다고 발표했습니다. 이 발견은 우주 탐사에 새로운 이정표가 될 것으로 기대됩니다.'),
  np.float32(0.91415673)),
 (Document(id='024b40b9-1d88-4886-b36d-78c612bb1c62', metadata={'source': './docs/news.txt'}, page_content='환경 : 지구 온난화로 인한 극단적인 기후 변화가 전 세계적으로 심각한 피해를 초래하고 있습니다. 북극 해빙이 급격히 녹고 있으며, 이로 인해 해수면 상승이 가속화되고 있습니다. 환경 단체들은 즉각적인 탄소 배출 감축이 필요하다고 경고하고 있습니다.'),
  np.float32(1.3538921)),
 (Document(id='3d6bce2f-7db7-46e0-93dc-ce9ae975aa02', metadata={'source': './docs/news.txt'}, page_content='과학 : 새로운 암 치료법이 임상시험에서 획기적인 성과를 거두었습니다. 연구팀은 유전자 편집 기술을 이용해 특정 암세포만을 표적으로 삼는 방법을 개발했습니다. 이 치료법이 상용화된다면 기존 치료법보다 부작용이 크게 줄어들 것으로 기대됩니다.'),
  np.float32(1.4202474)),
 (Document(id='0dc0d6ab-fc68-462d-84cb-b727022dae2c', metadata={'source': './docs/news.txt'}, page_content='경제 : 세계적인 인플레이션 압박으로 각국 중앙은행들이 금리 인상에 나섰습니다. 특히 미국 연방준비제도는 예상보다 더 강력

In [None]:
# 값이 클 수록 유사도가 높다.
result = db.similarity_search_with_relevance_scores("중국과 미국 사이의 갈등")
result

[(Document(id='710f10c8-7f68-48a0-a4cd-c8cbb4757948', metadata={'source': './docs/news.txt'}, page_content='국제 : 아시아-태평양 지역에서의 경제 협력이 강화되고 있습니다. 주요 국가들은 무역 장벽을 낮추고 공동 개발 프로젝트를 추진하며 상호 이익을 추구하고 있습니다. 그러나 중국과 미국 간의 갈등이 여전히 지역 안정에 큰 변수로 작용하고 있습니다.'),
  np.float32(0.39513755)),
 (Document(id='9595924b-36d6-4fee-9b5e-437e261e7655', metadata={'source': './docs/news.txt'}, page_content='정치 : 최근 대선 후보 토론에서 양당의 입장이 강하게 충돌했습니다. 후보들은 세금 정책과 사회 복지 확대 여부를 두고 팽팽한 신경전을 벌였습니다. 전문가들은 이번 선거가 향후 10년간 정치 지형을 크게 변화시킬 것이라고 전망합니다.'),
  np.float32(0.108335376)),
 (Document(id='0dc0d6ab-fc68-462d-84cb-b727022dae2c', metadata={'source': './docs/news.txt'}, page_content='경제 : 세계적인 인플레이션 압박으로 각국 중앙은행들이 금리 인상에 나섰습니다. 특히 미국 연방준비제도는 예상보다 더 강력한 금리 인상을 단행하며 시장에 충격을 주었습니다. 이로 인해 주식과 채권 시장에서 대규모 매도세가 발생했습니다.'),
  np.float32(0.09975225)),
 (Document(id='024b40b9-1d88-4886-b36d-78c612bb1c62', metadata={'source': './docs/news.txt'}, page_content='환경 : 지구 온난화로 인한 극단적인 기후 변화가 전 세계적으로 심각한 피해를 초래하고 있습니다. 북극 해빙이 급격히 녹고 있으며, 이로 