In [9]:
from langchain.vectorstores.chroma import Chroma
from langchain.document_loaders import UnstructuredMarkdownLoader, DirectoryLoader
from langchain.text_splitter import SentenceTransformersTokenTextSplitter
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings as STE


chroma = Chroma()

import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"

In [10]:
model_name = "model/intfloat/multilingual-e5-large/"

In [11]:
doc_loader = DirectoryLoader(path="data/teamA/01_생계_지원/", loader_cls=UnstructuredMarkdownLoader)
document = doc_loader.load()

text_splitter = SentenceTransformersTokenTextSplitter(chunk_overlap=10, model_name=model_name, tokens_per_chunk=512)

In [12]:
document_parsed = text_splitter.split_documents(document)

In [13]:
print(len(document_parsed))

73


In [14]:
bert_test = STE(model_name=model_name)

In [15]:
bert_test

HuggingFaceEmbeddings(client=SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
), model_name='model/intfloat/multilingual-e5-large/', cache_folder=None, model_kwargs={}, encode_kwargs={}, multi_process=False)

In [16]:
embedded_document = chroma.from_documents(document_parsed, embedding=bert_test)

RuntimeError: CUDA error: device-side assert triggered
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [None]:
embedded_document.similarity_search("LPG")

[Document(page_content='기존 바닥 위에 건식 난방 배관을 설해 보일러 가동이 가능하도록 지원합니다. 보일러 교체 방법은 노후된 보일러를 에너지효율이 높은 보일러 ( 기름 또는 가스 ) 로 교체 지원합니다. 냉방기기 공사 방법은 벽걸이형 에어컨 등 냉방 물품이 해당됩니다. " 입니다.', metadata={'source': 'data\\teamA\\01_생계_지원\\01_저소득층_에너지효율_개선.md'}),
 Document(page_content='LPG용기 사용가구 시설개선 LPG용기 사용가구 시설개선의 대상은 LPG용기 사용 주택에서 LPG 고무호스를 사용 중인 가구입니다. LPG용기 사용가구 시설개선의 내용은 다음과 같습니다. LPG가스 고무호스 교체 ( 금속배관 ) 및 안전장치 ( 퓨즈콕 ) 등 가스시설 설치 지원입니다. 시공비 약 25만 원 중 20만 원 상당 지원하며, 자부담은 5만 원입니다. LPG용기 사용가구 시설개선의 신청방법은 수혜대상자가 소재지 시군구 가스담당부서 또는 읍면동 주민센터 ( 행정복지센터 ) 로 방문하여 신청하시면 됩니다. LPG용기 사용가구 시설개선에 대한 문의는 소재지 시군구 가스담당부서 또는 읍면동 주민센터 ( 행정복지센터 ), 또는 한국가스안전공사로 하시면 됩니다. 한국가스안전공사의 전화번호는 1544 - 4500 입니다.', metadata={'source': 'data\\teamA\\01_생계_지원\\01_LPG용기_사용가구_시설개선.md'}),
 Document(page_content='저소득층 에너지효율 개선 저소득층 에너지효율 개선 대상은 기초생활수급가구, 차상위계층, 복지사각지대 ( 기초지자체 추천 ), 사회복지시설 등이 있으며, 주거급여를 지원받는 자가가구는 제외됩니다. 저소득층 에너지효율 개선은 에너지 효율을 높일 수 있도록 노후 주택 에너지 사용 환경 개선을 지원합니다. 저소득층 에너지효율 개선 중 시공지원은 단열공사, 창호공사, 바닥공사 등을 통한 에너지 효율 개선을 지원합니다. 저소