In [1]:
from langchain.vectorstores.chroma import Chroma
from langchain.document_loaders import UnstructuredMarkdownLoader, DirectoryLoader
from langchain.text_splitter import SentenceTransformersTokenTextSplitter
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings as STE


chroma = Chroma()

In [2]:
model_name = "model/BM-K/KoSimCSE-roberta-multitask/"

In [3]:
doc_loader = DirectoryLoader(path="data/teamA/01_생계_지원/", loader_cls=UnstructuredMarkdownLoader)
document = doc_loader.load()

text_splitter = SentenceTransformersTokenTextSplitter(chunk_overlap=10, model_name=model_name, tokens_per_chunk=512)

In [4]:
document_parsed = text_splitter.split_documents(document)

In [5]:
print(len(document_parsed))

63


In [6]:
bert_test = STE(model_name=model_name)

In [7]:
bert_test

HuggingFaceEmbeddings(client=SentenceTransformer(
  (0): Transformer({'max_seq_length': 508, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 256, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
), model_name='model/smartmind/roberta-ko-small-tsdae/', cache_folder=None, model_kwargs={}, encode_kwargs={}, multi_process=False)

In [8]:
embedded_document = chroma.from_documents(document_parsed, embedding=bert_test)

In [9]:
embedded_document.similarity_search("LPG")

[Document(page_content='노후 영구 임대주택 리모델링\n\n노후 영구 임대주택 리모델링 대상은 준공 후 15년 이상 경과한 영구 임대주택입니다.\n\n노후 영구 임대주택 리모델링 내용은 노후주택 에너지성능강화 공사 및 주거환경 개선 지원입니다.\n\n노후 영구 임대주택 리모델링 신청 방법은 해당 단지 관리사무소에 신청 및 접수하시면 됩니다.\n\n노후 영구 임대주택 리모델링 관련 문의는 한국토지주택공사로 하시면 되며, 한국토지주택공사의 전화번호는 1600-1004 입니다.', metadata={'source': 'data\\teamA\\01_생계_지원\\01_노후_영구_임대주택_리모델링.md'}),
 Document(page_content=", 실내환경 개선공사는 7월부터 10월까지, 환경성질환 소아,청소년,어르신 등 진료 지원은 7월부터 11월까지 진행됩니다. 개선공사는 진단 및 컨설팅 결과 개선대상으로 선정된 가구에 한합니다.'입니다.", metadata={'source': 'data\\teamA\\01_생계_지원\\01_사회취약계층_환경성_질환_예방사업.md'}),
 Document(page_content='LPG용기 사용가구 시설개선\n\nLPG용기 사용가구 시설개선의 대상은 LPG용기 사용 주택에서 LPG 고무호스를 사용 중인 가구입니다.\n\nLPG용기 사용가구 시설개선의 내용은 다음과 같습니다. LPG가스 고무호스 교체(금속배관) 및 안전장치(퓨즈콕) 등 가스시설 설치 지원입니다. 시공비 약 25만 원 중 20만 원 상당 지원하며, 자부담은 5만 원입니다.\n\nLPG용기 사용가구 시설개선의 신청방법은 수혜대상자가 소재지 시군구 가스담당부서 또는 읍면동 주민센터(행정복지센터)로 방문하여 신청하시면 됩니다.\n\nLPG용기 사용가구 시설개선에 대한 문의는 소재지 시군구 가스담당부서 또는 읍면동 주민센터(행정복지센터), 또는 한국가스안전공사로 하시면 됩니다.\n한국가스안전공사의 전화번호는 1544-4500 입니다.', metadata