In [1]:
from langchain_chroma import Chroma
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
import os
from glob import glob

In [2]:
def merge_textloader(path: list, pattern: str = '*_GA.txt') -> list:
    """ 경로상 모든 텍스트 파일의 내용을 리스트 형태로 반환 """
    text_files = glob(os.path.join(path, pattern))
    
    data = []

    for file in text_files:
        loader = TextLoader(file, encoding = 'utf-8')
        data.append(loader.load()[0])
    
    return data


path = '../../data/GA_information'

text_files = merge_textloader(path)

print(len(text_files[0].page_content))
text_files[0].page_content

1296


'총무팀 업무 메뉴얼을 안내합니다.\n\n[총무팀 구성원]\n1. 이동훈님 (이메일: main3373@gmail.com, 연락처: 010-3271-7132)\n - 역할 : 총무 일괄 지원, IT 총무(PC, 소프트웨어 장애 등 IT 관련 지원)\n\n[업무 요청]\n1. 유형자산, 무형자산 신청\n 1) 현재 우리 회사는 직군 별 장비 스펙 및 소프트웨어를 분리하여 산정하고 있으며, 이외의 추가적인 수요는 내부 논의 후 요청 필요\n 2) 개인 장비 or 소프트웨어는 보안상 사용이 어려우며, 특별한 사유가 있는 경우 총무팀 이동훈님에게 문의 (상세 내용 링크 : \'https://dooohn.company/asset\')\n 3) 유형자산은 PC 및 PC 소모품 비품 등을 말하며, 무형자산은 소프트웨어 및 기타 소프트웨어 저작권을 뜻함\n 4) 구매 및 지급 검토 요청 메일 발송\n 5) 요청 메일 양식은 제목에 "[소속 부서팀] ~~ 장비 요청"으로 보내주시고, 내용에는 요청 자산(소프트웨어 or 장비명), 수량, 요청 사유에 대해서 기재\n 6) 수신 라인은 \'수신: 기술지원본부 본부장 / 참조: 경영지원본부 본부장, 총무팀, 소속 부서 실장\'\n\n2. 정기 주차\n 1) 안내 : 현재 우리 회사는 50대의 무료 주차분이 할당되어있으며, 정기 주차 등록 인원이 50대를 초과할 경우 초과 비용에 대해서만 1/n으로 익월 급여 공제\n 2) 주차 비용 : 아래 주차 비용 계산 방법 참조\n 3) 주차 비용 계산 방법 : (총 주차 인원 - 50명) * 143,000원 / 총 주차인원\n 4) 주차 비용 계산 예시: 총 주차 인원이 100명일 경우 -> (100 - 50) * 143,000 / 100\n 5) 주의사항 : 건물 주차 정산 시스템 상 중도 해지 불가능\n 6) 주차 신청, 해지 및 주차 정보 변경 방법 : \'https://dooohn.company/parkingsystem\'\n 7) 필수 정보 입력 : 소속 부서, 이름, 연락처, 차량 

In [3]:
# Text_Splitter 객체 생성
text_spliter = CharacterTextSplitter(
    chunk_size = 300,   # 청크 크기
    chunk_overlap = 50, # 청크 중 중복되는 부분 크기
    separator = ''      # 청크를 나눌 때 사용할 구분자 (보통 공백 ~ \n, \n\n 사용)
)

# 텍스트 분할 : 청크로 분할하여 doc객체로 반환
split_results = text_spliter.split_documents(text_files)

split_results

[Document(metadata={'source': '../../data/GA_information/Guide_GA.txt'}, page_content='총무팀 업무 메뉴얼을 안내합니다.\n\n[총무팀 구성원]\n1. 이동훈님 (이메일: main3373@gmail.com, 연락처: 010-3271-7132)\n - 역할 : 총무 일괄 지원, IT 총무(PC, 소프트웨어 장애 등 IT 관련 지원)\n\n[업무 요청]\n1. 유형자산, 무형자산 신청\n 1) 현재 우리 회사는 직군 별 장비 스펙 및 소프트웨어를 분리하여 산정하고 있으며, 이외의 추가적인 수요는 내부 논의 후 요청 필요\n 2) 개인 장비 or 소프트웨어는 보안상 사용이 어려우며, 특별한 사유가 있는 경우 총무팀 이동훈님에게 문의 (상세'),
 Document(metadata={'source': '../../data/GA_information/Guide_GA.txt'}, page_content='트웨어는 보안상 사용이 어려우며, 특별한 사유가 있는 경우 총무팀 이동훈님에게 문의 (상세 내용 링크 : \'https://dooohn.company/asset\')\n 3) 유형자산은 PC 및 PC 소모품 비품 등을 말하며, 무형자산은 소프트웨어 및 기타 소프트웨어 저작권을 뜻함\n 4) 구매 및 지급 검토 요청 메일 발송\n 5) 요청 메일 양식은 제목에 "[소속 부서팀] ~~ 장비 요청"으로 보내주시고, 내용에는 요청 자산(소프트웨어 or 장비명), 수량, 요청 사유에 대해서 기재\n 6) 수신 라인은 \'수신: 기술지원본부 본부장 / 참'),
 Document(metadata={'source': '../../data/GA_information/Guide_GA.txt'}, page_content=", 수량, 요청 사유에 대해서 기재\n 6) 수신 라인은 '수신: 기술지원본부 본부장 / 참조: 경영지원본부 본부장, 총무팀, 소속 부서 실장'\n\n2. 정기 주차\n 1) 안내 : 현재 우리 회사는 50

In [4]:
# Define Embedding Model
embeddings = OllamaEmbeddings(model = 'bge-m3')

""" Splitted Data Embedding """
# Document Object >> list(element type: str)
extract_contents = [doc.page_content for doc in split_results]

# element(str) >> embedding >> return list
embed_multi_texts = [embeddings.embed_query(extract_content) for extract_content in extract_contents]

print(len(embed_multi_texts), embed_multi_texts)

  embeddings = OllamaEmbeddings(model = 'bge-m3')


5 [[-1.034986138343811, 0.1741342693567276, -0.8236814737319946, -0.541582465171814, -0.8909276127815247, -2.1725008487701416, 0.2858563959598541, -0.5651860237121582, -0.1551695466041565, 0.30512967705726624, 0.010363880544900894, -0.28646236658096313, -0.1340644657611847, 0.24481388926506042, 0.5365945100784302, 0.710318386554718, -0.03385736420750618, -0.19225551187992096, -0.07965990155935287, -0.5217293500900269, 0.3496886193752289, 0.09501436352729797, 1.5262922048568726, -0.11458292603492737, -0.37614455819129944, 0.033323004841804504, 0.33906319737434387, 0.029093295335769653, 0.7255801558494568, 0.5179374814033508, -0.49631205201148987, -0.8888648152351379, 0.5261611342430115, 0.010445721447467804, -0.9201993942260742, 0.23399218916893005, 0.8629928827285767, -1.4363512992858887, -1.117747187614441, 0.936931312084198, -0.5838550925254822, 0.7523859739303589, -0.5641023516654968, -0.8760470151901245, -0.20493245124816895, -0.4346036911010742, -0.08420106023550034, -0.8499436974

In [5]:
# 벡터 저장소 정의 (반복 사용 가능)
vector_store = Chroma.from_documents(
    documents = split_results,        # Document 객체 리스트 (TextSplitter로 분할된 문서)
    embedding = embeddings,           # 임베딩 모델 정의 변수
    collection_name = "ga_assistant",           # 필요할 때 호출할 수 있는 컬렉션 이름 정의
    persist_directory = "../company_assistant"  # 로컬 경로 지정 (미지정 시 RAM에 저장 -> 휘발되니 경로 지정 필요)
)

# 벡터 저장소에 저장된 문서 수 반환
counts_vector_store = vector_store._collection.count()

print(f"벡터 저장소에 저장된 문서 수 : {counts_vector_store}")

벡터 저장소에 저장된 문서 수 : 16


In [6]:
retriever = vector_store.as_retriever(search_kwargs = {'k': 2})

query = "총무팀의 구성원이 어떻게 될까?"

relevant_docs = retriever.invoke(query)

relevant_docs

[Document(id='5ebcaa6e-254d-4fab-8602-c2a8257de19a', metadata={'source': '../../data/GA_information/Guide_GA.txt'}, page_content='총무팀 업무 메뉴얼을 안내합니다.\n\n[총무팀 구성원]\n1. 이동훈님 (이메일: main3373@gmail.com, 연락처: 010-3271-7132)\n - 역할 : 총무 일괄 지원, IT 총무(PC, 소프트웨어 장애 등 IT 관련 지원)\n2. 콩심이형 : 가지가지\n3. 정대디 : 윈터 is coming\n4. 김기현 : 키발놈\n5. 박경훈 : 사마궁\n6. 천희원 : 12월 21일 일요일 오전 11시 엘리아나 호텔에서 결혼함\n7. 정별희 : 똥쟁이\n\n[업무 요청]\n1. 유형자산, 무형자산 신청\n 1) 현재 우리 회사는 직군 별 장비 스'),
 Document(id='c036dc0a-0a98-486d-9260-ec948144beee', metadata={'source': '../../data/GA_information/Guide_GA.txt'}, page_content='총무팀 업무 메뉴얼을 안내합니다.\n\n[총무팀 구성원]\n1. 이동훈님 (이메일: main3373@gmail.com, 연락처: 010-3271-7132)\n - 역할 : 총무 일괄 지원, IT 총무(PC, 소프트웨어 장애 등 IT 관련 지원)\n\n[업무 요청]\n1. 유형자산, 무형자산 신청\n 1) 현재 우리 회사는 직군 별 장비 스펙 및 소프트웨어를 분리하여 산정하고 있으며, 이외의 추가적인 수요는 내부 논의 후 요청 필요\n 2) 개인 장비 or 소프트웨어는 보안상 사용이 어려우며, 특별한 사유가 있는 경우 총무팀 이동훈님에게 문의 (상세')]

In [7]:
def check_vectorstore_status():
    collection = vector_store._collection
    print(f"저장된 문서 수: {collection.count()}")
    
    # 샘플 검색으로 테스트
    docs = retriever.get_relevant_documents("테스트")
    print(f"검색된 문서 수: {len(docs)}")
    for doc in docs:
        print(f"문서 내용: {doc.page_content[:100]}...")

check_vectorstore_status()

저장된 문서 수: 16
검색된 문서 수: 2
문서 내용: [업무 요청]
1. 유형자산, 무형자산 신청
 1) 현재 우리 회사는 직군 별 장비 스펙 및 소프트웨어를 분리하여 산정하고 있으며, 이외의 추가적인 수요는 내부 논의 후 요청 필요...
문서 내용: 트웨어는 보안상 사용이 어려우며, 특별한 사유가 있는 경우 총무팀 이동훈님에게 문의 (상세 내용 링크 : 'https://dooohn.company/asset')
 3) 유형자산은...


  docs = retriever.get_relevant_documents("테스트")


In [8]:
def check_vectorstore_status():
    collection = vector_store._collection
    print(f"저장된 문서 수: {collection.count()}")
    
    # 샘플 검색으로 테스트
    docs = retriever.get_relevant_documents("테스트")
    print(f"검색된 문서 수: {len(docs)}")
    for doc in docs:
        print(f"문서 내용: {doc.page_content[:100]}...")

check_vectorstore_status()

저장된 문서 수: 16
검색된 문서 수: 2
문서 내용: [업무 요청]
1. 유형자산, 무형자산 신청
 1) 현재 우리 회사는 직군 별 장비 스펙 및 소프트웨어를 분리하여 산정하고 있으며, 이외의 추가적인 수요는 내부 논의 후 요청 필요...
문서 내용: 트웨어는 보안상 사용이 어려우며, 특별한 사유가 있는 경우 총무팀 이동훈님에게 문의 (상세 내용 링크 : 'https://dooohn.company/asset')
 3) 유형자산은...
