In [None]:
# RAG - 1. indexing(Huggingface방식)

> 1) indexing 작업 (문서를 읽어서, vectorstore에 저장하기)
> 2) 목적 : langchain기능 사용해보기, web으로 문서파일을 업로드하고, document을 읽어서, split해서, chroma에 추가하는 기능
> 3) 확장해보기 : text, pdf등 문서읽기로 확장
> 4) 선행작업 : HF_TOKEN 등록후 획득  (https://huggingface.co)

# 1) loaders
# pdf, text, youtube(음성인식후), office file등



In [1]:
# 1) HF_TOKEN 먼저 확보하고, ".env"파일에 저장해두어야 한다.

from dotenv import load_dotenv
load_dotenv("/home/mhkwon/.env")

import os

#HF_TOKEN = "get your token in http://hf.co/settings/tokens"
HF_TOKEN = os.getenv('HF_TOKEN')
print(HF_TOKEN)

#from huggingface_hub import login
#hf_token = login(token=HF_TOKEN, add_to_git_credential=True)

# 에러가 나면, linux에서 다음 명령어를 실행
# git config --global credential.helper store

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


In [2]:
# 2) vdb 저장 경로 및 읽어올 문서의 url

VECTORSTORE_PATH = 'saved_vdb'


In [3]:
# 다음른 langchain으로 돌아가는것이므로, 버전 확인을 한다.

import langchain

print(langchain.__version__)

# v0.3.8에서 정상동작

0.3.8


In [6]:
from langchain_huggingface import HuggingFaceEmbeddings

#from langchain.embeddings import HuggingFaceEmbeddings # OLD
#from langchain_huggingface import HuggingFaceEmbeddings # OLD
#from langchain_community.embeddings import HuggingFaceEmbeddings  #OLD

hf_embeddings = HuggingFaceEmbeddings()

In [7]:
hf_embeddings

HuggingFaceEmbeddings(model_name='sentence-transformers/all-mpnet-base-v2', cache_folder=None, model_kwargs={}, encode_kwargs={}, multi_process=False, show_progress=False)

In [9]:
#pdf 문서를 읽어들인다.  파일을 업로드하고, 이름은 바꾸어서 사용한다.

from langchain_community.document_loaders import PyPDFLoader
#from langchain.document_loaders import PyPDFLoader  # OLD

loader = PyPDFLoader('tax.pdf')
pages = loader.load()



In [10]:
#읽어들인 부분문서의 갯수

len(pages)

73

In [11]:
pages[50]

Document(metadata={'source': 'tax.pdf', 'page': 50}, page_content='Schedule\n[국세청 누리집 www.nts.go.kr] → [ 국세신고안내 ] → [ 법인신고안내 ] → [ 법인세 ] → [ 참고자료실 ]\n국세청법인세과❖\n')

In [12]:

# tokenizer


from transformers import GPT2TokenizerFast

tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

In [13]:
tokenizer.encode('aaaaaa')

[24794, 7252]

In [14]:
tokenizer

GPT2TokenizerFast(name_or_path='gpt2', vocab_size=50257, model_max_length=1024, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<|endoftext|>', 'eos_token': '<|endoftext|>', 'unk_token': '<|endoftext|>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	50256: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
}

In [15]:

# 문서를 일정 크기만큼 쪼갠다.

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer,
    separators=["\n\n","\n", " "],
    chunk_size = 800,
    chunk_overlap = 100,
    is_separator_regex=False
)

text = text_splitter.split_documents(pages)


In [16]:
# 문서를 vdb에서 저장한다.

#from langchain.vectorstores import Chroma  # OLD
#from langchain_community.vectorstores import Chroma  # OLD

from langchain_chroma import Chroma

#Create the vectorstore
vectorstore = Chroma.from_documents(text, hf_embeddings, persist_directory=VECTORSTORE_PATH)
#store.persist()


# 2단계 - 검색(query) 단계



In [17]:

#저장된 vectorstore을 읽어들인다.

vectordb = Chroma(persist_directory=VECTORSTORE_PATH, embedding_function=hf_embeddings)



In [18]:

# 다음 문장과 유사한 문장을 저장된 vdb에서 찾아낸다.

prompt = '법인세 신고는 어떻게 하나요?'

search = vectordb.similarity_search_with_score(prompt)


In [19]:
# 아래 결과는 저장된 문서에 가장 유사한 문장을 찾아 낸것이다.
# 유사성정도의 수치는 마지막 숫자로, 1.0에 가까울수록 높다.

search

[(Document(metadata={'page': 56, 'source': 'tax.pdf'}, page_content='국세청법인세과'),
  0.5447753544074946),
 (Document(metadata={'page': 35, 'source': 'tax.pdf'}, page_content='국세청법인세과'),
  0.5447753544074946),
 (Document(metadata={'page': 2, 'source': 'tax.pdf'}, page_content='국세청법인세과'),
  0.5447753667831421),
 (Document(metadata={'page': 7, 'source': 'tax.pdf'}, page_content='국세청법인세과'),
  0.5447753667831421)]