# LangChain으로 문서 기반 QA 봇 만들기 - PDF, Word, PPT, text

#### 자료 출처: 아래의 링크에서 PDF 형식으로 파일을 다운받습니다.
- 링크: https://www.law.go.kr/LSW/LsiJoLinkP.do?lsNm=%EC%A3%BC%ED%83%9D%EC%9E%84%EB%8C%80%EC%B0%A8%EB%B3%B4%ED%98%B8%EB%B2%95&paras=1&docType=&languageType=KO&joNo=#

### 발급 받은 OpenAI key를 불러옵니다.

In [None]:
import os

os.environ["OPENAI_API_KEY"] = ''

### 필요 모듈을 불러옵니다.

In [1]:
!pip install PyPDF2 python-docx python-pptx tiktoken finance-datareader googletrans==3.1.0a0 

Defaulting to user installation because normal site-packages is not writeable
Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Collecting python-docx
  Downloading python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Collecting python-pptx
  Downloading python_pptx-1.0.2-py3-none-any.whl.metadata (2.5 kB)
Collecting tiktoken
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting finance-datareader
  Downloading finance_datareader-0.9.94-py3-none-any.whl.metadata (466 bytes)
Collecting googletrans==3.1.0a0
  Downloading googletrans-3.1.0a0.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting httpx==0.13.3 (from googletrans==3.1.0a0)
  Downloading httpx-0.13.3-py3-none-any.whl.metadata (25 kB)
Collecting hstspreload (from httpx==0.13.3->googletrans==3.1.0a0)
  Downloading hstspreload-2024.10.1-py3-none-any.whl.metadata (2.1 kB)
Collecting chardet==3.* (from httpx==0.13.3

In [3]:
!pip3 install bs4

Defaulting to user installation because normal site-packages is not writeable
Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Collecting beautifulsoup4 (from bs4)
  Downloading beautifulsoup4-4.12.3-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>1.2 (from beautifulsoup4->bs4)
  Downloading soupsieve-2.6-py3-none-any.whl.metadata (4.6 kB)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Downloading beautifulsoup4-4.12.3-py3-none-any.whl (147 kB)
Downloading soupsieve-2.6-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4, bs4
Successfully installed beautifulsoup4-4.12.3 bs4-0.0.2 soupsieve-2.6


In [3]:
import openai
from PyPDF2 import PdfReader

from langchain.document_loaders import PyPDFLoader, Docx2txtLoader

### PDF, Word, PPT, txt 파일 중 하나를 선택해서 그 내용을 불러옵니다.

#### Option 1. PDF 파일을 불러옵니다.

In [30]:
path ='data/주택임대차보호법(법률)(제19356호)(20230719).pdf'

#### Option 2. Word 파일을 불러옵니다.

In [7]:
import docx
from docx.shared import Pt
from docx.enum.text import WD_ALIGN_PARAGRAPH

In [11]:
path = "data/주택임대차보호법(법률)(제19356호)(20230719).docx"

#### Option 3. PPT 파일을 불러옵니다.

In [15]:
from pptx import Presentation
prs = Presentation("data/주택임대차보호법(법률)(제19356호)(20230719).pptx")

#### Option 4. txt 파일을 불러옵니다.

In [16]:
path = "data/주택임대차보호법(법률)(제19356호)(20230719).txt"

### OpenAI Chat model 설정


In [None]:
from langchain.chat_models import ChatOpenAI



- 사용할 수 있는 모델들: gpt-3.5-turbo, gpt-3.5-turbo-16k, gpt-4, gpt-4-32k 등이 있으며, 토큰 수가 더 많이 제공되는 gpt-3.5-turbo-16k와 gpt-4-32k 모델의 경우 답변이 길어져서 잘리는 경우가 생길 때 사용하면 좋습니다.

### 질문 답변을 위한 도구(Chain) 만들기
- chain_type="map_reduce"를 이용하여, PDF 전체 텍스트의 양이 많기 때문에 전체 텍스트를 덩어리(batch)로 나누어 질문과 관련이 있는 덩어리(batch)를 기준으로 답변을 해주도록 설정합니다.

In [None]:
from langchain.chains.question_answering import load_qa_chain
from langchain.chains import AnalyzeDocumentChain


### 질문 답변 예제

### 사용의 편의성을 위해 함수로 만들기
- 프롬프트를 입력하면 출력 결과와 함께 총 사용 토큰과 그에 따른 달러/원 비용, 그리고 소요 시간이 함께 출력되는 함수를 만듭니다.  
- 참고: 1 token은 대략 영어에서 알파벳 4개 정도의 크기에 해당하며, 한글은 한 글자가 초성, 중성, 종성 세 글자로 구성되기에 영어보다 훨씬 토큰 수가 더 많이 소모됩니다.

In [None]:
import FinanceDataReader as fdr

exchange_rate = fdr.DataReader('USD/KRW').iloc[-1][0]

In [34]:
from langchain.callbacks import get_openai_callback
from langchain.chat_models import ChatOpenAI
from langchain.chains.question_answering import load_qa_chain
import time

def qa_bot(source, question, model='gpt-3.5-turbo', temperature=0, chain_type="map_reduce"):



    with get_openai_callback() as cb:


        print(f"Total Tokens: {cb.total_tokens}")
        print(f"Prompt Tokens: {cb.prompt_tokens}")
        print(f"Completion Tokens: {cb.completion_tokens}")
        print(f"Total Cost (USD): {cb.total_cost:.2f}$, Total Cost (Won): {cb.total_cost*exchange_rate:.2f}₩")
        print(f"걸린 시간: {end-start:.2f}초")

## 우리가 만든 PDF QA 봇을 실습해봅시다.

#### [TODO] qa_bot 함수를 활용해서, 불러온 문서에 대해 GPT 3.5 모델과 GPT 4 모델 각각에 대해 예시 프롬프트를 사용해서 문서 기반 QA를 수행해 보세요.

### Q1. 임대차가 끝난 후 보증금이 반환되지 아니한 경우에는 어떻게 해야 할까?


### Q2. 확정일자를 갖추지 않은 임차인은 어떤 문제가 생기니?


### Q3. 확정일자를 받으려면 어떻게 해야 하니?

### Q4. 임차인에게 별다른 계약 갱신에 대한 통지를 하지 않으면 어떻게 되니?


### Q5. 임차인은 계약을 갱신하고 싶지 않으면 임대인에게 갱신거절 통지를 언제까지 해야하니?



### Q6. 임대인이 계약갱신 요구를 거절할 수 있니?


### Q7. 임차인은 계약 갱신요구를 몇 번까지 할 수 있니?


#### [TODO] qa_bot 함수를 활용해서, 나만의 문서 기반 QA를 수행해 보세요.

In [None]:
# 문서 불러오기 (원하는 문서의 포멧에 맞게 위 함수를 불러오세요)
# 불러온 문서의 결과는 paper_text 변수로 저장하세요


In [26]:
# 번역을 위한 번역기 함수
import googletrans

def translator(sent, lang):
    translator = googletrans.Translator()
    result = translator.translate(sent, dest=lang)
    return result.text

In [None]:
# 한국어는 'ko', 영어는 'en'
question = ' '
translated = translator(question, 'en')
translated

In [None]:
# 질의응답 하기
question = ""
qa_bot(source=paper_text, question=translated, model='gpt-4', temperature=0)