# **과제2 : 챗봇 만들기2**

## 0.미션

* 예비 에이블러들을 위한 QA 챗봇 모델 만들기2
    * Vector DB에 데이터 추가하기
    * Retriever, memory, LLM를 연결하기
    * 실행시 이력 DB 생성하고 기록하기
    * test

## **1.환경준비**

### (1) 라이브러리 Import

In [1]:
import pandas as pd
import numpy as np
import os
import sqlite3
from datetime import datetime

import openai

from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage, Document
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA, ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

### (2) OpenAI API Key 확인
* 환경변수로 등록된 Key 확인하기

In [2]:
# 환경변수에서 키 불러오기
api_key = os.getenv('OPENAI_API_KEY')
print(api_key)

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


* 만약 환경변수 키 설정이 잘 안된다면 아래 코드셀의 주석을 해제하고, 자신의 api key를 입력하고 실행
    * 아래 코드는 키 지정을 **임시**로 수행함.
    * 파이썬 파일(.ipynb, .py)안에서 매번 수행해야 함.

## **2.Vector DB 만들기**

* 데이터 로딩 
    * 1일차에서 제공한 csv 파일의 구조를 그대로 이용
    * 에이블스쿨 홈페이지 FAQ 데이터 수집(https://aivle.kt.co.kr/home/brd/faq/main?mcd=MC00000056)
        * 모든 질문을 csv 형태로 저장
    * 데이터프레임으로 저장하기

In [3]:
import pandas as pd

df = pd.read_csv('onsemi_qa.csv', encoding='utf-8')
df.tail()

Unnamed: 0,구분,QA
43,의료지원,"의료급여 틀니, 치과 임플란트 지원 사업에 대해서 문의하고 싶은데 전화번호가 어떻게..."
44,교통지원,대중교통 지원 해줘? 네 지원합니다. 월 15회 이상 대중교통 이용 비용의 일정비율...
45,교통지원,대중교통 지원 대상이 어떻게 돼? 만 19세 이상 국민 중 월 15회 이상 대중교통...
46,교통지원,"대중교통 지원비 신청 방법은 어떻게 돼? 별도 신청 없이 직접 지원합니다. (단, ..."
47,교통지원,대중교통 지원에 대해서 문의 하고 싶은데 전화 번호가 뭐야? K-패스 고객센터 :...


* 벡터 데이터베이스
    * 1일차 벡터 데이터베이스를 그대로 이용
        * Embedding 모델 : text-embedding-ada-002
        * DB 경로 : ./db



In [4]:
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

database = Chroma(persist_directory="./database", 
                    embedding_function = embeddings  
)

* 데이터 입력
    * 기존 입력을 모두 제거하고 추가 사항만 모두 입력
    * meta data로 '구분' 칼럼 값 추가하기

In [5]:
database.get()

{'ids': ['0c5e5893-78b3-4d8e-8701-476745867fd0',
  '0d53fe9c-302b-42c2-8407-91497b777d99',
  '0f1a58a8-19d3-4a5f-869a-0e87d83d8d29',
  '1320d636-c38a-4697-9772-fc4af1005e73',
  '200b6392-d642-46ef-8911-c8213e6d4b21',
  '2736202a-f48e-450b-aa4b-50a9305f67f2',
  '292aa65a-5286-48ce-b02d-bc711995cca6',
  '318868dc-40ad-4a0e-947c-2734fb506ee0',
  '353d02fa-a5dc-4b62-a66f-6ab280a33357',
  '45067f2b-1b14-4808-bd44-70ddb308c2cc',
  '4b9c2ba2-fcf4-4fa9-b5f8-04e2658c5a54',
  '73df2a5b-ef20-4dfc-bbc9-bd9ede185727',
  '756e4a6b-9fe4-4a28-b6bb-9578c8fb2b0b',
  '82a12d5e-ed8d-4b59-bf99-ff5fc4ee1837',
  '87e6274c-efa3-475d-bbb6-eb256402d3ad',
  '91da1bd7-b612-45f4-b734-7e7554718158',
  'a1962f53-4a1f-4ec1-954e-a39352aa5d52',
  'a691beaf-bd41-4c77-8002-ab0a53c610ea',
  'abbaced0-068c-43d4-b5ac-c02c4a9dfd19',
  'b1b188de-a500-4a1f-82dc-82d03811379b',
  'b7bc2246-52e1-4d87-aaee-373cf2c70e4d',
  'bccfda7c-1711-4ddd-937c-74961ccbbef0',
  'c225a912-cce1-485c-aca9-a43e26e0e48d',
  'c89f8271-989e-43a7-b7db-

In [6]:
text_list = df['QA'].tolist()
metadata_list = df['구분'].tolist()

metadata = [{'구분': category} for category in metadata_list]

documents = [Document(page_content=text, metadata=meta) for text, meta in zip(text_list, metadata)]

database.add_documents(documents)

['1a4b11a8-31cf-4a44-8c5a-da107b850e42',
 '918f6c31-975e-4401-8fe9-24ba43b864ae',
 'eef4447e-1cc4-4f1c-b9be-6f744a4daf7f',
 '655901a9-d605-47fd-9b4f-c7a1cdaa4713',
 '4288a9da-76ad-4685-b9d7-a7980131901e',
 'e2f81034-38c3-45fd-9962-5a2575c13185',
 'ad81549d-c61c-4982-bc58-0e6380d51b53',
 '54d95163-eaf5-4329-8197-15dc21327047',
 'fd0f03cb-642e-46d3-a428-6130b3be4d96',
 '73664da2-bbae-44af-a255-928b25a07ffd',
 '9761280c-2666-4774-823d-b134e123f102',
 '1a999467-7173-406b-ada4-ff1950b4312e',
 '45509130-6a00-4f87-9db1-8a8e045f0681',
 '59cbb8f5-4541-45ee-b4d9-99ab8e713c68',
 'c8dc27b1-7b12-4b5f-87e3-a28a9c48ef36',
 '1955b358-bfb5-4f5f-bd65-d00102374772',
 'afb30c45-44f7-4d5b-8ca8-b48d455c60cb',
 'f4ed0128-4a3c-432f-88c7-40f55d949c75',
 '4f2674e4-c06f-4738-bd44-b14cfccb01c1',
 'e5c3ede3-92b5-4e7a-af44-3c99919265ff',
 '67a82e21-cc28-4a51-9f8e-d830afb2d0c6',
 'e94f63e2-d54f-4a40-aad8-64f03d88ccfe',
 '71ee4086-56bd-4fe8-a454-4cdddae1f34b',
 'ea72440a-0abb-41c6-894d-5f39816b2e8e',
 '1159bba5-2c5d-

* 입력된 데이터 조회

In [7]:
dtt = database.get()
docu = pd.DataFrame(dtt)
docu[['metadatas','documents']]

Unnamed: 0,metadatas,documents
0,{'구분': '교통지원'},대중교통 지원 대상이 어떻게 돼? 만 19세 이상 국민 중 월 15회 이상 대중교통...
1,{'질문': '너 이름이 뭐야?'},"너 이름이 뭐야?, 제 이름은 없습니다. 궁금한 점이 있으시면 언제든지 질문해주세요!"
2,{'구분': '질문'},서비스 이용 요금은 어떻게 되나요? 무료로 사용 가능합니다.
3,{'구분': '질문'},서비스 사용 중 생기는 문제를 어떻게 신고하나요? 챗봇을 통한 답변이 나오지 않을 ...
4,{'구분': '노인정책'},노인실명예방관리사업 신청은 어떻게 하나요? 주소지 관할보건소 또는 한국실명예방제단에...
...,...,...
76,{'구분': '온새미 질문'},어르신의 건강 정보 입력은 누가 할 수 있나요? 첫 가입시 보호자님이 작성후 봉사자...
77,{'구분': '교통지원'},대중교통 지원에 대해서 문의 하고 싶은데 전화 번호가 뭐야? K-패스 고객센터 :...
78,{'구분': '온새미 질문'},주문한 상품을 반품하거나 교환할 수 있나요? 반품이나 교환은 어렵습니다. 하지만 제...
79,{'구분': '교통지원'},대중교통 지원 해줘? 네 지원합니다. 월 15회 이상 대중교통 이용 비용의 일정비율...


## **3.RAG+LLM모델**

* 모델 : ConversationalRetrievalChain
    * LLM 모델 : gpt-3.5-turbo
    * retriever : 벡터DB
        * 유사도 높은 문서 3개 가져오도록 설정
    * memory 사용
* 요구사항
    * 질문 history 관리를 위한 이력 저장 DB 생성
        * DB 명 : db_chatlog
        * 테이블 명 : history
            * id INTEGER PRIMARY KEY : 이렇게 설정하면 자동증가 값으로 채워짐
            * datetime TEXT : 질문시점 yyyy-mm-dd hh:mi:ss
            * query TEXT : 질문
            * sim1 REAL : 첫번째 문서의 유사도 점수
            * sim2 REAL : 두번째 문서의 유사도 점수
            * sim3 REAL : 세번째 문서의 유사도 점수
            * answer TEXT : 답변
        * 유사도 점수는 similarity_search_with_score 메서드를 이용해서 저장해야 함
        * 질문과 답변이 진행될 때마다 history 테이블에 데이터 입력

* 관리용 DB, 테이블 생성

* 모델 선언

* 모델 사용 및 이력 확인

In [8]:
chat = ChatOpenAI(model="gpt-3.5-turbo")
k=3
retriever = database.as_retriever(search_kwargs={"k": k})

memory = ConversationBufferMemory(memory_key="chat_history", input_key="question", output_key="answer",
                                  return_messages=True)#대화가 시작될때 memory가 실행되어야 한다.

qa = ConversationalRetrievalChain.from_llm(llm=chat, retriever=retriever, memory=memory,
                                           return_source_documents=True,  output_key="answer")

path = './db_chatlog/chatlog.db'
conn = sqlite3.connect(path)

cursor = conn.cursor()

cursor.execute('''DROP TABLE IF EXISTS history''')

cursor.execute('''
CREATE TABLE IF NOT EXISTS history (
    id INTEGER PRIMARY KEY,
    datetime TEXT NOT NULL,
    query TEXT NOT NULL,
    sim1 REAL NOT NULL,
    sim2 REAL NOT NULL,
    sim3 REAL NOT NULL,
    answer TEXT NOT NULL
)
''')

conn.commit()
conn.close()

while True:
    query = input('질문 > ')
    query = query.strip()
    print(f'질문 : {query}')
    print('-' * 20)
    if len(query) == 0:
        break
    result = qa({"question": query})
    print(f'답변 : {result["answer"]}')
    print('=' * 50)
    
    dt = datetime.now()
    dt = dt.strftime('%Y-%m-%d %H:%M:%S')
    
    score = []
    result2 = database.similarity_search_with_score(query, k = k)
    for doc in result2:
        score.append(round(doc[1], 5))
        
    conn = sqlite3.connect(path)

    history_data = pd.DataFrame({'datetime': [dt],'query':[query],'sim1': [score[0]],'sim2': [score[1]],'sim3': [score[2]],'answer':[result["answer"]]})
    history_data.to_sql('history', conn, if_exists='append', index=False)
    
    d2 = pd.read_sql('SELECT * FROM history', conn)
    display(d2)
    print(memory.load_memory_variables({}))

    conn.close()
lod_df = d2

In [None]:
query = "지원자격은??"   # 질문할 문장
k = 3                      # 유사도 상위 k 개 문서 가져오기.

result = database.similarity_search_with_score(query, k = k) #← 데이터베이스에서 유사도가 높은 문서를 가져옴
print(result)
print('-'*50)
for doc in result:
    print(f"유사도 점수 : {round(doc[1], 5)}, 문서 내용: {doc[0].page_content}") # 문서 내용 표시

[(Document(page_content='대중교통 지원 대상이 어떻게 돼? 만 19세 이상 국민 중 월 15회 이상 대중교통 이용자를 대상으로 지원합니다. 외국인 등록번호가 있는 외국인에 한해 회원가입 가능합니다. 외국인 등록번호로 거소사실 여부를 확인할 수 없다면, ""홈페이지""로 가입 가능합니다. ', metadata={'구분': '교통지원'}), 0.291273675140306), (Document(page_content='대중교통 지원 대상이 어떻게 돼? 만 19세 이상 국민 중 월 15회 이상 대중교통 이용자를 대상으로 지원합니다. 외국인 등록번호가 있는 외국인에 한해 회원가입 가능합니다. 외국인 등록번호로 거소사실 여부를 확인할 수 없다면, ""홈페이지""로 가입 가능합니다. ', metadata={'구분': '교통지원'}), 0.291273675140306), (Document(page_content='어르신의 건강 정보 입력은 누가 할 수 있나요? 첫 가입시 보호자님이 작성후 봉사자가 관리합니다.', metadata={'구분': '질문'}), 0.3127854441394578)]
--------------------------------------------------
유사도 점수 : 0.29127, 문서 내용: 대중교통 지원 대상이 어떻게 돼? 만 19세 이상 국민 중 월 15회 이상 대중교통 이용자를 대상으로 지원합니다. 외국인 등록번호가 있는 외국인에 한해 회원가입 가능합니다. 외국인 등록번호로 거소사실 여부를 확인할 수 없다면, ""홈페이지""로 가입 가능합니다. 
유사도 점수 : 0.29127, 문서 내용: 대중교통 지원 대상이 어떻게 돼? 만 19세 이상 국민 중 월 15회 이상 대중교통 이용자를 대상으로 지원합니다. 외국인 등록번호가 있는 외국인에 한해 회원가입 가능합니다. 외국인 등록번호로 거소사실 여부를 확인할 수 없다면, ""홈페이지""로 가입 가능합니다. 
유사도 점수 : 0.31279, 문서 내용: 어르신의 건강 정보 

In [None]:
display(log_df)

NameError: name 'log_df' is not defined

In [None]:
# def process_query(query, k=3):
#     result = database.similarity_search_with_score(query, k=k)
#     sim1 = round(result[0][1], 5)
#     sim2 = round(result[1][1], 5)
#     sim3 = round(result[2][1], 5)
#     dt = datetime.now()    
#     dt = dt.strftime('%Y-%m-%d %H:%M:%S')
#     answer_result = qa({"question": query})    
#     answer = answer_result["answer"]    
#     return dt, query, sim1, sim2, sim3, answer
# conn = sqlite3.connect(path) 
# while True:    
#     query = input('질문 > ').strip()    
#     if not query:        break   
#     print(f'질문 : {query}')   
#     print('-' * 20)        
#     dt, query, sim1, sim2, sim3, answer = process_query(query)        
#     data = pd.DataFrame({'datetime': [dt],'query': [query],'sim1': [sim1],'sim2': [sim2],'sim3': [sim3],'answer': [answer]})        
#     data.to_sql('history', conn, if_exists='append', index=False)        
#     print(f'답변 : {answer}')    
#     print('=' * 50)
#     df = pd.read_sql('SELECT * FROM history', conn)
#     display(df)
#     conn.close()

질문 : 나는 몇살이야?
--------------------
답변 : 이에 대한 정보는 제가 알 수 없습니다.


Unnamed: 0,id,datetime,query,sim1,sim2,sim3,answer
0,1,2024-06-04 15:03:21,kt에이블 스쿨에 지원하고싶은데 어떤 조건들을 만족해야해?,0.23284,0.24214,0.26018,"KT 에이블스쿨은 미취업자를 대상으로 하며, 교육 시작일 기준으로 재직자는 지원이 ..."
1,2,2024-06-04 15:03:55,내가 만약 취업상태라면 어떻게해야할까?,0.27547,0.29558,0.30972,"KT 에이블스쿨은 미취업자를 대상으로 하고 있어서, 현재 취업 상태일 경우에는 지원..."
2,3,2024-06-04 15:04:27,그러면 에이블스쿨에 학겨하기 전에 퇴사를 하면 참여가능할까?,0.21229,0.25994,0.26083,"KT 에이블스쿨은 미취업자를 대상으로 하고, 교육 시작일 기준으로 재직자는 지원이 ..."
3,4,2024-06-04 16:08:36,나는 26살이야,0.40889,0.42293,0.4518,"네, 해당 교육 과정은 34세 이하의 지원 대상자를 대상으로 합니다. 다만, 35세..."
4,5,2024-06-04 16:09:08,나는 몇살이야?,0.38818,0.39459,0.40453,이에 대한 정보는 제가 알 수 없습니다.


질문 : 나는 26살이야
--------------------


ProgrammingError: Cannot operate on a closed database.