# **Memory & Chain**

## **1.환경준비**

### (1) 구글 드라이브

#### 1) 구글 드라이브 폴더 생성
* 새 폴더(langchain)를 생성하고
* 제공 받은 파일을 업로드

#### 2) 구글 드라이브 연결

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### (2) 라이브러리

#### 1) 필요한 라이브러리 설치

* requirements.txt 파일의 [경로 복사]를 한 후,
* 아래 경로에 붙여 넣기

In [2]:
# 경로 : /content/drive/MyDrive/langchain/requirements.txt
# 경로가 다른 경우 아래 코드의 경로 부분을 수정하세요.

!pip install -r /content/drive/MyDrive/langchain/requirements.txt

Collecting openai==0.28 (from -r /content/drive/MyDrive/langchain/requirements.txt (line 1))
  Downloading openai-0.28.0-py3-none-any.whl.metadata (13 kB)
Collecting langchain==0.1.20 (from -r /content/drive/MyDrive/langchain/requirements.txt (line 2))
  Downloading langchain-0.1.20-py3-none-any.whl.metadata (13 kB)
Collecting pymupdf (from -r /content/drive/MyDrive/langchain/requirements.txt (line 3))
  Downloading PyMuPDF-1.24.13-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting tiktoken (from -r /content/drive/MyDrive/langchain/requirements.txt (line 5))
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting chromadb==0.5.0 (from -r /content/drive/MyDrive/langchain/requirements.txt (line 6))
  Downloading chromadb-0.5.0-py3-none-any.whl.metadata (7.3 kB)
Collecting wikipedia (from -r /content/drive/MyDrive/langchain/requirements.txt (line 7))
  Downloading wikipedia-1.4.0.tar.gz (27 kB)

#### 2) 라이브러리 로딩

In [3]:
import pandas as pd
import numpy as np
import os
import openai

from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage, Document
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA, ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

### (3) OpenAI API Key 확인

In [4]:
def load_api_key(filepath):
    with open(filepath, 'r') as file:
        return file.readline().strip()

path = '/content/drive/MyDrive/langchain/'

# API 키 로드 및 환경변수 설정
openai.api_key = load_api_key(path + 'api_key.txt')
os.environ['OPENAI_API_KEY'] = openai.api_key

* ⚠️ 아래 코드셀은, 실행해서 key가 제대로 보이는지 확인하고 삭제하세요.

In [5]:
print(os.environ['OPENAI_API_KEY'])

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


## **2.Memory**

### (1) 대화 기록 저장하기

In [6]:
from langchain.memory import ConversationBufferMemory

In [7]:
# 메모리 선언하기(초기화)
memory = ConversationBufferMemory(return_messages=True)

# 저장
memory.save_context({"input": "안녕하세요!"},
                    {"output": "안녕하세요! 어떻게 도와드릴까요?"})

memory.save_context({"input": "메일을 써야하는데 도와줘"},
                    {"output": "누구에게 보내는 어떤 메일인가요?"})

# 현재 담겨 있는 메모리 내용 전체 확인
memory.load_memory_variables({})

{'history': [HumanMessage(content='안녕하세요!'),
  AIMessage(content='안녕하세요! 어떻게 도와드릴까요?'),
  HumanMessage(content='메일을 써야하는데 도와줘'),
  AIMessage(content='누구에게 보내는 어떤 메일인가요?')]}

### (2) GPT와 대화 기록 저장하기

#### 1) 대화 준비

* 03 파일에서 생성한 database를 지정하여 사용.

In [8]:
k = 3

# Chroma 데이터베이스 인스턴스
embeddings = OpenAIEmbeddings(model = "text-embedding-ada-002")
database = Chroma(persist_directory = path + "db2", embedding_function = embeddings)

# retriever 선언
retriever = database.as_retriever(search_kwargs={"k": k})

# ChatOpenAI 선언
chat = ChatOpenAI(model="gpt-3.5-turbo")

# RetrievalQA 선언
qa = RetrievalQA.from_llm(llm=chat,  retriever=retriever,  return_source_documents=True)

#### 2) 대화 시도 및 기록

In [9]:
# 질문 답변1
query = "생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?"
result = qa(query)

memory = ConversationBufferMemory(return_messages=True)

memory.save_context({"input": query},
                    {"output": result['result']})

memory.load_memory_variables({})

{'history': [HumanMessage(content='생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?'),
  AIMessage(content='생성형 AI의 도입으로 인해 예상되는 보안 위협은 다음과 같을 수 있습니다:\n\n1. 악의적인 사용: 생성형 AI가 악의적인 목적으로 사용될 수 있으며, 예를 들어 가짜 뉴스, 위조된 사진/동영상 등을 만드는 데 이용될 수 있습니다.\n\n2. 개인정보 침해: 생성형 AI를 사용하여 개인정보를 생성하거나 가공할 수 있으며, 이로 인해 사생활 침해가 발생할 수 있습니다.\n\n3. 사이버보안 공격: 생성형 AI 시스템 자체가 해킹되어 악용될 가능성이 있으며, 이로 인해 기업이나 조직의 데이터가 유출될 수 있습니다.\n\n4. 인공지능 허위 신원: 생성형 AI를 사용하여 다른 사람들의 신원을 도용하거나 허위로 생성할 수 있으며, 이로 인해 혼란이 발생할 수 있습니다.\n\n이 외에도 다양한 보안 위협이 있을 수 있으며, 이러한 위험을 방지하기 위해서는 적절한 보안 대책이 필요합니다.')]}

#### 3) 이어지는 질문과 답변

In [10]:
# 질문 답변2
query = "훈련 데이터나 가중치를 오염시키는게 무슨 의미야?"
result = qa(query)
result['result']

memory.save_context({"input": query},
                    {"output": result['result']})

memory.load_memory_variables({})

{'history': [HumanMessage(content='생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?'),
  AIMessage(content='생성형 AI의 도입으로 인해 예상되는 보안 위협은 다음과 같을 수 있습니다:\n\n1. 악의적인 사용: 생성형 AI가 악의적인 목적으로 사용될 수 있으며, 예를 들어 가짜 뉴스, 위조된 사진/동영상 등을 만드는 데 이용될 수 있습니다.\n\n2. 개인정보 침해: 생성형 AI를 사용하여 개인정보를 생성하거나 가공할 수 있으며, 이로 인해 사생활 침해가 발생할 수 있습니다.\n\n3. 사이버보안 공격: 생성형 AI 시스템 자체가 해킹되어 악용될 가능성이 있으며, 이로 인해 기업이나 조직의 데이터가 유출될 수 있습니다.\n\n4. 인공지능 허위 신원: 생성형 AI를 사용하여 다른 사람들의 신원을 도용하거나 허위로 생성할 수 있으며, 이로 인해 혼란이 발생할 수 있습니다.\n\n이 외에도 다양한 보안 위협이 있을 수 있으며, 이러한 위험을 방지하기 위해서는 적절한 보안 대책이 필요합니다.'),
  HumanMessage(content='훈련 데이터나 가중치를 오염시키는게 무슨 의미야?'),
  AIMessage(content='훈련 데이터나 가중치를 오염시키는 것은 일반적으로 모델의 성능을 저하시키는 것을 말합니다. 데이터 오염은 잘못된 데이터나 노이즈가 포함된 데이터를 모델 학습에 사용하는 것을 의미하며, 가중치 오염은 잘못된 가중치 값을 사용하여 모델을 업데이트하는 것을 의미합니다. 이러한 오염은 모델의 정확도를 낮출 수 있으므로 주의해야 합니다.')]}

In [11]:
# 질문 답변3
query = "이를 방지하기 위해 어떻게 해야 해?"
result = qa(query)
result['result']
# 수동 저장한 메모리이기에 이전 질의문을 기억하지 못함 > 그래서 엉뚱한 답변을 계속 냄
memory.save_context({"input": query},
                    {"output": result['result']})

memory.load_memory_variables({})

{'history': [HumanMessage(content='생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?'),
  AIMessage(content='생성형 AI의 도입으로 인해 예상되는 보안 위협은 다음과 같을 수 있습니다:\n\n1. 악의적인 사용: 생성형 AI가 악의적인 목적으로 사용될 수 있으며, 예를 들어 가짜 뉴스, 위조된 사진/동영상 등을 만드는 데 이용될 수 있습니다.\n\n2. 개인정보 침해: 생성형 AI를 사용하여 개인정보를 생성하거나 가공할 수 있으며, 이로 인해 사생활 침해가 발생할 수 있습니다.\n\n3. 사이버보안 공격: 생성형 AI 시스템 자체가 해킹되어 악용될 가능성이 있으며, 이로 인해 기업이나 조직의 데이터가 유출될 수 있습니다.\n\n4. 인공지능 허위 신원: 생성형 AI를 사용하여 다른 사람들의 신원을 도용하거나 허위로 생성할 수 있으며, 이로 인해 혼란이 발생할 수 있습니다.\n\n이 외에도 다양한 보안 위협이 있을 수 있으며, 이러한 위험을 방지하기 위해서는 적절한 보안 대책이 필요합니다.'),
  HumanMessage(content='훈련 데이터나 가중치를 오염시키는게 무슨 의미야?'),
  AIMessage(content='훈련 데이터나 가중치를 오염시키는 것은 일반적으로 모델의 성능을 저하시키는 것을 말합니다. 데이터 오염은 잘못된 데이터나 노이즈가 포함된 데이터를 모델 학습에 사용하는 것을 의미하며, 가중치 오염은 잘못된 가중치 값을 사용하여 모델을 업데이트하는 것을 의미합니다. 이러한 오염은 모델의 정확도를 낮출 수 있으므로 주의해야 합니다.'),
  HumanMessage(content='이를 방지하기 위해 어떻게 해야 해?'),
  AIMessage(content='어떤 상황을 방지해야 하는지 구체적인 내용을 알려주시면 도움을 드릴 수 있습니다. 부가적인 정보를 제공해주세요.')]}

* 훈련 데이터 오염을 방지하기 위한 대책을 물었으나, 일반적인 보안 위협 방지 대책을 이야기 함.
* 맥락을 유지하기 위해서 메시지의 내용을 프롬프트에 포함시켜야 함.
    * 이를 손쉽게 엮어주는 방법 **Chain**

## **3.Chain**

* 절차 다시 정리
    * 질문을 받아
    * 유사도 높은 문서를 DB에서 검색(RAG)
    * 이전 대화 내용을 메모리에서 읽어오기
    * [질문 + 유사도높은 문서 + 이전 대화내용]으로 프롬프트 구성
    * GPT에 질문하고 답변 받기
* Chain
    * 이러한 절차를 코드로 하나하나 엮고, 프롬프트를 구성하는 코드는 상당히 복잡합니다.
    * 랭체인에서 제공하는 Chain 함수를 이용하면 쉽게 구현 가능!  

### (1) Chain 함수로 연결하기
* **ConversationalRetrievalChain**

In [12]:
embeddings = OpenAIEmbeddings(model = "text-embedding-ada-002")
database = Chroma(persist_directory = "./db2", embedding_function = embeddings)
chat = ChatOpenAI(model="gpt-3.5-turbo")

k=3
retriever = database.as_retriever(search_kwargs={"k": k}) # vectorDB

# 대화 메모리 생성
memory = ConversationBufferMemory(memory_key="chat_history", input_key="question", output_key="answer",
                                  return_messages=True)
# ____ 사전준비 ______

# ConversationalRetrievalQA 체인 생성
qa = ConversationalRetrievalChain.from_llm(llm=chat, retriever=retriever, memory=memory,
                                           return_source_documents=True,  output_key="answer")

### (2) 사용하기

#### 1) 첫번째 질문

In [13]:
# 첫번째 질문
query1 = "생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?"
result = qa(query1)
result['answer']

'생성형 AI를 도입할 때 예상되는 보안 위협은 여러 가지가 있을 수 있습니다. 예를 들어, 생성된 콘텐츠를 악용하여 가짜 정보를 유포하거나 인신공격을 벌이는 경우가 있을 수 있습니다. 또한 악의적인 사용자가 AI를 조작하여 선동적이거나 유해한 콘텐츠를 생성할 수도 있습니다. 또는 개인정보 침해나 데이터 유출이 발생할 수도 있습니다. 이러한 보안 위협에 대비하기 위해서는 강력한 보안 시스템과 규제, 모니터링 시스템을 마련하는 것이 중요합니다.'

In [14]:
# 메모리 확인
memory.load_memory_variables({})

{'chat_history': [HumanMessage(content='생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?'),
  AIMessage(content='생성형 AI를 도입할 때 예상되는 보안 위협은 여러 가지가 있을 수 있습니다. 예를 들어, 생성된 콘텐츠를 악용하여 가짜 정보를 유포하거나 인신공격을 벌이는 경우가 있을 수 있습니다. 또한 악의적인 사용자가 AI를 조작하여 선동적이거나 유해한 콘텐츠를 생성할 수도 있습니다. 또는 개인정보 침해나 데이터 유출이 발생할 수도 있습니다. 이러한 보안 위협에 대비하기 위해서는 강력한 보안 시스템과 규제, 모니터링 시스템을 마련하는 것이 중요합니다.')]}

#### 2) 두번째 질문

In [15]:
# 두번째 질문
query2 = "모델을 재학습시키면 어떤 문제가 발생되는거야?"
result = qa(query2)
result['answer']

'모델을 재학습시킬 때 다음과 같은 문제가 발생할 수 있습니다:\n1. 이전에 사용된 데이터에 대한 과적합 문제\n2. 새로운 데이터에 대한 일반화 능력 부족\n3. 학습 속도가 느려지거나 메모리 부족으로 인한 성능 저하\n4. 데이터의 편향 또는 레이블 오류로 인한 예측 정확도 저하\n5. 하이퍼파라미터 튜닝이 필요한 경우 성능 향상을 위한 추가 작업 필요'

In [16]:
# 메모리 확인
memory.load_memory_variables({}) # 첫번째 질의도 저장된 모습

{'chat_history': [HumanMessage(content='생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?'),
  AIMessage(content='생성형 AI를 도입할 때 예상되는 보안 위협은 여러 가지가 있을 수 있습니다. 예를 들어, 생성된 콘텐츠를 악용하여 가짜 정보를 유포하거나 인신공격을 벌이는 경우가 있을 수 있습니다. 또한 악의적인 사용자가 AI를 조작하여 선동적이거나 유해한 콘텐츠를 생성할 수도 있습니다. 또는 개인정보 침해나 데이터 유출이 발생할 수도 있습니다. 이러한 보안 위협에 대비하기 위해서는 강력한 보안 시스템과 규제, 모니터링 시스템을 마련하는 것이 중요합니다.'),
  HumanMessage(content='모델을 재학습시키면 어떤 문제가 발생되는거야?'),
  AIMessage(content='모델을 재학습시킬 때 다음과 같은 문제가 발생할 수 있습니다:\n1. 이전에 사용된 데이터에 대한 과적합 문제\n2. 새로운 데이터에 대한 일반화 능력 부족\n3. 학습 속도가 느려지거나 메모리 부족으로 인한 성능 저하\n4. 데이터의 편향 또는 레이블 오류로 인한 예측 정확도 저하\n5. 하이퍼파라미터 튜닝이 필요한 경우 성능 향상을 위한 추가 작업 필요')]}

In [None]:
# memory = ConversationBufferMemory(memory_key="chat_history", input_key="question", output_key="answer",
#                                   return_messages=True)

### 😀실습

* VectorDB 내용을 확인한 후, 연관된 질문으로 연속해서 물어보고 답변을 잘 하는지 확인해 봅시다.


### (3) 반복문 안에서 질문답변 이어가기

In [None]:
while True:
    query = input('질문 > ')
    query = query.strip()
    print(f'질문 : {query}')
    print('-' * 20)
    if len(query) == 0:
        break
    result = qa({"question": query})
    print(f'답변 : {result["answer"]}')
    print('=' * 50)