# **RAG**
Retrieval Augmented Generation

## **1.환경준비**

### (1) 구글 드라이브

#### 1) 구글 드라이브 폴더 생성
* 새 폴더(langchain)를 생성하고
* 제공 받은 파일을 업로드

#### 2) 구글 드라이브 연결

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### (2) 라이브러리

#### 1) 필요한 라이브러리 설치

* requirements.txt 파일의 [경로 복사]를 한 후,
* 아래 경로에 붙여 넣기

In [2]:
# 경로 : /content/drive/MyDrive/langchain/requirements.txt
# 경로가 다른 경우 아래 코드의 경로 부분을 수정하세요.

!pip install -r /content/drive/MyDrive/langchain/requirements.txt

Collecting openai==0.28 (from -r /content/drive/MyDrive/langchain/requirements.txt (line 1))
  Downloading openai-0.28.0-py3-none-any.whl.metadata (13 kB)
Collecting langchain==0.1.20 (from -r /content/drive/MyDrive/langchain/requirements.txt (line 2))
  Downloading langchain-0.1.20-py3-none-any.whl.metadata (13 kB)
Collecting pymupdf (from -r /content/drive/MyDrive/langchain/requirements.txt (line 3))
  Downloading PyMuPDF-1.24.13-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting tiktoken (from -r /content/drive/MyDrive/langchain/requirements.txt (line 5))
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting chromadb==0.5.0 (from -r /content/drive/MyDrive/langchain/requirements.txt (line 6))
  Downloading chromadb-0.5.0-py3-none-any.whl.metadata (7.3 kB)
Collecting wikipedia (from -r /content/drive/MyDrive/langchain/requirements.txt (line 7))
  Downloading wikipedia-1.4.0.tar.gz (27 kB)

#### 2) 라이브러리 로딩

In [3]:
import pandas as pd
import numpy as np
import os
import openai

from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage, Document
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

### (3) OpenAI API Key 확인

In [4]:
def load_api_key(filepath):
    with open(filepath, 'r') as file:
        return file.readline().strip()

path = '/content/drive/MyDrive/langchain/'

# API 키 로드 및 환경변수 설정
openai.api_key = load_api_key(path + 'api_key.txt')
os.environ['OPENAI_API_KEY'] = openai.api_key

* ⚠️ 아래 코드셀은, 실행해서 key가 제대로 보이는지 확인하고 삭제하세요.

In [5]:
print(os.environ['OPENAI_API_KEY'])

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


## **2.Vector DB**

### (1) Chroma DB 구성

* DB 경로 지정
    * 없으면, 새로 폴더를 만들며 DB 생성
    * 있으면, 기존 DB 연결

In [6]:
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

database = Chroma(persist_directory = path + "db",  # 경로 지정(구글 드라이브에서 db 폴더 생성)
                    embedding_function = embeddings)  # 임베딩 벡터로 만들 모델 지정

* DB 삭제는, 파이썬을 닫고 폴더를 삭제하면 됩니다.

### (2) INSERT

* 두가지 방법
    * (1) 단순 텍스트 입력 : 각 단위 텍스트를 리스트 형태로 입력 **.add_texts()**
    * (2) 텍스트와 메타데이터 입력 : 각 단위 텍스트와 메타정보를 함께 입력 **.add_documents()**

#### 1) .add_texts()

In [7]:
input_list = ['test 데이터 입력1', 'test 데이터 입력2']

# 입력시 인덱스 저장(조회시 사용)
ind = database.add_texts(input_list)
ind

['b363fec2-e811-4094-ad5a-f9397103bcd3',
 '1c7507ca-545f-476e-801d-e8c1f6c2c541']

In [8]:
database.get(ind)

{'ids': ['1c7507ca-545f-476e-801d-e8c1f6c2c541',
  'b363fec2-e811-4094-ad5a-f9397103bcd3'],
 'embeddings': None,
 'metadatas': [None, None],
 'documents': ['test 데이터 입력2', 'test 데이터 입력1'],
 'uris': None,
 'data': None}

#### 2) .add_documents()

In [9]:
input_list2 = ['오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.', '어제 주가는 큰 폭으로 상승했습니다.']
metadata = [{'category':'test'}, {'category':'test'}]

doc2 = [Document(page_content = input_list2[i], metadata = metadata[i]) for i in range(2)]
doc2

[Document(page_content='오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.', metadata={'category': 'test'}),
 Document(page_content='어제 주가는 큰 폭으로 상승했습니다.', metadata={'category': 'test'})]

In [10]:
ind2 = database.add_documents(doc2)

In [11]:
database.get(ind2)

{'ids': ['9a340c98-3e21-49d0-923e-9f06ef1a3449',
  'b52dff17-5fd0-448f-bf4e-95b3b2b50cad'],
 'embeddings': None,
 'metadatas': [{'category': 'test'}, {'category': 'test'}],
 'documents': ['어제 주가는 큰 폭으로 상승했습니다.', '오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.'],
 'uris': None,
 'data': None}

### (2) 조회

#### 1) 전체 조회

In [12]:
database.get()
# 데이터베이스는 물리적으로 1 2 3 4 순차적으로 정리하지 않음
# 메모리에 저장하듯 적절한 랜덤 공간에 저장

{'ids': ['1c7507ca-545f-476e-801d-e8c1f6c2c541',
  '9a340c98-3e21-49d0-923e-9f06ef1a3449',
  'b363fec2-e811-4094-ad5a-f9397103bcd3',
  'b52dff17-5fd0-448f-bf4e-95b3b2b50cad'],
 'embeddings': None,
 'metadatas': [None, {'category': 'test'}, None, {'category': 'test'}],
 'documents': ['test 데이터 입력2',
  '어제 주가는 큰 폭으로 상승했습니다.',
  'test 데이터 입력1',
  '오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.'],
 'uris': None,
 'data': None}

#### 2) 조건조회
* 일반적인 조건 조회를 지원하지 않음.
    * 그래서 전체를 다 불러와서
    * dataframe으로 변환 후 조건 조회

In [13]:
data = database.get()
data = pd.DataFrame(data)
data

Unnamed: 0,ids,embeddings,metadatas,documents,uris,data
0,1c7507ca-545f-476e-801d-e8c1f6c2c541,,,test 데이터 입력2,,
1,9a340c98-3e21-49d0-923e-9f06ef1a3449,,{'category': 'test'},어제 주가는 큰 폭으로 상승했습니다.,,
2,b363fec2-e811-4094-ad5a-f9397103bcd3,,,test 데이터 입력1,,
3,b52dff17-5fd0-448f-bf4e-95b3b2b50cad,,{'category': 'test'},오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.,,


In [14]:
data.loc[data['metadatas'] == {'category': 'test'}]

Unnamed: 0,ids,embeddings,metadatas,documents,uris,data
1,9a340c98-3e21-49d0-923e-9f06ef1a3449,,{'category': 'test'},어제 주가는 큰 폭으로 상승했습니다.,,
3,b52dff17-5fd0-448f-bf4e-95b3b2b50cad,,{'category': 'test'},오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.,,


#### 3) 유사 문서 조회

In [15]:
# 문서 조회1
query = "오늘 낮 기온은?"   # 질문할 문장
k = 3                      # 유사도 상위 k 개 문서 가져오기.

result = database.similarity_search(query, k = k) #← 데이터베이스에서 유사도가 높은 문서를 가져옴
print(result)
print('-'*50)
for doc in result:
    print(f"문서 내용: {doc.page_content}") # 문서 내용 표시

[Document(page_content='오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.', metadata={'category': 'test'}), Document(page_content='어제 주가는 큰 폭으로 상승했습니다.', metadata={'category': 'test'}), Document(page_content='test 데이터 입력1')]
--------------------------------------------------
문서 내용: 오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.
문서 내용: 어제 주가는 큰 폭으로 상승했습니다.
문서 내용: test 데이터 입력1


In [16]:
# 문서 조회2 : 유사도 점수도 함께 조회
query = "오늘 낮 기온은?"   # 질문할 문장
k = 3                      # 유사도 상위 k 개 문서 가져오기.

result = database.similarity_search_with_score(query, k = k) #← 데이터베이스에서 유사도가 높은 문서를 가져옴
print(result)
print('-'*50)
for doc in result:
    print(f"유사도 점수 : {round(doc[1], 5)}, 문서 내용: {doc[0].page_content}") # 문서 내용 표시

[(Document(page_content='오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.', metadata={'category': 'test'}), 0.22618641133398137), (Document(page_content='어제 주가는 큰 폭으로 상승했습니다.', metadata={'category': 'test'}), 0.38118057585848064), (Document(page_content='test 데이터 입력1'), 0.49542535750587824)]
--------------------------------------------------
유사도 점수 : 0.22619, 문서 내용: 오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.
유사도 점수 : 0.38118, 문서 내용: 어제 주가는 큰 폭으로 상승했습니다.
유사도 점수 : 0.49543, 문서 내용: test 데이터 입력1


### (3) 삭제

* 문서의 id 값으로 삭제합니다.

In [17]:
data

Unnamed: 0,ids,embeddings,metadatas,documents,uris,data
0,1c7507ca-545f-476e-801d-e8c1f6c2c541,,,test 데이터 입력2,,
1,9a340c98-3e21-49d0-923e-9f06ef1a3449,,{'category': 'test'},어제 주가는 큰 폭으로 상승했습니다.,,
2,b363fec2-e811-4094-ad5a-f9397103bcd3,,,test 데이터 입력1,,
3,b52dff17-5fd0-448f-bf4e-95b3b2b50cad,,{'category': 'test'},오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.,,


In [18]:
id_list = list(data.loc[:1,'ids'])
id_list

['1c7507ca-545f-476e-801d-e8c1f6c2c541',
 '9a340c98-3e21-49d0-923e-9f06ef1a3449']

In [None]:
database.delete(ids = id_list)

In [19]:
database.get()

{'ids': ['1c7507ca-545f-476e-801d-e8c1f6c2c541',
  '9a340c98-3e21-49d0-923e-9f06ef1a3449',
  'b363fec2-e811-4094-ad5a-f9397103bcd3',
  'b52dff17-5fd0-448f-bf4e-95b3b2b50cad'],
 'embeddings': None,
 'metadatas': [None, {'category': 'test'}, None, {'category': 'test'}],
 'documents': ['test 데이터 입력2',
  '어제 주가는 큰 폭으로 상승했습니다.',
  'test 데이터 입력1',
  '오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.'],
 'uris': None,
 'data': None}

### 😀실습

* 오늘 날씨와 관련된 document 들을 10건 이상 입력합니다.
* 검색을 통해 유사도 높은 3건의 document 들을 조회합니다.


In [20]:
input_list = ['울 올가을 첫서리 관측…한낮 찬바람 불며 쌀쌀',
              '중부 곳곳 영하권 추위…서울 올가을 첫서리 관측',
              '어제보다 더 추워…서울 첫서리·얼음 관측',
              '더 추워지는 내일 아침…한낮에도 15도 안팎 쌀쌀',
              '한낮 15도 안팎 쌀쌀…당분간 평년 기온 밑돌아']

ind = database.add_texts(input_list)


In [21]:
database.get()

{'ids': ['1c7507ca-545f-476e-801d-e8c1f6c2c541',
  '6ea9975d-4d8d-4520-bf33-9c22c6f17ff3',
  '819b41f4-9c02-4a58-8353-39834cb2ed56',
  '891b4977-e86a-4b91-a4d3-c372f5f17f3f',
  '9a340c98-3e21-49d0-923e-9f06ef1a3449',
  'b354902b-c772-4ee3-b2b8-86fb6b241592',
  'b363fec2-e811-4094-ad5a-f9397103bcd3',
  'b52dff17-5fd0-448f-bf4e-95b3b2b50cad',
  'd6893ad0-d8ed-46e2-b4f6-33ab7a769163'],
 'embeddings': None,
 'metadatas': [None,
  None,
  None,
  None,
  {'category': 'test'},
  None,
  None,
  {'category': 'test'},
  None],
 'documents': ['test 데이터 입력2',
  '한낮 15도 안팎 쌀쌀…당분간 평년 기온 밑돌아',
  '어제보다 더 추워…서울 첫서리·얼음 관측',
  '더 추워지는 내일 아침…한낮에도 15도 안팎 쌀쌀',
  '어제 주가는 큰 폭으로 상승했습니다.',
  '울 올가을 첫서리 관측…한낮 찬바람 불며 쌀쌀',
  'test 데이터 입력1',
  '오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.',
  '중부 곳곳 영하권 추위…서울 올가을 첫서리 관측'],
 'uris': None,
 'data': None}

In [23]:
# 문서 조회1
query = "오늘 낮 기온은?"   # 질문할 문장
k = 3                      # 유사도 상위 k 개 문서 가져오기.

result = database.similarity_search(query, k = k) #← 데이터베이스에서 유사도가 높은 문서를 가져옴
print(result)
print('-'*50)
for doc in result:
    print(f"문서 내용: {doc.page_content}") # 문서 내용 표시

[Document(page_content='오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.', metadata={'category': 'test'}), Document(page_content='한낮 15도 안팎 쌀쌀…당분간 평년 기온 밑돌아'), Document(page_content='더 추워지는 내일 아침…한낮에도 15도 안팎 쌀쌀')]
--------------------------------------------------
문서 내용: 오늘 날씨는 매우 맑음. 낮 기온은 30도 입니다.
문서 내용: 한낮 15도 안팎 쌀쌀…당분간 평년 기온 밑돌아
문서 내용: 더 추워지는 내일 아침…한낮에도 15도 안팎 쌀쌀


## **3.RAG 구성하기**

### (1) DF to Vector DB

* 샘플데이터 : 오픈소스 생성형 AI에서 주의해야 할 10가지 사항
    * 기사를 csv로 만든 것입니다.

원문보기: https://www.ciokorea.com/news/337152#csidxc7d1d11066fad86a15937e4c3b29c6d



In [24]:
data = pd.read_csv(path + 'sample.csv', encoding='utf-8')
data

Unnamed: 0,구분,내용
0,낯선 라이선스 약관,현재 오픈소스 AI 라이선스 유형은 다양한 만큼 매우 복잡하다. 오픈소스 AI 모델...
1,낯선 라이선스 약관,메타와 유사하게 애플은 ‘애플 샘플 코드 라이선스’하에 오픈ELM을 출시했다. 이 ...
2,전문성 부족,오픈소스는 스스로 해야 하는 작업이 많을 수 있다. 기업은 코드를 다운로드할 수는 ...
3,전문성 부족,업계 전체에 전문성이 부족하다는 점은 새로운 문제를 야기한다. 원래 오픈소스의 장점...
4,탈옥,LLM 공격 중 유명한 것에 탈옥(jailbreak)이라는 수법이 있다. 탈옥은 의...
5,탈옥,반면에 악의적인 공격자는 접근하기 쉬운 오픈소스 모델을 무료로 다운로드하여 자신의 ...
6,학습 데이터가 가진 위험,"예술가, 작가, 기타 저작권 소유자들이 대형 AI 기업을 상대로 소송을 제기하고 있..."
7,학습 데이터가 가진 위험,노탈의 수기스는 “대형 벤더는 학습 데이터를 구입하고 소송을 벌이는 데 쓸 돈이 있...
8,새로운 보안 위협,생성형 AI 프로젝트는 단순한 코드 그 이상이기 때문에 잠재적으로 보안 위협에 노출...
9,새로운 보안 위협,또 다른 공격 벡터는 모델의 시스템 프롬프트이다. 수기스에 따르면시스템 프롬프트는 ...


In [25]:
# Chroma 데이터베이스 인스턴스 database2 생성
# 폴더를 db2로 만듭니다.

database2 = Chroma(persist_directory = path + "db2", embedding_function = embeddings)

In [26]:
# 데이터프레임의 텍스트 열(시리즈)을 리스트로 변환
text_list = data['내용'].tolist()

# 리스트 내용을 각각 document로 변환
documents = [Document(page_content=text) for text in text_list]

print(documents)

[Document(page_content='현재 오픈소스 AI 라이선스 유형은 다양한 만큼 매우 복잡하다. 오픈소스 AI 모델을 이용하려면 상업적으로 사용해도 괜찮은지, 수정 및 배포가 가능한지, 사내 코드 베이스에 안전하게 통합할 수 있는지 등을 알아봐야 한다. 여기에 몇 가지 새로운 문제가 등장했다. 일단 이전에는 볼 수 없는 제약이 오픈소스 라이선스에 적용됐다.\n메타의 라마(Llama) 라이선스를 예로 보자. 라마는 높은 인기를 자랑하는 오픈소스 LLM이다. 메타는 라마에 대해 ‘개방형 접근권을 제공하고 잠재적인 오용 문제를 해결하기 맞춤형 상용 라이선스 모델’을 적용한다고 밝혔다. 또한 이에 대해 ‘책임 및 보호 조치의 균형을 맞추기 위한 조치’라고 소개하고 있다.\n이런 라이선스 하에 기업은 상업적으로 라마 모델을 사용할 수 있고 개발자는 기본 라마 모델 위에 추가 작업을 만들어 배포할 수 있다. 단 다른 LLM을 개선하기 위해 라마가 출력하는 결과물을 활용할 수는 없다. (라마 파생 모델은 제외된다.) 또한 기업 또는 그 계열사의 월간 사용자가 700명을 초과하는 경우, 메타에게 라이선스 사용 허락을 요청해야 한다. 메타는 이를 승인하거나 승인하지 않을 수 있다. 어떤 기업에서 라마 3를 사용해서 뭔가를 만들었다면, 눈에 잘 띄는 위치에 ‘Built with Llama 3(라마 3를 기반으로 구축했음)’라는 문구를 표기해야 한다.'), Document(page_content='메타와 유사하게 애플은 ‘애플 샘플 코드 라이선스’하에 오픈ELM을 출시했다. 이 라이선스 역시 특허권은 제외하고 저작권 권한만 명시하고 있다. 애플이나 메타 모두 일반적으로 통용되는 오픈소스 라이선스를 사용하지는 않지만, 실제로 코드는 공개되어 있다. 여기에 애플은 실제로 코드뿐만 아니라 모델 가중치, 훈련 데이터 세트, 훈련 로그, 사전 훈련 구성도 공개했다.\n이제 오픈소스 라이선스의 또 다른 측면을 살펴보자. 기존의 오픈소스 소프트웨어에서 핵심은 ‘코드’였다. 그리고 

In [27]:
# Inseert (.add_documents)
database2.add_documents(documents)

['7fb74427-722c-47b3-acbe-8994bf040e34',
 '0f969845-855e-46ee-9b1b-85476dc684e6',
 'f36caef3-dfbc-40e1-bcc2-8a8e498a6a0f',
 'fa80f4f9-e8db-4d06-9a2f-c4344b7a66c8',
 '645f28e6-392a-4fe8-8da8-f0687d4f5c9c',
 '908e72d2-abd7-41a4-8ce3-5ca54c8201ae',
 'fc41ed03-762d-4e2f-a76d-4529d957016b',
 '92ab47a7-6e2e-4c27-b19a-217fd0196ae9',
 '4ef42518-deab-431a-aedd-bab17fe245e6',
 '99d77381-8c83-47f7-adf1-8bb7520b5040',
 '4535bbcd-3b38-437a-95fc-01168117da9b',
 'b52f6522-437b-4583-8aa4-70e8831c57f1',
 '74bdcddb-4f3a-4637-97a1-50dc4b0850da']

In [28]:
# 잘 입력되었는지 확인
database2.get()

{'ids': ['0f969845-855e-46ee-9b1b-85476dc684e6',
  '4535bbcd-3b38-437a-95fc-01168117da9b',
  '4ef42518-deab-431a-aedd-bab17fe245e6',
  '645f28e6-392a-4fe8-8da8-f0687d4f5c9c',
  '74bdcddb-4f3a-4637-97a1-50dc4b0850da',
  '7fb74427-722c-47b3-acbe-8994bf040e34',
  '908e72d2-abd7-41a4-8ce3-5ca54c8201ae',
  '92ab47a7-6e2e-4c27-b19a-217fd0196ae9',
  '99d77381-8c83-47f7-adf1-8bb7520b5040',
  'b52f6522-437b-4583-8aa4-70e8831c57f1',
  'f36caef3-dfbc-40e1-bcc2-8a8e498a6a0f',
  'fa80f4f9-e8db-4d06-9a2f-c4344b7a66c8',
  'fc41ed03-762d-4e2f-a76d-4529d957016b'],
 'embeddings': None,
 'metadatas': [None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None],
 'documents': ['메타와 유사하게 애플은 ‘애플 샘플 코드 라이선스’하에 오픈ELM을 출시했다. 이 라이선스 역시 특허권은 제외하고 저작권 권한만 명시하고 있다. 애플이나 메타 모두 일반적으로 통용되는 오픈소스 라이선스를 사용하지는 않지만, 실제로 코드는 공개되어 있다. 여기에 애플은 실제로 코드뿐만 아니라 모델 가중치, 훈련 데이터 세트, 훈련 로그, 사전 훈련 구성도 공개했다.\n이제 오픈소스 라이선스의 또 다른 측면을 살펴보자. 기존의 오픈소스 소프트웨어에서 핵심은 ‘코드’였다. 그리고 그 코드를 통해 소프트웨어가 어떤 기능을 

### (2) 질문으로 유사도 높은 문서 조회하기

In [29]:
# 문서 조회 : 유사도 점수도 함께 조회
query = "생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?"   # 질문할 문장
k = 3                      # 유사도 상위 k 개 문서 가져오기.

result = database2.similarity_search_with_score(query, k = k) #← 데이터베이스에서 유사도가 높은 문서를 가져옴
print(result)
print('-'*50)
for doc in result:
    print(f"유사도 점수 : {round(doc[1], 5)}, 문서 내용: {doc[0].page_content}") # 문서 내용 표시

[(Document(page_content='생성형 AI 프로젝트는 단순한 코드 그 이상이기 때문에 잠재적으로 보안 위협에 노출될 수 있는 영역이 더 많다. LLM은 여러 방면에서 악의적인 공격을 받을 수 있다. 수기스에 따르면, 이들은 관리가 제대로 이루어지지 않는 프로젝트의 개발팀에 침투하여 소프트웨어에 바로 악성 코드를 추가할 수 있다. 거기서 끝나지 않고 훈련 데이터, 미세 조정 또는 가중치까지 오염시킬 수 있다.\n수기스는 “해커는 예시 악성 코드로 모델을 재학습시켜 사용자 인프라에 침입할 수 있다”라며 “또는 가짜 뉴스와 잘못된 정보로 모델을 훈련시킬 수도 있다”라고 설명했다.'), 0.25218840378452867), (Document(page_content='사실 많은 사람이 AI 표준에 대해 이야기할 때 윤리, 개인정보 보호, 설명 가능성 등을 이야기한다. 실제로 작년 12월에 발표된 ISO/IEC 42001 표준과 같은 작업이 해당 영역을 다루고 있다. 그리고 지난 4월 미국 국립표준기술연구소(NIST)는 AI 관련 공통 언어를 제시하는 등 AI 표준 계획 초안을 발표했다. 여기에선 주로 위험과 거버넌스 문제에 초점을 맞추고 있다. 그럼에도 기술 표준에 관해서는 아직 정해진 것이 많지 않다.\n클라우드 네이티브 컴퓨팅 재단의 CIO인 테일러 돌잘은 “표준에 대한 논의는 매우 초기 단계에 머물러 있다”라며 ”단 데이터 분류, 학습 데이터, API, 프롬프트에 대한 표준 형식에 대해 의미 있는 논의가 이뤄지고 있다”라고 말했다. 그래도 아직 ‘논의’하는 수준일 뿐이다.'), 0.2644422109062614), (Document(page_content='오픈소스 그룹 일각에서는 AI 모델에 가드레일(허용 가능한 범위를 두는 일종의 가이드라인 또는 도구)을 두는 것 자체를 반대하기도 한다. 모델에 아무런 제한 없어야 더 나은 성능을 발휘할 것이라 믿는 곳도 있다. 기업은 현재 사용하는 오픈소스 모델이 가드레일에 대해 어떤 방향을 추구하는지조차 잘

### (3) 질문에 대한 답변 받기
* 절차
    * 질문을 받아
    * 유사도 높은 문서를 DB에서 검색(RAG)
    * 질문과 유사도높은 문서로 프롬프트 구성
    * GPT에 질문하고 답변 받기

* RetrievalQA
    * 랭체인에서 제공하는 체인 함수
    * RAG + QA

In [30]:
chat = ChatOpenAI(model="gpt-3.5-turbo")
retriever = database2.as_retriever()
qa = RetrievalQA.from_llm(llm=chat,  retriever=retriever,  return_source_documents=True )

query = "생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?"
result = qa(query)

print(result["result"])

생성형 AI 도입시 예상되는 보안 위협은 다음과 같습니다:
1. 해커가 악의적인 공격을 통해 소프트웨어에 악성 코드를 추가할 수 있음.
2. 훈련 데이터, 미세 조정 또는 가중치를 오염시킬 수 있음.
3. 모델을 재학습시켜 사용자 인프라에 침입할 수 있음.
4. 가짜 뉴스와 잘못된 정보로 모델을 훈련시킬 수 있음.
5. 악의적인 공격자가 오픈소스 모델을 다운로드하여 해킹을 시도할 수 있음.
6. 모델이 사용하는 시스템 프롬프트와 안전 기능을 통해 공격자가 탈옥을 시도할 수 있음.
7. 공격자가 모델 출력물에 워터마크를 추가하여 공격을 할 수 있음.
8. 공격자가 특정 요청을 계속 보내 인프라를 과부하시켜 모델이 작동하지 않도록 만들 수 있음.


* 유사도 높은 문서 4개를 조회하는 것이 기본값임.

In [31]:
result

{'query': '생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?',
 'result': '생성형 AI 도입시 예상되는 보안 위협은 다음과 같습니다:\n1. 해커가 악의적인 공격을 통해 소프트웨어에 악성 코드를 추가할 수 있음.\n2. 훈련 데이터, 미세 조정 또는 가중치를 오염시킬 수 있음.\n3. 모델을 재학습시켜 사용자 인프라에 침입할 수 있음.\n4. 가짜 뉴스와 잘못된 정보로 모델을 훈련시킬 수 있음.\n5. 악의적인 공격자가 오픈소스 모델을 다운로드하여 해킹을 시도할 수 있음.\n6. 모델이 사용하는 시스템 프롬프트와 안전 기능을 통해 공격자가 탈옥을 시도할 수 있음.\n7. 공격자가 모델 출력물에 워터마크를 추가하여 공격을 할 수 있음.\n8. 공격자가 특정 요청을 계속 보내 인프라를 과부하시켜 모델이 작동하지 않도록 만들 수 있음.',
 'source_documents': [Document(page_content='생성형 AI 프로젝트는 단순한 코드 그 이상이기 때문에 잠재적으로 보안 위협에 노출될 수 있는 영역이 더 많다. LLM은 여러 방면에서 악의적인 공격을 받을 수 있다. 수기스에 따르면, 이들은 관리가 제대로 이루어지지 않는 프로젝트의 개발팀에 침투하여 소프트웨어에 바로 악성 코드를 추가할 수 있다. 거기서 끝나지 않고 훈련 데이터, 미세 조정 또는 가중치까지 오염시킬 수 있다.\n수기스는 “해커는 예시 악성 코드로 모델을 재학습시켜 사용자 인프라에 침입할 수 있다”라며 “또는 가짜 뉴스와 잘못된 정보로 모델을 훈련시킬 수도 있다”라고 설명했다.'),
  Document(page_content='사실 많은 사람이 AI 표준에 대해 이야기할 때 윤리, 개인정보 보호, 설명 가능성 등을 이야기한다. 실제로 작년 12월에 발표된 ISO/IEC 42001 표준과 같은 작업이 해당 영역을 다루고 있다. 그리고 지난 4월 미국 국립표준기술연구소(NIST)는 AI 관련 공통 언어를 제시하는 등 AI 표준 계획 초안을 발표했다. 여기에선

* 유사도 높은 문서 k개로부터 프롬프트 구성하여 질의하기

In [32]:
k = 3
retriever = database2.as_retriever(search_kwargs={"k": k})

qa = RetrievalQA.from_llm(llm=chat,  retriever=retriever,  return_source_documents=True, )

result = qa(query)
result

{'query': '생성형 AI 도입시 예상되는 보안 위협은 어떤 것들이 있어?',
 'result': '생성형 AI 프로젝트를 도입할 때 예상되는 보안 위협은 다양합니다. 몇 가지 예시로는 개발팀에 침투하여 악의적인 코드를 추가하거나 훈련 데이터, 미세 조정, 가중치를 오염시키는 사례가 있습니다. 또한 해커들이 모델을 재학습시켜 사용자 인프라에 침입하거나 가짜 뉴스와 잘못된 정보로 모델을 훈련시키는 위협도 있을 수 있습니다. 이러한 위협들은 적절한 보안 대책과 주의가 필요합니다.',
 'source_documents': [Document(page_content='생성형 AI 프로젝트는 단순한 코드 그 이상이기 때문에 잠재적으로 보안 위협에 노출될 수 있는 영역이 더 많다. LLM은 여러 방면에서 악의적인 공격을 받을 수 있다. 수기스에 따르면, 이들은 관리가 제대로 이루어지지 않는 프로젝트의 개발팀에 침투하여 소프트웨어에 바로 악성 코드를 추가할 수 있다. 거기서 끝나지 않고 훈련 데이터, 미세 조정 또는 가중치까지 오염시킬 수 있다.\n수기스는 “해커는 예시 악성 코드로 모델을 재학습시켜 사용자 인프라에 침입할 수 있다”라며 “또는 가짜 뉴스와 잘못된 정보로 모델을 훈련시킬 수도 있다”라고 설명했다.'),
  Document(page_content='사실 많은 사람이 AI 표준에 대해 이야기할 때 윤리, 개인정보 보호, 설명 가능성 등을 이야기한다. 실제로 작년 12월에 발표된 ISO/IEC 42001 표준과 같은 작업이 해당 영역을 다루고 있다. 그리고 지난 4월 미국 국립표준기술연구소(NIST)는 AI 관련 공통 언어를 제시하는 등 AI 표준 계획 초안을 발표했다. 여기에선 주로 위험과 거버넌스 문제에 초점을 맞추고 있다. 그럼에도 기술 표준에 관해서는 아직 정해진 것이 많지 않다.\n클라우드 네이티브 컴퓨팅 재단의 CIO인 테일러 돌잘은 “표준에 대한 논의는 매우 초기 단계에 머물러 있다”라며 ”단 데이터 분류, 학습 데이터, API, 프롬프트에 대한

* 😀실습

In [34]:
query = input()
result = qa(query)
print(result["result"])

그러면 어떻게 성능을 좋게 유지할 수 있어?
전문성 부족으로 인한 보안 위협을 최소화하고 성능을 유지하기 위해서는 몇 가지 조치를 취할 수 있습니다. 첫째로, 오픈소스 소프트웨어를 사용할 때는 신뢰할 수 있는 소스에서 다운로드하고 정기적으로 업데이트해야 합니다. 둘째로, 데이터의 품질과 정확성을 확인하기 위해 데이터 큐레이션에 신경을 써야 합니다. 또한, 보안을 강화하기 위해 프로젝트를 관리하고 접근을 제한하는 등의 조치를 취할 수 있습니다. 마지막으로, 보안 전문가와 협력하여 보안 취약점을 식별하고 적시에 대응하는 것이 중요합니다.


In [35]:
query = input()
result = qa(query)
print(result["result"])

데이터 큐레이션은 뭐야?
데이터 큐레이션이란, 특정 목적을 위해 데이터를 수집하고 정리하며, 원하는 형태로 가공하는 과정을 말합니다. 데이터 큐레이션은 데이터의 품질을 향상시키고, 분석이나 모델링을 위해 필요한 데이터를 선택하고 구축하는 작업을 포함합니다.
