## 노트북 내용

이 노트북은 watsonx.ai를 사용한 RAG (Retrieval Augmented Generation)을 테스트 하기 위한 예제입니다. 여기에는 data retrieval, 지식 기본 정보에서 유사도검색 및 모델이 생성한 결과를 확인하는 내용이 포함되어 있습니다.

이를 잘 이해하기 위해서는 Python에 대한 기본 지식이 필요하며 모든 코드는 Python 3.10 으로 작성되어 있습니다.

### RAG (Retrieval Augmented Generation) 
Retrieval Augmented Generation (RAG)는 자연어로 지식 기반 데이터베이스에 질문이나 사실적인 정보를 사용하기를 원하는 다양한 usecase에 활용가능한 패턴입니다.

이 예제는 RAG의 가장 단순한 형태로서 세 가지 단계로 구성되어 있습니다. 

- Google 검색 API와 연결
- Google 검색 결과를 vectorDB에 저장
- vectorDB에 저장된 내용을 바탕으로 질의에 대한 답변

## 내용

이 노트북은 다음과 같은 단계로 구성되어 있습니다ㅏ.

- [환경설정](#setup)
- [Google API 발급](#create_google_api)
- [질의 수행](#search)
- [검색결과를 임베딩하여 데이터베이스 구축](#build_base)
- [vectorDB에 저장된 내용을 바탕으로 질의에 대한 답변](#answer)



<a id="setup"></a>
## 환경 설정

이 노트북에 있는 샘플 코드를 실행하기 전에 다음 작업을 완료해야 합니다.

- 필요한 python package는 conda environment 혹은 python virtual environment에 python 3.10.12 기반의 독립적인 환경을 만든 후 pip install -r requirements_googleAPI.txt를 사용해서 설치.

In [None]:
pip install -r requirements_googleAPI.txt

<a id="create_google_api"></a>
## Google API 발급

1.구글 로그인 후 API 발급 페이지에 접속합니다. 
https://developers.google.com/custom-search/v1/overview?hl=ko

2.페이지 중단의 키 가져오기 버튼을 클릭합니다.

3.검색 API 발급 팝업이 실행되면 이용약관에 동의 후 다음 단계로 이동하세요.
API KEY 영역에 발급된 KEY 정보가 나타납니다. 
API KEY 정보는 연동 시 필요하므로 복사해서 붙여 넣어주세요.

4.KEY 발급 후 관리자 페이지에 접속 후 검색엔진 추가 버튼을 클릭해 주세요.
https://programmablesearchengine.google.com/controlpanel/all

5.새 검색엔진 만들기 페이지에서 필요한 영역을 아래와 같이 입력하고, 만들기 버튼을 클릭합니다.

6.엔진이 생성되면 아래와 같이 검색엔진 ID가 나타납니다.
검색엔진 ID도 연동 시 필요하므로 복사해서 붙여 넣어주세요.

#### API 키와 검색 엔진 ID가 유효성 체크

In [None]:
import requests
from pprint import pprint

def check_api_key_and_search_engine_id(api_key, search_engine_id):
    # API 주소와 헤더 설정
    url = "https://www.googleapis.com/customsearch/v1"
    headers = {
        "Content-Type": "application/json"
    }
    params = {
        "key":  "AIzaSyDF07ka6ioPUKFmIaadFhrTEPtf2hTJeKU" ,
        "cx": "2799d6fe992934b59",
        "q": "what's llm?"  # 테스트 검색 질의
    }

    # API 요청 보내기
    response = requests.get(url, headers=headers, params=params)

    # 응답 상태 코드 확인
    if response.status_code == 200:
        print("API 키와 검색 엔진 ID가 유효합니다.")
    else:
        print(f"API 키나 검색 엔진 ID가 유효하지 않습니다. HTTP 상태 코드: {response.status_code}")
        print(f"응답 본문: {response.text}")

# API 키와 검색 엔진 ID 확인
check_api_key_and_search_engine_id("API Key", "검색엔진ID")

#### Google의 Custom Search JSON API를 사용하여 특정 쿼리에 대한 검색 결과 출력을 위한 함수 정의

In [2]:
import requests
import json

# Google Search API 요청을 보내고 결과를 처리하는 함수
def search_api(query):
    # API 주소와 헤더 설정
    url = "https://www.googleapis.com/customsearch/v1"
    headers = {
        "Content-Type": "application/json"
    }
    params = {
        "key": "Your Google API Key",  # 실제 API 키로 변경해야 합니다.
        "cx": "Your Google CX",  # 실제 검색 엔진 ID로 변경해야 합니다.
        "q": query
    }

    # API 요청 보내기
    response = requests.get(url, headers=headers, params=params)

    # 응답 확인
    if response.status_code == 200:
        return response.json()
    else:
        print(f"API 요청 실패: {response.status_code}")
        return None


<a id="search"></a>
## 질의 수행

#### 위에서 만든 함수를 통한 검색 질의 수행

In [None]:
# API를 사용하여 검색 질의 수행
api_result = search_api("파묘 평점")

# API 결과 출력
pprint(api_result)

#### 질의를 수행하여 필요한 데이터만 출력

In [None]:
# API를 사용하여 검색 질의 수행
api_result = search_api("파묘 평점")

# API 결과 파싱
for result in api_result['items']:
    title = result['title']
    link = result['link']
    snippet = result['snippet']

    # 필요한 정보만 출력
    pprint(f"제목: {title}, 링크: {link}, 토막글: {snippet}")

<a id="build_base"></a>
## 검색결과를 임베딩하여 데이터베이스 구축

#### ChromaDB 인스턴스 생성 및 임베딩 모델 초기화

In [2]:
import chromadb

# ChromaDB 인스턴스 생성
client = chromadb.PersistentClient()

try: 
    if client.get_collection(name="search_result") is not None:
        client.delete_collection(name="search_result")
except:
   pass
search_result = client.create_collection(name="search_result")



In [None]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')


#### API를 사용하여 검색 질의 및 임베딩, ChromaDB에 추가

In [26]:
import tqdm

# 전역 변수 초기화
global_id = 0

In [None]:
# API를 사용하여 검색 질의 수행
api_result = search_api("파묘 재미")

# API 결과 파싱 및 ChromaDB에 추가
ids = []
metadatas = []
embeddings = []
for result in api_result['items']:
    global global_id
    title = result['title']
    link = result['link']
    snippet = result['snippet']

    # 필요한 정보만 출력
    pprint(f"제목: {title}, 링크: {link}, 토막글: {snippet}")

    # 임베딩 생성
    embedding = model.encode(title, normalize_embeddings=True).tolist()

    ids.append(str(global_id))
    metadatas.append({"title": title, "link": link, "snippet": snippet})
    embeddings.append(embedding)

    # global_id 증가
    global_id += 1

# 임베딩을 chunk 단위로 ChromaDB에 추가
total_chunks = len(ids)
for chunk_idx in tqdm.tqdm(range(total_chunks)):
    
    chunk_embeddings = embeddings[chunk_idx]
    chunk_ids = ids[chunk_idx]
    chunk_metadatas = metadatas[chunk_idx]

    search_result.add(embeddings=chunk_embeddings, ids=chunk_ids, metadatas=chunk_metadatas)



<a id="answer"></a>
## vectorDB에 저장된 내용을 바탕으로 질의에 대한 답변

#### Chromadb에서 검색한 결과를 조회

In [None]:
result = search_result.query(
    query_embeddings=model.encode("파묘 재밌어?", normalize_embeddings=True).tolist(),
    n_results=5
)
pprint(result)

In [None]:
 # 검색 결과를 가져옵니다
result = search_result.query(
    query_embeddings=model.encode("파묘 재미", normalize_embeddings=True).tolist(),
    n_results=5
)

response = ""
for i, metadata in enumerate(result['metadatas'][0]):
    title = metadata['title']
    snippet = metadata['snippet']
    link = metadata['link']
    response += f"{i+1}.'{title}', {snippet},{link}\n\n"

pprint(response)
