# 1. Amazon Bedrock Knowledge Bases - RAG 생성
- Amazon SageMaker AI - Notebook - JupyterLab 환경에서 테스트 되었습니다.
- Kernel : conda_python3

Amazon Bedrock의 Knowledge Bases를 사용하면 Amazon Bedrock의 Foundation model을 기업의 데이터와 안전하게 연결하여 RAG를 수행할 수 있습니다. 추가 데이터에 접근하면 모델을 지속적으로 재훈련하지 않아도 보다 관련성 높고, 맥락에 맞으며 정확한 응답을 생성할 수 있습니다. 또한 Knowledge Base에서 검색된 모든 정보에는 출처 정보가 제공되어 투명성을 높이고 모델의 환각을 최소화할 수 있습니다.

![aos001](../img/aosrag-001.jpg)

## 1. Setup

### 필요한 라이브러리 설치

In [None]:
# 필요한 라이브러리 설치 (설치 후 커널 재부팅 필요)
!pip install -q boto3 --upgrade
!pip install -q awscli --upgrade

### 라이브러리 임포트 및 세션 설정

In [None]:
# 필요한 라이브러리 임포트
import boto3
import json
import time
import os
import uuid
from datetime import datetime
import pandas as pd
from tqdm.notebook import tqdm

# AWS 리전 설정
region = boto3.session.Session().region_name
print(f"현재 AWS 리전: {region}")

# 세션 및 클라이언트 설정
session = boto3.session.Session(region_name=region)
bedrock = session.client('bedrock')
bedrock_runtime = session.client('bedrock-runtime')
bedrock_agent = session.client('bedrock-agent')
bedrock_agent_runtime = boto3.client('bedrock-agent-runtime')
s3 = session.client('s3')

In [None]:
print(boto3.__version__)

## 2. KnowledgeBase - RAG 생성 

<b> Amazon Bedrock 콘솔 화면에서 Knowledge Bases 를 선택 합니다. </b>

![graphrag01](../img/graphrag-01.png)

<b> Create 버튼을 누르고 Knowledge Base with vector store를 선택합니다. </b>

![aosrag02](../img/aosrag-02.jpg)

<b> 다음과 같이 정보를 입력 및 선택 합니다. 
- Knowledge Base name : aosrag-workshop
- IAM permission : Create and use a new service role 선택
- Choose data source : Amazon S3 선택
그리고 Next 버튼을 누릅니다.
</b>

![aosrag03](../img/aosrag-03.jpg)

<b> 다음과 같이 정보를 입력 및 선택 합니다. 
- Data source name : 10-q
- S3 URI : <앞서 생성된 S3 경로 s3://~~~/data/> 를 입력 또는 선택 합니다.
그리고 Next 버튼을 누릅니다.
</b>

![aosrag04](../img/aosrag-04.jpg)

임베딩 모델로 Titan Text Embeddings V2를 선택합니다.
![aosrag05](../img/aosrag-05.jpg)

Vector store로 OpenSearch Serverless를 선택한 후 Next를 클릭합니다.
![aosrag06](../img/aosrag-06.jpg)

KB 생성 정보를 확인 후, Create Knowledge Base 버튼을 누릅니다.
![aosrag07](../img/aosrag-07.jpg)

수 분후 KB - OpenSearch Vector Store가 생성되며, 여기서 다음 정보를 확인합니다.
<br>해당 정보는 다음 단계 수행을 위해 값을 복사합니다.
- Knowledge Base ID
![aosrag08](../img/aosrag-08.jpg)

Data source에서 Data Sync를 수행합니다.
* Data source(10-q)를 선택합니다.
* Sync 버튼을 누른 뒤 몇 분 기다리면 Data Sync가 완료됩니다. 이후 Status: Available 상태로 표시됩니다.
![aosrag09](../img/aosrag-09.jpg)

## 3. RAG 실행

앞서 복사한 Knowledge Base ID의 값을 아래 변수에 저장합니다.

In [None]:
kb_id = "KB ID 입력"

In [None]:
def query_knowledge_base(query_text, model_id="anthropic.claude-3-5-sonnet-20241022-v2:0", max_tokens=1000):
    try:
        # 검색 요청 구성
        retrieve_response = bedrock_agent_runtime.retrieve(
            knowledgeBaseId=kb_id,
            retrievalQuery={
                'text': query_text
            },
            retrievalConfiguration={
                'vectorSearchConfiguration': {
                    'numberOfResults': 3,
                    'overrideSearchType': 'SEMANTIC'                    
                }
            }
        )
        
        # 검색 결과 확인
        retrieved_results = retrieve_response.get('retrievalResults', [])
        
        if not retrieved_results:
            print("검색 결과가 없습니다.")
            return None
        
        # 검색 결과를 컨텍스트로 사용
        context = ""
        for i, result in enumerate(retrieved_results):
            content = result['content']['text']
            source = result.get('location', {}).get('s3Location', {}).get('uri', '알 수 없는 소스')
            score = result.get('score', 0)
            
            context += f"\n\n참고 문서 {i+1} (관련성 점수: {score}):\n{content}\n"
            print(f"검색 결과 {i+1}: 관련성 점수 {score}")
        
        # Claude에 질의 구성
        prompt = f"""
사용자의 질문에 답변해 주세요. 다음 참고 문서의 정보를 활용하세요:

{context}

사용자 질문: {query_text}

답변:
"""
        
        # Claude에 질의 요청 (수정된 부분)
        response = bedrock_runtime.converse(
            modelId=model_id,
            messages=[
                {
                    "role": "user",
                    "content": [
                        {
                            "text": prompt
                        }
                    ]
                }
            ],
            inferenceConfig={
                "maxTokens": max_tokens,
                "temperature": 0.7,
                "topP": 0.9
            }
        )
        
        # 응답 추출 및 반환
        answer = response['output']['message']['content'][0]['text']
        return answer
        
    except Exception as e:
        print(f"쿼리 실행 중 오류 발생: {e}")
        return None

In [None]:
# 쿼리 예제 실행
test_queries = [
    "아마존의 2023년 1분기 총 매출과 순이익은 얼마인가요?",
    "AWS(Amazon Web Services)의 2023년 1분기 실적은 2023년 3분기와 비교하여 어떤 변화가 있었나요?",
    "아마존의 운영 현금 흐름과 투자 활동에서 주요 변동 사항은 무엇인가요?"
]

for query in test_queries:
    print(f"\n질문: {query}")
    answer = query_knowledge_base(query)
    if answer:
        print(f"\n답변:\n{answer}")
    print("-" * 80)