## RAG (Retrieval Augmented Generation) 소개

RAG는 LLM의 성능을 향상시키는 기술로, 외부 데이터를 활용해 정확성과 최신성을 높입니다. 사용자 질문에 관련된 정보를 검색하고 이를 LLM 입력에 추가하여 더 정확한 응답을 생성합니다.

- RAG에 대한 설명:
https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/
- RAG 101: 검색 증강 생성 관련 질문과 답변:
https://developer.nvidia.com/ko-kr/blog/rag-101-retrieval-augmented-generation-questions-answered/
-
RAG 파이프라인 구축 팁:
https://developer.nvidia.com/blog/tips-for-building-a-rag-pipeline-with-nvidia-ai-langchain-ai-endpoints/


#### LanghChain 소개

LangChain은 LLM 기반 애플리케이션 개발을 위한 오픈소스 프레임워크입니다. 프롬프트 관리, 외부 데이터 연결, 메모리 기능 등을 제공하여 개발 과정을 간소화하고 다양한 LLM과의 통합을 지원합니다.

- LangChain 소개: https://python.langchain.com/v0.2/docs/introduction/
- NVIDIA와 LangChain이 진행하는 생성형 AI 에이전트 개발자 컨테스트:
https://www.nvidia.com/ko-kr/ai-data-science/generative-ai/developer-contest-with-langchain/


### 환경설정



#### LangChain 과 결합된 NVIDIA NIM 패키지 설치

In [1]:
!pip install langchain_nvidia_ai_endpoints

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting langchain_nvidia_ai_endpoints
  Downloading langchain_nvidia_ai_endpoints-0.3.5-py3-none-any.whl.metadata (11 kB)
Collecting langchain-core<0.4,>=0.3.0 (from langchain_nvidia_ai_endpoints)
  Downloading langchain_core-0.3.18-py3-none-any.whl.metadata (6.3 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain-core<0.4,>=0.3.0->langchain_nvidia_ai_endpoints)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting langsmith<0.2.0,>=0.1.125 (from langchain-core<0.4,>=0.3.0->langchain_nvidia_ai_endpoints)
  Downloading langsmith-0.1.143-py3-none-any.whl.metadata (13 kB)
Collecting tenacity!=8.4.0,<10.0.0,>=8.1.0 (from langchain-core<0.4,>=0.3.0->langchain_nvidia_ai_endpoints)
  Downloading tenacity-9.0.0-py3-none-any.whl.metadata (1.2 kB)
Collecting jsonpointer>=1.9 (from jsonpatch<2.0,>=1.33->langchain-core<0.4,>=0.3.0->langchain_nvidia_ai_endpoints)
  Downloading jsonpointer-3.0.0-py2.

#### LangChain 설치

In [2]:
!pip install langchain-community langchain-text-splitters faiss-cpu

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting langchain-community
  Downloading langchain_community-0.3.7-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-text-splitters
  Downloading langchain_text_splitters-0.3.2-py3-none-any.whl.metadata (2.3 kB)
Collecting SQLAlchemy<2.0.36,>=1.4 (from langchain-community)
  Downloading SQLAlchemy-2.0.35-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.6 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting langchain<0.4.0,>=0.3.7 (from langchain-community)
  Downloading langchain-0.3.7-py3-none-any.whl.metadata (7.1 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.6.1-py3-none-any.whl.metadata (3.5 kB)

#### Embedding 모델을 위한 sentence-transformers 패키지 설치

In [3]:
!pip install sentence-transformers

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


#### vector DB를 위한 chromadb 설치

In [4]:
!pip install chromadb

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting chromadb
  Downloading chromadb-0.5.18-py3-none-any.whl.metadata (6.8 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.5-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.32.0-py3-none-any.whl.metadata (6.6 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.7.0-py2.py3-none-any.whl.metadata (2.0 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.20.0-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Collecting opentelemetry-api>=1.2.0 (from chromadb)
  Downloading opentelemetry_api-1.28.1-py3-none-any.whl.metadata (1.4 kB)
Collecting opentelemetry-exporter-otlp-proto

### NIM 컨테이너 배포



NGC 리소스에 액세스하려면 NGC API 키가 필요하며 https://org.ngc.nvidia.com/setup/personal-keys 에서 키를 생성할 수 있습니다. NGC API 키를 생성할 때 "Services included" 드롭다운에서 최소한 "NGC Catalog"가 선택되어 있는지 확인하세요. 이 키를 다른 목적으로 재사용하려면 더 많은 서비스가 포함될 수 있습니다.
```
export NGC_API_KEY=<value>
```

```python
import os

# NIM 컨테이너 배포
container_name = "llama3-70b-instruct"
img_name = f"nvcr.io/nim/{container_name}:1.0.0"
local_nim_cache = "~/.cache/nim"

!mkdir -p {local_nim_cache}
!docker run -d --name={container_name} \
    --runtime=nvidia \
    --gpus all \
    -e NGC_API_KEY \
    -v {local_nim_cache}:/opt/nim/.cache \
    -u $(id -u) \
    -p 8000:8000 \
    {img_name}
```

### NIM base URL (http://Ip:port) 입력 받기

예) http://0.0.0.0:8000

In [5]:
import os
base_url = input("NIM URL을 입력하세요")

os.environ["NIM_URL"] = base_url

NIM URL을 입력하세요 http://0.0.0.0:8000


In [6]:
!curl -X 'POST' \
"$NIM_URL/v1/chat/completions" \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{ \
    "model": "meta/llama-3.1-70b-instruct", \
    "messages": [{"role":"user", "content":"Write a limerick about the wonders of GPU computing."}],\
    "max_tokens": 64 \
}'

{"id":"chat-cc99bf00c1864d358c162ff2f26edd21","object":"chat.completion","created":1731588310,"model":"meta/llama-3.1-70b-instruct","choices":[{"index":0,"message":{"role":"assistant","content":"There once was a GPU so fine,\nWhose computing power did truly shine.\nIt processed with pace,\nLarge datasets with ease and space,\nAnd calculations that were truly divine."},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":23,"total_tokens":58,"completion_tokens":35}}

### OpenAI API interface 사용하기

### 한국어 임베딩 모델 사용 (https://huggingface.co/jhgan/ko-sroberta-multitask)

In [7]:
import requests
from bs4 import BeautifulSoup
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.document_loaders import WebBaseLoader
from langchain.vectorstores import Chroma
import multiprocessing
from langchain.text_splitter import RecursiveCharacterTextSplitter

from langchain.chains import RetrievalQA
from langchain_nvidia_ai_endpoints import ChatNVIDIA
from langchain.prompts import PromptTemplate

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [8]:
from langchain.embeddings import HuggingFaceEmbeddings

#### 웹피이지 URL 리스트

In [11]:
urls = [
        "https://developer.nvidia.com/ko-kr/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/",
        "https://blogs.nvidia.co.kr/blog/nvidia-announces-major-updates-to-triton-inference-server-as-25-000-companies-worldwide-deploy-nvidia-ai-inference/",
    ]

#### 웹피이지 로딩

In [12]:
loader = WebBaseLoader(urls)
docs = loader.load()

#### 텍스트 분할

In [13]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

#### 임베딩 생성 및 벡터 저장소 생성
- 한국어 임베딩 모델 사용 (https://huggingface.co/jhgan/ko-sroberta-multitask)

In [14]:
embeddings = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

  embeddings = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
  from tqdm.autonotebook import tqdm, trange


In [15]:
llm = ChatNVIDIA(base_url="{0}/v1".format(os.environ["NIM_URL"]), api_key="not-used",temperature= 0.9,top_p= 1,max_token=1024)

Set model using model parameter. 
To get available models use available_models property.


#### 프롬프트 템플릿 정의

In [16]:
template = """다음은 사용자의 질문에 대한 vector DB 검색 결과입니다. 이 정보를 바탕으로 질문에 답변해 주세요.

질문: {question}

Retreiver 결과:
{context}

위의 정보를 바탕으로 사용자의 질문에 대해 명확하고 정확하게 답변해 주세요. 검색 결과에 없는 정보는 추측하지 말고, 모르는 경우 솔직히 모른다고 답변하세요.
Anaswer should be Korean
답변:
"""
prompt = PromptTemplate(template=template, input_variables=["context", "question"])

In [17]:
chain_type_kwargs = {
    "prompt": prompt,
    "document_variable_name": "context"
}

#### RAG 파이프라인 구축

In [18]:

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(),
    chain_type_kwargs=chain_type_kwargs,
    return_source_documents=True
)

In [19]:
while True:
    user_input = input("사용자: ")

    if user_input.lower() == 'quit':
        print("종료합니다. 감사합니다!")
        break

    result = qa_chain({"query": user_input})
    print("답변:", result["result"])
    print("참조 문서:", result["source_documents"])


사용자:  TensorRT-LLM에 대해서 알려줘


  result = qa_chain({"query": user_input})


답변: NVIDIA TensorRT-LLM은 NVIDIA의 인공 지능(AI) 소프트웨어 프레임워크인 TensorRT와 큰 언어 모델(LLM)을 사용하여 성능을 강화하는 기술입니다.

NVIDIA TensorRT-LLM은 Meta의 Llama 3.2 모델을 사용하여 Edge에서 Cloud까지 가속화된 Llama 3.2 배포하기를 구현하였고, Writer, 의료 및 금융을 위한 도메인별 LLM 출시하였습니다. 또한 NVIDIA TensorRT-LLM 및 NVIDIA Triton Inference Server로 Meta Llama 3 성능 강화와 8-bit 포스트 트레이닝 양자화로 안정적인 확산을 2배 더 빠르게 가속화하는 등의 업그레이드된 NVIDIA TensorRT 10.0의 사용성, 성능, AI 모델 지원을 제공합니다.
참조 문서: [Document(metadata={'description': '빠르게 진화하는 생성형 AI 환경에서 가속화된 추론 속도에 대한 요구는 여전히 시급한 문제입니다. 모델 크기와 복잡성이 기하급수적으로 증가함에 따라…', 'language': 'ko-KR', 'source': 'https://developer.nvidia.com/ko-kr/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/', 'title': 'NVIDIA TensorRT Model Optimizer로 생성형 AI 추론 성능 가속화 - NVIDIA Technical Blog'}, page_content='Discuss (0)\n        \n\n\n  \n\n      Like    \n\n\n\n\nTags\n\n\nGenerative AI | General | Academia / Education | Aerospace | Agriculture | Architecture / Engineering / Construct

사용자:  NVIDIA NIM에 대해서 설명 해줘


답변: NVIDIA NIM은 NVIDIA의 AI 추론 플랫폼으로, NVIDIA Triton Inference Server와 Tensor RT를 지원합니다. Triton Inference Server는 모든 AI 모델과 프레임워크에 대한 교차 플랫폼 추론을 제공하는 오픈소스 소프트웨어입니다. Tensor RT는 AI 모델을 최적화하고, NVIDIA GPU의 고성능 추론을 위한 런타임을 제공합니다.
참조 문서: [Document(metadata={'description': 'NVIDIA는 전세계 25,000명 이상의 고객들이 사용하는 AI 추론 플랫폼인 NVIDIA Triton Inference Server의 최신 업데이트를 발표했습니다!', 'language': 'ko-KR', 'source': 'https://blogs.nvidia.co.kr/blog/nvidia-announces-major-updates-to-triton-inference-server-as-25-000-companies-worldwide-deploy-nvidia-ai-inference/', 'title': '고성능 AI 추론이 가능한 NVIDIA Triton 최신 업데이트 소식! | NVIDIA Blog'}, page_content='글로벌 엔터프라이즈 시스템 제공업체인 아토스(Atos), 델 테크놀로지스(Dell Technologies), 기가바이트(GIGABYTE), 휴렛 팩커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼(Inspur), 레노버(Lenovo) 및 슈퍼마이크로(Supermicro)는 AI 시스템 포트폴리오에서 NVIDIA-Certified Systems을 통해 NVIDIA AI Enterprise를 지원합니다.\n이 밖에도 어드밴텍(Adventech), 애즈락랙(ASRock Rack), 에이수스(ASUS), H3C, 넷트릭스(Nettrix), QCT와 같은 추가적인 시스템 공급사에서도 다양한 워크로드를 위해 NVIDIA-Certified Syst

사용자:  quit


종료합니다. 감사합니다!
