# Google Colab 에서 NVIDIM NIM 테스트

#### 1. OpenAI 컴포넌트 설치

In [None]:
!pip install -q openai

#### 2. OpenAI 사용 선언 및 Google Colab의 Secret Key 사용을 위한 userdata 선언

In [None]:
from openai import OpenAI
from google.colab import userdata

#### 3. NIM의 base_url 주소와 Google Colab의 Secret Key로 저장한 NVIDIA_NIM 변수를 api_key 변수로 저장, 이때 NVIDIA_NIM의 Value 값은 Generate API key 설정.    

In [None]:
client = OpenAI(
  base_url = "https://integrate.api.nvidia.com/v1",
  api_key = userdata.get('NVIDIA_NIM')
)


#### 4. OpenAI API를 사용하여 “meta/llama3-8b-instruct”라는 모델을 호출하고 사용자 질문에 대한 스트리밍 응답을 생성하기

##### model : OpenAI가 제공한 8B(80억) 파라미터 크기의 Llama3 기반 모델
##### message : 대화 메시지
##### 1) role : 메시지의 역할로 "user"로 설정
##### 2) content : 사용자의 질문(내용) 전달
##### 3) temperature : 출력의 창의성. 낮은 값(0~0.5): 균형적인 응답(덜 창의적)
##### 4) top_p : Nucleus Sampling 기법으로 출력 확률 분포를 제어. 0.7로 설정하면 상위 80% 확률에 속하는 토큰만 고려
##### 5) max_tokens : 응답에 사용할 최대 토큰 수. 여기서는 1024로 설정되어, 최대 1024개의 토큰을 생성
##### 6) stream : 스트리밍 방식 여부 설정. True: 점진적으로 응답 받음. False: 모든 응답을 한 번에 받음.
#####

In [None]:
completion = client.chat.completions.create(
  model="meta/llama-3.1-8b-instruct",
  messages=[{"role":"user","content":"who is Jensen Huang?"}],
  temperature=0.5,
  top_p=0.8,
  max_tokens=1024,
  stream=True
)

# API 응답이 여러 “청크”로 나뉘어 들어오므로, 각 청크를 순회하며 처리함.
for chunk in completion:
  if chunk.choices[0].delta.content is not None: # API 응답에서 현재 청크의 텍스트 내용 추출
    print(chunk.choices[0].delta.content, end="") # 출력된 텍스트를 화면에 표시하며, 줄바꿈 없이 이어서 출력(end="").
