### 허깅페이스로 인퍼런스하기

In [None]:
#nvidia-smi
#pip install vllm
#pip install accelerate

In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct

model_name = "LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [None]:
# Choose your prompt
prompt = "Explain how wonderful you are"  # English example
prompt = "스스로를 자랑해 봐"       # Korean example

messages = [
    {"role": "system", 
     "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)


In [None]:
input_ids.to("cuda")

In [None]:
o = model(input_ids.to("cuda"))

In [None]:
print(o.logits.shape)

In [None]:
import torch
tokenizer.decode([torch.argmax(o.logits[:,-1,:]).item()])

In [None]:
output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

### VLLM으로 인퍼런스하기

In [None]:
from vllm import LLM, SamplingParams
import torch

# https://docs.vllm.ai/en/v0.7.2/getting_started/quickstart.html
# https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B

model_name = "naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B"
llm = LLM(model=model_name, tensor_parallel_size=torch.cuda.device_count())

In [None]:
# temperature=0.8: 모델 출력의 무작위성을 제어하며, 낮을수록 결정론적이고 높을수록 다양성이 증가합니다.
# top_p=0.95: 누적 확률이 0.95가 될 때까지 상위 토큰 후보를 모아 그중에서 샘플링합니다.
# min_tokens=8: 최소 8개의 토큰은 반드시 생성하도록 강제하여, 짧게 끝나지 않도록 합니다.
# max_tokens=512: 최대 512개의 토큰까지만 생성하며, 해당 수를 초과하면 출력을 중단합니다.
# repetition_penalty (예: 1.2): 이미 생성된 토큰의 반복을 억제하기 위해 사용하며, 1.0보다 클수록 반복이 줄어듭니다.

sampling_params = SamplingParams(temperature=0.8, top_p=0.95, min_tokens=8, max_tokens=512) #repetition_penalty

In [None]:
prompts = [
    "점심을 뭘 먹을까?",
    "퇴근하고 싶은데 가도 될까?"
]
tokenizer = llm.get_tokenizer()

qrys = []
for p in prompts:
    chat = [
            {"role": "tool_list", "content": ""},
            {"role": "system", "content": "- AI 언어모델의 이름은 \"CLOVA X\" 이며 네이버에서 만들었다.\n- 오늘은 2025년 04월 24일(목)이다."},
            {"role": "user", "content": p},
        ]

    inputs = tokenizer.apply_chat_template(chat, add_generation_prompt=True,tokenize=False)
    qrys.append(inputs)

In [None]:
outputs = llm.generate(qrys, sampling_params)
outputs = [output.outputs[0].text for output in outputs]

### VLLM 으로 서빙하기

In [None]:
# https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html

vllm serve naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B \
  --dtype auto \
  --api-key token-abc123
  --port 1210

In [None]:
from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:1210/v1",
    api_key="token-abc123",
)

completion = client.chat.completions.create(
    model="naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B",
    messages=[
        {"role": "user", "content": "Hello!"}
    ]
)

print(completion.choices[0].message)

In [2]:
from openai import OpenAI
client = OpenAI(
    base_url="http://38.147.83.29:38315/v1",
    api_key="token-abc123",
)

completion = client.chat.completions.create(
    model="naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B",
    messages=[
        {"role": "user", "content": "Hello!"}
    ]
)

print(completion.choices[0].message)

ChatCompletionMessage(content='다음과 같은 방법으로 인사를 답변을 할 수 있습니다.\n\n1. **안녕하세요**\n- 가장 기본적인 인사말입니다. "안녕하세요" 또는 "안녕하십니까" 등으로 표현할 수 있습니다.\n\n2. **반갑습니다**\n- 상대방에게 반갑다는 인사를 전할 때 사용할 수 있습니다.\n\n3. **잘 지내고 있나요?**\n- 상대방의 안부를 묻는 인사말입니다. "잘 지내고 있나요?" 혹은 "잘 지내고 계신가요?" 등으로 표현할 수 있습니다.', refusal=None, role='assistant', annotations=None, audio=None, function_call=None, tool_calls=[], reasoning_content=None)


### OpenAI API 사용하기

In [6]:
from openai import OpenAI
# https://platform.openai.com/docs/quickstart?api-mode=chat
# https://platform.openai.com/docs/models

client = OpenAI(api_key='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')

completion = client.chat.completions.create(
    model="gpt-4.1",
    messages=[
        {
            "role": "user",
            "content": "Write a one-sentence bedtime story about a unicorn."
        }
    ],
    temperature=0.0
)

print(completion.choices[0].message.content)

Under a blanket of twinkling stars, a gentle unicorn tiptoed through a moonlit meadow, sprinkling dreams of magic and kindness wherever she went.


In [7]:
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                    },
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)

The image shows a scenic view of a boardwalk or pathway leading through a grassy area. There are lush green grasses on either side of the pathway, and the sky above is bright with fluffy clouds. It appears to be a natural landscape, possibly in a wetland or meadow, creating a serene and open atmosphere.


In [13]:
import base64
import mimetypes
from pathlib import Path
from typing import Union

def encode_data_uri(path: Union[str, Path]) -> str:
    """Read a file and return a data URI string."""
    path = Path(path)  # Ensure we have a Path object
    raw = path.read_bytes()
    b64 = base64.b64encode(raw).decode("ascii")
    mime = mimetypes.guess_type(path.name)[0] or "application/octet-stream"
    return f"data:{mime};base64,{b64}"

# Example usage:
 = encode_data_uri("assets/istockphoto-509661920-612x612.jpg")

In [15]:
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What's in this image? Explain in Korean."},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": data_uri,
                    },
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)

이 이미지는 전통 한국 건축물이 있는 장면을 보여주고 있습니다. 건물은 화려하게 장식되어 있으며, 전통적인 지붕 형태를 가지고 있습니다. 배경에는 산이 있어 자연경관과 조화로운 분위기를 자아냅니다. 이 장소는 역사적 의미가 있는 공원이나 궁전의 일부일 가능성이 높으며, 아침이나 저녁의 차분한 분위기가 느껴집니다. 전체적으로 고풍스러운 아름다움을 지닌 장면입니다.


### OpenRouter API 사용하기

In [None]:
!pip install litellm

In [20]:
import litellm
import os
from litellm import batch_completion, completion

# https://openrouter.ai/models

os.environ['OPENROUTER_API_KEY'] = "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"


response = completion(
  model="openrouter/deepseek/deepseek-r1-0528-qwen3-8b",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

In [22]:
response.choices[0].message.content

"Hello! 😊  \nI'm doing well—just waiting here ready to help you with whatever you need. How are *you* doing today? I'd love to know how I can assist you!"

In [24]:
response.choices[0].message.reasoning_content

'Okay, the user greeted me with "Hello, how are you?" and asked how I\'m doing. \n\nHmm, this is a pretty casual greeting exchange, one of those typical interactions where users test the waters with polite small talk before diving into more complex topics. \n\nLet me analyze this. The user is probably feeling neutral or slightly positive in their mood - not urgent, but not deeply relaxing either. They might be curious about how virtual assistants handle these social niceties. \n\nI should respond naturally but keep it warm and inviting. The key is to mirror their tone while gently steering toward more productive conversation. \n\nI\'ll start with the standard "all systems operational" bit to convey competence, then pivot to asking how they are doing. Including a smiley face makes this feel more human. The placeholder for their name personalizes it without being too invasive. \n\nThis balance feels right - acknowledges the social nicety while keeping the door open for whatever they migh

In [25]:
response = completion(
  model="openrouter/google/gemma-2b-it",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

In [26]:
response.choices[0].message.content

'Hello, I am doing well and thank you for your question. I am functioning properly and ready to assist you with your needs. Is there anything I can help you with today?'

In [27]:
response = completion(
  model="openrouter/perplexity/sonar-pro",
  messages=[{ "content": "손규진이 누구야?","role": "user"}]
)

In [29]:
response.choices[0].message.content

'손규진(Guijin Son)은 연세대학교에서 경제학을 전공하는 학생이자 자연어 처리(Natural Language Processing) 분야의 연구자입니다[1]. 그는 언어 모델과 인공지능 관련 연구를 수행하고 있으며, 논문 작성과 오픈소스 프로젝트에 적극적으로 참여하고 있습니다[1].\n\n직업적으로는 온라인 AI 스타트업에서 AI 리서치 역할을 맡고 있으며, 해외 단체인 일로드 AI(ILORED AI)에서도 데이터셋 제작 및 인스트럭션 튜닝 업무를 담당했던 경험이 있습니다[2].\n\n손규진은 한국어 자연어 처리 분야에서 주목할 만한 성과를 보여왔습니다. 특히 코-클립(Ko-CLIP)이라는 프로젝트에서 언어 모델과 이미지 모델을 결합한 클립(CLIP) 모델을 한국어에 최초로 적용했습니다[2]. 또한 헤븐-C QA와 KMM과 같은 벤치마크 데이터셋을 개발하고 공개하는 활동을 지속적으로 하고 있습니다[2].\n\n그는 TEDxYonseiUniversity와 모두콘2023 같은 행사에서 인공지능과 언어 모델에 관한 강연을 진행하며, 이 분야에 대한 전문성을 대중과 공유하고 있습니다[1][2].'

In [36]:
response.choices[0].message.annotations

[{'type': 'url_citation',
  'url_citation': {'end_index': 0,
   'start_index': 0,
   'title': 'www.youtube.com/watch',
   'url': 'https://www.youtube.com/watch?v=aVDUZEWZecA'}},
 {'type': 'url_citation',
  'url_citation': {'end_index': 0,
   'start_index': 0,
   'title': 'www.youtube.com/watch',
   'url': 'https://www.youtube.com/watch?v=5xqbyZZX2cw'}}]

In [51]:
import requests
import json

response = requests.post(
  url="https://openrouter.ai/api/v1/chat/completions",
  headers={
    "Authorization": "Bearer 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",
  },
  data=json.dumps({
    "model": "qwen/qwen3-14b:online", # Optional
    "messages": [
      {
        "role": "user",
        "content": "손규진이 누구야"
      }
    ]
  })
)


In [56]:
print(response.json()['choices'][0]['message']['content'])

손규진(GUIJIN SON)은 연세대학교 언더우드국제대학에서 경제학을 전공하고 있는 연구자로, 금융 도메인의 시계열 데이터 분석과 자연어 처리(NLP) 분야에서 활동하고 있습니다. 그는 특히 언어 모델에 "휘발성 지식"(시간에 따라 변화하는 정보)이 과도하게 학습되는 문제를 해결하기 위해 **TGT-Masking**이라는 방법론을 제안한 연구를 진행한 바 있습니다. 이 연구는 금융 분야의 모델이 특정 시점의 데이터로 학습된 경우(예: 2022년의 FOMC 관련 텍스트) 시간이 흐른 후(예: 2024년) 정확한 예측을 못하는 한계를 극복하려는 목적을 가졌습니다 [kr.linkedin.com](https://kr.linkedin.com/posts/guijin-son-4909331bb_removing-non-stationary-knowledge-from-pre-trained-activity-7019855625123749888-ZcEu).

또한 2024년에는 한국 대규모 언어 모델 **HyperCLOVA X**의 성능 평가 및 개선에 참여했으며, **HAE-RAE Bench**와 **KMMLU**와 같은 평가 기준 마련에도 기여한 것으로 보입니다. 이와 관련된 발표는 랭체인코리아 밋업에서 이루어질 예정이었습니다 [kr.linkedin.com](https://kr.linkedin.com/posts/guijin-son-4909331bb_lrec-naver-eleutherai-activity-7165924848332910592-m7r4).

기타 검색 결과 중 '손소'나 '손기정'은 손규진과는 별개의 인물로 보이며, 나무위키의 '손기정'은 달리어는 선수와 관련된 인물입니다.
