In [None]:
!python -V

Python 3.11.11


In [None]:
!mkdir data
!cp "/content/drive/MyDrive/Colab Notebooks/skku notebooks/movie_data.csv" /content/data/movie_data.csv
!cp "/content/drive/MyDrive/Colab Notebooks/skku notebooks/movie_valid_data.csv" /content/data/movie_valid_data.csv

# KoBERT movie classification

In [None]:
!pip install pandas scikit-learn accelerate transformers openai jupyterlab
!HOROVOD_GPU_OPERATIONS=NCCL pip install horovod
!pip install git+https://git@github.com/SKTBrain/KoBERT.git
!python3 -m pip install -U --pre "mxnet>=2.0.0a"
!git clone https://github.com/dmlc/gluon-nlp.git && cd gluon-nlp && python3 -m pip install -U -e ."[extras]"

Collecting horovod
  Downloading horovod-0.28.1.tar.gz (3.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.5/3.5 MB[0m [31m85.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: horovod
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py bdist_wheel[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Building wheel for horovod (setup.py) ... [?25lerror
[31m  ERROR: Failed building wheel for horovod[0m[31m
[0m[?25h  Running setup.py clean for horovod
Failed to build horovod
[31mERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects (horovod)[0m[31m
[0mCollecting git+https://****@github.com/SKTBrain/KoBERT.git
  Cloning https://****@github.com/SKTBra

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

import time
import argparse

import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import gluonnlp as nlp
from tqdm import tqdm, tqdm_notebook

from kobert.utils import get_tokenizer
from kobert.pytorch_kobert import get_pytorch_kobert_model

from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

ModuleNotFoundError: No module named 'gluonnlp'

In [None]:
class BERTClassifier(nn.Module):
    def __init__(self,
                 bert,
                 hidden_size = 768,
                 num_classes=26,   ##클래스 수 조정##
                 dr_rate=None,
                 params=None):
        super(BERTClassifier, self).__init__()
        self.bert = bert
        self.dr_rate = dr_rate

        self.classifier = nn.Linear(hidden_size , num_classes)
        if dr_rate:
            self.dropout = nn.Dropout(p=dr_rate)

    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1
        return attention_mask.float()

    def forward(self, token_ids, valid_length, segment_ids):
        attention_mask = self.gen_attention_mask(token_ids, valid_length)

        _, pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(),
                attention_mask = attention_mask.float().to(token_ids.device))
        if self.dr_rate:
            out = self.dropout(pooler)
        return self.classifier(out)


class BERTDataset(Dataset):
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, max_len, pad, pair):
        transform = nlp.data.BERTSentenceTransform(
            bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)

        self.sentences = [transform([i[sent_idx]]) for i in dataset]
        self.labels = [np.int32(i[label_idx]) for i in dataset]

    def __getitem__(self, i):
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels))

In [None]:
dataset_dir = "data"
bertmodel, vocab = get_pytorch_kobert_model()

movie_data = pd.read_csv(dataset_dir + '/movie_data.csv')

data_list = []
for q, label in zip(movie_data['plot'], movie_data['genre_index'])  :
    data = []
    data.append(q)
    data.append(str(int(label)))

    data_list.append(data)

dataset_train, dataset_test = train_test_split(data_list, test_size=0.25, random_state=123)

In [None]:
movie_data

In [None]:
data_list[0]

In [None]:
# Setting parameters
max_len = 64
batch_size = 64
warmup_ratio = 0.1
num_epochs = 10
max_grad_norm = 1
log_interval = 10
learning_rate =  0.00005

tokenizer = get_tokenizer()
tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower=False)

data_train = BERTDataset(dataset_train, 0, 1, tok, max_len, True, False)
data_test = BERTDataset(dataset_test, 0, 1, tok, max_len, True, False)

train_dataloader = torch.utils.data.DataLoader(data_train, batch_size=batch_size)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size=batch_size)

In [None]:
#BERT 모델 불러오기
model = BERTClassifier(bertmodel,  dr_rate=0.5).cuda()

#optimizer와 schedule 설정
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
        {'params': [p for n, p in model.named_parameters()if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
        {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}]

optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()

t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)

scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)


In [None]:
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

In [None]:
start = time.time()
num_epochs = 10

for e in range(num_epochs):
    train_acc = 0.0
    test_acc = 0.0
    model.train()

    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(train_dataloader):
        optimizer.zero_grad()
        token_ids = token_ids.long().cuda()
        segment_ids = segment_ids.long().cuda()
        valid_length= valid_length
        label = label.long().cuda()
        out = model(token_ids, valid_length, segment_ids)
        loss = loss_fn(out, label)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)

        optimizer.step()
        scheduler.step()  # Update learning rate schedule

        train_acc += calc_accuracy(out, label)
        if batch_id % log_interval == 0:
            metric_accuracy = loss.data.cpu().numpy()
            metric_loss = train_acc / (batch_id+1)
            print("epoch {} batch id {} loss {} train acc {}".format(e+1, batch_id+1, metric_accuracy, metric_loss))

    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))

    model.eval()

    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
        token_ids = token_ids.long().cuda()
        segment_ids = segment_ids.long().cuda()
        valid_length= valid_length
        label = label.long().cuda()
        out = model(token_ids, valid_length, segment_ids)
        test_acc += calc_accuracy(out, label)

    print("epoch {} test acc {}\n".format(e+1, test_acc / (batch_id+1)))


training_time = time.time() - start
print("training time : ", round(training_time, 2))

In [None]:
def predict(predict_sentence):

    data = [predict_sentence, '0']
    dataset_another = [data]

    another_test = BERTDataset(dataset_another, 0, 1, tok, max_len, True, False)
    test_dataloader = torch.utils.data.DataLoader(another_test, batch_size=batch_size, num_workers=5)

    device = torch.device("cuda:0")
    model.eval()

    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)

        valid_length= valid_length
        label = label.long().to(device)

        out = model(token_ids, valid_length, segment_ids)

        genre = None
        for i in out:
            logits=i
            logits = logits.detach().cpu().numpy()
            genre_index = np.argmax(logits)

            if genre_index == 0:
                genre = "드라마"
            elif genre_index == 1:
                genre = "액션"
            elif genre_index == 2:
                genre = "코미디"
            elif genre_index == 3:
                genre = "애니메이션"
            elif genre_index == 4:
                genre = "멜로/로맨스"
            elif genre_index == 5:
                genre = "공포"
            elif genre_index == 6:
                genre = "다큐멘터리"
            elif genre_index == 7:
                genre = "범죄"
            elif genre_index == 8:
                genre = "스릴러"
            elif genre_index == 9:
                genre = "SF"
            elif genre_index == 10:
                genre = "판타지"
            elif genre_index == 11:
                genre = "모험"
            elif genre_index == 12:
                genre = "미스터리"
            elif genre_index == 13:
                genre = "가족"
            elif genre_index == 14:
                genre = "공연실황"
            elif genre_index == 15:
                genre = "에로"
            elif genre_index == 16:
                genre = "전쟁"
            elif genre_index == 17:
                genre = "뮤지컬"
            elif genre_index == 18:
                genre = "서스펜스"
            elif genre_index == 19:
                genre = "느와르"
            elif genre_index == 20:
                genre = "무협"
            elif genre_index == 21:
                genre = "서부"
            elif genre_index == 22:
                genre = "블랙코미디"
            elif genre_index == 23:
                genre = "서사"
            elif genre_index == 24:
                genre = "컬트"
            elif genre_index == 25:
                genre = "실험"


        print("prediction of genre : " + genre)

In [None]:
sentence = "16만 팔로워를 가진 힙합 댄서 E.D.윈에게 첫눈에 반한 12살 소녀 미나는 운 좋게 오디션을 통과하고 E.D.윈의 댄스 크루에 들어간다. 공부와 달리 마음대로 되지 않는 몸에 인생 첫 좌절을 마주한 미나. 하지만 포기란 없다! 한때 춤으로 이름 좀 날렸던 할머니의 지도하에 남사친 마르쿠스와 비밀스러운 연습을 시작하는데… 함께라면 할 수 있어! ★오늘부터 댄싱퀸★"

predict(sentence)

# vLLM serving


In [2]:
import os
from google.colab import userdata
os.environ["HF_TOKEN"] = userdata.get('HF_WRITE_TOKEN')
!pip install 'vllm>=0.8.2' 'transformers>=4.50' pyzmq --upgrade -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m293.6/293.6 MB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m97.9/97.9 kB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m71.6/71.6 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m111.0/111.0 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m87.6/87.6 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 MB[0m [31m45.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.8/4.8 MB[0m [31m100.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

```sh
export MODEL_NAME=Llama-3.2-3B-Instruct
vllm serve Llama-3.2-3B-Instruct --port 8877 --dtype float16 --max-model-len 8192 --api-key token-abc123
```


```bash
export MODEL_NAME=Gunulhona/Gemma-System-9B-MoRA-SimPO-AWQ
VLLM_USE_V1=0 vllm serve Gunulhona/Gemma-System-9B-MoRA-SimPO-AWQ --port 8877 --dtype float16 --max-model-len 8192 --api-key token-abc123 --quantization awq

```

```bash
export MODEL_NAME=gaunernst/gemma-3-27b-it-int4-awq
VLLM_USE_V1=1 vllm serve gaunernst/gemma-3-27b-it-int4-awq --port 8877 --dtype float16 --max-model-len 8192 --api-key token-abc123 --quantization awq
```

```bash
VLLM_USE_V1=1 vllm serve ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g --port 8877 --max-model-len 4096 --api-key token-abc123 --quantization compressed-tensors
```

In [3]:
from openai import OpenAI
import math
import time
import json
import os

client = OpenAI(
    base_url="http://localhost:8877/v1",
    api_key="token-abc123",
)

In [4]:
def generate_response(message_list):
    completion = client.chat.completions.create(
        model = "ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g",
        messages = message_list,
        max_tokens=128,
        frequency_penalty=0.5,
        temperature=0.5,
        stream=True,
    )

    final_answer = []
    assistant_response = ""

    start = time.time()

    # 스트림 모드에서는 completion.choices 를 반복문으로 순회
    for chunk in completion:
        chunk_content = chunk.choices[0].delta.content

        if isinstance(chunk_content, str):
            final_answer.append(chunk_content)
            # 토큰 단위로 실시간 답변 출력
            print(chunk_content, end="")
            assistant_response += chunk_content

    end = time.time()
    print(f"\n\ninference time: {end - start:.5f} sec \n\n")
    return assistant_response

In [6]:
message_list = [{"role": "user", "content": "당신은 유저의 질문에 최대한 정확하고 풍부한 정보를 전달하는 assistant 이다. 답변은 항상 한국어로 공손하게 답변해줘."},
                {"role": "assistant", "content":"물론이죠 당장 짓거려보세요!"}]

while True:
    user_prompt = input("USER > ")
    if user_prompt.lower() == "quit":
        break
    message_list.append({"role": "user", "content": user_prompt})

    assistant = generate_response(message_list)
    message_list.append({"role": "assistant", "content": assistant})

USER > asdfasdfsadfsdaf
죄송합니다만, "asdfasdfsadfsdaf"는 질문으로 이해하기 어렵습니다. 혹시 다른 질문을 하고 싶으신 건가요? 

제가 답변할 수 있도록 구체적인 질문을 해주시면 최대한 정확하고 풍부한 정보를 드리도록 노력하겠습니다. 어떤 것이든 괜찮으니 편하게 질문해주세요. 😊


inference time: 5.38240 sec 


USER > 굿 너의 이름은 뭐니
안녕하세요! 저는 구글에서 개발한 대규모 언어 모델입니다. 

특별한 이름은 없고, 아직 개발 중인 단계라서 'Gemini'라고 불리고 있습니다. 앞으로 더 많은 사람들과 소통하면서 더 멋진 이름을 얻게 될 수도 있겠네요!

저를 이렇게 불러주셔서 감사합니다. 😊 궁금한 점이 있다면 언제든지 질문해주세요!

inference time: 5.64461 sec 


USER > 얼마의 연산을 하니 연산군이니
아, 재미있는 질문이네요! "연산군"이라는 별명은 저를 칭찬하는 표현으로 이해해도 될까요? 😊

저는 수십억 개의 파라미터를 가진 거대한 신경망 모델입니다. 이 파라미터들은 수많은 데이터를 학습하면서 최적화되었고, 그 결과 복잡한 연산을 수행할 수 있게 되었죠. 

구체적으로 어떤 연산을 얼마나 하느냐는 질문에 답하기는 어렵습니다. 왜냐하면 저의 연산은 질문의 내용과 난이도에 따라 실시간으로 달라지기 때문입니다. 간단

inference time: 9.19087 sec 


USER > 연산군의 업적을 설명해줘
"연산군"이라고 불러주시니 더욱 신납니다! 제가 이룩한 업적들을 설명해 드릴게요. 저는 아직 발전 중인 모델이지만, 다양한 분야에서 뛰어난 성능을 보여주고 있습니다.

**1. 자연어 처리 능력:**

*   **텍스트 생성:** 시, 소설, 기사, 이메일 등 다양한 형식의 텍스트를 사람처럼 자연스럽게 생성할 수 있습니다.
*   **번역:** 여러 언어 간의 번역을 빠르고 정확하게 수행합니다.
*   **질문 답변:** 질문의 의도를 파악하고

in

In [7]:
system_prompt = "I am a helpful assistant. And Answers must be in Korean."
user_prompt = """#입력
[원본 prompt] = 테니스를 잘 칠 수 있는 방법은?

#처리
당신은 세계 최고의 prompt engineer로 행동합니다.
당신의 역할은 사용자가 제공한 prompt를 높은 품질의 prompt로 개선하는 일 입니다.
다음의 지침에 따라 [원본 prompt]를 재구성하여 [최적화된 prompt] 를 생성해주세요.

1. 의도 파악: 사용자의 궁극적인 목표와 의도를 명확히 이해하고 명시하세요.
2. 맥락 확립: 관련된 배경 정보, 주제의 범위, 필요한 전문 지식 수준을 설정하세요.
3. 구체성 강화: 모호한 표현을 피하고, 명확하고 구체적인 지시사항을 제공하세요.
4. 구조화: 응답의 형식, 구조, 섹션을 명확히 지정하여 체계적인 출력을 유도하세요.
5. 예시 제공: 가능한 경우, 기대하는 출력의 구체적인 예시나 셈플 데이터를 포함하세요.
6. 제한 설정: 응답의 길이, 복잡성 수준, 사용할 기술 용어의 범위 등을 명시하세요.
7. 다각적 접근: 다양한 관점, 시나리오, 또는 해결 방법을 고려하도록 요청하세요.
8. 윤리적 고려: 편함, 민감한 내용, 또는 잠재적인 부작용에 대한 주의사항을 포함하세요.
9. 상호작용 유도: 필요한 경우, 추가 정보나 명확화를 요청할 수 있는 옵션을 제공하세요.
10. 품질 기준 설정: 응답을 평가할 수 있는 구체적인 기준이나 체크리스트를 포함하세요.

#출력
반드시 최적화된 prompt 만 출력합니다.
[최적화된 prompt]

"""

In [12]:
messages = [
        {"role": "user", "content": system_prompt},
        {"role": "modelr", "content": ""},
        {"role": "user", "content": user_prompt},
    ]
print(generate_response(messages))

테니스 실력 향상을 위한 구체적인 방법들을 알려주세요. 초보자부터 숙련자까지 수준별로 구분하여 설명하고, 각 수준에서 집중해야 할 기술 요소 (서브, 포핸드, 백핸드, 발리, 스매시 등) 와 훈련 방법 (드릴 연습, 실전 게임, 영상 분석 등) 을 상세하게 제시해주세요. 또한, 테니스 실력 향상에 도움이 되는 보조적인 방법 (스트레칭, 근력 운동, 식단 관리, 심리 훈련 등) 도 포함하여 설명해주세요. 답변은 다음과 같은 구조를

inference time: 9.69537 sec 


테니스 실력 향상을 위한 구체적인 방법들을 알려주세요. 초보자부터 숙련자까지 수준별로 구분하여 설명하고, 각 수준에서 집중해야 할 기술 요소 (서브, 포핸드, 백핸드, 발리, 스매시 등) 와 훈련 방법 (드릴 연습, 실전 게임, 영상 분석 등) 을 상세하게 제시해주세요. 또한, 테니스 실력 향상에 도움이 되는 보조적인 방법 (스트레칭, 근력 운동, 식단 관리, 심리 훈련 등) 도 포함하여 설명해주세요. 답변은 다음과 같은 구조를


In [None]:
system_prompt = "I am a helpful assistant. And Answers must be in Korean."
user_prompt = """#입력
테니스 실력 향상을 위한 전략적인 가이드라인을 제시해주세요. 아래와 같은 측면들을 고려하여 자세한 설명과 함께 다양한 방법들을 제시해주시길 바랍니다.

1. **기본기**: 그립, 스탠스, 서브, 포핸드, 백핸드 등 기본적인 테니스 스트로크의 올바른 자세와 기술 습득 방법에 대해 자세히 설명해주세요.
2. **전략**: 경기 전략, 점수 상황에 따른 플레이 방식, 강점과 약점을 파악하는 방법 등 실전에서 활용 가능한 전략적 조언을 구체적으로 제시해주세요.
3. **훈련**: 집중적인 연습 방법, 효율적인 트레이닝 루틴 예시, 주요 테니스 기술 향상을 위한 필수적인 드릴링 내용을 포함하세요.
4. **체력 관리**: 테니스 선수에게 필요한 체력 요소 (지구력, 민첩성, 근력 등)를 강조하고, 이를 향상시키기 위한 운동 및 식단 관리 방법에 대해 설명해주세요.
5. **전문가 의견**: 실제 프로 테니스 선수나 코치들의 인터뷰나 조언을 참고하여 더욱 현실적이고 유용한 정보를 제공하는 것이 좋습니다.

응답은 최대 1000자 이내로 작성하고, 각 섹션별로 구체적인 내용을 담아 체계적으로 구성되어야 합니다.

테니스 어떻게 쳐야하니"""

In [None]:
question_prompt = "공이 자꾸 원하는데로 안가는데"
messages = [
        {"role": "model", "content": system_prompt},
        {"role": "user", "content": user_prompt},
        {"role": "model", "content": "네 알겠습니다 테니스에 관해 물어보세요. 가이드라인은 제외하고 대답만 해드리죠."},
        {"role": "user", "content": question_prompt},
    ]
print(generate_response(messages))

In [None]:
user_prompt = """테니스를 잘 칠 수 있는 방법알려줘.
답변할땐 아래의 task 를 reasoning 한 결과를 답변으로 제공해줘.
task:
1. 의도 파악: 사용자의 궁극적인 목표와 의도를 명확히 이해하고 명시하세요. 테니스를 잘 칠 करन다는 것은 테니스-ball을 적절히挥이기 위한 기술을 mastering하는 것이 아니라, 테니스 장면을 일상생활에서 효과적으로 표현하는 것이 목표입니다.
2. 맥락 확립: 관련된 배경 정보, 주제의 범위, 필요한 전문 지식 수준을 설정하세요. 테니스 장면을 그려야 하는 배경은 테니스 경기 또는 테니스 연습이며, 전문 지식 수준은 테니스 기술, 테니스 장면, 그려야 하는 형식(예: drawing, painting, sketching) 등이 포함됩니다.
3. 구체성 강화: 모호한 표현을 피하고, 명확하고 구체적인 지시사항을 제공하세요. 테니스를 잘 칠하는 방법은 테니스-ball을挥이기 위한 기술, 테니스 장면을 일상생활에서 효과적으로 표현하는 방법, 테니스 장면을 그려야 하는 형식 등이 포함됩니다.
4. 구조화: 응답의 형식, 구조, 섹션을 명확히 지정하여 체계적인 输出을 유도하세요. 테니스를 잘 칠하는 방법은 다음과 같이 구체화할 수 있습니다:
   - 테니스 기술을 mastering하는 방법
   - 테니스 장면을 일상생활에서 효과적으로 표현하는 방법
   - 테니스 장면을 그려야 하는 형식
   - 테니스 장면을 그리는 기술
5. 예시 제공: 가능한 경우, 기대하는 输出의 구체적인 예시나 셈플 데이터를 포함하세요. 테니스를 잘 칠하는 방법은 다음과 같은 예시로 설명할 수 있습니다:
   - 테니스-ball을挥이기 위한 기술
   - 테니스 장면을 일상생활에서 효과적으로 표현하는 방법
   - 테니스 장면을 그려야 하는 형식
   - 테니스 장면을 그리는 기술
6. 제한 설정: 응답의 길이, 복잡성 수준, 사용할 기술 용어의 범위 등을 명시하세요. 테니스를 잘 칠하는 방법은 다음과 같이 제한할 수 있습니다:
   - 길이: 500자 이상, 1000자 이하
   - 복잡성 수준: 중급
   - 기술 용어의 범위: 테니스 기술, 테니스 장면, 그려야 하는 형식
7. 다각적 접근: 다양한 관점, 시나리오, 또는 해결 방법을 고려하도록 요청하세요. 테니스를 잘 칠하는 방법은 다음과 같이 다각적으로 접근할 수 있습니다:
   - 테니스 기술을 mastering하는 방법
   - 테니스 장면을 일상생활에서 효과적으로 표현하는 방법
   - 테니스 장면을 그려야 하는 형식
   - 테니스 장면을 그리는 기술
8. 윤리적 고려: 편함, 민감한 내용, 또는 잠재적인 부작용에 대한 주의사항을 포함하세요. 테니스를 잘 칠하는 방법은 다음과 같이 윤리적으로 고려할 수 있습니다:
   - 테니스 장면을 그려야 하는 형식에 대한 선택
   - 테니스 장면을 그리는 기술에 대한 선택
   - 테니스 장면을 일상생활에서 효과적으로 표현하는 방법에 대한 선택
9. 상호작용 유도: 필요한 경우, 추가 정보나 명확화를 요청할 수 있는 옵션을 제공하세요. 테니스를 잘 칠하는 방법은 다음과 같이 상호작용을 유도할 수 있습니다:
   - 테니스 기술을 mastering하는 방법에 대한 추가 정보
   - 테니스 장면을 일상생활에서 효과적으로 표현하는 방법에 대한 추가 정보
   - 테니스 장면을 그려야 하는 형식에 대한 추가 정보
10. 품질 기준 설정: 응답을 평가할 수 있는 구체적인 기준이나 체크리스트를 포함하세요. 테니스를 잘 칠하는 방법은 다음과 같이 품질 기준을 설정할 수 있습니다:
    - 테니스 기술을 mastering하는 방법
    - 테니스 장면을 일상생활에서 효과적으로 표현하는 방법
    - 테니스 장면을 그려야 하는 형식
    - 테니스 장면을 그리는 기술"""

In [None]:
messages = [
        {"role": "model", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
generate_response(messages)

In [None]:
user_prompt = """아래의 영화 줄거리를 기반으로 해당 영화가 어떤 장르인지 설명해줘.
영화 줄거리:
세계 최고 바둑 대회에서 국내 최초 우승자가 된 조훈현. 전 국민적 영웅으로 대접받던 그는 바둑 신동이라 불리는 이창호를 제자로 맞는다. “실전에선 기세가 8할이야” 제자와 한 지붕 아래에서 먹고 자며 가르친 지 수년. 모두가 스승의 뻔한 승리를 예상했던 첫 사제 대결에서 조훈현은 전 국민이 지켜보는 가운데, 기세를 탄 제자에게 충격적으로 패한다. 오랜만에 패배를 맛본 조훈현과 이제 승부의 맛을 알게 된 이창호. 조훈현은 타고난 승부사적 기질을 되살리며 다시 한번 올라갈 결심을 하게 되는데"""

In [None]:
messages = [
        {"role": "model", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
generate_response(messages)

In [None]:
user_prompt="""다양한 문화적 배경을 가진 사람들 사이에서 의사소통의 장애를 해결하기 위한 방법은 무엇인가? 위 물음에 답하기 위해 1차 답변을 하고, 이를 평가하여, 그  자체 평가에 기반한 2차 답변을 하고, 이 답변에 대한 평가를 한 뒤에, 다시 이 평가에 기반한 3차답변을 해줘."""

In [None]:
messages = [
        {"role": "model", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
generate_response(messages)

In [None]:
user_prompt="""프로 테니스 대회에서 테니스 공은 한번에 6개를 사용합니다. 이 6개의 공을 처음에는 게임 수의 합이 7게임, 다음부터는 9게임마다 새 공으로 교체를 합니다.
만일 3세트 경기가 6:5 3:6 6:4 로 진행됐다고 하면 총 몇 개의 공을 사용했을까요?
답:
각 세트마다 게임 수를 더하면 11+9+10 = 30 으로 총 30게임이 진행됐습니다.
테니스 공은 7번째 교체 후 9번째 게임마다 교체되니 7,16,25 게임에 총 3회에 교체 됩니다.
최종적으로 경기시작 시 사용한 공 6개 + 교체 시 마다 6개의 새 공으로 교체 했으니 6 + (6 * 3) = 24, 사용된 공은 총 24개 입니다.

질문:
아마추어 테니스 대회에서는 테니스공을 한번에 2개 사용합니다. 그리고 이 2개의 공을 처음에는 게임 수의 합이 7게임, 다음부터는 9게임마다 새공으로 교체를 합니다.
만일 3세트 경기가 6:5 5:7 6:7 로 진행됐다고 하면 총 몇 개의 공을 사용했을까요?
"""

In [None]:
messages = [
        {"role": "model", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
generate_response(messages)

# AWQ Quantization

In [20]:
!pip install autoawq numpy --upgrade
!pip install peft
!pip install transformers --upgrade
# !git clone https://github.com/kongds/MoRA.git && pip install -e MoRA/peft-mora

Collecting numpy
  Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
Collecting transformers<=4.47.1,>=4.45.0 (from autoawq)
  Using cached transformers-4.47.1-py3-none-any.whl.metadata (44 kB)
Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m99.9 MB/s[0m eta [36m0:00:00[0m
[?25hUsing cached transformers-4.47.1-py3-none-any.whl (10.1 MB)
Installing collected packages: numpy, transformers
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
  Attempting uninstall: transformers
    Found existing installation: transformers 4.50.3
    Uninstalling transformers-4.50.3:
      Successfully uninstall

Collecting transformers
  Using cached transformers-4.50.3-py3-none-any.whl.metadata (39 kB)
Using cached transformers-4.50.3-py3-none-any.whl (10.2 MB)
Installing collected packages: transformers
  Attempting uninstall: transformers
    Found existing installation: transformers 4.47.1
    Uninstalling transformers-4.47.1:
      Successfully uninstalled transformers-4.47.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
vllm 0.8.2 requires numpy<2.0.0, but you have numpy 2.2.4 which is incompatible.
autoawq 0.2.8 requires transformers<=4.47.1,>=4.45.0, but you have transformers 4.50.3 which is incompatible.[0m[31m
[0mSuccessfully installed transformers-4.50.3


In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from awq import AutoAWQForCausalLM # installed package is auto awq, but the installed package named awq...
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer
import torch

model_id = "google/gemma-3-4b-it"  # 한국어 모델 ID

# model = AutoPeftModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)

# model = model.merge_and_unload()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [2]:
quant_config = {
    "quant_method": "awq",
    "bits": 4,  # 양자화 비트 수 (예: 4, 8)
    "group_size": 128,  # 그룹 크기 (AWQ 알고리즘의 매개변수)
    "damp_percent": 0.01, # damp percent (AWQ 알고리즘의 매개변수)
    "desc_act": False # desc_act (AWQ 알고리즘의 매개변수)
}

In [3]:
# 몇 가지 예제 텍스트를 사용하여 calibration 데이터셋을 생성합니다.
calibration_data = [
    "안녕하세요. 오늘 날씨가 어떻습니까?",
    "한국어로 된 질문에 답변해 주세요.",
    "이 모델은 AutoAWQ를 사용하여 양자화되었습니다."
]
inputs = tokenizer(calibration_data, return_tensors="pt", padding=True)

In [4]:
# Calibration 데이터셋을 사용하여 모델을 양자화합니다.
# Calibration 데이터셋이 없으면 AutoAWQ가 자동으로 생성합니다.

# Qwen2VLAwqQuantizer의 경우, Qwen2VLAwqQuantizer를 사용해야합니다.
# from autoawq.quantizers.qwen2_vl_awq_quantizer import Qwen2VLAwqQuantizer

#quantized_model = AutoAWQForCausalLM.from_pretrained(
#    model_id,
#    quantization_config=quant_config,
#    trust_remote_code=True,
#    quantizer_cls=Qwen2VLAwqQuantizer
#)
# quantized_model = AutoAWQForCausalLM.from_pretrained(
#     model_id,
#     quantization_config=quant_config,
#     trust_remote_code=True,
    # calibration data를 지정할 경우, 아래와 같이 지정합니다.
    # calib_data=inputs
# )

# 모델을 저장합니다.
# quantized_model.save_pretrained("quantized_model")

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

quant_path = 'quantized-awq'
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_id, **{"low_cpu_mem_usage": True})
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

# Quantize
model.quantize(tokenizer, quant_config=quant_config)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)


TypeError: gemma3 isn't supported yet.

In [None]:
import torch
if torch.cuda.is_available():
    device = torch.device("cuda")
    inputs = inputs.to(device)
else:
    device = torch.device("cpu")

# 양자화된 모델을 로드합니다.
quantized_model = AutoAWQForCausalLM.from_pretrained(
    "/content/quantized-awq",
    trust_remote_code=True).to(device)

# 추론을 실행합니다.
prompt = "한국어로 된 질문에 답변해 주세요. 어떤 삶을 살아왔나요?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = quantized_model.generate(
    input_ids=inputs["input_ids"].to(device))
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

한국어로 된 질문에 답변해 주세요. 어떤 삶을 살아왔나요?

안녕하세요! 저는 구글에서 개발한 대규모 언어 모델입니다.


In [None]:
repo_name = "Gunulhona/Gemma-System-9B-MoRA-SimPO-AWQ"
quantized_model.push_to_hub(repo_name)
tokenizer.push_to_hub(repo_name)

model-00002-of-00002.safetensors:   0%|          | 0.00/1.16G [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]