# 실습: Zero-shot Classification

이번 실습에서는 open LLM을 가지고 zero-shot classification을 해봅니다. 먼저 필요한 library들을 설치합시다.

In [2]:
!pip -q install datasets

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/471.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m471.0/471.6 kB[0m [31m18.7 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m471.6/471.6 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/116.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25h

그 다음 Gemma-2B를 사용하기 위해 다음과 같은 작업을 진행합니다:
1. huggingface.co 계정 만들고 로그인하기
2. https://www.kaggle.com/models/google/gemma/license/consent 에서 Gemma license 동의하기
3. 홈 화면으로 돌아와, `Profile > Settings > Access Tokens` 메뉴로 들어와 "Write" type의 token 생성하기
4. 생성한 토큰을 아래 "HF TOKEN"에 불여넣고 셀을 실행하기.

In [3]:
from huggingface_hub import login
from google.colab import userdata


login(userdata.get('GIMGIT'))

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /root/.cache/huggingface/token
Login successful


정상적으로 token을 생성하고 Gemma license에 동의했다면 아래 코드로 tokenizer와 Gemma-2B 모델을 불러올 수 있습니다.

In [4]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b")
model = AutoModelForCausalLM.from_pretrained("google/gemma-2b", device_map="auto")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/33.6k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/627 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/13.5k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/67.1M [00:00<?, ?B/s]

`config.hidden_act` is ignored, you should use `config.hidden_activation` instead.
Gemma's activation function will be set to `gelu_pytorch_tanh`. Please, use
`config.hidden_activation` if you want to override this behaviour.
See https://github.com/huggingface/transformers/pull/29402 for more details.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/137 [00:00<?, ?B/s]

이번에는 Gemma-2B를 가지고 간단한 text 생성을 해봅시다.
"What is your name?" 이라는 text를 넣었을 때 어떤 text가 생성되는지 살펴봅시다.

In [5]:
input_text = "What is your name?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))



<bos>What is your name?

What is your age?

What is your gender?

What


2B의 작은 LLM이라 질좋은 답변이 나오지 않는 것을 알 수 있습니다.
이번에는 입력으로 넣어준 token들의 logit을 계산해봅시다.

In [6]:
tokens = input_ids['input_ids']
print(tokens)

logits = model(**input_ids).logits
for i in range(tokens.shape[-1]):
    token = tokens[0, i].item()
    print(logits[0, i, token])

tensor([[     2,   1841,    603,    861,   1503, 235336]], device='cuda:0')
tensor(-18.2747, device='cuda:0', grad_fn=<SelectBackward0>)
tensor(-33.2665, device='cuda:0', grad_fn=<SelectBackward0>)
tensor(-23.9536, device='cuda:0', grad_fn=<SelectBackward0>)
tensor(-27.7627, device='cuda:0', grad_fn=<SelectBackward0>)
tensor(-19.6064, device='cuda:0', grad_fn=<SelectBackward0>)
tensor(-21.0372, device='cuda:0', grad_fn=<SelectBackward0>)


위와 같이 모델 출력의 `.logits`을 통해 token들의 logit을 알 수 있습니다.
Logit은 높을 수록 token이 나올 확률이 높다는 뜻입니다.

이번에는 logit 계산을 통해 zero-shot classification을 구현해보도록 하겠습니다.

In [7]:
import torch

def zero_shot_classification(text, task_description, labels):  # text는 주어진 입력, task_description은 task에 대한 설명, labels은 class들을 text로 변환한 결과입니다.
    text_ids = tokenizer(task_description + text, return_tensors="pt").to("cuda")  # 먼저 task_description과 text를 이어붙인 후, tokenize합니다.
    probs = []
    for label in labels:  # 그 다음 각 text화된 label들을 tokenize하고 입력에 이어붙인 후, Gemma-2B에 넣어줍니다.
        label_ids = tokenizer(label, return_tensors="pt").to("cuda")
        n_label_tokens = label_ids['input_ids'].shape[-1] - 1  # text로 변환한 label의 token 수를 계산합니다.
        input_ids = {
            'input_ids': torch.concatenate([text_ids['input_ids'], label_ids['input_ids'][:, 1:]], axis=-1),  # concatenate 명령어를 통해 이어붙이는 모습입니다.
            'attention_mask': torch.concatenate([text_ids['attention_mask'], label_ids['attention_mask'][:, 1:]], axis=-1)
        }

        logits = model(**input_ids).logits  # Logit을 계산한 모습입니다.
        prob = 0
        n_total = input_ids['input_ids'].shape[-1]
        for i in range(n_label_tokens, 0, -1):  # 일반적으로 text로 변환한 label은 여러 token으로 이루어져있습니다. 이러한 label에 대한 logit은 구성하는 모든 token들의 logit들의 합으로 정의합니다.
            token = label_ids['input_ids'][0, i].item()
            prob += logits[0, n_total - i, token].item()
        probs.append(prob)

        del input_ids
        del logits
        torch.cuda.empty_cache()  # 위의 del과 empty_cache() 명령어를 통해 GPU를 제때 할당해제 해줍니다. 만약 GPU가 여유롭다면 지워주시는게 속도적으로 이득입니다.

    return probs

아래는 실제로 zero-shot classification을 해본 결과입니다.

In [8]:
probs = zero_shot_classification("I am happy!", "Is the sentence positive or negative?: ", ["positive", "negative"])
print(probs)

[-4.5151824951171875, -9.59005069732666]


보시다시피 우리는 Gemma를 별도로 학습하지 않았음에도 불구하고 주어진 문장이 긍정적이라는 것을 정확하게 예측하고 있습니다.

다음은 영화 리뷰 감정 분석 task에 적용해봅시다.
먼저 data를 불러옵니다.

In [10]:
from datasets import load_dataset


news = load_dataset("fancyzhx/ag_news")
def preprocess_function(examples):
    # Tokenize the text
    tokenized_examples = tokenizer(examples["text"], truncation=True)
    return tokenized_examples



# Apply the preprocessing function, including tokenization of both text and labels
tokenized_news = news.map(preprocess_function, batched=True)

Map:   0%|          | 0/120000 [00:00<?, ? examples/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Map:   0%|          | 0/7600 [00:00<?, ? examples/s]

그리고 `test` data에서 50개의 영화 리뷰에 대해 예측하는 코드는 다음과 같습니다.

In [None]:
tokenized_news

In [None]:
# import numpy as np
# from tqdm import tqdm


# n_corrects = 0
# for i in tqdm(range(50)):
#     text = tokenized_imdb['test'][i]['text']
#     label = tokenized_imdb['test'][i]['label']
#     probs = zero_shot_classification(
#         text,
#         "A movie review is given. Decide that the movie review is positive or negative: ",
#         labels=["Answer: negative.", "Answer: positive."]
#     )

#     pred = np.argmax(np.array(probs))
#     if pred == label:
#         n_corrects += 1

# print(n_corrects)

보시다시피 정확도 88%로, 매우 높은 성능을 보이는 것을 알 수 있습니다.

In [None]:
print(n_corrects)


In [24]:
import numpy as np
from tqdm import tqdm

class_by_label = {
  'Answer': 'World',
  'Answer': 'Sports',
  'Answer': 'Business',
  'Answer': 'Sci/Tech',
}
labels = [f"{key}: {value}" for key, value in class_by_label.items()]

n_corrects = 0
for i in tqdm(range(50)):
    text = tokenized_news['test'][i]['text']
    label = tokenized_news['test'][i]['label']
    probs = zero_shot_classification(
        text,
        "Given an article, determine its category : ",
        labels=labels
    )
    print(probs)
    pred = np.argmax(np.array(probs))
    if pred == label:
        n_corrects += 1

print(n_corrects)

  2%|▏         | 1/50 [00:00<00:08,  5.64it/s]

[-81.02934741973877]


  4%|▍         | 2/50 [00:00<00:10,  4.72it/s]

[-62.599262714385986]


  6%|▌         | 3/50 [00:00<00:09,  4.78it/s]

[-67.97304821014404]
[-69.6513900756836]


 10%|█         | 5/50 [00:00<00:08,  5.50it/s]

[-68.84225988388062]


 12%|█▏        | 6/50 [00:01<00:10,  4.25it/s]

[-63.45589470863342]


 14%|█▍        | 7/50 [00:01<00:11,  3.68it/s]

[-70.0351881980896]


 18%|█▊        | 9/50 [00:02<00:09,  4.17it/s]

[-70.30789542198181]
[-70.10411882400513]


 20%|██        | 10/50 [00:02<00:09,  4.40it/s]

[-76.70769882202148]


 24%|██▍       | 12/50 [00:02<00:08,  4.64it/s]

[-67.10262107849121]
[-67.29773950576782]


 28%|██▊       | 14/50 [00:03<00:06,  5.40it/s]

[-70.46376943588257]
[-65.29691791534424]


 32%|███▏      | 16/50 [00:03<00:05,  6.54it/s]

[-71.17267274856567]
[-59.529733657836914]


 34%|███▍      | 17/50 [00:03<00:05,  5.98it/s]

[-68.78215789794922]


 38%|███▊      | 19/50 [00:03<00:05,  5.36it/s]

[-71.09048557281494]
[-67.07647848129272]


 42%|████▏     | 21/50 [00:04<00:04,  6.61it/s]

[-82.57493495941162]
[-69.41874837875366]


 46%|████▌     | 23/50 [00:04<00:03,  7.60it/s]

[-68.96894454956055]
[-64.40958595275879]


 50%|█████     | 25/50 [00:04<00:04,  6.02it/s]

[-71.3021388053894]
[-77.76090288162231]


 54%|█████▍    | 27/50 [00:05<00:03,  6.95it/s]

[-70.47134494781494]
[-68.33346891403198]


 56%|█████▌    | 28/50 [00:05<00:03,  6.11it/s]

[-80.23023796081543]


 58%|█████▊    | 29/50 [00:05<00:03,  5.65it/s]

[-79.04234886169434]


 62%|██████▏   | 31/50 [00:05<00:03,  5.34it/s]

[-71.07118797302246]
[-74.15846633911133]


 66%|██████▌   | 33/50 [00:06<00:02,  5.67it/s]

[-70.97044658660889]
[-74.21798181533813]


 70%|███████   | 35/50 [00:06<00:02,  5.24it/s]

[-73.11395120620728]
[-70.89587450027466]


 74%|███████▍  | 37/50 [00:06<00:02,  5.83it/s]

[-73.99673366546631]
[-68.43942260742188]


 78%|███████▊  | 39/50 [00:07<00:02,  5.45it/s]

[-70.55487012863159]
[-67.28802490234375]


 82%|████████▏ | 41/50 [00:07<00:01,  5.31it/s]

[-72.18795824050903]
[-68.02868843078613]


 86%|████████▌ | 43/50 [00:08<00:01,  5.23it/s]

[-72.27402639389038]
[-68.35718441009521]


 90%|█████████ | 45/50 [00:08<00:00,  5.10it/s]

[-68.6335096359253]
[-69.05450677871704]


 94%|█████████▍| 47/50 [00:08<00:00,  5.50it/s]

[-73.50830841064453]
[-65.58657550811768]


 98%|█████████▊| 49/50 [00:09<00:00,  5.24it/s]

[-69.59867191314697]
[-66.15191698074341]


100%|██████████| 50/50 [00:09<00:00,  5.38it/s]

[-71.40106010437012]
11





In [22]:
print(f'score: {n_corrects}, acc: {n_corrects/50}')

score: 11, acc: 0.22
