# 레이블 명칭 추가 및 데이터 인코딩 변경
- 인코딩된 레이블 디코딩
- 윈도우에서 한글이 깨지지 않도록 변경

In [9]:
import pandas as pd

In [2]:
df = pd.read_csv("./resources/raw_data/train.csv")

In [5]:
label_dic = {0:"정치", 1:"경제", 2:"사회", 3:"생활문화", 4:"세계", 5:"IT과학", 6:"스포츠"}

In [7]:
df['target_name'] = [label_dic[x] for x in df['target']]

In [10]:
df.to_csv("./resources/raw_data/train.csv", encoding='utf-8-sig')

In [12]:
df['text']

Unnamed: 0,ID,text,target,target_name
0,ynat-v1_train_00000,정i :파1 미사z KT( 이용기간 2e 단] Q분종U2보,4,세계
1,ynat-v1_train_00001,K찰.국DLwo 로L3한N% 회장 2 T0&}송=,3,생활문화
2,ynat-v1_train_00002,"m 김정) 자주통일 새,?r열1나가야1보",2,사회
3,ynat-v1_train_00003,갤노트8 주말 27만대 개통…시장은 불법 보조금 얼룩,5,IT과학
4,ynat-v1_train_00004,pI美대선I앞두고 R2fr단 발] $비해 감시 강화,6,스포츠
...,...,...,...,...
2795,ynat-v1_train_02795,트럼프 폭스뉴스 앵커들 충성도 점수매겨…10점만점에 12점도,6,스포츠
2796,ynat-v1_train_02796,삼성 갤럭시S9 정식 출시 첫 주말 이통시장 잠잠,2,사회
2797,ynat-v1_train_02797,텔레그램+한D 등h亞서 2시간H다운…C버T정gf39종!2보,4,세계
2798,ynat-v1_train_02798,인터뷰 류현진 친구에게 안타 맞는 것 싫어해…승부는 냉정,1,경제


# 랜덤 노이즈 제거
데이터는 (1) 레이블이 잘못되어 있는 경우 1,400, (2) 랜덤 노이즈가 있는 경우 1,400, (3) 정상 200 케이스로 분류 가능

Cleanlab 이든 레이블이 잘못된 경우를 찾기 위해서는 정상 데이터의 비율을 늘려야함

따라서, 랜덤 노이즈를 정상 케이스로 돌리는 작업이 먼저 필요

## Translation to huggingface model
- 랜덤 노이즈를 반영해서 잘 번역하지 못하는 것 같음.
- 구글 Translation 같은 좀 더 강한한 모델 찾아야할 듯

In [13]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)

config.json:   0%|          | 0.00/638 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.94G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.52k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

In [20]:
df['token_len'] = [len(tokenizer(x)['input_ids']) for x in df['text']]

In [26]:
# 아래 결과에 따라 max new token은 128로 설정
df['token_len'].describe()

count    2800.000000
mean       31.678214
std         6.457354
min         9.000000
25%        28.000000
50%        32.000000
75%        36.000000
max        53.000000
Name: token_len, dtype: float64

In [27]:
def generate(prompt):
    encoding = tokenizer(
        prompt,
        return_tensors='pt',
        return_token_type_ids=False
    ).to("cuda")
    gen_tokens = model.generate(
        **encoding,
        max_new_tokens=128,
        temperature=1.0,
        num_beams=5,
    )
    prompt_end_size = encoding.input_ids.shape[1]
    result = tokenizer.decode(gen_tokens[0, prompt_end_size:])

    return result


def translate_ko2en(text):
    prompt = f"[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]"
    return generate(prompt)


def translate_en2ko(text):
    prompt = f"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
    return generate(prompt)

In [30]:
en_text_lst = []
ko_text_lst = []
for i, row in df.iterrows():
    text = row['text']
    print('or_text ', text)
    en_text = translate_ko2en(text)
    en_text_lst.append(en_text)
    ko_text = translate_en2ko(en_text)
    ko_text_lst.append(ko_text_lst)
    print('en_text', en_text)
    print('ko_text', ko_text)
    if i == 10:
        break

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


or_text  정i :파1 미사z KT( 이용기간 2e 단] Q분종U2보


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text JEONGI : FA1 MISSAZ KT (USE PERIOD 2E DAN) QDISTINCT U2BO</s>
ko_text JEONGI : FA1 MISSAZ KT (USE PERIOD 2E DAN) QDISTINCT U2BO</s>
or_text  K찰.국DLwo 로L3한N% 회장 2 T0&}송=


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text Chairman Kwak Dlwo Loh L3 Han N% 2 T0&} Song=</s>
ko_text Kwak Dlwo Loh L3 Han N% 2 T0&} Song=</s>
or_text  m 김정) 자주통일 새,?r열1나가야1보


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text (Kim Jeong) Jaju Tongil Sae,?ryeol 1nagaya 1bo</s>
ko_text (김정) 자주통일새, 1나가야 1보</s>
or_text  갤노트8 주말 27만대 개통…시장은 불법 보조금 얼룩


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text 270,000 Galaxy Note 8s opened on the weekend... The market is stained with illegal subsidies.</s>
ko_text 주말에 270,000대의 갤럭시 노트 8이 열렸습니다... 불법 보조금으로 시장이 얼룩진 상태입니다.</s>
or_text  pI美대선I앞두고 R2fr단 발] $비해 감시 강화


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text Before the 2022 FIFA World Cup, R2fr's foot $strengthened surveillance</s>
ko_text 2022 FIFA 월드컵 이전에 R2fr의 발은 감시를 강화했습니다.</s>
or_text  美성인 6명 중 1명꼴 배우자·연인 빚 떠안은 적 있다


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text One out of six American adults owes a debt to a spouse or lover.</s>
ko_text 6명 중 1명의 미국 성인이 배우자나 연인에게 빚을 지고 있다.</s>
or_text  프로야구~롯TKIAs광주 경기 y천취소


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text Professional baseball~LOTKIAs Gwangju game canceled</s>
ko_text 프로야구~LOTKIAs 광주 경기 취소</s>
or_text  아가메즈 33득점 우리카드 KB손해보험 완파…3위 굳...


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text Agamez 33 goals Our Card KB Insurance Overwhelming... 3rd place.</s>
ko_text 아게임즈 33골 우리 카드 KB 보험 압도적... 3위.</s>
or_text  朴대통령 얼마나 많이 놀라셨어요…경주 지진현장 방문종합


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text How much did President Bid surprise you...comprehensive visit to the Gyeongju earthquake site</s>
ko_text 비드 대통령이 경주 지진 현장을 포괄적으로 방문한 것이 얼마나 놀라웠나요?</s>
or_text  듀얼심 아이폰 하반기 출시설 솔솔…알뜰폰 기대감


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text I'm looking forward to the release of the dual-sim iPhone in the second half of the year...</s>
ko_text 저는 올 하반기 듀얼 심 아이폰의 출시를 기대하고 있습니다...</s>
or_text  oi 매력 R모h츠a열#w3약 >l·주가 고Q/진


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


en_text WOI Attractive RMohwtsa열#w3약 >l·주가 고Q/진</s>
ko_text WOI Attractive RMohwtsa열#w3약 >l·주가 고Q/진</s>


# 레이블 수정

### LLM 기반 레이블 수정

In [31]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

In [33]:
from huggingface_hub import login

login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

Token has not been saved to git credential helper.


In [34]:
model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

# EXAONE_TEMP = '''[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
# [|user|] Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that "없음", don't try to make up an answer. Please answer in short answer. Keep the answer as concise.
# {}
# Question:{}
# [|assistant|]{}[|endofturn|]'''

config.json:   0%|          | 0.00/878 [00:00<?, ?B/s]

configuration_exaone.py:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct:
- configuration_exaone.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_exaone.py:   0%|          | 0.00/81.1k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct:
- modeling_exaone.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors.index.json:   0%|          | 0.00/23.7k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/7 [00:00<?, ?it/s]

model-00001-of-00007.safetensors:   0%|          | 0.00/4.93G [00:00<?, ?B/s]

model-00002-of-00007.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00007.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00004-of-00007.safetensors:   0%|          | 0.00/4.83G [00:00<?, ?B/s]

model-00005-of-00007.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00006-of-00007.safetensors:   0%|          | 0.00/4.83G [00:00<?, ?B/s]

model-00007-of-00007.safetensors:   0%|          | 0.00/1.68G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

In [36]:
tokenizer = AutoTokenizer.from_pretrained("LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct")

# Choose your prompt
prompt = "너의 소원을 말해봐"   # Korean example

messages = [
    {"role": "system", 
     "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128
)
print(tokenizer.decode(output[0]))

[|system|]You are EXAONE model from LG AI Research, a helpful assistant.[|endofturn|]
[|user|]너의 소원을 말해봐
[|assistant|]EXAONE 3.0 모델로서, 저의 주된 목적은 사용자에게 정확하고 유용한 정보를 제공하는 것입니다. 저는 다양한 질문에 답변하고, 문제를 해결하며, 학습과 연구를 돕기 위해 설계되었습니다. 제가 도울 수 있는 다른 방법이 있다면 언제든지 말씀해 주세요![|endofturn|]


In [37]:
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    # return_tensors="pt"
)

In [38]:
input_ids

'[|system|]You are EXAONE model from LG AI Research, a helpful assistant.[|endofturn|]\n[|user|]너의 소원을 말해봐\n[|assistant|]'

In [None]:
label_dic = {0:"정치", 1:"경제", 2:"사회", 3:"생활문화", 4:"세계", 5:"IT과학", 6:"스포츠"}

In [86]:
EXAONE_FEW_SHOT_TEMP = '''[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
{}
[|assistant|]{}[|endofturn|]'''

In [87]:
# LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct
# 대한항공 우리카드 꺾고 3연승…GS칼텍스 1라운드 전승종합 / 스포츠
# 네이버 모바일 연예판에도 AI 콘텐츠 추천 시스템 적용 / 페이스북 인터넷 드론 아퀼라 실물 첫 시험비행 성공 / IT과학
# NH투자 1월 옵션 만기일 매도 우세 / 금융시장 충격 일단 소강국면…주가 낙폭 줄고 환율도 하락 / 경제
# 황총리 각 부처 비상대비태세 철저히 강구해야 / 정치
# 월미도 새 모노레일 내년 추석엔 달릴 수 있을까 / 사회
# 트럼프 한국 등 방위비분담금 더 내라…양방향 도로 돼야 / 세계 
# 벚꽃 와인 마시며 봄 즐기세요 / 생활문화

few_text = ["황총리 각 부처 비상대비태세 철저히 강구해야", "금융시장 충격 일단 소강국면…주가 낙폭 줄고 환율도 하락", "월미도 새 모노레일 내년 추석엔 달릴 수 있을까", "벚꽃 와인 마시며 봄 즐기세요", "트럼프 한국 등 방위비분담금 더 내라…양방향 도로 돼야", "네이버 모바일 연예판에도 AI 콘텐츠 추천 시스템 적용", "대한항공 우리카드 꺾고 3연승…GS칼텍스 1라운드 전승종합"]
few_topic = ["정치", "경제", "사회", "생활문화", "세계", "IT과학", "스포츠"]

In [88]:
few_shop_promt = ''
for text, topic in zip(few_text, few_topic):
    few_shop_promt = few_shop_promt + EXAONE_FEW_SHOT_TEMP.format(text, topic)

In [89]:
few_shop_promt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n황총리 각 부처 비상대비태세 철저히 강구해야\n[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n금융시장 충격 일단 소강국면…주가 낙폭 줄고 환율도 하락\n[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n월미도 새 모노레일 내년 추석엔 달릴 수 있을까\n[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n벚꽃 와인 마시며 봄 즐기세요\n[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from

In [90]:
EXAONE_TEMP = '''[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
{}
[|assistant|]'''

In [118]:
test_text = '코로나 r대^등교)모습'
test_prompt = EXAONE_TEMP.format(test_text)
test_prompt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n코로나 r대^등교)모습\n[|assistant|]'

In [119]:
few_shop_promt + test_prompt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n황총리 각 부처 비상대비태세 철저히 강구해야\n[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n금융시장 충격 일단 소강국면…주가 낙폭 줄고 환율도 하락\n[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n월미도 새 모노레일 내년 추석엔 달릴 수 있을까\n[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n벚꽃 와인 마시며 봄 즐기세요\n[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from

In [120]:
input_ids = tokenizer(few_shop_promt + test_prompt, return_tensors="pt")['input_ids']

In [123]:
output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=2
)
print(tokenizer.decode(output[0]))

[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
황총리 각 부처 비상대비태세 철저히 강구해야
[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
금융시장 충격 일단 소강국면...주가 낙폭 줄고 환율도 하락
[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
월미도 새 모노레일 내년 추석엔 달릴 수 있을까
[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
벚꽃 와인 마시며 봄 즐기세요
[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from LG AI Rese

In [107]:
test_text = '아시안게임 목소리 높인 박항서 베트남이 일본 못 이길...'
test_prompt = EXAONE_TEMP.format(test_text)
test_prompt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n아시안게임 목소리 높인 박항서 베트남이 일본 못 이길...\n[|assistant|]'

In [108]:
few_shop_promt + test_prompt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n황총리 각 부처 비상대비태세 철저히 강구해야\n[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n금융시장 충격 일단 소강국면…주가 낙폭 줄고 환율도 하락\n[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n월미도 새 모노레일 내년 추석엔 달릴 수 있을까\n[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n벚꽃 와인 마시며 봄 즐기세요\n[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from

In [109]:
input_ids = tokenizer(few_shop_promt + test_prompt, return_tensors="pt")['input_ids']

In [110]:
output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=1
)
print(tokenizer.decode(output[0]))

[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
황총리 각 부처 비상대비태세 철저히 강구해야
[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
금융시장 충격 일단 소강국면...주가 낙폭 줄고 환율도 하락
[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
월미도 새 모노레일 내년 추석엔 달릴 수 있을까
[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
벚꽃 와인 마시며 봄 즐기세요
[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from LG AI Rese

In [99]:
test_text = '영상 선출부터 퇴장까지…나경원 원내대표 파란만장 1년'
test_prompt = EXAONE_TEMP.format(test_text)
test_prompt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n영상 선출부터 퇴장까지…나경원 원내대표 파란만장 1년\n[|assistant|]'

In [100]:
few_shop_promt + test_prompt

'[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n황총리 각 부처 비상대비태세 철저히 강구해야\n[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n금융시장 충격 일단 소강국면…주가 낙폭 줄고 환율도 하락\n[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n월미도 새 모노레일 내년 추석엔 달릴 수 있을까\n[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]\n[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.\n벚꽃 와인 마시며 봄 즐기세요\n[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from

In [101]:
input_ids = tokenizer(few_shop_promt + test_prompt, return_tensors="pt")['input_ids']

In [105]:
output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=1
)
print(tokenizer.decode(output[0]))

[|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
황총리 각 부처 비상대비태세 철저히 강구해야
[|assistant|]정치[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
금융시장 충격 일단 소강국면...주가 낙폭 줄고 환율도 하락
[|assistant|]경제[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
월미도 새 모노레일 내년 추석엔 달릴 수 있을까
[|assistant|]사회[|endofturn|][|system|] You are EXAONE model from LG AI Research, a helpful assistant. [|endofturn|]
[|user|] 다음 뉴스의 헤드라인을 보고 기사가 어떤 주제인제 말해줘. 주제는 정치, 경제, 사회, 생활문화, 세계, IT과학, 스포츠가 있어. 답변은 단답으로 해줘.
벚꽃 와인 마시며 봄 즐기세요
[|assistant|]생활문화[|endofturn|][|system|] You are EXAONE model from LG AI Rese