In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")

prompt = "GPT2 is a model developed by OpenAI."

input_ids = tokenizer(prompt, return_tensors="pt").input_ids

gen_tokens = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.9,
    max_length=100,
)
gen_text = tokenizer.batch_decode(gen_tokens)[0]
print(gen_text)

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


GPT2 is a model developed by OpenAI. It is a low-cost and low-cost implementation of Python, which can be used for multiple architectures. The goal in this guide is to provide some basic technical information for how to develop this architecture.

The primary goal is to get users used to this implementation. To do this, some core concepts of R (Python's programming language) are covered before. Some common language features are built into the interpreter such as the variable type and


## KoGPT2 가사 생성하기

In [8]:
from transformers import PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained(
    "skt/kogpt2-base-v2",
    bos_token='</s>', eos_token='</s>', unk_token='<unk>',
    pad_token='<pad>', mask_token='<mask>'
)
tokenizer.tokenize("안녕하세요. 한국어 GPT-2 입니다.😤:)l^o")


  from .autonotebook import tqdm as notebook_tqdm
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'GPT2Tokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


['▁안녕',
 '하',
 '세',
 '요.',
 '▁한국어',
 '▁G',
 'P',
 'T',
 '-2',
 '▁입',
 '니다.',
 '😤',
 ':)',
 'l^o']

In [9]:
import torch
from transformers import GPT2LMHeadModel

model = GPT2LMHeadModel.from_pretrained('skt/kogpt2-base-v2')
text = '건설 공사 사고 예방을 위해서는'
input_ids = tokenizer.encode(text, return_tensors='pt')
gen_ids = model.generate(
    input_ids,
    max_length=128,
    repetition_penalty=1.5,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    use_cache=True
)
generated = tokenizer.decode(gen_ids[0])
print(generated)

건설 공사 사고 예방을 위해서는 안전점검을 철저히 해야 한다"고 강조했다.
이어 "공사장 주변은 물론 인근 도로에 대한 교통안전시설도 강화해야 할 것"이라고 덧붙였다.</d> 서울중앙지검 특수1부(부장검사 이원석)는 이날 오전 10시30분부터 오후 1시까지 김 전 차관을 피의자 신분으로 불러 조사하고 있다.
김씨는 지난해 11월께 박근혜 정부 시절 청와대 정무수석으로 재직하던 당시 최순실씨의 국정농단 의혹과 관련해 문화체육관광부 산하 한국콘텐츠진흥원장을 지냈다.
검찰 관계자는 “(최씨가) 문체부를 통해 문화계 블랙리스트를 작성했다는


### 데이터 불러오기

In [26]:
import pandas as pd

data = pd.read_csv("data/music_labeling.csv", encoding="cp949", index_col=0)
print(data.head(10))
data.describe(include="all")


                   title                    singer jenre  \
0     Bad Girl Good Girl                      미쓰에이    댄스   
1      잔소리 (With 2AM 슬옹)                       아이유   발라드   
2  죽을 만큼 아파서 (Feat. 멜로우)                       MC몽  랩/힙합   
3           못해 (Feat. 美)                 포맨 (4MEN)   발라드   
4               죽어도 못 보내                       2am   발라드   
5                    Oh!  소녀시대 (GIRLS' GENERATION)    댄스   
6      2 Different Tears                      원더걸스    댄스   
7               너 때문에 미쳐                       티아라    댄스   
8               밥만 잘 먹더라            Homme (창민, 이현)   발라드   
9                Go Away                      2NE1    댄스   

                                              lyrics emotion  
0  앞에선 한마디도 못하더니 뒤에선 내 얘길 안 좋게 해 참 어이가 없 나 같은 여잔 ...      분노  
1  늦게 다니지좀 마 술은 멀리좀 해봐 열살짜리 애처럼 말을 안듣니 정말 웃음만 나와 ...      기쁨  
2  너의 집 앞으로 가고 있어 빨리 전화 받어 내가 아파서 죽을 것 같거든 너 못보면 ...      슬픔  
3  이제는 밥을 먹어도 눈물 없이는 삼키지 못해 억지로 먹고 먹어도 속이 늘 허전해 노...      슬픔  
4  어려도 아픈건 똑같아 세상을 잘 모른다

Unnamed: 0,title,singer,jenre,lyrics,emotion
count,1115,1115,1115,1115,1115
unique,1103,422,21,1114,4
top,고백,아이유,댄스,달이 차고 내 마음도 차고 이대로 담아 두기엔 너무 안타까워 너를 향해 가는데 달은...,기쁨
freq,3,32,345,2,558


In [None]:
# 미션
# 1115개의 데이터를 하나로 합친다("\n\n\n으로 구분")
# kogpt2_lyrics_data.txt로 저장하기

lyrics_all = '\n\n\n'.join(list(data['lyrics']))
print(lyrics_all)

file_path = "./data/kogpt2_lyrics_data.txt"
with open(file_path, "w", encoding="utf-8") as f:
    f.write(lyrics_all)


앞에선 한마디도 못하더니 뒤에선 내 얘길 안 좋게 해 참 어이가 없 나 같은 여잔 처음 으로 으로 으로 본 것 같은데 왜 나를 판단하니 내가 혹시 두려운 거니 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨 이런 옷 이런 머리 모양으로 이런 춤을 추는 여자는 뻔해 하 네가 더 뻔해 자신 없으면 저 뒤로 뒤로 뒤로 물러서면 되지 왜 자꾸 떠드니 네 속이 훤히 보이는 건 아니 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨 날 감당 할 수 있는 남잘 찾아요 진짜 남자를 찾아요 말로만 남자다운 척할 남자 말고 날 불안해 하지 않을 남잔 없나요 자신감이 넘쳐서 내가 나일 수 있게 자유롭게 두고 멀리서 바라보는 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨


늦게 다니지좀 마 술은 멀리좀 해봐 열살짜리 애처럼 말을 안듣니 정말 웃음만 나와 누가 누굴보고 아이라 하는지 정말 웃음만 나와 싫은 얘기 하게 되는 내 맘을 몰라 좋은 얘기만 나누고 싶은 내맘을 몰라 그만할까 그만하자 하나부터 열까지 다 널 위한 소리 내 말 듣지 않는 너에게는 뻔한 잔소리 그만하자 그만하자 사랑하기만해도 시간 없는데 머리 아닌 가슴으로 하는 이야기 니가 싫다 해도 안 할수가 없는 이야기 그만하자 그만하자 나의 잔소리가 들려 밥은 제 때 먹는지 여잔 멀리 하는지 온 종일을 네 옆에 있고 싶은데 내가 그 맘인거야 주머니속에 널 넣고 다니면 정말 행복할텐데 둘이 아니면 안되는 우리 이야기 누가 듣는다면

In [27]:
# 파일 열기
file_path = "./data/kogpt2_lyrics_data.txt"
with open(file_path, "r", encoding="utf-8") as f:
    lines = f.readlines()

print(lines[:5])
lyrics = ' '.join([l.strip() for l in lines])
print(lyrics[:700])


['앞에선 한마디도 못하더니 뒤에선 내 얘길 안 좋게 해 참 어이가 없 나 같은 여잔 처음 으로 으로 으로 본 것 같은데 왜 나를 판단하니 내가 혹시 두려운 거니 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨 이런 옷 이런 머리 모양으로 이런 춤을 추는 여자는 뻔해 하 네가 더 뻔해 자신 없으면 저 뒤로 뒤로 뒤로 물러서면 되지 왜 자꾸 떠드니 네 속이 훤히 보이는 건 아니 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨 날 감당 할 수 있는 남잘 찾아요 진짜 남자를 찾아요 말로만 남자다운 척할 남자 말고 날 불안해 하지 않을 남잔 없나요 자신감이 넘쳐서 내가 나일 수 있게 자유롭게 두고 멀리서 바라보는 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨\n', '\n', '\n', '늦게 다니지좀 마 술은 멀리좀 해봐 열살짜리 애처럼 말을 안듣니 정말 웃음만 나와 누가 누굴보고 아이라 하는지 정말 웃음만 나와 싫은 얘기 하게 되는 내 맘을 몰라 좋은 얘기만 나누고 싶은 내맘을 몰라 그만할까 그만하자 하나부터 열까지 다 널 위한 소리 내 말 듣지 않는 너에게는 뻔한 잔소리 그만하자 그만하자 사랑하기만해도 시간 없는데 머리 아닌 가슴으로 하는 이야기 니가 싫다 해도 안 할수가 없는 이야기 그만하자 그만하자 나의 잔소리가 들려 밥은 제 때 먹는지 여잔 멀리 하는지 온 종일을 네 옆에 있고 싶은데 내가 그 맘인거야 주머니속에 널 넣고 다니면 정말 행복할텐데 둘이 아니면 안

### 학습 데이터 만들기

In [18]:
import torch
from torch.utils.data import Dataset, DataLoader

# 목표: [i:i+block_size]를 쪼갠 텍스트를 tokenizer로 바꾼다.
class TextDataset(Dataset):
    def __init__(self, data, tokenizer, block_size):
        """클래스를 변수에 저장하면 실행되는 곳"""
        self.data = data
        self.tokenizer = tokenizer
        self.block_size = block_size
        
        # 방법 1. 텍스트를 쪼갠다 > 토크나이저에 넣는다
        # 방법 2. 토크나이저에 넣는다 > 텐서를 쪼갠다
        tokenized_data = self.tokenizer.encode(data)
        self.texts = []
        self.tokenized_texts = []
        for i in range(0, len(tokenized_data) - block_size, block_size):
            self.texts.append(data[i:i+block_size])
            self.tokenized_texts.append(tokenized_data[i:i+block_size])
        
    def __len__(self):
        return len(self.tokenized_texts)
    
    def __getitem__(self, idx):
        return torch.tensor(self.tokenized_texts[idx], dtype=torch.long)
    

In [None]:
from transformers import PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained(
    "skt/kogpt2-base-v2",
    bos_token='</s>',
    eos_token='</s>',
    unk_token='<unk>',
    pad_token='<pad>',
    mask_token='<mask>'
)

In [17]:
train_data = TextDataset(lyrics, tokenizer, block_size=128)
train_data.texts[:10]

['앞에선 한마디도 못하더니 뒤에선 내 얘길 안 좋게 해 참 어이가 없 나 같은 여잔 처음 으로 으로 으로 본 것 같은데 왜 나를 판단하니 내가 혹시 두려운 거니 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자',
 '로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨 이런 옷 이런 머리 모양으로 이런 춤을 추는 여자는 뻔해 하 네가 더 뻔해 자신 없',
 '으면 저 뒤로 뒤로 뒤로 물러서면 되지 왜 자꾸 떠드니 네 속이 훤히 보이는 건 아니 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼',
 ' 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이 난 너무나 웃겨 날 감당 할 수 있는 남잘 찾아요 진짜 남자를 찾아요 말로만 남자다운 척할 남자 말고 날 불안해 하지 않을 남잔 없나요 자신감이 넘쳐서 내가 나일 수 있게 ',
 '자유롭게 두고 멀리서 바라보는 겉으론 속으론 나를 잘 알지도 못하면서 내 겉모습만 보면서 한심한 여자로 보는 너의 시선이 난 너무나 웃겨 춤출 땐 사랑은 춤추는 내 모습을 볼 때는 넋을 놓고 보고서는 끝나니 손가락질하는 그 위선이',
 ' 난 너무나 웃겨\n\n\n늦게 다니지좀 마 술은 멀리좀 해봐 열살짜리 애처럼 말을 안듣니 정말 웃음만 나와 누가 누굴보고 아이라 하는지 정말 웃음만 나와 싫은 얘기 하게 되는 내 맘을 몰라 좋은 얘기만 나누고 싶은 내맘을 몰라 그만할',
 '까 그만하자 하나부터 열까지 다 널 위한 소리 내 말 듣지 않는 너에게는 뻔한 잔소리 그만하자 그만하자 사랑하기만해도 시간 없는데 머리 아닌 가슴으로 하는 이야기 니가 싫다 해도 안 할수가 없는 이야기 그만하자 그만하자 나의 잔소',
 '리가 들려 밥은 제 때 먹는지 여잔 멀리 하는지 온 종일을 네 옆에 있고 싶은데 내가 그 맘인거야 주머니속에 널 넣

In [19]:
train_loader = DataLoader(train_data, batch_size=32, shuffle=True)
for x in train_loader:
    print(x)
    break


tensor([[ 9103,  8204, 13367,  ...,  7487,  7634, 17767],
        [14237, 36089,  9094,  ..., 12103,  8711,  9965],
        [47317,  9063,  9582,  ...,  9135, 10270,  9445],
        ...,
        [19119, 10203,  7216,  ...,  6951,  8635, 27094],
        [33423, 10704,  9873,  ..., 19903,  9026,  6962],
        [ 9105,  7770,  8704,  ...,  9098,  7129, 36025]])


### 학습하기

In [28]:
from transformers import GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained('skt/kogpt2-base-v2')
model

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(51200, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D(nf=2304, nx=768)
          (c_proj): Conv1D(nf=768, nx=768)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=3072, nx=768)
          (c_proj): Conv1D(nf=768, nx=3072)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=51200, bias=False)
)

In [29]:
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

In [32]:
from torch.optim import AdamW

epochs = 5
batch_size = 32
optimizer = AdamW(model.parameters(), lr=1e-4)

loss_history = []
# 학습 시작
for epoch in range(epochs):
    
    ### Train ###
    model.train()
    loss_train = 0.0
    for step, batch in enumerate(train_loader):
        batch = batch.to(device)
        
        optimizer.zero_grad()
        outputs = model(batch, labels=batch)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        
        loss_tmp = loss.item()
        loss_train += loss_tmp
        print(f"Step: {step+1} / {len(train_loader)}\tLoss: {loss_tmp}")
        
    loss_history.append(loss_train / len(train_data))
    
    print(
        f"Epoch: {epoch}\t"
        f"Train Loss: {loss_history[-1]:.4f}"
    )


Step: 12 / 32	Loss: 2.587048292160034
Step: 13 / 32	Loss: 2.424755811691284
Step: 14 / 32	Loss: 2.5005195140838623
Step: 15 / 32	Loss: 2.808797836303711
Step: 16 / 32	Loss: 2.5324461460113525
Step: 17 / 32	Loss: 2.60028338432312
Step: 18 / 32	Loss: 2.5431368350982666
Step: 19 / 32	Loss: 2.7548723220825195
Step: 20 / 32	Loss: 2.649571418762207
Step: 21 / 32	Loss: 2.5975472927093506
Step: 22 / 32	Loss: 2.658254384994507
Step: 23 / 32	Loss: 2.623274564743042
Step: 24 / 32	Loss: 2.5733773708343506
Step: 25 / 32	Loss: 2.614624261856079
Step: 26 / 32	Loss: 2.576172113418579
Step: 27 / 32	Loss: 2.5187971591949463
Step: 28 / 32	Loss: 2.550168514251709
Step: 29 / 32	Loss: 2.544858694076538
Step: 30 / 32	Loss: 2.6601972579956055
Step: 31 / 32	Loss: 2.6010403633117676
Step: 32 / 32	Loss: 2.6837985515594482
Step: 33 / 32	Loss: 2.6347010135650635
Step: 34 / 32	Loss: 2.6628432273864746
Step: 35 / 32	Loss: 2.723130941390991
Step: 36 / 32	Loss: 2.7654666900634766
Step: 37 / 32	Loss: 2.51430344581604
S

In [47]:
model.eval()

text = '근육이 커지기 위해서는'
input_ids = tokenizer.encode(text, return_tensors='pt').to(device)
gen_ids = model.generate(
    input_ids,
    max_length=32,
    repetition_penalty=2.0,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    use_cache=True
)
generated = tokenizer.decode(gen_ids[0])
print(generated)

근육이 커지기 위해서는 먼저 내가 움직여야 해 


어느 장단에 맞춰서 춤을 추고 있어 눈치 없이 비가 내리면 흠뻑 젖으며 달려
