In [6]:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"  # Arrange GPU devices starting from 0
os.environ["CUDA_VISIBLE_DEVICES"]= "1"  # Set the GPUs to use
import torch
print('Current cuda device:', torch.cuda.current_device())
print('Count of using GPUs:', torch.cuda.device_count())

Current cuda device: 0
Count of using GPUs: 1


In [7]:
import os
import re
import random
import warnings

import pandas as pd
import numpy as np
import torch

from transformers import (
    AutoTokenizer, AutoModelForSeq2SeqLM, 
)

warnings.filterwarnings('ignore')

In [8]:
MODEL_CHECKPOINT = 'training_results/v1/ainize_kobart_news_v1/checkpoint-2535'
DATA_PATH = 'data/original/train.csv'

In [9]:
data_df = pd.read_csv(DATA_PATH)

In [10]:
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_CHECKPOINT)
tokenizer = AutoTokenizer.from_pretrained(MODEL_CHECKPOINT)

In [11]:
idx = random.randint(0, len(data_df)-1)

sentence = data_df.context.iloc[idx]

inputs = tokenizer(sentence, max_length=1026, truncation=True, return_tensors="pt")
inputs = {k: v.cpu() for k, v in inputs.items() if k != 'token_type_ids'}
print(inputs['input_ids'].shape)

logits = model(**inputs).logits
print(logits.shape)

keys = logits.argmax(-1).squeeze().tolist()

tokenizer.decode(keys)

torch.Size([1, 361])
torch.Size([1, 361, 30000])


'<s>8월범덕 시장으로부터으로부터 8월 8월 31일 자 인사에 따라 승진 및 전보된 간부공무원 소개. 있으며,으며,</s>님 나오셔서 소개해 주시기 바랍니다.</s>시장 한범덕 청원</s>까지 우리 지역에 비가 비가 내려서 걱정이 많았지만만 다행히 큰 피해 없이 지나갔습니다.</s> 공무원들도 24시간 재난안전 비상체제를 유지하며 수해 예방에 집중해 왔지만 무엇보다 하재성 의장님을 비롯한 의원님들께서 시민 안전에 각별한 관심을 갖고 꼼꼼히 살펴 주신 덕분이라고 생각해서</s> 모두가 불편함이 없도록 각 지역에서 항상 든든한 버팀목이 되어 주시는 의원님들께 이 자리를 빌려 감사의 인사를 올립니다.</s> 시 달라진 도시여건과 행정 환경을 반영하고, 민선 7기 주요 시책을 효율적으로 추진하기 위해 지난 8월 24일 자로 행정기구를 개편하였습니다.</s> 조직으로 청주의 백년대계라는 더 큰 목표를 향해 나아갈 수 있도록 협조해 주신 하재성 의장님과 의원님들께 감사 한 번 감사를 드리며, 저는 우리 시 조직이 빠른 시일 내에 안정을 찾고 더 나은 행정서비스를 제공할 수 있도록 3,800여 직원들과 함께 최선을 다하겠습니다.</s> 모두가 안전하고 행복한 “함께 웃는 청주”로 발전할 수 있도록 의원님들께 많은 관심과 성원을 부탁드리면서 8월 31일 자로 인사이동 된 간부공무원무원을 소개해 드리겠</s>오 기획행정실장.</s> 이철희 재정경제국장.</s>현 재정국장.</s>오재 문화체육관광국장.</s>상 도시교통국.</s>용한 주택토지국.</s>열 도시사업본부장.</s>홍래 도시관리국.</s>의 푸른도시사업본부장.</s>식 서원구청장.</s>강덕 청원구청장.</s> 도서관평생학습본부장 공석임</s> 간부공무원 소개를 마치겠습니다.</s>.</s>'

# Generate

In [42]:
idx = random.randint(0, len(data_df)-1)
sample = data_df.context.iloc[idx]
sample

'다음은 의사일정 제4항 완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안을 상정합니다. 본건에 대하여 산업건설위원회 박재완 위원장님 나오셔서 심사결과를 보고하여 주시기 바랍니다. 완주군의회 산업ㆍ건설위원회 위원장 박재완 의원입니다. 제184회 완주군의회 임시회 기간 중 저희 위원회에 회부된 완주군 신문화공간 조성사업 시설물 등 운영ㆍ관리 조례안에 대한 심사결과를 보고 드리겠습니다. 본 제정조례안은 신문화공간 조성사업 시행으로 설치한 농가레스토랑, 카페테리아, 야외공연장 등 관련 시설물의 적법한 운영관리를 위해 제정하는 것이 타당하다고 사료되나, 제명을 명확히 하기 위하여 “완주군 신문화공간 조성사업 시설물 등 운영ㆍ관리 조례안”을 “완주군 신문화공간 시설물 등 운영ㆍ관리 조례안”으로 수정가결 하였습니다. 이상 보고 드린 사항 이외의 상세한 내용은 배부해 드린 유인물을 참고하여 주시고, 우리 위원회에서 심사한 원안대로 의결될 수 있도록, 의원 여러분의 협조를 당부 드립니다. 경청하여 주셔서 대단히 감사합니다. 박재완 산업건설위원장님 수고하셨습니다. 그러면 산업건설위원장께서 심사 보고한 안건을 의결하고자 합니다. 의사일정 제4항 완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안에 대하여 이의가 없으면 심사 보고한 안대로 의결하고자 합니다. 의원 여러분 이의 있으십니까? (『없습니다』하는 의원 있음) 이의가 없으므로 가결되었음을 선포합니다.'

In [43]:
max_input_length = 1026

input_ids, _, _ = tokenizer(sample, max_length=max_input_length, truncation=True, return_tensors="pt").values()
input_ids = input_ids.cpu()

## Greedy Search

In [44]:
outputs = model.generate(input_ids, max_length=512)

tokenizer.batch_decode(outputs, skip_special_tokens=True)

['완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 신문화공간 조성사업 관련 시설물의 적법한 운영관리를 위해 제정하는 것으로, 해당 안건은 가결됨.']

## Beam Search

In [45]:
outputs = model.generate(
    input_ids, max_length=512, 
    num_beams=5, 
    no_repeat_ngram_size=2, 
    num_return_sequences=5, 
    early_stopping=True,
)

tokenizer.batch_decode(outputs, skip_special_tokens=True)

['완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 관련 시설물의 적법한 운영관리를 위해 제정하는 것으로, 해당 안건은 가결됨.',
 '완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 적법한 운영관리를 위해 제정하는 것으로, 해당 안건은 가결됨.',
 '완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안이 가결됨.',
 '완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 관련 시설물의 적법한 운영관리를 위해 제정하는 것이 타당하다고 사료되나, 제명을 명확히 하기 위하여 완주군의회 임시회 기간 중 심사결과 가결됨.',
 '완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 관련 시설물의 적법한 운영관리를 위해 제정하는 것이 타당하다고 사료되나, 제명을 명확히 하기 위하여 완주군의회 임시회 기간 중 심사결과를 보고.']

## Sampling

In [46]:
outputs = model.generate(
    input_ids, max_length=512, 
    do_sample=True, 
    top_k=0,
    temperature=0.7,
)

tokenizer.batch_decode(outputs, skip_special_tokens=True)

['완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 신문화공간 조성사업 관련 시설물의 적법한 운영 관리를 위해 제정하는 것이 타당하다고 사료되나, 제명을 명확히 하기 위하여 “완주군 신문화공간 조성사업 시설물 등 운영, 관리 조례안”을 수정가결함. 해당 안건은 가결됨.']

### Top-K Sampling

In [47]:
outputs = model.generate(
    input_ids, max_length=512, 
    do_sample=True, 
    top_k=50,
)

tokenizer.batch_decode(outputs, skip_special_tokens=True)

['완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 신문화공간 조성사업 관련 시설물의 적법한 운영관리를 위해 제정하는 것으로, 해당 안건은 가결됨.']

### Top-p (nucleus) sampling

In [48]:
outputs = model.generate(
    input_ids, max_length=512, 
    do_sample=True, 
    top_p=0.92, 
    top_k=0,
)

tokenizer.batch_decode(outputs, skip_special_tokens=True)

['완주군 신문화공간 조성사업 시설물 등 운영 관리 조례안은 신문화공간 조성사업 관련 시설물의 적법한 운영관리를 위해 제정하였으며, 해당 안건은 가결됨.']

#### top_k = 50 and set top_p = 0.95 and num_return_sequences = 3

In [41]:
outputs = model.generate(
    input_ids, max_length=512, 
    do_sample=True, 
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=5,
)

tokenizer.batch_decode(outputs, skip_special_tokens=True)

['완주군의회 임시회 회의록 서명의원으로 김재남 의원과 홍의환 의원이 선임됨.',
 '완주군의회 임시회 회의록 서명의원으로 김재남 의원과 홍의환 의원이 선임됨.',
 '제주군의회 임시회 회의록 서명위원으로 김재남 의원과 홍의환 의원이 선임됨.',
 '완주군의회 임시회 회의록 서명위원으로 김재남 의원과 홍의환 의원이 선임됨.',
 '완주군 의회 회의규칙 제46조제1항의 규정에 의거 제39회 완주군의회 임시회 회의록 서명의원으로 김재남 의원과 홍의환 의원이 선임됨.']