# KoGPT Inference Test

In [2]:
import torch
from transformers import AutoModelForCausalLM
from transformers import PreTrainedTokenizerFast

import random
import numpy as np

random_seed = 42
random.seed(random_seed)
np.random.seed(random_seed)
torch.manual_seed(random_seed)

model = AutoModelForCausalLM.from_pretrained("../model/kogpt2/checkpoint-26400")
tokenizer = PreTrainedTokenizerFast.from_pretrained("skt/kogpt2-base-v2",
        bos_token='</s>', eos_token='</s>', unk_token='<unk>',
        pad_token='</s>', mask_token='<mask>')

device = "cuda:1"
model = model.to(device)


  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'GPT2Tokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


In [11]:
import torch

def get_response(text):
    input_ids = tokenizer.encode(f'{text}{tokenizer.eos_token}')
    input_len = len(input_ids)
    res_ids = model.generate(torch.tensor([input_ids]).to(device),
                                                max_length=512,
                                                num_beams=10,
                                                pad_token_id=tokenizer.pad_token_id,
                                                eos_token_id=tokenizer.eos_token_id,
                                                bos_token_id=tokenizer.bos_token_id,
                                                repetition_penalty=4.0)

    decode_ids = [res_ids[0][input_len:]]
    a = tokenizer.batch_decode(decode_ids, skip_special_tokens=True)[0]
    return a

In [12]:
text = "방청 페인트의 종류에는 어떤 것들이 있는지 알고 계신가요? 또한, 원목사이딩을 사용하는 것에 어떤 단점이 있을까요?"
print(get_response(text))

A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


청페인트의 종류는 광명단페인트, 방청산화철페인트, 알미늄페인트, 역청질페인트, 워시프라이머, 크롬산아연페인트, 규산염페인트가 있습니다.원목사이딩의 단점은 가격대가 높고 관리가 어려우며 습기에 약해 뒤틀림, 부서짐, 수축/팽장이 생길 수 있다는 점입니다.원목사이딩의 단점은 가격대가 높고 관리가 어려우며 습기에 약해 뒤틀림, 부서짐, 수축/팽장이 생길 수 있다는 점입니다.아이소핑크 제품의 단점은 가격대가 높고 관리가 어려우며 습기에 약해 뒤틀림, 부서짐, 수축/팽장이 생길 수 있다는 점입니다.아이소핑크는 시간이 지나면 단열 성능이 떨어지는 경시현상이 있고 비드법 단열재에 비래 가격이 높은 편이며 충격에 약해서 파손율이 높은 편이라는 단점이 있습니다.아이소핑크는 시간이 지나면 단열 성능이 떨어지는 경시현상이 있고 비드법 단열재에 비래 가격이 높은 편이며 충격에 약해서 파손율이 높은 편이라는 단점이 있습니다.아이소핑크의 장점은 오리지널징크와 디자인이 비슷하지만 가격이 저렴하고 기후 환경에 영향을 받지 않으며 시간이 경과해도 탈색, 변형 등 변화가 적습니다. * 단점 : 비드법 보온판 1종(EPS)보다 가격이 비쌉니다. 시간이 지날수록 단열성능이 저하됩니다. 마감미장의 접착력이 나오지 않으므로 외단열 미장마감공법에 사용할 수 없습니다. 햇빛에 노출되거나 바닥마루 등에서 70°C가 넘어가면 2차 발포를 하므로 외장재나 마루가 들뜨는 현상이 발생합니다. 때문에 몰탈과 같이 내단열로 쓰이고 스타코 같은 외장마감과 같이 사용할 수 없습니다. * 적용부위 : 철근 콘크리트 구조 * 난연 / 방염 : 난연성 재료이나 난연3급에 대한 시험성적서를 제공하고 있지 못해 소방필증을 받을 수 없습니다.아이소핑크는 시간이 지나면 단열 성능이 떨어지는 경시현상이 있고 비드법 단열재에 비래 가격이 높은 편이며 충격에 약해서 파손율이 높은 편이라는 단점이 있습니다.아이소핑크 제품의 단점은 다음과 같습니다. * 특징 : 원료를 가열 용융하여 연속적으로 압출 발포시켜 성형한 제품으로, 아이소핑크, 

# SFT inference

In [None]:
import pandas as pd
from tqdm import tqdm
generated_sent=[]
test=pd.read_csv('../data/test_raw.csv')

for i in tqdm(range(len(test))):
  row = test.iloc[i]
  question = row['질문']
  response = get_response(question)
  generated_sent.append(response)

In [14]:
print(generated_sent[-1])

트의 기대수명은 50년입니다.오리지널징크는 다른 징크에 비해 수명이 길고 다양한 패턴과 디자인이 가능하며 친환경적이고 금속 부식에 대한 내식성이 뛰어나 유지보수가 용이하다는 장점이 있습니다.오리지널징크는 다른 징크에 비해 가격이 높은 것이 단점입니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 실내에서 작업하기에 날씨영향을 덜받으며 공사비, 재료비, 인건비가 적게 들고 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공은 외부벽체와 직접 닿지 않기 때문에 열교 현상을 줄일 수 있다는 장점이 있습니다.내단열 시공을 통틀어 내단열 시공에 비해 시간과 비용이 적게 들고 외부벽체와 직접 닿지

In [15]:
import numpy as np
from sentence_transformers import SentenceTransformer # SentenceTransformer Version 2.2.2

# Embedding Vector 추출에 활용할 모델(distiluse-base-multilingual-cased-v1) 불러오기
m = SentenceTransformer('distiluse-base-multilingual-cased-v1')

In [16]:
sub=pd.read_csv('../data/sample_submission.csv')

In [17]:
encode_list=[]
for i in range(len(generated_sent)):
  embed=m.encode(generated_sent[i]) #주어진 모델로 인코딩
  encode_list.append(embed)

In [18]:
for i in range(len(encode_list)):
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]

sub.set_index('id',inplace=True)

  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 'vec_0':'vec_511']=encode_list[i]
  sub.loc[i, 

In [19]:
sub.to_csv('../result/kogpt-v4.csv')

In [20]:
dataset = {'data':[]}
for i in range(len(test)):
  row = test.iloc[i]
  question = row['질문']
  response = generated_sent[i]
  dataset['data'].append({
    'question':question,
    'response':response
  })

In [21]:
import json
with open('../result/kogpt-v4.json ', 'w') as file:
    json.dump(dataset, file, indent=4, ensure_ascii=False)