## Dataset

In [5]:
import pandas as pd
import re
import os

def cleaning(s):
  s = str(s)
  s = re.sub(', ', ',', s)
  s = re.sub(',', ' ', s)
  s = re.sub('\n', ' ', s)
  return s

# data = pd.read_csv("/opt/ml/data/final_project/data/csv_data/600100001_data.csv", encoding="utf-8")
# data = dat.dropna()

In [6]:
data_dir = "/opt/ml/data/final_project/data/csv_data"
data = pd.DataFrame()
for file in os.listdir(data_dir):
    df = pd.read_csv(os.path.join(data_dir, file))
    data = pd.concat([data, df], ignore_index=True)

In [7]:
data

Unnamed: 0.1,Unnamed: 0,title,tag,location,description,img,image_count,pid,url
0,0,공학용 계산기,공학용계산기,경기도 고양시 일산동구 장항2동,작동 이상 없습니다\n반값 택배비 포함 입니다,https://media.bunjang.co.kr/product/170710211_...,2,170710211,https://m.bunjang.co.kr/products/170710211
1,1,D11 라벨 프린터+라벨8봉,"라벨,프린터,프린트,인쇄",,프린터랑 라벨들 입니다.\n몇개씩 쓴것도 있고 거의 안쓴것도 있고 그렇습니다. \n...,https://media.bunjang.co.kr/product/166007697_...,5,166007697,https://m.bunjang.co.kr/products/166007697
2,2,신용카드결재단말기,"신용카드,결재",서울특별시 종로구 창신제2동,\n택포45000원입니다.\n\n이상없이 작동 잘됩니다.,https://media.bunjang.co.kr/product/157953765_...,5,157953765,https://m.bunjang.co.kr/products/157953765
3,3,후지제록스 DocuCentre - SC2020 A3 컬러복합기,"SC2020,후지제록스,중고복합기,복합기,A3복합기","가산디지털단지역(수도권1호선,7호선)",모델명 : 후지제록스 A3컬러복합기 DocuCentre-SC2020\n\n기본기능:...,https://media.bunjang.co.kr/product/93924157_{...,3,93924157,https://m.bunjang.co.kr/products/93924157
4,4,캐논 iR ADV 4035 A3 흑백복합기 판매합니다.,"4035,캐논복합기,복합기,중고복합기,칼라복합기","가산디지털단지역(수도권1호선,7호선)",서울 경기권 지역은 직접 배송 및 설치 가능하구요~\r\n판매 가격 : 90만원 ...,https://media.bunjang.co.kr/product/115219190_...,3,115219190,https://m.bunjang.co.kr/products/115219190
...,...,...,...,...,...,...,...,...,...
35810,2495,애플워치SE 40mm 실버 GPS 미사용급 팝니다,"애플워치Se,워치se,워치se40mm,se40mm,애플워치",경기도 용인시 기흥구 신갈동,애플워치SE 40mm 실버 GPS 미사용급 팝니다\n애플스토어 단말자급제(개봉 미사...,https://media.bunjang.co.kr/product/169043977_...,3,169043977,https://m.bunjang.co.kr/products/169043977
35811,2496,갤럭시 워치4 클래식 42MM 블루투스 미개봉 판매합니다.,"워치4,클래식,46mm,삼성",서울특별시 광진구 구의제3동,삼성 국내 정품만 판매합니다(해외판 없어요)\n\n재고는 항상 변동되며 직거래 및 ...,https://media.bunjang.co.kr/product/166964937_...,2,166964937,https://m.bunjang.co.kr/products/166964937
35812,2497,애플워치 스트랩 40,"연락요망,번개톡,싸게,얼른가져가세요,이득",인천광역시 부평구 삼산1동,애플워치 40 스트랩 3개 팝니다 3개 다 구매하시면 10000원에 드릴게요 연락주세용,https://media.bunjang.co.kr/product/165654883_...,1,165654883,https://m.bunjang.co.kr/products/165654883
35813,2498,갤럭시워치3 프론티어 블루투스,"갤럭시워치,갤럭시워치3,프론티어,갤럭시s3기어프론티어",충청남도 서산시 석남동,갤럭시 워치3프론티어 입니다\n사용감있습니다\n\n기능및 액정 이상없어요\n\n택포...,https://media.bunjang.co.kr/product/170428850_...,5,170428850,https://m.bunjang.co.kr/products/170428850


In [13]:
with open('./tags.txt', 'w', encoding="utf-8") as f:
  for idx, item in data.iterrows():
    tags = cleaning(item['title']) + cleaning(item['description']) + ', ' + item['tag']+ '\n'
    f.write(tags)

In [19]:
import torch
import numpy as np
import random

def seed_everything(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed) # if use multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(seed)
    random.seed(seed)
seed_everything(42)

## Training

In [1]:
train_file_path = '/opt/ml/data/final_project/tags.txt'
model_name = 'skt/kogpt2-base-v2'
output_dir = './model_v2'
overwrite_output_dir = False
per_device_train_batch_size = 4
num_train_epochs = 10.0
save_steps = 100

In [2]:
from transformers import TextDataset, DataCollatorForLanguageModeling
from transformers import GPT2LMHeadModel
from transformers import Trainer, TrainingArguments
from transformers import PreTrainedTokenizerFast

def load_dataset(file_path, tokenizer, block_size = 1024):
    dataset = TextDataset(
        tokenizer = tokenizer,
        file_path = file_path,
        block_size = block_size,
    )
    return dataset

def load_data_collator(tokenizer, mlm = False):
    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, 
        mlm=mlm,
    )
    return data_collator

def train(train_file_path,model_name,
          output_dir,
          overwrite_output_dir,
          per_device_train_batch_size,
          num_train_epochs,
          save_steps):
  tokenizer = PreTrainedTokenizerFast.from_pretrained(model_name,
                bos_token='</s>', eos_token='</s>', unk_token='<unk>',
                pad_token='<pad>', mask_token='<mask>')
  train_dataset = load_dataset(train_file_path, tokenizer)
  data_collator = load_data_collator(tokenizer)

  tokenizer.save_pretrained(output_dir, legacy_format=False)
   
  model = GPT2LMHeadModel.from_pretrained(model_name)

  model.save_pretrained(output_dir)

  training_args = TrainingArguments(
          output_dir=output_dir,
          overwrite_output_dir=overwrite_output_dir,
          per_device_train_batch_size=per_device_train_batch_size,
          num_train_epochs=num_train_epochs,
          save_total_limit=3,
      )

  trainer = Trainer(
          model=model,
          args=training_args,
          data_collator=data_collator,
          train_dataset=train_dataset,
  )
      
  trainer.train()
  trainer.save_model()

In [3]:
train(
    train_file_path=train_file_path,
    model_name=model_name,
    output_dir=output_dir,
    overwrite_output_dir=overwrite_output_dir,
    per_device_train_batch_size=per_device_train_batch_size,
    num_train_epochs=num_train_epochs,
    save_steps=save_steps
)

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'GPT2Tokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.
***** Running training *****
  Num examples = 5893
  Num Epochs = 10
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 14740
Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mchoi-yunsung[0m (use `wandb login --relogin` to force relogin)


Step,Training Loss
500,2.8162
1000,2.3675
1500,2.1975
2000,1.9828
2500,1.9558
3000,1.8861
3500,1.7742
4000,1.7167
4500,1.7039
5000,1.6133


Saving model checkpoint to ./model_v2/checkpoint-500
Configuration saved in ./model_v2/checkpoint-500/config.json
Model weights saved in ./model_v2/checkpoint-500/pytorch_model.bin
Saving model checkpoint to ./model_v2/checkpoint-1000
Configuration saved in ./model_v2/checkpoint-1000/config.json
Model weights saved in ./model_v2/checkpoint-1000/pytorch_model.bin
Saving model checkpoint to ./model_v2/checkpoint-1500
Configuration saved in ./model_v2/checkpoint-1500/config.json
Model weights saved in ./model_v2/checkpoint-1500/pytorch_model.bin
Saving model checkpoint to ./model_v2/checkpoint-2000
Configuration saved in ./model_v2/checkpoint-2000/config.json
Model weights saved in ./model_v2/checkpoint-2000/pytorch_model.bin
Saving model checkpoint to ./model_v2/checkpoint-2500
Configuration saved in ./model_v2/checkpoint-2500/config.json
Model weights saved in ./model_v2/checkpoint-2500/pytorch_model.bin
Saving model checkpoint to ./model_v2/checkpoint-3000
Configuration saved in ./mode

## Inference

In [17]:
from transformers import PreTrainedTokenizerFast, GPT2LMHeadModel

model_path = "./model_v2"
model = GPT2LMHeadModel.from_pretrained(model_path)
tokenizer = PreTrainedTokenizerFast.from_pretrained(model_path)


def generate_tags(sequence, model, tokenizer, max_length):
    ids = tokenizer.encode(f'{sequence},', return_tensors='pt')
    final_outputs = model.generate(
        ids,
        do_sample=True,
        max_length=max_length,
        pad_token_id=model.config.pad_token_id,
        top_k=25,
        top_p=0.95,
    )
    generated_text = tokenizer.decode(final_outputs[0], skip_special_tokens=True)
    generated_tags = generated_text[len(sequence)+1:]
    end_idx = generated_tags.index('\n')
    return generated_tags[:end_idx]


In [18]:
sequence = "맥북 프로 2018 15인치 고급형19년도 2월 쯤 구매했습니다. 개발자라 개발하는데에만 사용했고 상태는 보신거와 같습니다. 그리고 외부와 내부에 보호필름을 붙여놔서 벗기시면 깨끗할거예요.  사진에있는 맥북 스탠드도 같이 드릴게요."

max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :맥북 프로 2018 15인치 고급형19년도 2월 쯤 구매했습니다. 개발자라 개발하는데에만 사용했고 상태는 보신거와 같습니다. 그리고 외부와 내부에 보호필름을 붙여놔서 벗기시면 깨끗할거예요.  사진에있는 맥북 스탠드도 같이 드릴게요.
0th generation:  애플,노트북,맥북프로
1th generation:  맥북,m1,맥북프로15인치,맥북프로,맥북프로2018
2th generation:  노트북
3th generation:  노트북,맥북,애플,macbook
4th generation:  애플,맥북프로,2018
5th generation:  맥북프로,맥북프로13인치,맥북프로16인치,맥북프로2018,맥북프로2018고급형
6th generation:  맥북프로,2018,고급형,19년도형
7th generation:  아이맥,맥북,애플,애플맥북에어
8th generation:  노트북,맥북프로2018,13인치,맥북프로
9th generation:  맥북,맥북프로2018,맥북프로13인치


In [6]:
sequence = "아수스 넷북 아수스 넷북 Eee PC 4G 흰색. 검정색 . 윈도우 xp 깔려있고 작동잘되요. 옛날감성을 느껴보실분 충전기는 하나뿐이며 케이스 포함 모든거래 하며 애눌은 힘들어요. 일괄거래합니다."
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :아수스 넷북 아수스 넷북 Eee PC 4G 흰색. 검정색 . 윈도우 xp 깔려있고 작동잘되요. 옛날감성을 느껴보실분 충전기는 하나뿐이며 케이스 포함 모든거래 하며 애눌은 힘들어요. 일괄거래합니다.
0th generation: 아수스,넷북,세잔,인강
1th generation: 아수스,넷북xp
2th generation: 아수스,넷북,컴퓨터
3th generation: 아수스,넷북,노트북,넷북,삼성,삼성
4th generation: 아수스,삼성,아수스,윈도우10,게이밍
5th generation: 맥북,맥북어댑터,풀커버,윈도우10
6th generation: 아수스,노트북,아수스10인치,ssd256,i5노트북
7th generation: 아수스,넷북,아수스노트북,넷북프로,노트북
8th generation: 아수스,넷북,아수스
9th generation: 아수스,넷북,cpu,i5


In [7]:
sequence = "[미개봉] 갤럭시 탭 s7 FE wifi 64G 미스틱 핑크 팝니다 갤럭시 탭 S7 FE 64GB 미스틱핑크 팝니다 미개봉 상품이고 네고 불가능합니다 쿨거래시 택포해드려요 직거래도 가능합니다 ( 용인 수지) 많이 연락주세요!"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :[미개봉] 갤럭시 탭 s7 FE wifi 64G 미스틱 핑크 팝니다 갤럭시 탭 S7 FE 64GB 미스틱핑크 팝니다 미개봉 상품이고 네고 불가능합니다 쿨거래시 택포해드려요 직거래도 가능합니다 ( 용인 수지) 많이 연락주세요!
0th generation:  갤럭시탭,s7,wifi
1th generation:  갤럭시탭s7fewifi,갤럭시탭s7fe,갤럭시탭,미개봉
2th generation:  갤럭시탭s7,테블릿s7,탭,갤럭시
3th generation:  갤럭시탭s7few,갤럭시탭s7fe핑크,미개봉,갤럭시탭s7fe미스틱
4th generation:  갤럭시탭s7,갤럭시탭s7fe,풀박스,s펜
5th generation:  갤럭시탭s7fe,갤럭시탭s7fe,갤럭시탭s7fe미스틱,갤럭시탭s7fewifi,갤럭시탭s7fe64lit
6th generation:  T845,갤럭시탭,s7fe,태블릿pc,t865
7th generation:  갤럭시 탭s7fe,갤럭시탭s7fe미스틱핑크,갤럭시탭s7fe핑크,갤럭시탭s7fe
8th generation:  갤럭시탭,s7fewifi,lite,핑크,64기가
9th generation:  갤럭시탭s7미스,갤럭시탭s7,갤럭시탭11,갤럭시탭s7fe


In [8]:
sequence = "버즈 라이브 풀박스(오른쪽 X) 안녕하세요 박경희헤어팝입니다. 직거래는 6호선 새절역 택배거리 시 택배비는 무료입니다. 상태 S급이고 투명케이스도 같이 드립니다. 궁금하신점 있으시면 번톡주세요."
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :버즈 라이브 풀박스(오른쪽 X) 안녕하세요 박경희헤어팝입니다. 직거래는 6호선 새절역 택배거리 시 택배비는 무료입니다. 상태 S급이고 투명케이스도 같이 드립니다. 궁금하신점 있으시면 번톡주세요.
0th generation:  버즈,라이브,라이브,버즈라이브
1th generation:  에어팟본체,에어팟유선이어폰,삼성,가성비
2th generation:  갤럭시버즈라이브,버즈
3th generation:  파름신오신날,파름신오신날
4th generation:  에어팟케이스,에어팟프로,케이스,박경희
5th generation:  라이브,#에어팟1세대,무선충전케이스,케이스
6th generation:  핸드폰케이스,파름신오신날
7th generation:  에어팟2세대,에어팟2,에어팟충전기
8th generation:  헤드폰,헤드폰풀박스,미개봉,애플,버즈라이브
9th generation:  헤드셋,헤드폰,jbl,무선헤드셋


In [9]:
sequence = "갤럭시버즈라이브 블랙 케이스 포함 13 갤럭시버즈 라이브 블랙색상 판매 합니다 상태는 사진에 나와있듯이 케이스 끼고 생활해서 s급 입니다"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :갤럭시버즈라이브 블랙 케이스 포함 13 갤럭시버즈 라이브 블랙색상 판매 합니다 상태는 사진에 나와있듯이 케이스 끼고 생활해서 s급 입니다
0th generation:  갤럭시 버즈,버즈라이브,블랙,케이스끼우고만사용
1th generation:  갤럭시,갤럭시버즈라이브
2th generation:  갤럭시버즈라이브
3th generation:  갤럭시 버즈라이브,버즈라이브블랙,케이스+충전기
4th generation:  갤럭시버즈라이브,버즈라이브,갤럭시버즈라이브
5th generation:  갤럭시버즈,버즈라이브,에어팟,에어팟맥스,갤럭시버즈라이브
6th generation:  갤럭시버즈라이브
7th generation:  갤럭시버즈라이브,버즈라이브블랙
8th generation:  갤럭시버즈라이브,갤럭시버즈라이브,버즈라이브블랙
9th generation:  버즈라이브,케이스,케이스,블랙,무료배송


In [10]:
sequence = "아이쏘우액션캠 액션캠 팔아요 아이쏘우엣지 보시다시피 깨끗합니다"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :아이쏘우액션캠 액션캠 팔아요 아이쏘우엣지 보시다시피 깨끗합니다
0th generation:  액션캠,액션캠,캠,850mac
1th generation:  액션캠,액션캠에디션캠
2th generation:  액션캠,아이쏘우,액션톤,액션캠
3th generation:  액션캠,액션캠,액션캠
4th generation:  액션캠,액션캠,보스
5th generation:  액션캠,엑스캔버스
6th generation:  액션캠,올림푸스
7th generation:  액션캠,액션캠,인스탁스미니캠
8th generation:  액션캠,액션캠,태권도,태권캡
9th generation:  액션캠,액션캠,엑스캠,고글


In [44]:
sequence = "라이카 미니줌 안녕하세요. 라이카 미니줌 판매합니다. 35-70 표준 화각, 심플한 사용 방법으로 사랑받는 제품입니다. 모든 기능 완벽하게 작동합니다. 구성은 라이카 미니줌, 라이카 오리지널 파우치, 매뉴얼, 오리지널 스트랩 입니다. 가격은 43만 입니다."
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :라이카 미니줌 안녕하세요. 라이카 미니줌 판매합니다. 35-70 표준 화각, 심플한 사용 방법으로 사랑받는 제품입니다. 모든 기능 완벽하게 작동합니다. 구성은 라이카 미니줌, 라이카 오리지널 파우치, 매뉴얼, 오리지널 스트랩 입니다. 가격은 43만 입니다.
0th generation:  라이카,LOTE,노트북
1th generation:  라이카,LG,그램,노트북
2th generation:  라이카,LOL,아이리스,델,프레스티지
3th generation:  라이카,TG,CTO
4th generation:  라이카,COM,레노버
5th generation:  라이카,델,dell,14인치,노트북
6th generation:  라이카,미니집,디어패트
7th generation:  라이카,미니줌,초슬림
8th generation:  라이카,베이직용,구형노트북,15인치노트북,ssd
9th generation:  라이카,미니노,노트북


In [12]:
sequence = "삼성레이져프린터 SLM3820ND 팝니다 삼성레이져프린터 SLM3820ND 팝니다  출력출력잘되구요   정품토너 MLT D203L  45%남았습니다 양면출력지원  네트워크프린터 지원 실출력 얼마되않되서 상태 좋습니다  15만원"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :삼성레이져프린터 SLM3820ND 팝니다 삼성레이져프린터 SLM3820ND 팝니다  출력출력잘되구요   정품토너 MLT D203L  45%남았습니다 양면출력지원  네트워크프린터 지원 실출력 얼마되않되서 상태 좋습니다  15만원
0th generation:  삼성토너,삼성팩스복합기,삼성레이져프린터,삼성프린터
1th generation:  삼성SLM3820ND,삼성,SLM3820ND,프린터기,양면출력
2th generation:  삼성레이져프린터,slm3820nd,삼성전표지사진
3th generation:  삼성프린트,SLM3820ND,삼성복사기토너,삼성SLM3820ND,삼성프린터토너
4th generation:  삼성3200R,SLM3820ND,SLM3820ND,사무용잉크
5th generation:  삼성레이져프린터기,삼성레이져프린터,SLM3820ND,삼성프린터중고복합기
6th generation:  삼성전자SLM3820ND,삼성전자SLM3820ND,SLM3820ND,삼성전자SLM3820ND
7th generation:  삼성레이져프린터,SLM3820ND,삼성레이져프린터,삼성프린터
8th generation:  삼성레이저프린터SLM3820ND,삼성프린터SLM3820ND
9th generation:  삼성레이져프린터,삼성프린터SLM3820,양면출력지원프린터,스마트프린터


In [13]:
sequence = "라이젠5 gtx 1060 게이밍컴퓨터 cpu 라이젠5 3500 6코어 3.59ghz 터보 4.1ghz ddr4 16램 a320m ssd 240 gtx 1060 파워 정격600w rgb케이스 영상편집 게임 등 부족하없는 성능입니다. 게임은 배그 로아 디아2 gta등 고사양게임도 가능합니다. 가성비좋은 라이젠5 3500cpu에 gtx 1060조합입니다. 램은 여유슬롯있어 추가업글가능하고 현재 윈도우10 pro설치되어있습니다. ms오피스 한글20 오피스류도 기본설치해두었습니다. 시세검색해보시면아시겠지만 저렴히판매하는거라.. 네고는힘들어요 "
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :라이젠5 gtx 1060 게이밍컴퓨터 cpu 라이젠5 3500 6코어 3.59ghz 터보 4.1ghz ddr4 16램 a320m ssd 240 gtx 1060 파워 정격600w rgb케이스 영상편집 게임 등 부족하없는 성능입니다. 게임은 배그 로아 디아2 gta등 고사양게임도 가능합니다. 가성비좋은 라이젠5 3500cpu에 gtx 1060조합입니다. 램은 여유슬롯있어 추가업글가능하고 현재 윈도우10 pro설치되어있습니다. ms오피스 한글20 오피스류도 기본설치해두었습니다. 시세검색해보시면아시겠지만 저렴히판매하는거라.. 네고는힘들어요 
0th generation: 3060,가성비컴퓨터,게이밍pc,배그롤,디아
1th generation: 라이젠53500,5600x,1060,gtx1060
2th generation: gtx1060,gtx1060,컴퓨터,게이밍데스크탑,데스크탑
3th generation: 5600x,1070,컴퓨터,게이밍컴퓨터,rtx3060
4th generation: 배그,본체,pc,데스크탑,pc
5th generation: 라이젠5600x,라이젠4900x,gtx1070ti,영상편집
6th generation: 1060,10603,1660s,1070
7th generation: 라이젠53500,라이젠5600k
8th generation: 라이젠53700x,rtx2060,게이밍컴퓨터,gtx1060,고사양본체
9th generation: 배그,롤,디아,디아2


In [14]:
sequence = "삼성전자 오디세이 G5 C27G54T 모니터 커브드 144hz 게이밍 삼성전자 오디세이 G5 C27G54T 판매합니다 9월28일 구매한제품입니다. 상태 완전 AA급이구요.풀박스 그대로 비닐까지 전부 있습니다. 스크래치나 기스 일체 없구요  완전 새것인 상태입니다 컴퓨터를 잘안해서 그냥 처분하려고 판매합니다 본박스 내용물 풀구성 생활기스조차도 없습니다 거의 새것인 상태입니다 택배비 : 5천원"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :삼성전자 오디세이 G5 C27G54T 모니터 커브드 144hz 게이밍 삼성전자 오디세이 G5 C27G54T 판매합니다 9월28일 구매한제품입니다. 상태 완전 AA급이구요.풀박스 그대로 비닐까지 전부 있습니다. 스크래치나 기스 일체 없구요  완전 새것인 상태입니다 컴퓨터를 잘안해서 그냥 처분하려고 판매합니다 본박스 내용물 풀구성 생활기스조차도 없습니다 거의 새것인 상태입니다 택배비 : 5천원
0th generation:  삼성전자,오디세이g5,모니터,커브드,144hz,게이밍
1th generation:  모니터,삼성전자,게이밍모니터,커브드,게이밍
2th generation:  모니터,커브드모니터,게이밍모니터,삼성전자,삼성커브드
3th generation:  모니터,게이밍모니터,삼성전자,오디세이
4th generation:  삼성전자,오디세이G5
5th generation:  모니터,삼성전자,게이밍모니터,삼성오디세이,삼성오디세이G5,게임용
6th generation:  24인치,모니터,커브드모니터,게이밍모니터
7th generation:  모니터커브드,삼성전자모니터,24인치,삼성커브드모니터,게이밍모니터
8th generation:  오디세이G5,모니터,삼성오디세이
9th generation:  모니터,컴퓨터,모니터,커브드,게이밍


In [8]:
sequence = "레이저 게이밍 마우스 Razer 게이밍 마우스 판매합니다. 5개월정도 사용했고 사용하는데 문제 없습니다. 번개톡 주세요~"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :레이저 게이밍 마우스 Razer 게이밍 마우스 판매합니다. 5개월정도 사용했고 사용하는데 문제 없습니다. 번개톡 주세요~
0th generation:  로지텍,로지텍g1,로지텍게이밍마우스,razer마우스
1th generation:  게이밍마우스,razer,컴퓨터,게이밍마우스
2th generation:  로지텍,로지텍g302,로지텍마우스,무선게이밍마우스,로지텍g304
3th generation:  파름신오신날,라이젠5600x,razer,razer,Razer마우스
4th generation:  마우스,razer,lazer,lazer마우스,게이밍마우스
5th generation:  로지텍,게이밍마우스,Razer,Razer,컴퓨터,게이밍
6th generation:  마우스,게이밍,로지텍,가성비
7th generation:  게이밍마우스,Razer,마우스,razer,가성비마우스
8th generation:  로지텍,게이밍마우스,razer,razer마우스,게이밍마우스
9th generation:  게이밍,마우스


In [16]:
sequence = "레이저 게이밍 마우스 Razer 게이밍 마우스 판매합니다"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :레이저 게이밍 마우스 Razer 게이밍 마우스 판매합니다
0th generation:  Razer,165000,Razer,게이밍
1th generation:  로지텍,로지텍게이밍,게이밍마우스,ROG,Razer
2th generation:  로지텍,로지텍gtx980,로지텍g102마우스,게이밍마우스,가성비마우스
3th generation:  컴퓨터,본체
4th generation:  razer,hacker,razer,게이밍마우스,모니터
5th generation:  파름신오신날,커세어,g302
6th generation:  게이밍마우스,Razer,Razer,Razer,유선
7th generation:  게이밍,마우스,Razer,Razer
8th generation:  라이젠5600x,razer,gtx1060,razer마우스,게이밍컴퓨터
9th generation:  razer,razer,razera7azer,마우스,게이밍,게이밍마우스


In [17]:
sequence = "britz 블루투스 스피커 충전안됨 쿨거시 에눌 가능"
max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :britz 블루투스 스피커 충전안됨 쿨거시 에눌 가능
0th generation:  블루투스스피커,블루투스스피커,스피커
1th generation:  블루투스
2th generation:  블루투스,블루투스스피커
3th generation:  무선블루투스스피커
4th generation:  인피니티,에어팟1,블루투스스피커
5th generation:  앰프,블루투스
6th generation:  블루투스,스피커,블루투스스피커,무선스피커
7th generation:  lp,스피커,블루투스스피커
8th generation:  에코,블루투스스피커
9th generation:  movie100,블루투스,스피커


In [20]:
sequence = "HP8100 프린터 팝니다HP8100프린터 팝니다 지역: 신도림역.구로역. 도림천역중 선택하여 만나서 거래또는 택배착불가능합니다  정상작동 수리하였습니다  하지만 빨간색 주입구 꼭지가 부러져서 사용못하고요  카트리지 (파랑.노랑.검정 )구매하셔서 사용가능합니다 4색칼라 원하시는분은 빨간색이안되 패스해주세요  검정색 만프린터 가능하시면됩니다 물론 파랑.노랑까지만되고 다시말해빨간색은 불가합니다 950헤드만 가져가셔도 12만원입니다 8100은 프린터기능으로 인쇄속도빠르고 와이파이기능으로 여러대 연결 가능합니다 인쇄할때 아니요.X표시 누르면 인쇄는 무재한가능합니다 인쇄가 안될때는 카트리지 를교처하시거나 카트리지 충전 하시면 다시가능합니다"

max_len = 256

print('input :' + sequence)
for i in range(10):
    print('='*50)
    print(f"{i}th generation: {generate_tags(sequence, model, tokenizer, max_len)}")

input :HP8100 프린터 팝니다HP8100프린터 팝니다 지역: 신도림역.구로역. 도림천역중 선택하여 만나서 거래또는 택배착불가능합니다  정상작동 수리하였습니다  하지만 빨간색 주입구 꼭지가 부러져서 사용못하고요  카트리지 (파랑.노랑.검정 )구매하셔서 사용가능합니다 4색칼라 원하시는분은 빨간색이안되 패스해주세요  검정색 만프린터 가능하시면됩니다 물론 파랑.노랑까지만되고 다시말해빨간색은 불가합니다 950헤드만 가져가셔도 12만원입니다 8100은 프린터기능으로 인쇄속도빠르고 와이파이기능으로 여러대 연결 가능합니다 인쇄할때 아니요.X표시 누르면 인쇄는 무재한가능합니다 인쇄가 안될때는 카트리지 를교처하시거나 카트리지 충전 하시면 다시가능합니다
0th generation:  hp,인쇄,복사,프린터
1th generation:  HP,칼라복합기,복사.복사기,프린터
2th generation:  hp,pc,인쇄,프린터,복합기
3th generation:  HP,컬러잉크,레이져,프린터
4th generation:  HP복합기,칼라복합기,인쇄,복합기,프린터
5th generation:  HP,HP-Y1105인쇄프린터
6th generation:  HP,컬러레이,프린터
7th generation:  칼라복사기,복사기,HP8100,HP복사기,HP복사기,프린터기
8th generation:  복합기,복사기,HP8100,프린터
9th generation:  hp800,흑백복합기,복합기
