In [1]:
fine_tuned_model = './custom_LLM_final'
device = 'auto'

In [2]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

torch.cuda.empty_cache()
model = AutoModelForCausalLM.from_pretrained(
    fine_tuned_model,
    return_dict=True,
    torch_dtype=torch.float16,
    device_map=device
)

tokenizer = AutoTokenizer.from_pretrained(fine_tuned_model)

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.47it/s]


In [3]:
text = "방청 페인트의 종류에는 어떤 것들이 있는지 알고 계신가요? 또한, 원목사이딩을 사용하는 것에 어떤 단점이 있을까요?"

In [4]:
inputs = tokenizer.encode(text, return_tensors="pt")
inputs

tensor([[    1, 32094, 44881, 32712, 33402, 30708, 40880, 32221, 32886, 34859,
         35351, 32907, 41934, 34415, 29973, 33169, 29892, 32133, 44994, 33716,
         45372, 31286, 36796, 35840, 32886, 32212, 34652, 32687, 34069, 29973]])

In [5]:
from transformers import GenerationConfig

generation_config = GenerationConfig(
    max_new_tokens=inputs.shape[1] + 512,
    top_p=0.95
)

outputs = model.generate(inputs, generation_config=generation_config)
outputs



tensor([[    1, 32094, 44881, 32712, 33402, 30708, 40880, 32221, 32886, 34859,
         35351, 32907, 41934, 34415, 29973, 33169, 29892, 32133, 44994, 33716,
         45372, 31286, 36796, 35840, 32886, 32212, 34652, 32687, 34069, 29973,
         29871, 29896, 29889, 32094, 44881, 32712, 33402, 45001, 29973, 32094,
         44881, 32712, 33402, 45001, 29892, 34131, 30393, 33568, 30811, 36971,
         32166, 32712, 33402, 32214, 29889, 38201, 32578, 31973, 29892, 32160,
         35520, 33806, 29892, 32118, 45025, 31362, 45971, 29892, 32008, 31285,
         29892, 32135, 29892, 32034, 44906, 29892, 32839, 31000, 29892, 32839,
         31000, 31980, 44830, 29892, 32160, 35520, 33806, 32160, 45701, 29892,
         32160, 35520, 33806, 32160, 45701, 44930, 29892, 32160, 35520, 33806,
         32160, 45701, 45164, 29892, 32160, 35520, 33806, 32160, 45701, 44837,
         29892, 32160, 35520, 33806, 32160, 45701, 44858, 36500, 29892, 32160,
         35520, 33806, 32160, 45701, 44930, 45852, 2

In [6]:
tokenizer.batch_decode(outputs)

['<s> 방청 페인트의 종류에는 어떤 것들이 있는지 알고 계신가요? 또한, 원목사이딩을 사용하는 것에 어떤 단점이 있을까요? 1. 방청 페인트란? 방청 페인트란, 녹이 슬지 않도록 하는 페인트입니다. 주로 철재, 스테인리스, 알루미늄, 아연, 동, 주석, 황동, 황동합금, 스테인리스 스틸, 스테인리스 스틸판, 스테인리스 스틸봉, 스테인리스 스틸관, 스테인리스 스틸파이프, 스테인리스 스틸판넬, 스테인리스 스틸패널, 스테인리스 스틸커튼월, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인리스 스틸커튼, 스테인']

In [7]:
outputs.shape

torch.Size([1, 572])

In [22]:
import csv

def test_data_generator():
    with open('data/test.csv', 'r') as csvfile:
        reader = csv.reader(csvfile)
        next(reader) # skip the header in csvfile
        
        for id, text in reader:
            yield {'id': id, 'input': text}

In [23]:
from datasets import Dataset

test_dataset = Dataset.from_generator(test_data_generator)

In [24]:
from string import Template

prompter = Template("""
다음 질문을 읽고 적절한 답변을 작성하세요.
#질문:${question}
#답변:""")

def tokenize(example):
    prompt = prompter.substitute(question=example['input'])
    tokenized = tokenizer.encode(prompt, return_tensors='pt')
    example['input_ids'] = tokenized
    return example

In [25]:
test_dataset[0]

{'id': 'TEST_000',
 'input': '방청 페인트의 종류에는 어떤 것들이 있는지 알고 계신가요? 또한, 원목사이딩을 사용하는 것에 어떤 단점이 있을까요?'}

In [26]:
test_dataset.set_format(type="torch")
test_dataset = test_dataset.map(tokenize)

Map: 100%|██████████| 130/130 [00:00<00:00, 3589.29 examples/s]


In [27]:
test_dataset[0]

{'id': 'TEST_000',
 'input': '방청 페인트의 종류에는 어떤 것들이 있는지 알고 계신가요? 또한, 원목사이딩을 사용하는 것에 어떤 단점이 있을까요?',
 'input_ids': tensor([[    1, 29871,    13, 37670, 32564, 34185, 42628, 43845, 35750, 31286,
          36258, 33055, 29889,    13, 29937, 44913, 31406, 29901, 31945, 44881,
          32712, 33402, 30708, 40880, 32221, 32886, 34859, 35351, 32907, 41934,
          34415, 29973, 33169, 29892, 32133, 44994, 33716, 45372, 31286, 36796,
          35840, 32886, 32212, 34652, 32687, 34069, 29973,    13, 29937, 45079,
          45000, 29901]])}

In [28]:
from tqdm import tqdm
from transformers import GenerationConfig


generation_config = GenerationConfig(
            max_new_tokens=512,
            )

with open('inference.csv', 'w', newline='\n') as f:
    writer = csv.writer(f)
    writer.writerow(['id', '답변'])

    for example in tqdm(test_dataset):
        outputs = model.generate(
            example['input_ids'],
            generation_config=generation_config,
        )
        output_text = tokenizer.batch_decode(outputs)[0]
        output_text = output_text.split("#답변:")[1]
        writer.writerow([example['id'], output_text])

  2%|▏         | 2/130 [10:05<10:45:59, 302.81s/it]


KeyboardInterrupt: 

In [1]:
from sentence_transformers import SentenceTransformer


embedding_model = SentenceTransformer('distiluse-base-multilingual-cased-v1')

  from .autonotebook import tqdm as notebook_tqdm
modules.json: 100%|██████████| 341/341 [00:00<00:00, 2.67MB/s]
config_sentence_transformers.json: 100%|██████████| 122/122 [00:00<00:00, 956kB/s]
README.md: 100%|██████████| 2.45k/2.45k [00:00<00:00, 18.9MB/s]
sentence_bert_config.json: 100%|██████████| 53.0/53.0 [00:00<00:00, 171kB/s]
config.json: 100%|██████████| 556/556 [00:00<00:00, 3.11MB/s]
pytorch_model.bin: 100%|██████████| 539M/539M [07:05<00:00, 1.27MB/s] 
tokenizer_config.json: 100%|██████████| 452/452 [00:00<00:00, 2.58MB/s]
vocab.txt: 100%|██████████| 996k/996k [00:00<00:00, 1.84MB/s]
tokenizer.json: 100%|██████████| 1.96M/1.96M [00:01<00:00, 1.01MB/s]
special_tokens_map.json: 100%|██████████| 112/112 [00:00<00:00, 746kB/s]
1_Pooling/config.json: 100%|██████████| 190/190 [00:00<00:00, 1.19MB/s]
pytorch_model.bin: 100%|██████████| 1.58M/1.58M [00:00<00:00, 10.3MB/s]
2_Dense/config.json: 100%|██████████| 114/114 [00:00<00:00, 833kB/s]


In [2]:
text = "방청 페인트의 종류에는 어떤 것들이 있는지 알고 계신가요? 또한, 원목사이딩을 사용하는 것에 어떤 단점이 있을까요?"

vector = embedding_model.encode(text)

In [4]:
vector.tolist()

[0.07142449170351028,
 0.029536643996834755,
 0.022343140095472336,
 -0.0494682639837265,
 -0.016740785911679268,
 0.011386487632989883,
 0.028270971029996872,
 -0.010042344219982624,
 0.023197857663035393,
 -0.01685791276395321,
 0.010476252995431423,
 -0.032222505658864975,
 0.05743233859539032,
 0.004784977063536644,
 -0.06268604844808578,
 0.009957283735275269,
 -0.027703575789928436,
 0.04986656829714775,
 -0.062444865703582764,
 0.03094945289194584,
 0.016797414049506187,
 -0.05454891547560692,
 0.010745197534561157,
 -0.015552802942693233,
 0.03855337202548981,
 -0.0005605420446954668,
 0.014690999872982502,
 -0.03935476392507553,
 -0.013996644876897335,
 0.030431542545557022,
 0.03836773335933685,
 0.011346074752509594,
 0.030062878504395485,
 0.005497603677213192,
 0.0224442221224308,
 0.0380115881562233,
 0.09371612221002579,
 -0.01080279890447855,
 -0.029513083398342133,
 -0.033204659819602966,
 -0.04599704593420029,
 0.05811413750052452,
 -0.019594339653849602,
 -0.00039688

In [8]:
import csv


with open('submission.csv', 'w', newline='\n') as submit_file:
    with open('inference.csv', 'r') as inference_file:
        infer_reader = csv.reader(inference_file)
        submit_writer = csv.writer(submit_file)

        submit_writer.writerow(['id'] + ['vec%d' % i for i in range(512)])
        next(infer_reader)

        for id, answer in infer_reader:
            vector = embedding_model.encode(answer)
            submit_writer.writerow([id] + vector.tolist())