### KPC C09K11/06
#### CPC 분류 코드
* C09K11/06 : 1dot, containing organic luminescent materials (유기 발광성 물질을 함유하는 것)
    * C09K11/00 : main group, Luminescent, e.g. electroluminescent, chemiluminescent materials (발광성 물질, 예. 전기 발광성 물질, 화학 발광성 물질)
        * C09K : subclass, MATERIALS FOR MISCELLANEOUS APPLICATIONS, NOT PROVIDED FOR ELSEWHERE (그 밖에 분류되지 않는 다수의 응용을 위한 재료)
            * C09 : class, DYES; PAINTS; POLISHES; NATURAL RESINS; ADHESIVES; COMPOSITIONS NOT OTHERWISE PROVIDED FOR; APPLICATIONS OF MATERIALS NOT OTHERWISE PROVIDED FOR (염료;  페인트;  광택제;  천연 수지;  접착제;  그 밖에 분류되지 않는 조성물;  그 밖에 분류되지 않는 재료의 응용)
                * C : section, CHEMISTRY; METALLURGY (화학;  야금)

#### KPC 분류 단계
* C09K11/06은 CPC이며, KPC는 K1부터 시작됨
* decision #01 : CPC C09K11/06 vs 2dot entries(C09K11/06K1, C09K11/06K2)
    * 만약 decision #01의 결과가 C09K11/06K2가 아니라면 분류 종료
    * 만약 decision #01의 결과가 C09K11/06K2라면 decision #2
        * decision #02 : CPC C09K11/06 vs 3dot entries(C09K11/06K21, C09K11/06K22, C09K11/06K23, C09K11/06K24)

#### C09K11/06 Scheme
![](scheme.png)

#### Decision Process
![](C09K11-06.drawio.png)

In [1]:
import time
%time

CPU times: user 1 µs, sys: 0 ns, total: 1 µs
Wall time: 2.38 µs


In [2]:
import os
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torchmetrics import ConfusionMatrix
from torch.utils.data import Dataset, DataLoader
import gluonnlp as nlp
import numpy as np
from tqdm.notebook import tqdm
from kobert import get_tokenizer
from kobert import get_pytorch_kobert_model
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import pickle

### Load Data

In [3]:
dataset_test = nlp.data.TSVDataset('kpc_c09k/test_C09K11_220715.txt', field_indices=[0,1], num_discard_samples=1)

In [4]:
with open("kpc_c09k/c09k_ind_label.pickle", "rb") as fr:
    kpc_index_dict = pickle.load(fr)
with open("kpc_c09k/c09k_label_ind.pickle", "rb") as fr:
    kpc_label_dict = pickle.load(fr)
num_class = len(kpc_index_dict)
num_class

18

In [5]:
print(dataset_test[:5])

[['보안 인쇄물의 위변조 확인 방법', '0'], ['보안 인쇄물의 위변조 확인 방법', '0'], ['  본 발명은 보안잉크가 인쇄된 보안 인쇄물에 관한 것으로서, 보다 상세하게는, 발광색상, 지속시간 또는 여기파장이 다른 형광체 또는 인광체를 포함하는 보안잉크가 인쇄된 보안 인쇄물에 관한 것이다. 이를 위해 보안 인쇄물은 제1영역 및 제2영역으로 구분되는 것으로서, 제1영역은 청색 형광체를 포함하는 보안잉크로 인쇄되고, 제2영역은 청색 형광체, 녹색 인광체 및 적색 인광체를 포함하는 보안잉크로 인쇄되는 것을 특징으로 한다.  ', '0'], ['  본 발명은 보안잉크가 인쇄된 보안 인쇄물에 관한 것으로서, 보다 상세하게는, 발광색상, 지속시간 또는 여기파장이 다른 형광체 또는 인광체를 포함하는 보안잉크가 인쇄된 보안 인쇄물에 관한 것이다. 이를 위해 보안 인쇄물은 제1영역 및 제2영역으로 구분되는 것으로서, 제1영역은 청색 형광체를 포함하는 보안잉크로 인쇄되고, 제2영역은 청색 형광체, 녹색 인광체 및 적색 인광체를 포함하는 보안잉크로 인쇄되는 것을 특징으로 한다.  ', '0'], ['UV 광원을 사용한 보안 인쇄물의 위변조 확인 방법에 있어서,피인쇄물을 준비하는 단계;UV 광원을 상기 제1영역 및 제2영역에 조사하여, 상기 제1영역은 제1색으로 발광하고, 제2영역은 제2색으로 발광하는 다색 발광 단계;UV 광원의 조사를 중지하는 단계; 및UV 조사가 중지된 이후, 상기 제1영역의 발광은 사라지고, 동시에 제2영역은 소정 시간 동안 제3색을 발광하고, 이후 제3색이 사라지거나, 제4색으로 일정 시간 동안 발광하는 색변환 단계;를 포함하고, 상기 피인쇄물은, 형광체을 포함하는 제1 보안 잉크를 사용하여 상기 피인쇄물의 표면에 제1영역이 인쇄되고, 형광체와 인광체을 포함하는 제2 보안 잉크를 사용하여 상기 피인쇄물의 표면에 제2영역이 인쇄된 것인, UV 광원을 사용한 보안 인쇄물의 위변조 확인 방법.', '0']]


### Load Model

In [6]:
# device = torch.device("cpu")  ## CPU
device = torch.device("cuda:0")  ## GPU
load_model_path = 'ksic_model'
save_model_path1 = 'kpc_c09k'

In [9]:
class BERTClassifier(nn.Module):
    def __init__(self,
                 bert,
                 hidden_size=768,
                 num_classes=2,
                 dr_rate=None,
                 params=None):
        super(BERTClassifier, self).__init__()
        self.bert = bert
        self.dr_rate = dr_rate

        self.classifier = nn.Linear(hidden_size, num_classes)
        if dr_rate:
            self.dropout = nn.Dropout(p=dr_rate)

    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1
        return attention_mask.float()

    def forward(self, token_ids, valid_length, segment_ids):
        attention_mask = self.gen_attention_mask(token_ids, valid_length)

        _, pooler = self.bert(input_ids=token_ids, token_type_ids=segment_ids.long(),
                              attention_mask=attention_mask.float().to(token_ids.device))
        if self.dr_rate:
            out = self.dropout(pooler)
        else:
            out = pooler
        return self.classifier(out)

#### Loading Model

In [None]:
# KSIC 학습 모델을 불러와서 학습
bertmodel = torch.load(os.path.join(load_model_path, 'KSIC_KoBERT.pt'))  # 전체 모델을 통째로 불러옴, 클래스 선언 필수
# bertmodel.load_state_dict(
#     torch.load(os.path.join(load_model_path, 'KSIC_model_state_dict.pt')))  # state_dict를 불러 온 후, 모델에 저장
_, vocab = get_pytorch_kobert_model(cachedir=".cache")

In [10]:
model = torch.load(os.path.join(save_model_path1, 'kpc_c09k_KoBERT.pt'))  # 전체 모델을 통째로 불러옴, 클래스 선언 필수
_, vocab = get_pytorch_kobert_model(cachedir=".cache")
# bertmodel.load_state_dict(
#     torch.load(os.path.join(save_model_path1, 'kpc_c09k_KoBERT.pt')))
# torch.save(model, os.path.join(save_model_path1, 'kpc_c09k_KoBERT.pt'))  # 전체 모델 저장
# torch.save(model.state_dict(), os.path.join(save_model_path1, 'kpc_c09k_model_state_dict.pt'))  # 모델 객체의 state_dict 저장
# torch.save({
#     'model': model.state_dict(),
#     'optimizer': optimizer.state_dict()
# }, os.path.join(save_model_path1, 'all.tar'))

using cached model. /home/hdh/PycharmProjects/KoBERT-master/.cache/kobert_v1.zip
using cached model. /home/hdh/PycharmProjects/KoBERT-master/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece


In [None]:
# KoBERT 모델을 불러와서 학습
# bertmodel, vocab = get_pytorch_kobert_model(cachedir=".cache")

In [11]:
print(vocab)

Vocab(size=8002, unk="[UNK]", reserved="['[CLS]', '[SEP]', '[MASK]', '[PAD]']")


### GluonNLP Toolkit
* GluonNLP Toolkit provides tools for building efficient data pipelines for NLP tasks.
* https://nlp.gluon.ai/api/modules/data.html#gluonnlp.data.BERTSentenceTransform
* class gluonnlp.data.BERTSPTokenizer(path, vocab, num_best=0, alpha=1.0, lower=True, max_input_chars_per_word=200)[source]¶
* https://nlp.gluon.ai/api/modules/data.html#gluonnlp.data.TSVDataset

### GluonNLP BERTSPTokenizer
* BERTSPTokenizer depends on the sentencepiece library.
* For multi-processing with BERTSPTokenizer, making an extra copy of the BERTSPTokenizer instance is recommended before using it.
* https://nlp.gluon.ai/api/data.html?highlight=bertsptokenizer#gluonnlp.data.BERTSPTokenizer

In [12]:
tokenizer = get_tokenizer()
tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower=False)

using cached model. /home/hdh/PycharmProjects/KoBERT-master/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece


In [15]:
print(dataset_test[2][0])

  본 발명은 보안잉크가 인쇄된 보안 인쇄물에 관한 것으로서, 보다 상세하게는, 발광색상, 지속시간 또는 여기파장이 다른 형광체 또는 인광체를 포함하는 보안잉크가 인쇄된 보안 인쇄물에 관한 것이다. 이를 위해 보안 인쇄물은 제1영역 및 제2영역으로 구분되는 것으로서, 제1영역은 청색 형광체를 포함하는 보안잉크로 인쇄되고, 제2영역은 청색 형광체, 녹색 인광체 및 적색 인광체를 포함하는 보안잉크로 인쇄되는 것을 특징으로 한다.  


In [16]:
sample_txt = dataset_test[2][0][:256]
# sample_txt = 'GaN 전력 증폭기를 이용한 전력 오실레이터, 본 발명은 GaN(Gallium Nitride) 소자로 구성되며, 입력 신호의 전력을 증폭시켜 출력하는 GaN 전력 증폭기, 상기 GaN 전력 증폭기의 출력 신호의 일부를 피드백 신호로 제공하는 디렉셔널 커플러, 상기 디렉셔널 커플러에 의해서 제공되는 피드백 신호의 페이저를 가변시키는 페이저 시프터 및 상기 페이저 시프터에 의한 임피던스 부정합을 조정하며, 상기 GaN 전력 증폭기로 상기 피드백 신호를 전달하는 제 1 아이솔레이터를 포함하는 GaN 전력 증폭기를 이용한 전력 오실레이터가 제공된다.'
print(tok(sample_txt))

['▁본', '▁발', '명은', '▁보안', '잉', '크', '가', '▁인쇄', '된', '▁보안', '▁인쇄', '물', '에', '▁관한', '▁것으로', '서', '▁', ',', '▁보다', '▁상', '세', '하게', '는', '▁', ',', '▁발', '광', '색', '상', '▁', ',', '▁지속', '시간', '▁또는', '▁여기', '파', '장이', '▁다른', '▁형', '광', '체', '▁또는', '▁인', '광', '체', '를', '▁포함', '하는', '▁보안', '잉', '크', '가', '▁인쇄', '된', '▁보안', '▁인쇄', '물', '에', '▁관한', '▁것이다', '▁', '.', '▁이를', '▁위해', '▁보안', '▁인쇄', '물', '은', '▁제', '1', '영', '역', '▁및', '▁제', '2', '영', '역', '으로', '▁구', '분', '되는', '▁것으로', '서', '▁', ',', '▁제', '1', '영', '역', '은', '▁청', '색', '▁형', '광', '체', '를', '▁포함', '하는', '▁보안', '잉', '크', '로', '▁인쇄', '되고', '▁', ',', '▁제', '2', '영', '역', '은', '▁청', '색', '▁형', '광', '체', '▁', ',', '▁녹색', '▁인', '광', '체', '▁및', '▁적', '색', '▁인', '광', '체', '를', '▁포함', '하는', '▁보안', '잉', '크', '로', '▁인쇄', '되는', '▁것을', '▁특징', '으로', '▁한다', '▁', '.']


In [17]:
## Setting parameters
max_len = 512
batch_size = 8
warmup_ratio = 0.1
num_epochs = 10
max_grad_norm = 1
log_interval = 1000
learning_rate =  5e-5

In [23]:
def view_sample_text(ind):
    sample_txt = dataset_test[ind][0][:max_len]
    print(dataset_test[ind][0])
    print(tok(sample_txt))

In [24]:
lst = np.random.randint(0, len(dataset_test), 10)
for i in lst:
    view_sample_text(i)

1. 양태에서, 본 개시내용은 본 개시내용의 화합물의 배합물을 제공한다. 2. 양태에서, 본 개시내용은 본 개시내용의 화합물을 포함하는 유기층을 갖는 OLED를 제공한다. 3. 양태에서, 본 개시내용은 본 개시내용의 화합물을 포함하는 유기층을 갖는 OLED를 포함하는 소비자 제품을 제공한다. 4. 양태에서, 본 개시내용은 또한 본 개시내용의 상기 화합물 섹션에서 개시된 화합물을 함유하는 제1 유기층을 포함하는 OLED 디바이스를 제공한다. 5. 양태에서, OLED는 애노드, 캐소드, 및 애노드와 캐소드 사이에 배치된 제1 유기층을 포함한다. 6. 양태에서, 유기층은 호스트를 더 포함할 수 있고, 호스트는 트리페닐렌, 카르바졸, 인돌로카르바졸, 디벤조티오펜, 디벤조푸란, 디벤조셀레노펜, 5,9-디옥사-13b-보라나프토[3,2,1-de]안트라센, 아자-트리페닐렌, 아자-카르바졸, 아자-인돌로카르바졸, 아자-디벤조티오펜, 아자-디벤조푸란, 아자-디벤조셀레노펜, 및 아자-(5,9-디옥사-13b-보라나프토[3,2,1-de]안트라센)으로 이루어진 군으로부터 선택되는 1 이상의 화학기를 포함한다. 7. 양태에서, 호스트는 하기 화합물 및 이들의 조합으로 이루어진 호스트 그룹으로부터 선택될 수 있다: [0207] [0208] [0209] 일부 실시양태에서, 유기층은 호스트를 더 포함할 수 있고, 호스트는 금속 착물을 포함한다. 8. 양태에서, OLED는 탄소 나노튜브를 포함하는 층을 더 포함한다. 9. 양태에서, OLED는 지연 형광 이미터를 포함하는 층을 더 포함한다. 10. 양태에서, OLED는 RGB 픽셀 배열, 또는 화이트 플러스 컬러 필터 픽셀 배열을 포함한다. 11. 양태에서, ETL에 사용되는 화합물은 분자에서 하기 기 중 하나 이상을 포함한다: [0335] [0336] 여기서 R101은 수소, 중수소, 할로겐, 알킬, 시클로알킬, 헤테로알킬, 헤테로시클로알킬, 아릴알킬, 알콕시, 아릴옥시, 아미노, 실릴, 알케닐, 시클로알케닐, 헤테로알케닐, 알키닐, 아릴, 

In [25]:
aaa = ['▁화', '합', '물', '▁및', '▁이를', '▁포함', '하는', '▁유', '기', '▁발', '광', '▁소', '자', '▁하기', '▁화학', '식', '▁1', '로', '▁표시', '되는', '▁화', '합', '물', '▁:', '▁[', '▁화학', '식', '▁1', '▁', ']', '▁상', '기', '▁화학', '식', '▁1', '에', '▁있어서', '▁', ',', '▁L', '1', '▁및', '▁L', '2', '는', '▁서로', '▁같', '거나', '▁상', '이', '하고', '▁', ',', '▁각각', '▁독립', '적으로', '▁직접', '결', '합', '▁', ';', '▁또는', '▁아', '릴', '렌', '기', '이며', '▁', ',', '▁A', 'r', '1', '▁및', '▁A', 'r', '2', '는', '▁서로', '▁같', '거나', '▁상', '이', '하고', '▁', ',', '▁각각', '▁독립', '적으로', '▁치', '환', '▁또는', '▁', '비치', '환', '된', '▁N', '▁포함', '▁단', '환', '의', '▁헤', '테', '로', '고', '리', '기', '▁', ';', '▁치', '환', '▁또는', '▁', '비치', '환', '된', '▁N', '포', '함', '▁6', '원', '고', '리', '로', '▁이루', '어', '진', '▁2', '환', '의', '▁헤', '테', '로', '고', '리', '기', '▁', ';', '▁또는', '▁치', '환', '▁또는', '▁', '비치', '환', '된', '▁O', '▁또는', '▁S', '를', '▁포함', '하는', '▁헤', '테', '로', '고', '리', '기', '이다', '▁', '.']
len(aaa)

160

In [26]:
class BERTDataset(Dataset):
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, max_len,
                 pad, pair):
        transform = nlp.data.BERTSentenceTransform(
            bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)

        self.sentences = [transform([i[sent_idx]]) for i in dataset]
#         self.labels = [i[label_idx] for i in dataset]
        self.labels = [np.int32(i[label_idx]) for i in dataset]

    def __getitem__(self, i):
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels))

#### max_len vs batch size
* Text examples should be mostly less than 512 tokens. Longer texts will be cut from the end to fit the sequence length specified in the model block.
* https://peltarion.com/knowledge-center/documentation/cheat-sheets/bert---text-classification-/-cheat-sheet
* Sequence length	Recommended max batch size
    * 64 - 64, 128 - 32, 256 - 16, 320 - 14, 384 - 12, 512 - 6

In [27]:
data_test_id = BERTDataset(dataset_test, 0, 1, tok, max_len, True, False)

In [28]:
print(data_test_id.sentences[162])

(array([   2,  529,  517,   54, 2235, 6210, 3014, 7828, 5081, 5481, 5112,
       7842, 6242, 5112, 7842, 6241, 7095, 3214, 1958, 5788, 6896, 3093,
       7147, 7096, 5920, 5573, 4864, 7810,  517,   46, 5081, 5481,  784,
       5859, 5330, 3508, 7828, 4788, 7096, 3862,  517,   54,    3,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
          1,    1,    1,    1,    1,    1,    1,  

In [29]:
print(data_test_id.labels[:3])

[0, 0, 0]


* DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, *, prefetch_factor=2, persistent_workers=False)
* https://pytorch.org/docs/stable/data.html
* WARNING
    * After several iterations, the loader worker processes will consume the same amount of CPU memory as the parent process for all Python objects in the parent process which are accessed from the worker processes. This can be problematic if the Dataset contains a lot of data (e.g., you are loading a very large list of filenames at Dataset construction time) and/or you are using a lot of workers (overall memory usage is number of workers * size of parent process). The simplest workaround is to replace Python objects with non-refcounted representations such as Pandas, Numpy or PyArrow objects. Check out issue #13246 for more details on why this occurs and example code for how to workaround these problems.

In [30]:
test_dataloader = torch.utils.data.DataLoader(data_test_id, batch_size=batch_size, num_workers=5, shuffle=True)

In [None]:
# model = BERTClassifier(bertmodel, num_classes=num_class, dr_rate=0.5).to(device)

In [31]:
# Prepare optimizer and schedule (linear warmup and decay)
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]
optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()
t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)



NameError: name 'train_dataloader' is not defined

In [32]:
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

In [None]:
# 학습
print(time.strftime('%l:%M%p %Z on %b %d, %Y')) # ' 1:36PM EDT on Oct 18, 2010'
for e in range(num_epochs):
    train_acc = 0.0
    test_acc = 0.0
    model.train()
    for batch_id, (token_ids, valid_length, segment_ids, label) in tqdm(enumerate(train_dataloader), total=len(train_dataloader)):
        optimizer.zero_grad()
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        loss = loss_fn(out, label)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
        optimizer.step()
        scheduler.step()  # Update learning rate schedule
        train_acc += calc_accuracy(out, label)
        if batch_id % log_interval == 0:
            print("epoch {} batch id {} loss {} train acc {}".format(e+1, batch_id+1, loss.data.cpu().numpy(), train_acc / (batch_id+1)))
    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))
    model.eval()
    for batch_id, (token_ids, valid_length, segment_ids, label) in tqdm(enumerate(test_dataloader), total=len(test_dataloader)):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        val_loss = loss_fn(out, label)
        test_acc += calc_accuracy(out, label)
    print("epoch {} val_loss {} test acc {}".format(e+1, val_loss, test_acc / (batch_id+1)))
print(time.strftime('%l:%M%p %Z on %b %d, %Y')) # ' 1:36PM EDT on Oct 18, 2010'

In [33]:
test_dataloader2 = torch.utils.data.DataLoader(data_test_id, batch_size=batch_size, num_workers=5)
test_acc = 0.0
results = []
for batch_id, (token_ids, valid_length, segment_ids, label) in tqdm(enumerate(test_dataloader2), total=len(test_dataloader2)):
#     print(batch_id)
    token_ids = token_ids.long().to(device)
    segment_ids = segment_ids.long().to(device)
    valid_length= valid_length
    label = label.long().to(device)
    out = model(token_ids, valid_length, segment_ids)
    max_vals, max_indices = torch.max(out, 1)
    results.extend(max_indices.tolist())
    test_acc += calc_accuracy(out, label)
print("test acc {}".format(test_acc / (batch_id+1)))
print(results)
#     print('label: ', label)    

  0%|          | 0/651 [00:00<?, ?it/s]

test acc 0.23623911930363542
[10, 10, 9, 9, 9, 9, 3, 3, 9, 9, 9, 9, 9, 9, 13, 13, 9, 9, 9, 9, 9, 9, 9, 9, 3, 3, 9, 9, 9, 9, 9, 9, 17, 17, 9, 9, 3, 9, 17, 17, 13, 5, 3, 3, 5, 1, 3, 4, 1, 3, 1, 1, 1, 1, 17, 17, 5, 5, 3, 5, 5, 5, 3, 5, 5, 5, 9, 5, 17, 17, 9, 5, 17, 9, 9, 9, 9, 9, 9, 9, 9, 17, 17, 17, 17, 9, 9, 1, 1, 11, 11, 17, 17, 17, 9, 1, 1, 11, 11, 1, 1, 13, 1, 5, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 13, 13, 9, 9, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 16, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 17, 2, 2, 2, 2, 17, 2, 2, 2, 7, 7, 8, 8, 6, 6, 3, 3, 7, 7, 7, 7, 7, 7, 7, 7, 17, 17, 2, 2, 2, 1, 2, 2, 2, 1, 17, 17, 2, 1, 2, 2, 2, 2, 17, 17, 2, 2, 2, 17, 2, 2, 2, 17, 17, 17, 2, 2, 2, 2, 2, 2, 17, 17, 3, 17, 3, 17, 17, 17, 17, 17, 17, 3, 17, 3, 17, 17, 17, 17, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 7, 9, 9, 9, 9, 9, 9, 9, 9, 7, 9, 9, 9, 9, 9, 9, 9, 9, 7, 9, 9, 9, 9, 9, 9, 9, 9, 7, 

In [34]:
preds = torch.tensor(results)
target = torch.tensor(data_test_id.labels)

In [38]:
confusionmatrix = ConfusionMatrix(num_classes=num_class)
test_matrix = confusionmatrix(preds, target)
test_matrix_df = pd.DataFrame(test_matrix)
test_matrix_df.to_csv(os.path.join(save_model_path1, 'confusionmatrix.csv'))
# tensor([[2, 0],
#         [1, 1]])

In [40]:
kpc_label_dict
kpc_index_dict

{0: 'K0',
 1: 'K1',
 2: 'K21',
 3: 'K241',
 4: 'K2133',
 5: 'K211',
 6: 'K2123',
 7: 'K2132',
 8: 'K214',
 9: 'K23',
 10: 'K2122',
 11: 'K242',
 12: 'K212',
 13: 'K24',
 14: 'K2131',
 15: 'K2121',
 16: 'K213',
 17: 'K22'}

In [41]:
pred_dict = {}
for y in results:
    if y in pred_dict.keys():
        pred_dict[y] += 1
    else:
        pred_dict[y] = 1
pred_dict

{10: 100,
 9: 766,
 3: 135,
 13: 106,
 17: 54,
 5: 303,
 1: 108,
 4: 691,
 11: 296,
 16: 573,
 2: 34,
 7: 1543,
 8: 2,
 6: 121,
 12: 204,
 14: 152,
 15: 15}

In [64]:
kpc_label_dict

{'K0': 0,
 'K1': 1,
 'K21': 2,
 'K241': 3,
 'K2133': 4,
 'K211': 5,
 'K2123': 6,
 'K2132': 7,
 'K214': 8,
 'K23': 9,
 'K2122': 10,
 'K242': 11,
 'K212': 12,
 'K24': 13,
 'K2131': 14,
 'K2121': 15,
 'K213': 16,
 'K22': 17}

In [87]:
kpc_index_dict_2dot = {}
kpc_label_dict_2dot_only = {'K0':0, 'K1':1, 'K2':2}
for k in kpc_index_dict.keys():
    kpc_index_dict_2dot[k] = kpc_index_dict[k][:2]
kpc_index_dict_2dot

{0: 'K0',
 1: 'K1',
 2: 'K2',
 3: 'K2',
 4: 'K2',
 5: 'K2',
 6: 'K2',
 7: 'K2',
 8: 'K2',
 9: 'K2',
 10: 'K2',
 11: 'K2',
 12: 'K2',
 13: 'K2',
 14: 'K2',
 15: 'K2',
 16: 'K2',
 17: 'K2'}

In [85]:
results_2dot = [kpc_index_dict_2dot[k] for k in results]
results_2dot = [kpc_label_dict_2dot_only[k] for k in results_2dot]
results_2dot = torch.from_numpy(np.array(results_2dot))
# np.unique(results_2dot)
target_original = data_test_id.labels
target_2dot = [kpc_index_dict_2dot[k] for k in target_original]
target_2dot = [kpc_label_dict_2dot_only[k] for k in target_2dot]
target_2dot = torch.from_numpy(np.array(target_2dot))
# np.unique(target_2dot)
confusionmatrix_2dot = ConfusionMatrix(num_classes=3)
test_matrix_2dot = confusionmatrix_2dot(results_2dot, target_2dot)
test_matrix_2dot_df = pd.DataFrame(test_matrix_2dot)
test_matrix_2dot_df.to_csv(os.path.join(save_model_path1, 'confusionmatrix_2dot.csv'))

In [90]:
kpc_index_dict_3dot = {}
kpc_label_dict_3dot_only = {'K0':0, 'K1':1, 'K21':2, 'K22':3, 'K23':4, 'K24':5}
for k in kpc_index_dict.keys():
    kpc_index_dict_3dot[k] = kpc_index_dict[k][:3]
kpc_index_dict_3dot
results_3dot = [kpc_index_dict_3dot[k] for k in results]
results_3dot = [kpc_label_dict_3dot_only[k] for k in results_3dot]
results_3dot = torch.from_numpy(np.array(results_3dot))
# np.unique(results_3dot)
target_original = data_test_id.labels
target_3dot = [kpc_index_dict_3dot[k] for k in target_original]
target_3dot = [kpc_label_dict_3dot_only[k] for k in target_3dot]
target_3dot = torch.from_numpy(np.array(target_3dot))
# np.unique(target_3dot)
confusionmatrix_3dot = ConfusionMatrix(num_classes=6)
test_matrix_3dot = confusionmatrix_3dot(results_3dot, target_3dot)
test_matrix_3dot_df = pd.DataFrame(test_matrix_3dot)
test_matrix_3dot_df.to_csv(os.path.join(save_model_path1, 'confusionmatrix_3dot.csv'))

In [91]:
kpc_index_dict_4dot = {}
kpc_label_dict_4dot_only = {'K0':0, 'K1':1, 'K21':2, 'K211':3, 'K212':4, 'K213':5, 'K214':6, 'K22':7, 'K23':8, 'K24':9, 'K241':10, 'K242':11}
for k in kpc_index_dict.keys():
    kpc_index_dict_4dot[k] = kpc_index_dict[k][:4]
# kpc_index_dict_4dot
results_4dot = [kpc_index_dict_4dot[k] for k in results]
results_4dot = [kpc_label_dict_4dot_only[k] for k in results_4dot]
results_4dot = torch.from_numpy(np.array(results_4dot))
# np.unique(results_4dot)
target_original = data_test_id.labels
target_4dot = [kpc_index_dict_4dot[k] for k in target_original]
target_4dot = [kpc_label_dict_4dot_only[k] for k in target_4dot]
target_4dot = torch.from_numpy(np.array(target_4dot))
# np.unique(target_3dot)
confusionmatrix_4dot = ConfusionMatrix(num_classes=len(kpc_label_dict_4dot_only))
test_matrix_4dot = confusionmatrix_4dot(results_4dot, target_4dot)
test_matrix_4dot_df = pd.DataFrame(test_matrix_4dot)
test_matrix_4dot_df.to_csv(os.path.join(save_model_path1, 'confusionmatrix_4dot.csv'))

In [None]:
# torch.save(model, os.path.join(save_model_path1, 'KSIC_KoBERT.pt'))  # 전체 모델 저장
# torch.save(model.state_dict(), os.path.join(save_model_path1, 'KSIC_model_state_dict.pt'))  # 모델 객체의 state_dict 저장
# torch.save({
#     'model': model.state_dict(),
#     'optimizer': optimizer.state_dict()
# }, os.path.join(save_model_path1, 'all.tar'))

In [None]:
# out = model(token_ids, valid_length, segment_ids)
# print(out)

In [None]:
# 100%
# 2344/2344 [10:52<00:00, 3.82it/s]
# epoch 1 batch id 1 loss 0.7244999408721924 train acc 0.453125
# epoch 1 batch id 201 loss 0.4514557123184204 train acc 0.5766480099502488
# epoch 1 batch id 401 loss 0.44362887740135193 train acc 0.6851231296758105
# epoch 1 batch id 601 loss 0.5137903094291687 train acc 0.734426996672213
# epoch 1 batch id 801 loss 0.43659207224845886 train acc 0.7636352996254682
# epoch 1 batch id 1001 loss 0.3066664934158325 train acc 0.7802978271728271
# epoch 1 batch id 1201 loss 0.3117211163043976 train acc 0.7930890924229809
# epoch 1 batch id 1401 loss 0.30558276176452637 train acc 0.8026075124910778
# epoch 1 batch id 1601 loss 0.3304724097251892 train acc 0.8104992973141787
# epoch 1 batch id 1801 loss 0.25170841813087463 train acc 0.8164995141588006
# epoch 1 batch id 2001 loss 0.2823370695114136 train acc 0.8224481509245377
# epoch 1 batch id 2201 loss 0.3238280713558197 train acc 0.8274292935029532
# epoch 1 train acc 0.8307713843856656
# 100%
# 782/782 [01:06<00:00, 13.16it/s]
# epoch 1 test acc 0.8835118286445013
# 100%
# 2344/2344 [10:52<00:00, 3.81it/s]
# epoch 2 batch id 1 loss 0.4955632984638214 train acc 0.828125
# epoch 2 batch id 201 loss 0.2225867211818695 train acc 0.8816075870646766
# epoch 2 batch id 401 loss 0.33707231283187866 train acc 0.8836502493765586
# epoch 2 batch id 601 loss 0.39554905891418457 train acc 0.887115224625624
# epoch 2 batch id 801 loss 0.30988579988479614 train acc 0.8883426966292135
# epoch 2 batch id 1001 loss 0.28933045268058777 train acc 0.8911713286713286
# epoch 2 batch id 1201 loss 0.24474024772644043 train acc 0.8932269983347211
# epoch 2 batch id 1401 loss 0.1908964067697525 train acc 0.8957218058529621
# epoch 2 batch id 1601 loss 0.23474052548408508 train acc 0.89772993441599
# epoch 2 batch id 1801 loss 0.1599130779504776 train acc 0.8997171710161022
# epoch 2 batch id 2001 loss 0.20312610268592834 train acc 0.9019865067466267
# epoch 2 batch id 2201 loss 0.2386036366224289 train acc 0.9033251930940481
# epoch 2 train acc 0.904759047923777
# 100%
# 782/782 [01:06<00:00, 11.77it/s]
# epoch 2 test acc 0.8906449808184144
# 100%
# 2344/2344 [10:51<00:00, 3.81it/s]
# epoch 3 batch id 1 loss 0.3390277922153473 train acc 0.875
# epoch 3 batch id 201 loss 0.15983553230762482 train acc 0.9240516169154229
# epoch 3 batch id 401 loss 0.14856880903244019 train acc 0.9265118453865336
# epoch 3 batch id 601 loss 0.2642267644405365 train acc 0.9280366056572379
# epoch 3 batch id 801 loss 0.1951659917831421 train acc 0.93020443196005
# epoch 3 batch id 1001 loss 0.26453569531440735 train acc 0.9319586663336663
# epoch 3 batch id 1201 loss 0.1282612681388855 train acc 0.9340523522064946
# epoch 3 batch id 1401 loss 0.1837957799434662 train acc 0.9360501427551748
# epoch 3 batch id 1601 loss 0.14137345552444458 train acc 0.9374414428482198
# epoch 3 batch id 1801 loss 0.09849003702402115 train acc 0.9387493059411438
# epoch 3 batch id 2001 loss 0.15634101629257202 train acc 0.9401080709645178
# epoch 3 batch id 2201 loss 0.1982114464044571 train acc 0.9410495229441163
# epoch 3 train acc 0.9420039640216155
# 100%
# 782/782 [01:06<00:00, 11.77it/s]
# epoch 3 test acc 0.8969988810741688
# 100%
# 2344/2344 [10:52<00:00, 3.82it/s]
# epoch 4 batch id 1 loss 0.388761043548584 train acc 0.875
# epoch 4 batch id 201 loss 0.06205718219280243 train acc 0.9593439054726368
# epoch 4 batch id 401 loss 0.06854245811700821 train acc 0.9596711346633416
# epoch 4 batch id 601 loss 0.23485814034938812 train acc 0.9600925540765392
# epoch 4 batch id 801 loss 0.1342923790216446 train acc 0.9612008426966292
# epoch 4 batch id 1001 loss 0.1908232569694519 train acc 0.9621472277722277
# epoch 4 batch id 1201 loss 0.11091630905866623 train acc 0.9632597835137385
# epoch 4 batch id 1401 loss 0.10650145262479782 train acc 0.9642219842969307
# epoch 4 batch id 1601 loss 0.08601253479719162 train acc 0.9649242660836976
# epoch 4 batch id 1801 loss 0.057230446487665176 train acc 0.9656093836757357
# epoch 4 batch id 2001 loss 0.07411567866802216 train acc 0.9665011244377811
# epoch 4 batch id 2201 loss 0.1597125381231308 train acc 0.9671456156292594
# epoch 4 train acc 0.9676701151877133
# 100%
# 782/782 [01:06<00:00, 11.77it/s]
# epoch 4 test acc 0.8980778452685422
# 100%
# 2344/2344 [10:52<00:00, 3.81it/s]
# epoch 5 batch id 1 loss 0.3727969229221344 train acc 0.890625
# epoch 5 batch id 201 loss 0.02794063650071621 train acc 0.9752798507462687
# epoch 5 batch id 401 loss 0.024620698764920235 train acc 0.9767378428927681
# epoch 5 batch id 601 loss 0.15002880990505219 train acc 0.9765495008319468
# epoch 5 batch id 801 loss 0.05448848009109497 train acc 0.9766112671660424
# epoch 5 batch id 1001 loss 0.08006531745195389 train acc 0.9770541958041958
# epoch 5 batch id 1201 loss 0.04451199620962143 train acc 0.9775317443796836
# epoch 5 batch id 1401 loss 0.08561042696237564 train acc 0.9780625446109922
# epoch 5 batch id 1601 loss 0.026716381311416626 train acc 0.9783533728919426
# epoch 5 batch id 1801 loss 0.02442212402820587 train acc 0.9787357717934481
# epoch 5 batch id 2001 loss 0.0197431817650795 train acc 0.9790339205397302
# epoch 5 batch id 2201 loss 0.03802771866321564 train acc 0.9792565879145843
# epoch 5 train acc 0.9794199729806597
# 100%
# 782/782 [01:06<00:00, 11.78it/s]
# epoch 5 test acc 0.8974384590792839