<a href="https://colab.research.google.com/github/apploberry/sa-competition/blob/main/KO-SA/ko_model.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Constraint 설정 #

# 1. Competition 제출 모드 
#    True : Competition 제출 파일 생성
#    False : test dataset 검증
exam_mode = True

# 2. MAX_LEN
MAX_LEN = 128

# 3. Pre-trained Model Name
#PRETRAINED_MODEL = 'bert-base-multilingual-cased'
PRETRAINED_MODEL = 'KO-BART'

# 4. Batch Size
BATCH_SIZE = 36

# 5. 에폭수
EPOCHS = 5

# 6. RANDOM SEED
SEED = 2021

# 7. Test Data Size
TEST_SIZE = 0.1


In [2]:

# KO-BART install
if PRETRAINED_MODEL == "KO-BART":
    !pip install torch==1.7.1+cu101 torchvision==0.8.1+cu101 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html pytorch_lightning
    !pip install git+https://github.com/SKT-AI/KoBART#egg=kobart

# 한글 문장분리기 설치
!pip install kss

# transformers install
!pip install transformers

# 학습data 가져오기
!git clone https://github.com/e9t/nsmc.git
!git clone https://github.com/apploberry/sa-competition.git



Looking in links: https://download.pytorch.org/whl/torch_stable.html
fatal: destination path 'nsmc' already exists and is not an empty directory.
fatal: destination path 'sa-competition' already exists and is not an empty directory.


In [3]:
import tensorflow as tf
import torch

from transformers import BertTokenizer
from transformers import BertForSequenceClassification, AdamW, BertConfig
from transformers import get_linear_schedule_with_warmup
from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
from keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split

from kobart import get_pytorch_kobart_model, get_kobart_tokenizer
from transformers import BartModel


import pandas as pd
import numpy as np
import random
import time
import datetime

In [4]:
# GPU Name 확인 #


device_name = tf.test.gpu_device_name()

if device_name == '/device:GPU:0':
    print('Found GPU at: {}'.format(device_name))
else:
    raise SystemError('GPU device not found')

Found GPU at: /device:GPU:0


In [5]:
# Cuda GPU 환경 확인 #


if torch.cuda.is_available():    
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print('No GPU available, using the CPU instead.')

There are 1 GPU(s) available.
We will use the GPU: Tesla V100-SXM2-16GB


In [6]:
# 학습 Data를 가져오기 #


train = pd.read_csv("nsmc/ratings_train.txt", sep='\t')
test = pd.read_csv("nsmc/ratings_test.txt", sep='\t')

print(train.shape)
print(test.shape)

(150000, 3)
(50000, 3)


In [7]:
# 한글 문장분리 Function #


from kss import split_sentences

def make_sentence(sentence):

    result = "[CLS]"
    for s in split_sentences(sentence):
        result += " " + s + " [SEP]"

    return result

In [8]:
# 문장을 BERT 형식에 맞게 전처리 #


sentences = train['document']
sentences_test = test['document']

# 문장 분리 후 BERT의 입력 형식에 맞게 변환
sentences = [make_sentence(str(sentence)) for sentence in sentences]
sentences_test = [make_sentence(str(sentence)) for sentence in sentences_test]

sentences[:10]


['[CLS] 아 더빙.. 진짜 짜증나네요 [SEP] 목소리 [SEP]',
 '[CLS] 흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나 [SEP]',
 '[CLS] 너무재밓었다 [SEP] 그래서보는것을추천한다 [SEP]',
 '[CLS] 교도소 이야기구먼 ..솔직히 재미는 없다.. [SEP] 평점 조정 [SEP]',
 '[CLS] 사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다 [SEP]',
 '[CLS] 막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움. [SEP]',
 '[CLS] 원작의 긴장감을 제대로 살려내지못했다. [SEP]',
 '[CLS] 별 반개도 아깝다 욕나온다 [SEP] 이응경 길용우 연기생활이몇년인지.. [SEP] 정말 발로해도 그것보단 낫겟다 납치.감금만반복반복..이드라마는 가족도없다 [SEP] 연기못하는사람만모엿네 [SEP]',
 '[CLS] 액션이 없는데도 재미 있는 몇안되는 영화 [SEP]',
 '[CLS] 왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나? [SEP]']

In [9]:
# 라벨 추출 #


labels = train['label'].values
labels_test = test['label'].values

In [10]:
# 문장 tokenizing 수행 #


# BERT의 토크나이저로 문장을 토큰으로 분리
if PRETRAINED_MODEL == "KO-BART":
    tokenizer = get_kobart_tokenizer()
else :
    tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL, do_lower_case=False)

tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]
tokenized_texts_test = [tokenizer.tokenize(sent) for sent in sentences_test]

print (sentences[0])
print (tokenized_texts[0])

using cached model
[CLS] 아 더빙.. 진짜 짜증나네요 [SEP] 목소리 [SEP]
['▁[', 'C', 'LS', ']', '▁아', '▁더', '빙', '..', '▁진짜', '▁짜', '증', '나', '네요', '▁[', 'S', 'E', 'P', ']', '▁목소리', '▁[', 'S', 'E', 'P', ']']


In [11]:
# tokens to indexs 수행 #


input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]
input_ids_test = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts_test]

input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")
input_ids_test = pad_sequences(input_ids_test, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")


In [12]:
# Attention mask 수행 #


# train set
attention_masks = []

for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])


# test set
attention_masks_test = []

for seq in input_ids_test:
    seq_mask = [float(i>0) for i in seq]
    attention_masks_test.append(seq_mask)

print(attention_masks_test[0])

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0

In [13]:
# 검증셋 분리 #


# 훈련셋과 검증셋으로 분리
train_inputs, validation_inputs, train_labels, validation_labels = train_test_split(input_ids,
                                                                                    labels, 
                                                                                    random_state=SEED, 
                                                                                    test_size=TEST_SIZE)

# 어텐션 마스크를 훈련셋과 검증셋으로 분리
train_masks, validation_masks, _, _ = train_test_split(attention_masks, 
                                                       input_ids,
                                                       random_state=SEED, 
                                                       test_size=TEST_SIZE)

# 데이터를 파이토치의 텐서로 변환
train_inputs = torch.tensor(train_inputs)
train_labels = torch.tensor(train_labels)
train_masks = torch.tensor(train_masks)
validation_inputs = torch.tensor(validation_inputs)
validation_labels = torch.tensor(validation_labels)
validation_masks = torch.tensor(validation_masks)			
test_inputs = torch.tensor(input_ids_test)
test_labels = torch.tensor(labels_test)
test_masks = torch.tensor(attention_masks_test)				

print(train_inputs[0])
print(train_labels[0])
print(train_masks[0])
print(validation_inputs[0])
print(validation_labels[0])
print(validation_masks[0])
print(test_inputs[0])
print(test_labels[0])
print(test_masks[0])

tensor([14552,   266, 23991,   292, 27755,  8981, 11264, 14105, 10910, 14553,
        19505, 12037, 14706, 14552,   282,   268,   279,   292,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0])

In [14]:
# DataLoader 생성 #


# 배치 사이즈
batch_size = BATCH_SIZE

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
train_data = TensorDataset(train_inputs, train_masks, train_labels)
train_sampler = RandomSampler(train_data)
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

validation_data = TensorDataset(validation_inputs, validation_masks, validation_labels)
validation_sampler = SequentialSampler(validation_data)
validation_dataloader = DataLoader(validation_data, sampler=validation_sampler, batch_size=batch_size)

test_data = TensorDataset(test_inputs, test_masks, test_labels)
test_sampler = RandomSampler(test_data)
test_dataloader = DataLoader(test_data, sampler=test_sampler, batch_size=batch_size)

In [15]:
# Pre-trained BERT Model 불러오기 #


if PRETRAINED_MODEL == "KO-BART":
    model = BertForSequenceClassification.from_pretrained(get_pytorch_kobart_model(), num_labels=2)
else :
    model = BertForSequenceClassification.from_pretrained(PRETRAINED_MODEL, num_labels=2)


using cached model


Some weights of the model checkpoint at /root/kobart/kobart_from_pretrained were not used when initializing BertForSequenceClassification: ['shared.weight', 'decoder.embed_tokens.weight', 'decoder.embed_positions.weight', 'decoder.layers.0.self_attn.k_proj.weight', 'decoder.layers.0.self_attn.k_proj.bias', 'decoder.layers.0.self_attn.v_proj.weight', 'decoder.layers.0.self_attn.v_proj.bias', 'decoder.layers.0.self_attn.q_proj.weight', 'decoder.layers.0.self_attn.q_proj.bias', 'decoder.layers.0.self_attn.out_proj.weight', 'decoder.layers.0.self_attn.out_proj.bias', 'decoder.layers.0.self_attn_layer_norm.weight', 'decoder.layers.0.self_attn_layer_norm.bias', 'decoder.layers.0.encoder_attn.k_proj.weight', 'decoder.layers.0.encoder_attn.k_proj.bias', 'decoder.layers.0.encoder_attn.v_proj.weight', 'decoder.layers.0.encoder_attn.v_proj.bias', 'decoder.layers.0.encoder_attn.q_proj.weight', 'decoder.layers.0.encoder_attn.q_proj.bias', 'decoder.layers.0.encoder_attn.out_proj.weight', 'decoder.la

In [16]:
# 학습 환경 설정 #


# 옵티마이저 설정
optimizer = AdamW(model.parameters(),
                  lr = 2e-5, # 학습률
                  eps = 1e-8 # 0으로 나누는 것을 방지하기 위한 epsilon 값
                )

# 에폭수
epochs = EPOCHS

# 총 훈련 스텝 : 배치반복 횟수 * 에폭
total_steps = len(train_dataloader) * epochs

# 처음에 학습률을 조금씩 변화시키는 스케줄러 생성
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps = 0,
                                            num_training_steps = total_steps)

In [17]:
# 학습 관련 함수 선언 #


# 정확도 계산 함수
def flat_accuracy(preds, labels):
    
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    return np.sum(pred_flat == labels_flat) / len(labels_flat)

# 시간 표시 함수
def format_time(elapsed):

    # 반올림
    elapsed_rounded = int(round((elapsed)))
    
    # hh:mm:ss으로 형태 변경
    return str(datetime.timedelta(seconds=elapsed_rounded))
    

In [18]:
# 모델 학습 #


# 재현을 위해 랜덤시드 고정
seed_val = SEED
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

# 그래디언트 초기화
model.zero_grad()
model.to(device)

# 에폭만큼 반복
for epoch_i in range(0, epochs):
    
    # ========================================
    #               Training
    # ========================================
    
    print("")
    print('======== Epoch {:} / {:} ========'.format(epoch_i + 1, epochs))
    print('Training...')

    # 시작 시간 설정
    t0 = time.time()

    # 로스 초기화
    total_loss = 0

    # 훈련모드로 변경
    model.train()
        
    # 데이터로더에서 배치만큼 반복하여 가져옴
    for step, batch in enumerate(train_dataloader):
        # 경과 정보 표시
        if step % 500 == 0 and not step == 0:
            elapsed = format_time(time.time() - t0)
            print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(train_dataloader), elapsed))

        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)
        
        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch

        # Forward 수행                
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask, 
                        labels=b_labels)
        
        # 로스 구함
        loss = outputs[0]

        # 총 로스 계산
        total_loss += loss.item()

        # Backward 수행으로 그래디언트 계산
        loss.backward()

        # 그래디언트 클리핑
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        # 그래디언트를 통해 가중치 파라미터 업데이트
        optimizer.step()

        # 스케줄러로 학습률 감소
        scheduler.step()

        # 그래디언트 초기화
        model.zero_grad()

    # 평균 로스 계산
    avg_train_loss = total_loss / len(train_dataloader)            

    print("")
    print("  Average training loss: {0:.2f}".format(avg_train_loss))
    print("  Training epcoh took: {:}".format(format_time(time.time() - t0)))
        
    # ========================================
    #               Validation
    # ========================================

    print("")
    print("Running Validation...")

    #시작 시간 설정
    t0 = time.time()

    # 평가모드로 변경
    model.eval()

    # 변수 초기화
    eval_loss, eval_accuracy = 0, 0
    nb_eval_steps, nb_eval_examples = 0, 0

    # 데이터로더에서 배치만큼 반복하여 가져옴
    for batch in validation_dataloader:
        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)
        
        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch
        
        # 그래디언트 계산 안함
        with torch.no_grad():     
            # Forward 수행
            outputs = model(b_input_ids, 
                            token_type_ids=None, 
                            attention_mask=b_input_mask)
        
        # 로스 구함
        logits = outputs[0]

        # CPU로 데이터 이동
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()
        
        # 출력 로짓과 라벨을 비교하여 정확도 계산
        tmp_eval_accuracy = flat_accuracy(logits, label_ids)
        eval_accuracy += tmp_eval_accuracy
        nb_eval_steps += 1

    print("  Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
    print("  Validation took: {:}".format(format_time(time.time() - t0)))

print("")
print("Training complete!")


Training...
  Batch   500  of  3,750.    Elapsed: 0:01:07.
  Batch 1,000  of  3,750.    Elapsed: 0:02:15.
  Batch 1,500  of  3,750.    Elapsed: 0:03:22.
  Batch 2,000  of  3,750.    Elapsed: 0:04:29.
  Batch 2,500  of  3,750.    Elapsed: 0:05:37.
  Batch 3,000  of  3,750.    Elapsed: 0:06:44.
  Batch 3,500  of  3,750.    Elapsed: 0:07:51.

  Average training loss: 0.45
  Training epcoh took: 0:08:25

Running Validation...
  Accuracy: 0.83
  Validation took: 0:00:16

Training...
  Batch   500  of  3,750.    Elapsed: 0:01:07.
  Batch 1,000  of  3,750.    Elapsed: 0:02:14.
  Batch 1,500  of  3,750.    Elapsed: 0:03:22.
  Batch 2,000  of  3,750.    Elapsed: 0:04:29.
  Batch 2,500  of  3,750.    Elapsed: 0:05:36.
  Batch 3,000  of  3,750.    Elapsed: 0:06:44.
  Batch 3,500  of  3,750.    Elapsed: 0:07:51.

  Average training loss: 0.36
  Training epcoh took: 0:08:24

Running Validation...
  Accuracy: 0.84
  Validation took: 0:00:16

Training...
  Batch   500  of  3,750.    Elapsed: 0:01:07

In [19]:
# test data prediction #


#시작 시간 설정
t0 = time.time()

# 평가모드로 변경
model.eval()

# 변수 초기화
eval_loss, eval_accuracy = 0, 0
nb_eval_steps, nb_eval_examples = 0, 0

# 데이터로더에서 배치만큼 반복하여 가져옴
for step, batch in enumerate(test_dataloader):
    # 경과 정보 표시
    if step % 200 == 0 and not step == 0:
        elapsed = format_time(time.time() - t0)
        print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(test_dataloader), elapsed))

    # 배치를 GPU에 넣음
    batch = tuple(t.to(device) for t in batch)
    
    # 배치에서 데이터 추출
    b_input_ids, b_input_mask, b_labels = batch
    
    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask)
    
    # 로스 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()
    label_ids = b_labels.to('cpu').numpy()
    
    # 출력 로짓과 라벨을 비교하여 정확도 계산
    tmp_eval_accuracy = flat_accuracy(logits, label_ids)
    eval_accuracy += tmp_eval_accuracy
    nb_eval_steps += 1

print("")
print("Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
print("Test took: {:}".format(format_time(time.time() - t0)))

  Batch   200  of  1,389.    Elapsed: 0:00:08.
  Batch   400  of  1,389.    Elapsed: 0:00:16.
  Batch   600  of  1,389.    Elapsed: 0:00:24.
  Batch   800  of  1,389.    Elapsed: 0:00:32.
  Batch 1,000  of  1,389.    Elapsed: 0:00:39.
  Batch 1,200  of  1,389.    Elapsed: 0:00:47.

Accuracy: 0.84
Test took: 0:00:55


In [20]:
# Competition Prediction 관련 Function #


# 입력 데이터 변환
def convert_input_data(sentences):

    sentences = [make_sentence(str(sentence)) for sentence in sentences]

    # BERT의 토크나이저로 문장을 토큰으로 분리
    tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

    # 토큰을 숫자 인덱스로 변환
    input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]
    
    # 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
    input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

    # 어텐션 마스크 초기화
    attention_masks = []

    # 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
    # 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
    for seq in input_ids:
        seq_mask = [float(i>0) for i in seq]
        attention_masks.append(seq_mask)

    # 데이터를 파이토치의 텐서로 변환
    inputs = torch.tensor(input_ids)
    masks = torch.tensor(attention_masks)

    return inputs, masks

# 문장 테스트
def test_sentences(sentences):

    # 평가모드로 변경
    model.eval()

    # 문장을 입력 데이터로 변환
    inputs, masks = convert_input_data(sentences)

    # 데이터를 GPU에 넣음
    b_input_ids = inputs.to(device)
    b_input_mask = masks.to(device)
            
    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask)

    # 로스 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()

    return logits


In [21]:
# Competition Prediction Data Load #


with open('sa-competition/KO-SA/data/ko_data.csv', 'r', encoding='utf-8') as f:
    data = pd.read_csv(f)

print(data.head())



   Id                                Sentence
0   0                        정말 많이 울었던 영화입니다.
1   1                                시간 낭비예요.
2   2  포스터를 저렇게밖에 만들지 못했던 제작자의 소심함에 침을 뱉고 싶다.
3   3    지금 봐도 재미있는 영화!!! 코믹과 감동!!! 그리고 요리!!!
4   4               이걸 영화로 만드는 거야?얼마나 가는지 보자.


In [22]:
# Competition Prediction 수행 및 결과 저장 #

if exam_mode == True:
    # Competition Prediction Data Load
    with open('sa-competition/KO-SA/data/ko_data.csv', 'r', encoding='utf-8') as f:
        data = pd.read_csv(f)

    print(data.head())

    import csv

    # Prediction
    output = []
    output.append(['Id', 'Predicted'])
    for i in range(len(data['Sentence'])):
        if i % 1000 == 0:
            print('  Batch {:>5,}  of  {:>5,}.'.format(i, len(data['Sentence'])))

        logits = test_sentences([data['Sentence'][i]])
        result = np.argmax(logits)
        output.append([i, result])

    print('Batch End')

    with open('output_ko.csv', 'w') as csv_file: 
        csv_w = csv.writer(csv_file, delimiter=",")
        for row in output: 
            csv_w.writerow(row)
        print("결과 저장 완료: ", datetime.datetime.now().strftime("%Y/%m/%d %H:%M:%S"))

   Id                                Sentence
0   0                        정말 많이 울었던 영화입니다.
1   1                                시간 낭비예요.
2   2  포스터를 저렇게밖에 만들지 못했던 제작자의 소심함에 침을 뱉고 싶다.
3   3    지금 봐도 재미있는 영화!!! 코믹과 감동!!! 그리고 요리!!!
4   4               이걸 영화로 만드는 거야?얼마나 가는지 보자.
  Batch     0  of  11,187.
  Batch 1,000  of  11,187.
  Batch 2,000  of  11,187.
  Batch 3,000  of  11,187.
  Batch 4,000  of  11,187.
  Batch 5,000  of  11,187.
  Batch 6,000  of  11,187.
  Batch 7,000  of  11,187.
  Batch 8,000  of  11,187.
  Batch 9,000  of  11,187.
  Batch 10,000  of  11,187.
  Batch 11,000  of  11,187.
Batch End
결과 저장 완료:  2020/12/25 08:56:20
