## Reference
- Chris McCormick 
- BERT Word Embeddings Tutorial<br>
http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/<br>
- colab<br>
https://colab.research.google.com/drive/1pTuQhug6Dhl9XalKB0zUGf4FIdYFlpcX#scrollTo=0NmMdkZO8R6q<br>
- Youtube<br>
https://www.youtube.com/watch?v=Hnvb9b7a_Ps&feature=youtu.be<br>
- BERT Fine-Tuning Tutorial with PyTorch<br>
https://mccormickml.com/2019/07/22/BERT-fine-tuning/<br>
- Naver<br>
https://colab.research.google.com/drive/1tIf0Ugdqg4qT7gcxia3tL7und64Rv1dP#scrollTo=P58qy4--s5_x<br>


#1.Set-up

##1.1. Using Colab GPU for Learning

- First of all, we need to select GPU in the runtime menu

In [2]:
import tensorflow as tf

# Get the GPU device name.
device_name = tf.test.gpu_device_name()

# The device name should look like the following:
if device_name == '/device:GPU:0':
    print('Found GPU at: {}'.format(device_name))
else:
    raise SystemError('GPU device not found')

Found GPU at: /device:GPU:0


- To check which GPU type you are using

In [3]:
import torch

# If there's a GPU available...
if torch.cuda.is_available():    

    # Tell PyTorch to use the GPU.    
    device = torch.device("cuda")

    print('There are %d GPU(s) available.' % torch.cuda.device_count())

    print('We will use the GPU:', torch.cuda.get_device_name(0))

# If not...
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

There are 1 GPU(s) available.
We will use the GPU: Tesla K80


##1.2. Install Hugging Face Library

In [4]:
!pip install transformers

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/d8/b2/57495b5309f09fa501866e225c84532d1fd89536ea62406b2181933fb418/transformers-4.5.1-py3-none-any.whl (2.1MB)
[K     |████████████████████████████████| 2.1MB 5.7MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/75/ee/67241dc87f266093c533a2d4d3d69438e57d7a90abb216fa076e7d475d4a/sacremoses-0.0.45-py3-none-any.whl (895kB)
[K     |████████████████████████████████| 901kB 41.3MB/s 
Collecting tokenizers<0.11,>=0.10.1
[?25l  Downloading https://files.pythonhosted.org/packages/ae/04/5b870f26a858552025a62f1649c20d29d2672c02ff3c3fb4c688ca46467a/tokenizers-0.10.2-cp37-cp37m-manylinux2010_x86_64.whl (3.3MB)
[K     |████████████████████████████████| 3.3MB 39.2MB/s 
Installing collected packages: sacremoses, tokenizers, transformers
Successfully installed sacremoses-0.0.45 tokenizers-0.10.2 transformers-4.5.1


In [5]:
!pip3 install kobert-transformers

Collecting kobert-transformers
  Downloading https://files.pythonhosted.org/packages/f3/6d/f4e21513c1f26cacd68c144a428ccaa90dd92d85985e878976ebbaf06624/kobert_transformers-0.4.1-py3-none-any.whl
Installing collected packages: kobert-transformers
Successfully installed kobert-transformers-0.4.1


In [6]:
!pip install tensorflow
!pip install keras
!pip install sentencepiece

Collecting sentencepiece
[?25l  Downloading https://files.pythonhosted.org/packages/f5/99/e0808cb947ba10f575839c43e8fafc9cc44e4a7a2c8f79c60db48220a577/sentencepiece-0.1.95-cp37-cp37m-manylinux2014_x86_64.whl (1.2MB)
[K     |████████████████████████████████| 1.2MB 5.6MB/s 
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.95


#2.Corpus Data

##2.1.Mount Google Drive to this Notebook instance.

In [7]:
# Mount Google Drive to this Notebook instance.
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


- To check the location of this drive

In [8]:
!ls drive/My\ Drive/BERT/SM/KoBERT/Postposition/Data

accuracy     test_Eyse.csv  train_Ey.csv    train_Lo.csv
test_Ey.csv  test_Lo.csv    train_Eyse.csv  t-SNE


##2.2.Install required packages

In [9]:
import tensorflow as tf
import torch

from transformers import BertTokenizer
from transformers import BertForSequenceClassification, AdamW, BertConfig
from transformers import get_linear_schedule_with_warmup
from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
from keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np
import random
import time
import datetime

##2.3.Importing files to generate data

In [10]:
fileDir = "drive/My Drive/BERT/SM/KoBERT/Postposition/Data/test_Eyse.csv"
fr = open(fileDir, 'r')
contents= fr.readlines()
fr.close()

test = pd.DataFrame(columns=('index', 'Label', 'Sentence'))
i = 0
index = ""
label = ""
sentence = ""
for content in contents:
    if i == 0:
        pass
    else:
        infos = content.split(",")
        index = infos[0]
        label = int(infos[1])
        sentence = infos[2].replace("\n","")
        test.loc[i] = [index, label, sentence]
    i = i + 1

print(test)

    index Label                          Sentence
1       0     0        그때 저편에서 회중전등이 번쩍하고 이리로 왔다.
2       1     0         마술가방에서 이번에는 티셔츠와 수건이 나왔다.
3       2     0      그게 가슴벽과 등줄기와 머리 끝에서 전율로 변했다.
4       3     0                      중앙당에서 나왔습니다.
5       4     0      진화의 성질이 양적 변화에서 질적 변화로 변하였다.
..    ...   ...                               ...
480   479     1        페미니즘적 관점에서 쓰여진 여성의학 교양서.신체
481   480     1     "그런데 로라는 오늘 저녁 이 호텔에서 묵을 거야?"
482   481     1    4월 5일 한식날 이 송강사에서 기념 추모제가 열렸다.
483   482     1             빨리 병원에서 퇴원하면 얼마나 좋을까.
484   483     1  여느 때와 달리 가르시아는 그녀의 아파트에서 자고 싶었다.

[484 rows x 3 columns]


In [11]:
fileDir = "drive/My Drive/BERT/SM/KoBERT/Postposition/Data/train_Eyse.csv"
fr = open(fileDir, 'r')
contents= fr.readlines()
fr.close()

train = pd.DataFrame(columns=('index', 'Label', 'Sentence'))
i = 0
index = ""
label = ""
sentence = ""
for content in contents:
    if i == 0:
        pass
    else:
        infos = content.split(",")
        index = infos[0]
        label = int(infos[1])
        sentence = infos[2].replace("\n","")
        train.loc[i] = [index, label, sentence]
    i = i + 1

print(train)

     index Label                     Sentence
1        0     0  "저 박성훈씨가 근무하는 건설 회사에서 왔습니다.
2        1     0   천안 아라리오 광장에서 노랫소리가 들리던 것은.
3        2     0        천장에서 나는 소리는 계속되고 있었다.
4        3     0    이게 이 학교 교사들의 입에서 나오는 소리다.
5        4     0     아래에서 위로 향하는 것은 그것뿐일 겁니다.
...    ...   ...                          ...
4365  4364     1  채점 방법에 대한 우려는 논술에서 더욱 증폭된다.
4366  4365     1   재료에서 이미 다 돼 있는 거나 마찬가집니다."
4367  4366     1  그 과정에서 우리들의 민족통일은 덤으로 떨어진다.
4368  4367     1    교사 : 같은 방법으로 '교실'에서 시작한다.
4369  4368     1  경찰청은 페널티 아크 오른쪽에서 프리킥을 얻었다.

[4369 rows x 3 columns]


- 2 functions of korean postposition '-Eyse' <br>
0: SRC (Source)<br>
1: LOC (location)<br>


In [12]:
print(train[0:20])
print(train.shape)
print(test.shape)

   index Label                          Sentence
1      0     0       "저 박성훈씨가 근무하는 건설 회사에서 왔습니다.
2      1     0        천안 아라리오 광장에서 노랫소리가 들리던 것은.
3      2     0             천장에서 나는 소리는 계속되고 있었다.
4      3     0         이게 이 학교 교사들의 입에서 나오는 소리다.
5      4     0          아래에서 위로 향하는 것은 그것뿐일 겁니다.
6      5     0        언덕에서 산쪽으로 외줄기 길이 하나 나 있었다.
7      6     0      어미벌은 몇 센티미터 가량 그곳에서 떨어질 뿐이다.
8      7     0          탈곡 곡식의 이삭에서 낟알을 떨어 내는 일.
9      8     0     그리고 각 칸에 양 진영에서 각각 1명씩이 들어간다.
10     9     0            구름은 저 폴란드의 평야에서 가져오거라.
11    10     0                 집에서 사람들 몇이 뛰어나왔다.
12    11     0         동경대학 조도전대학 도서관에서 매일을 보냈다.
13    12     0         하나에서 열까지 자기네 검열을 받으라는 거죠.
14    13     0       이들이 지배계급 하층에서 분화되어 나온 계층이다.
15    14     0            비슷한 나이에서 오는 수나로움일 터였다.
16    15     0          태양 복사 에너지 태양에서 내어놓는 에너지.
17    16     0             그도 역시 부두에서 돌아오는 모양이다.
18    17     0  언니 은주 씨는 다음날 오전에나 목포에서 돌아올 것이었다.
19    18     0      그러나 배삼룡 분장의 하이라이트는 실수에서 나왔다.
20    19     0      

##2.4.Cleaning the corpus data; remove the punctuations

In [13]:
#정제하기

train['Sentence'] = train['Sentence'].str.replace(r'[-=+,#/\?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》\\n\t]+', " ", regex=True)
test['Sentence'] = test['Sentence'].str.replace(r'[-=+,#/\?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]', " ", regex=True)
train['Sentence'] = train['Sentence'].str.replace(r'\t+', " ", regex=True)
test['Sentence'] = test['Sentence'].str.replace(r'\t+', " ", regex=True)
train['Sentence'] = train['Sentence'].str.replace(r'[\\n]+'," ", regex=True)
test['Sentence'] = test['Sentence'].str.replace(r'[\\n]+'," ", regex=True)

In [14]:
train.head(5)
test.head(5)

Unnamed: 0,index,Label,Sentence
1,0,0,그때 저편에서 회중전등이 번쩍하고 이리로 왔다
2,1,0,마술가방에서 이번에는 티셔츠와 수건이 나왔다
3,2,0,그게 가슴벽과 등줄기와 머리 끝에서 전율로 변했다
4,3,0,중앙당에서 나왔습니다
5,4,0,진화의 성질이 양적 변화에서 질적 변화로 변하였다


#3.Data processing


##3.1 Preprocessing

- Load the Tokenization.py for KoBERT

In [15]:
# coding=utf-8
# Copyright 2018 Google AI, Google Brain and Carnegie Mellon University Authors and the HuggingFace Inc. team and Jangwon Park
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
""" Tokenization classes for KoBert model."""


import logging
import os
import unicodedata
from shutil import copyfile

from transformers import PreTrainedTokenizer


logger = logging.getLogger(__name__)

VOCAB_FILES_NAMES = {"vocab_file": "tokenizer_78b3253a26.model",
                     "vocab_txt": "vocab.txt"}

PRETRAINED_VOCAB_FILES_MAP = {
    "vocab_file": {
        "monologg/kobert": "https://s3.amazonaws.com/models.huggingface.co/bert/monologg/kobert/tokenizer_78b3253a26.model",
        "monologg/kobert-lm": "https://s3.amazonaws.com/models.huggingface.co/bert/monologg/kobert-lm/tokenizer_78b3253a26.model",
        "monologg/distilkobert": "https://s3.amazonaws.com/models.huggingface.co/bert/monologg/distilkobert/tokenizer_78b3253a26.model"
    },
    "vocab_txt": {
        "monologg/kobert": "https://s3.amazonaws.com/models.huggingface.co/bert/monologg/kobert/vocab.txt",
        "monologg/kobert-lm": "https://s3.amazonaws.com/models.huggingface.co/bert/monologg/kobert-lm/vocab.txt",
        "monologg/distilkobert": "https://s3.amazonaws.com/models.huggingface.co/bert/monologg/distilkobert/vocab.txt"
    }
}

PRETRAINED_POSITIONAL_EMBEDDINGS_SIZES = {
    "monologg/kobert": 512,
    "monologg/kobert-lm": 512,
    "monologg/distilkobert": 512
}

PRETRAINED_INIT_CONFIGURATION = {
    "monologg/kobert": {"do_lower_case": False},
    "monologg/kobert-lm": {"do_lower_case": False},
    "monologg/distilkobert": {"do_lower_case": False}
}

SPIECE_UNDERLINE = u'▁'


class KoBertTokenizer(PreTrainedTokenizer):
    """
        SentencePiece based tokenizer. Peculiarities:
            - requires `SentencePiece <https://github.com/google/sentencepiece>`_
    """
    vocab_files_names = VOCAB_FILES_NAMES
    pretrained_vocab_files_map = PRETRAINED_VOCAB_FILES_MAP
    pretrained_init_configuration = PRETRAINED_INIT_CONFIGURATION
    max_model_input_sizes = PRETRAINED_POSITIONAL_EMBEDDINGS_SIZES

    def __init__(
            self,
            vocab_file,
            vocab_txt,
            do_lower_case=False,
            remove_space=True,
            keep_accents=False,
            unk_token="[UNK]",
            sep_token="[SEP]",
            pad_token="[PAD]",
            cls_token="[CLS]",
            mask_token="[MASK]",
            **kwargs):
        super().__init__(
            unk_token=unk_token,
            sep_token=sep_token,
            pad_token=pad_token,
            cls_token=cls_token,
            mask_token=mask_token,
            **kwargs
        )

        # Build vocab
        self.token2idx = dict()
        self.idx2token = []
        with open(vocab_txt, 'r', encoding='utf-8') as f:
            for idx, token in enumerate(f):
                token = token.strip()
                self.token2idx[token] = idx
                self.idx2token.append(token)

        try:
            import sentencepiece as spm
        except ImportError:
            logger.warning("You need to install SentencePiece to use KoBertTokenizer: https://github.com/google/sentencepiece"
                           "pip install sentencepiece")

        self.do_lower_case = do_lower_case
        self.remove_space = remove_space
        self.keep_accents = keep_accents
        self.vocab_file = vocab_file
        self.vocab_txt = vocab_txt

        self.sp_model = spm.SentencePieceProcessor()
        self.sp_model.Load(vocab_file)

    @property
    def vocab_size(self):
        return len(self.idx2token)

    def get_vocab(self):
        return dict(self.token2idx, **self.added_tokens_encoder)

    def __getstate__(self):
        state = self.__dict__.copy()
        state["sp_model"] = None
        return state

    def __setstate__(self, d):
        self.__dict__ = d
        try:
            import sentencepiece as spm
        except ImportError:
            logger.warning("You need to install SentencePiece to use KoBertTokenizer: https://github.com/google/sentencepiece"
                           "pip install sentencepiece")
        self.sp_model = spm.SentencePieceProcessor()
        self.sp_model.Load(self.vocab_file)

    def preprocess_text(self, inputs):
        if self.remove_space:
            outputs = " ".join(inputs.strip().split())
        else:
            outputs = inputs
        outputs = outputs.replace("``", '"').replace("''", '"')

        if not self.keep_accents:
            outputs = unicodedata.normalize('NFKD', outputs)
            outputs = "".join([c for c in outputs if not unicodedata.combining(c)])
        if self.do_lower_case:
            outputs = outputs.lower()

        return outputs

    def _tokenize(self, text, return_unicode=True, sample=False):
        """ Tokenize a string. """
        text = self.preprocess_text(text)

        if not sample:
            pieces = self.sp_model.EncodeAsPieces(text)
        else:
            pieces = self.sp_model.SampleEncodeAsPieces(text, 64, 0.1)
        new_pieces = []
        for piece in pieces:
            if len(piece) > 1 and piece[-1] == str(",") and piece[-2].isdigit():
                cur_pieces = self.sp_model.EncodeAsPieces(piece[:-1].replace(SPIECE_UNDERLINE, ""))
                if piece[0] != SPIECE_UNDERLINE and cur_pieces[0][0] == SPIECE_UNDERLINE:
                    if len(cur_pieces[0]) == 1:
                        cur_pieces = cur_pieces[1:]
                    else:
                        cur_pieces[0] = cur_pieces[0][1:]
                cur_pieces.append(piece[-1])
                new_pieces.extend(cur_pieces)
            else:
                new_pieces.append(piece)

        return new_pieces

    def _convert_token_to_id(self, token):
        """ Converts a token (str/unicode) in an id using the vocab. """
        return self.token2idx.get(token, self.token2idx[self.unk_token])

    def _convert_id_to_token(self, index, return_unicode=True):
        """Converts an index (integer) in a token (string/unicode) using the vocab."""
        return self.idx2token[index]

    def convert_tokens_to_string(self, tokens):
        """Converts a sequence of tokens (strings for sub-words) in a single string."""
        out_string = "".join(tokens).replace(SPIECE_UNDERLINE, " ").strip()
        return out_string

    def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
        """
        Build model inputs from a sequence or a pair of sequence for sequence classification tasks
        by concatenating and adding special tokens.
        A KoBERT sequence has the following format:
            single sequence: [CLS] X [SEP]
            pair of sequences: [CLS] A [SEP] B [SEP]
        """
        if token_ids_1 is None:
            return [self.cls_token_id] + token_ids_0 + [self.sep_token_id]
        cls = [self.cls_token_id]
        sep = [self.sep_token_id]
        return cls + token_ids_0 + sep + token_ids_1 + sep

    def get_special_tokens_mask(self, token_ids_0, token_ids_1=None, already_has_special_tokens=False):
        """
        Retrieves sequence ids from a token list that has no special tokens added. This method is called when adding
        special tokens using the tokenizer ``prepare_for_model`` or ``encode_plus`` methods.
        Args:
            token_ids_0: list of ids (must not contain special tokens)
            token_ids_1: Optional list of ids (must not contain special tokens), necessary when fetching sequence ids
                for sequence pairs
            already_has_special_tokens: (default False) Set to True if the token list is already formated with
                special tokens for the model
        Returns:
            A list of integers in the range [0, 1]: 0 for a special token, 1 for a sequence token.
        """

        if already_has_special_tokens:
            if token_ids_1 is not None:
                raise ValueError(
                    "You should not supply a second sequence if the provided sequence of "
                    "ids is already formated with special tokens for the model."
                )
            return list(map(lambda x: 1 if x in [self.sep_token_id, self.cls_token_id] else 0, token_ids_0))

        if token_ids_1 is not None:
            return [1] + ([0] * len(token_ids_0)) + [1] + ([0] * len(token_ids_1)) + [1]
        return [1] + ([0] * len(token_ids_0)) + [1]

    def create_token_type_ids_from_sequences(self, token_ids_0, token_ids_1=None):
        """
        Creates a mask from the two sequences passed to be used in a sequence-pair classification task.
        A KoBERT sequence pair mask has the following format:
        0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
        | first sequence    | second sequence
        if token_ids_1 is None, only returns the first portion of the mask (0's).
        """
        sep = [self.sep_token_id]
        cls = [self.cls_token_id]
        if token_ids_1 is None:
            return len(cls + token_ids_0 + sep) * [0]
        return len(cls + token_ids_0 + sep) * [0] + len(token_ids_1 + sep) * [1]

    def save_vocabulary(self, save_directory):
        """ Save the sentencepiece vocabulary (copy original file) and special tokens file
            to a directory.
        """
        if not os.path.isdir(save_directory):
            logger.error("Vocabulary path ({}) should be a directory".format(save_directory))
            return

        # 1. Save sentencepiece model
        out_vocab_model = os.path.join(save_directory, VOCAB_FILES_NAMES["vocab_file"])

        if os.path.abspath(self.vocab_file) != os.path.abspath(out_vocab_model):
            copyfile(self.vocab_file, out_vocab_model)

        # 2. Save vocab.txt
        index = 0
        out_vocab_txt = os.path.join(save_directory, VOCAB_FILES_NAMES["vocab_txt"])
        with open(out_vocab_txt, "w", encoding="utf-8") as writer:
            for token, token_index in sorted(self.token2idx.items(), key=lambda kv: kv[1]):
                if index != token_index:
                    logger.warning(
                        "Saving vocabulary to {}: vocabulary indices are not consecutive."
                        " Please check that the vocabulary is not corrupted!".format(out_vocab_txt)
                    )
                    index = token_index
                writer.write(token + "\n")
                index += 1

        return out_vocab_model, out_vocab_txt

- Convert each sentence to BERT format

In [16]:
# 리뷰 문장 추출
sentences = train['Sentence']
# BERT의 입력 형식에 맞게 변환
sentences = ["[CLS] " + str(sentence) + " [SEP]" for sentence in sentences]
sentences[:10]

['[CLS]  저 박성훈씨가 근무하는 건설 회사에서 왔습니다  [SEP]',
 '[CLS] 천안 아라리오 광장에서 노랫소리가 들리던 것은  [SEP]',
 '[CLS] 천장에서 나는 소리는 계속되고 있었다  [SEP]',
 '[CLS] 이게 이 학교 교사들의 입에서 나오는 소리다  [SEP]',
 '[CLS] 아래에서 위로 향하는 것은 그것뿐일 겁니다  [SEP]',
 '[CLS] 언덕에서 산쪽으로 외줄기 길이 하나 나 있었다  [SEP]',
 '[CLS] 어미벌은 몇 센티미터 가량 그곳에서 떨어질 뿐이다  [SEP]',
 '[CLS] 탈곡 곡식의 이삭에서 낟알을 떨어 내는 일  [SEP]',
 '[CLS] 그리고 각 칸에 양 진영에서 각각 1명씩이 들어간다  [SEP]',
 '[CLS] 구름은 저 폴란드의 평야에서 가져오거라  [SEP]']

- Save the label data

In [17]:
# 라벨 추출
labels = train['Label'].values
labels_re = []
for label in labels:
  labels_re.append(label)
labels = labels_re

- Check the KoBertTokenizer

In [18]:
# BERT의 토크나이저로 문장을 토큰으로 분리
tokenizer = KoBertTokenizer.from_pretrained('monologg/kobert')
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

print (sentences[0])
print (tokenized_texts[0])

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=371391.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=77779.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=51.0, style=ProgressStyle(description_w…


[CLS]  저 박성훈씨가 근무하는 건설 회사에서 왔습니다  [SEP]
['[CLS]', '▁저', '▁박', '성', '훈', '씨가', '▁근무', '하는', '▁건설', '▁회사', '에서', '▁', '왔', '습니다', '[SEP]']


In [19]:
 # 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 128

# 토큰을 숫자 인덱스로 변환
input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

input_ids[0]

array([   2, 3990, 2199, 6573, 7970, 6786, 1225, 7794,  885, 5156, 6903,
        517, 6989, 6701,    3,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0])

In [20]:
# 어텐션 마스크 초기화
attention_masks = []

# 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
# 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])
print(labels)
print(input_ids)

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

In [21]:
# 훈련셋과 검증셋으로 분리
train_inputs, validation_inputs, train_labels, validation_labels = train_test_split(input_ids,
                                                                                    labels, 
                                                                                    random_state=2018, 
                                                                                    test_size=0.1)

# 어텐션 마스크를 훈련셋과 검증셋으로 분리
train_masks, validation_masks, _, _ = train_test_split(attention_masks, 
                                                       input_ids,
                                                       random_state=2018, 
                                                       test_size=0.1)

# 데이터를 파이토치의 텐서로 변환
train_inputs = torch.tensor(train_inputs)
train_labels = torch.tensor(train_labels)
train_masks = torch.tensor(train_masks)
validation_inputs = torch.tensor(validation_inputs)
validation_labels = torch.tensor(validation_labels)
validation_masks = torch.tensor(validation_masks)				

print(train_inputs[0])
print(train_labels[0])
print(train_masks[0])
print(validation_inputs[0])
print(validation_labels[0])
print(validation_masks[0])

tensor([   2, 3647, 6204, 6629, 6897, 5859,  541, 6903, 2183, 5680, 4856, 6386,
           3,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0])
tensor(1)
tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0

In [22]:
# 배치 사이즈
batch_size = 32

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
train_data = TensorDataset(train_inputs, train_masks, train_labels)
train_sampler = RandomSampler(train_data)
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

validation_data = TensorDataset(validation_inputs, validation_masks, validation_labels)
validation_sampler = SequentialSampler(validation_data)
validation_dataloader = DataLoader(validation_data, sampler=validation_sampler, batch_size=batch_size)

In [23]:
# 리뷰 문장 추출
sentences = test['Sentence']
sentences[:10]

1       그때 저편에서 회중전등이 번쩍하고 이리로 왔다 
2        마술가방에서 이번에는 티셔츠와 수건이 나왔다 
3     그게 가슴벽과 등줄기와 머리 끝에서 전율로 변했다 
4                     중앙당에서 나왔습니다 
5     진화의 성질이 양적 변화에서 질적 변화로 변하였다 
6        드디어 대장 새의 입에서 명령이 떨어졌습니다 
7                어떤 사람이 호텔에서 떨어졌다 
8               작가 선생님이 의자에서 일어섰다 
9              머리에서도 물방울이 뚝뚝 떨어졌다 
10          호길의 코에서는 모락모락 김이 솟아났다 
Name: Sentence, dtype: object

In [24]:
# BERT의 입력 형식에 맞게 변환
sentences = ["[CLS] " + str(sentence) + " [SEP]" for sentence in sentences]
sentences[:10]

['[CLS] 그때 저편에서 회중전등이 번쩍하고 이리로 왔다  [SEP]',
 '[CLS] 마술가방에서 이번에는 티셔츠와 수건이 나왔다  [SEP]',
 '[CLS] 그게 가슴벽과 등줄기와 머리 끝에서 전율로 변했다  [SEP]',
 '[CLS] 중앙당에서 나왔습니다  [SEP]',
 '[CLS] 진화의 성질이 양적 변화에서 질적 변화로 변하였다  [SEP]',
 '[CLS] 드디어 대장 새의 입에서 명령이 떨어졌습니다  [SEP]',
 '[CLS] 어떤 사람이 호텔에서 떨어졌다  [SEP]',
 '[CLS] 작가 선생님이 의자에서 일어섰다  [SEP]',
 '[CLS] 머리에서도 물방울이 뚝뚝 떨어졌다  [SEP]',
 '[CLS] 호길의 코에서는 모락모락 김이 솟아났다  [SEP]']

In [None]:
# 라벨 추출
labels = test['Label'].values
labels_re = []
for label in labels:
  labels_re.append(label)
labels = labels_re

In [None]:
# BERT의 토크나이저로 문장을 토큰으로 분리
tokenizer = KoBertTokenizer.from_pretrained('monologg/kobert')
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

print (sentences[0])
print (tokenized_texts[0])

Setting 'max_len_single_sentence' is now deprecated. This value is automatically set up.
Setting 'max_len_sentences_pair' is now deprecated. This value is automatically set up.


[CLS] 그때 저편에서 회중전등이 번쩍하고 이리로 왔다  [SEP]
['[CLS]', '▁그때', '▁저', '편', '에서', '▁회', '중', '전', '등', '이', '▁번', '쩍', '하고', '▁이', '리', '로', '▁왔다', '[SEP]']


In [None]:
# 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 128

# 토큰을 숫자 인덱스로 변환
input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

input_ids[0]

array([   2, 1194, 3990, 7720, 6903, 5152, 7295, 7207, 5944, 7096, 2307,
       7372, 7788, 3647, 6122, 6079, 3464,    3,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0])

In [None]:
# 어텐션 마스크 초기화
attention_masks = []

# 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
# 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [None]:
# 데이터를 파이토치의 텐서로 변환
test_inputs = torch.tensor(input_ids)
test_labels = torch.tensor(labels)
test_masks = torch.tensor(attention_masks)

print(test_inputs[0])
print(test_labels[0])
print(test_masks[0])

tensor([   2, 1194, 3990, 7720, 6903, 5152, 7295, 7207, 5944, 7096, 2307, 7372,
        7788, 3647, 6122, 6079, 3464,    3,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0])
tensor(0)
tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0

In [None]:
# 배치 사이즈
batch_size = 32

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
test_data = TensorDataset(test_inputs, test_masks, test_labels)
test_sampler = RandomSampler(test_data)
test_dataloader = DataLoader(test_data, sampler=test_sampler, batch_size=batch_size)
test_dataloader

<torch.utils.data.dataloader.DataLoader at 0x7fb9415ae278>

#4.Create model

##4.1. Load the KoBERT model; BertForSequenceClassification

In [None]:
# 분류를 위한 BERT 모델 생성
model = BertForSequenceClassification.from_pretrained("monologg/kobert", num_labels=2)
model.cuda()

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=426.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=368792146.0, style=ProgressStyle(descri…




Some weights of BertForSequenceClassification were not initialized from the model checkpoint at monologg/kobert and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(8002, 768, padding_idx=1)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementw

##4.2. Create the functions for checking accuracy rate

In [None]:
# 정확도 계산 함수
def flat_accuracy(preds, labels):
    
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    return np.sum(pred_flat == labels_flat) / len(labels_flat)
    
def SRC_flat_accuracy(preds, labels):
    
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    match_num = 0
    func_num = 0
    for i in range(0,len(pred_flat)):
      if (pred_flat[i] == labels_flat[i]) and (labels_flat[i] == 0):
        match_num += 1
      if labels_flat[i] == 0:
        func_num += 1

    if match_num == 0 or func_num == 0:
      return 0
    else:
      return match_num / func_num

def LOC_flat_accuracy(preds, labels):
    
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    match_num = 0
    func_num = 0
    for i in range(0,len(pred_flat)):
      if (pred_flat[i] == labels_flat[i]) and (labels_flat[i] == 1):
        match_num += 1
      if labels_flat[i] == 1:
        func_num += 1

    if match_num == 0 or func_num == 0:
      return 0
    else:
      return match_num / func_num


In [None]:
# 시간 표시 함수
def format_time(elapsed):

    # 반올림
    elapsed_rounded = int(round((elapsed)))
    
    # hh:mm:ss으로 형태 변경
    return str(datetime.timedelta(seconds=elapsed_rounded))

##4.3. Train the corpus data with KoBERT

In [None]:
# 옵티마이저 설정
optimizer = AdamW(model.parameters(),
                  lr = 2e-5, # 학습률
                  eps = 1e-8 # 0으로 나누는 것을 방지하기 위한 epsilon 값
                )

# 에폭수
epochs = 10

# 총 훈련 스텝 : 배치반복 횟수 * 에폭
total_steps = len(train_dataloader) * epochs

# 학습률을 조금씩 감소시키는 스케줄러 생성
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps = 0,
                                            num_training_steps = total_steps)

In [None]:
# 재현을 위해 랜덤시드 고정
seed_val = 42
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

# 그래디언트 초기화
model.zero_grad()

final_info = {}

# 에폭만큼 반복
for epoch_i in range(0, epochs):
    
    # ========================================
    #               Training
    # ========================================
    
    print("")
    print('======== Epoch {:} / {:} ========'.format(epoch_i + 1, epochs))
    print('Training...')

    # 시작 시간 설정
    t0 = time.time()

    # 로스 초기화
    total_loss = 0

    # 훈련모드로 변경
    model.train()
        
    # 데이터로더에서 배치만큼 반복하여 가져옴
    for step, batch in enumerate(train_dataloader):
        # 경과 정보 표시
        if step % 500 == 0 and not step == 0:
            elapsed = format_time(time.time() - t0)
            print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(train_dataloader), elapsed))

        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)
        
        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch

        # Forward 수행                
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask, 
                        labels=b_labels)
        
        # 로스 구함
        loss = outputs[0]

        # 총 로스 계산
        total_loss += loss.item()

        # Backward 수행으로 그래디언트 계산
        loss.backward()

        # 그래디언트 클리핑
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        # 그래디언트를 통해 가중치 파라미터 업데이트
        optimizer.step()

        # 스케줄러로 학습률 감소
        scheduler.step()

        # 그래디언트 초기화
        model.zero_grad()

    # 평균 로스 계산
    avg_train_loss = total_loss / len(train_dataloader)            

    print("")
    print("  Average training loss: {0:.2f}".format(avg_train_loss))
    print("  Training epcoh took: {:}".format(format_time(time.time() - t0)))
        
    # ========================================
    #               Validation
    # ========================================

    print("")
    print("Running Validation...")

    #시작 시간 설정
    t0 = time.time()

    # 평가모드로 변경
    model.eval()

    # 변수 초기화
    eval_loss, eval_accuracy = 0, 0
    nb_eval_steps, nb_eval_examples = 0, 0
    SRC_nb_eval_steps, SRC_eval_accuracy = 0, 0
    LOC_nb_eval_steps, LOC_eval_accuracy = 0, 0

    epoch_info = {}

    # 데이터로더에서 배치만큼 반복하여 가져옴
    for batch in test_dataloader:
        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)
        
        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch
        
        # 그래디언트 계산 안함
        with torch.no_grad():     
            # Forward 수행
            outputs = model(b_input_ids, 
                            token_type_ids=None, 
                            attention_mask=b_input_mask)
        
        # 로스 구함
        logits = outputs[0]

        # CPU로 데이터 이동
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()
        
        # 출력 로짓과 라벨을 비교하여 정확도 계산
        tmp_eval_accuracy = flat_accuracy(logits, label_ids)
        eval_accuracy += tmp_eval_accuracy
        nb_eval_steps += 1

        SRC_tmp_eval_accuracy = SRC_flat_accuracy(logits, label_ids)
        SRC_eval_accuracy += SRC_tmp_eval_accuracy
        SRC_nb_eval_steps += 1

        LOC_tmp_eval_accuracy = LOC_flat_accuracy(logits, label_ids)
        LOC_eval_accuracy += LOC_tmp_eval_accuracy
        LOC_nb_eval_steps += 1

    print("  Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
    print("  Validation took: {:}".format(format_time(time.time() - t0)))
    print("")
    print("  Detail accuracy  ")
    print("  SRC_Accuracy: {0:.2f}".format(SRC_eval_accuracy/SRC_nb_eval_steps))
    print("  LOC_Accuracy: {0:.2f}".format(LOC_eval_accuracy/LOC_nb_eval_steps))

    epoch_info["Total"] = round(eval_accuracy/nb_eval_steps,3)
    epoch_info["Loss"] = round(avg_train_loss,3)
    epoch_info["SRC"] = round(SRC_eval_accuracy/SRC_nb_eval_steps,3)
    epoch_info["LOC"] = round(LOC_eval_accuracy/LOC_nb_eval_steps,3)

    final_info["epoch"+str(epoch_i)] = epoch_info


    # 평가모드로 변경
    model.eval()
    test_input_ids = []
    test_input_mask = []
    test_labels = []

    num = 0
    for step, batch in enumerate(test_data):   #467, 128
      # print("batch",batch)
      # 배치를 GPU에 넣음
      batch = tuple(t.to(device) for t in batch)
      
      # 배치에서 데이터 추출
      b_input_ids, b_input_mask, b_labels = batch
      input_ids_arr = []
      input_mask_arr = []

      

      for i in range(0,len(b_input_ids)):
        input_ids_arr.append(int(b_input_ids[i]))
        input_mask_arr.append(int(b_input_mask[i]))

      
      test_input_ids.append(input_ids_arr)
      test_input_mask.append(input_mask_arr)
      test_labels.append(int(b_labels))


    test_input_ids = torch.tensor(test_input_ids)
    test_input_mask = torch.tensor(test_input_mask)
    test_labels = test_labels

    test_input_ids = test_input_ids.to(device)
    test_input_mask = test_input_mask.to(device)


    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(test_input_ids, 
                        token_type_ids=None, 
                        attention_mask=test_input_mask)
        

    sentence_vecs_sum = outputs[0]

    sentence_array = []
    for i in range(0,len(sentence_vecs_sum)):
      each_array = []
      for j in range(0,len(sentence_vecs_sum[i])):
        each_array.append(float(sentence_vecs_sum[i][j]))
      sentence_array.append(each_array)

    initial_df = pd.DataFrame(sentence_array)

    from sklearn.manifold import TSNE
    tsne = TSNE(n_components=2, random_state=0)
    tsne_obj= tsne.fit_transform(initial_df)

    tsne_df = pd.DataFrame({'X':tsne_obj[:,0],'Y':tsne_obj[:,1],'Label':test_labels})

    # tsne_df.to_csv("drive/My Drive/BERT/SM/KoBERT/Postposition/Data/t-SNE/Eyse_tSNE_epoch_"+str(epoch_i)+".csv")

    #t-sne
    import numpy as np   
    import pandas as pd 
    from plotnine import *

    print("")
    print("  Network visualization  ")
    print(ggplot(tsne_df, aes(x='X', y='Y')) + geom_point(aes(colour = 'Label')))

print("")
print("Training complete!")
print("")
print("Final result is below!")
print(final_info)

# f = open("drive/My Drive/BERT/SM/KoBERT/Postposition/Data/accuracy/Eyse_accuracy_epoch_"+str(epochs)+".txt", 'w')
# f.write(str(final_info))
# f.close()

In [None]:
model.save_pretrained('drive/My Drive/BERT/SM/KoBERT/Postposition/Model/')
tokenizer.save_pretrained('drive/My Drive/BERT/SM/KoBERT/Postposition/Model/')

('drive/My Drive/BERT/SM/KoBERT/Postposition/Model/tokenizer_78b3253a26.model',
 'drive/My Drive/BERT/SM/KoBERT/Postposition/Model/vocab.txt',
 'drive/My Drive/BERT/SM/KoBERT/Postposition/Model/special_tokens_map.json',
 'drive/My Drive/BERT/SM/KoBERT/Postposition/Model/added_tokens.json')

- additional test with test_dataloader

In [None]:
#시작 시간 설정
t0 = time.time()

# 평가모드로 변경
model.eval()

# 변수 초기화
eval_loss, eval_accuracy = 0, 0
nb_eval_steps, nb_eval_examples = 0, 0

# 데이터로더에서 배치만큼 반복하여 가져옴
for step, batch in enumerate(test_dataloader):  #15
    # 경과 정보 표시
    if step % 100 == 0 and not step == 0:
        elapsed = format_time(time.time() - t0)
        print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(test_dataloader), elapsed))

    # 배치를 GPU에 넣음
    batch = tuple(t.to(device) for t in batch)
    
    # 배치에서 데이터 추출
    b_input_ids, b_input_mask, b_labels = batch

    
    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask)
        
    # 로스 구함
    logits = outputs[0]  #32 , 8

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()
    label_ids = b_labels.to('cpu').numpy()
    
    # 출력 로짓과 라벨을 비교하여 정확도 계산
    tmp_eval_accuracy = flat_accuracy(logits, label_ids)
    eval_accuracy += tmp_eval_accuracy
    nb_eval_steps += 1

print("")
print("Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
print("Test took: {:}".format(format_time(time.time() - t0)))


Accuracy: 0.90
Test took: 0:00:04


#5.Create function using trained model

##5.1. Create functions

In [None]:
# 입력 데이터 변환
def convert_input_data(sentences):

    # BERT의 토크나이저로 문장을 토큰으로 분리
    tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

    # 입력 토큰의 최대 시퀀스 길이
    MAX_LEN = 128

    # 토큰을 숫자 인덱스로 변환
    input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]
    
    # 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
    input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

    # 어텐션 마스크 초기화
    attention_masks = []

    # 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
    # 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
    for seq in input_ids:
        seq_mask = [float(i>0) for i in seq]
        attention_masks.append(seq_mask)

    # 데이터를 파이토치의 텐서로 변환
    inputs = torch.tensor(input_ids)
    masks = torch.tensor(attention_masks)

    return inputs, masks

In [None]:
# 문장 테스트
def test_sentences(sentences):

    # 평가모드로 변경
    model.eval()

    # 문장을 입력 데이터로 변환
    inputs, masks = convert_input_data(sentences)

    # 데이터를 GPU에 넣음
    b_input_ids = inputs.to(device)
    b_input_mask = masks.to(device)
            
    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask)

    # 로스 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()

    return logits

##5.2. Check the result with real sentence

In [None]:
logits = test_sentences(['한국에서 공연을 한데요.'])

print(logits)
print(np.argmax(logits))

[[-5.191888   5.7626104]]
1


In [None]:
logits = test_sentences(['한국에서 가져온 사과예요.'])

print(logits)
print(np.argmax(logits))

[[-0.895888   1.0175757]]
1


#6.Conclusion

##6.1. Summary
- 

##6.2. Suggestion
- 