# Abstract
#### Setting

        1. 1차 정제 데이터인 CAI_data_001.csv  데이터를 사용하여 2차 전처리 진행
        2. >를 기준으로 depth 나눔
        3. 모델링

#### Method
        
        1. VOC 유형 중 depth_1 유형을 예측하는 모델
        2. model 폴더에 pt파일로 모델 저장
        3. 현재 모델(RoBERTa)과 LSTM의 비교
        4. CompDataset class를 이용하여 데이터프레임을 입력하여 모델에 입력될 수 있도록 정제시킴

#### Result
        
        Val loss: 70.25707527855411
        Val acc:  0.8888888888888888

#### Add
        1. epoch 늘리기 (CPU구동할땐 10epoch이 14시간 걸림)
        2. batch size 
        3. 4번째 셀에 MODEL_TYPE = 'xlm-roberta-base'에서 base가 large로 바뀌면 
           더 큰 사전을 구축할 수 있음(지금은 노트북이 못버팀)

1. RoBERTa는 KoBERT와 다르게 여러나라의 언어를 포함하고 있는 사전이 있어, 큰 용량을 차지함.
2. 큰 용량임에도 불구하고 많은 사람들이 이용하는 이유는 그럼에도 좋은 성능이 나온다고 함.


In [1]:
# 주요 라이브러리 설치
#!pip install mxnet
#!pip install gluonnlp
#!pip install transformers
#!pip install sentencepiece
#!pip install torch

In [2]:
import pandas as pd
import numpy as np
import os
import gc

import random

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

# seed 값 설정
torch.manual_seed(555)

from sklearn.utils import shuffle
from sklearn.metrics import accuracy_score

import transformers
from transformers import AdamW

from tqdm import tqdm
import warnings
warnings.filterwarnings("ignore")

In [3]:
# XLM-RoBERTa 토크나이저를 불러옵니다: https://huggingface.co/xlm-roberta-large
from transformers import XLMRobertaTokenizer, XLMRobertaForSequenceClassification

MODEL_TYPE = 'xlm-roberta-base'
# 만약 colab pro가 아니면 MODEL_TYPE = 'xlm-roberta-base'를 사용하세요
# GPU를 사용하고 있다면 "xlm-roberta-large"  사용 추천
tokenizer = XLMRobertaTokenizer.from_pretrained(MODEL_TYPE)

In [4]:
# XLM-RoBERTa vocab크기 확인
tokenizer.vocab_size

250002

In [6]:
input_ids = encoded_dict['input_ids'][0]
att_mask = encoded_dict['attention_mask'][0]

print(input_ids)
print(att_mask)


tensor([     0, 107687,      2,      2,      6,  57991,  58470,   5826,      5,
             2,      1,      1])
tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0])


In [7]:
# GPU 확인
# device 설정
device= torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

print(device)

cpu


In [8]:
# 데이터 불러오기
df = pd.read_csv("../data/dataset/CAI_data_001.csv")
print("df set: {}개".format(len(df)))

df set: 8186개


In [9]:
df['depth_1'] = df.Label.str.split('>').str[0]
df['depth_2'] = df.Label.str.split('>').str[1]
df['depth_3'] = df.Label.str.split('>').str[2]
df

Unnamed: 0,Label,sentence,depth_1,depth_2,depth_3
0,원인불명>조치 전 자연 회복,고객 요청사 항 안됨상담 중 자연회복됨,원인불명,조치 전 자연 회복,
1,실시간 채널>네트워크 오류,고객 요청사항 수신불인터넷 연결오류 뜸재부팅해 봄 모텔 영업용 일 중 꼭 점검원하여...,실시간 채널,네트워크 오류,
2,실시간 채널>수신 불량,고객 요청사항 수신불회선 단말특이사항 진단 결과 기타 추가 연락처 연후방,실시간 채널,수신 불량,
3,실시간 채널>네트워크 오류,수신 불 네트워크 오류 접수 보류,실시간 채널,네트워크 오류,
4,실시간 채널>수신 불량,고객 요청사항 수신불 연락 후 회선단말특이사항 진단 결과 기타 추가 연락처인 입,실시간 채널,수신 불량,
...,...,...,...,...,...
8181,실시간 채널>화질 이상,안심권유 고객 요청사항 화질 불량 시청 중 화면 멈추고 꺼졌다 켜지는 현상이 있다고...,실시간 채널,화질 이상,
8182,원인불명>조치 전 자연 회복,리콜 넷플릭스 연령 인증 문의 건 리콜하니 해결했다고 하심,원인불명,조치 전 자연 회복,
8183,실시간 채널>수신 불량,고객 요청사항 대 수신불전송 후 리셋,실시간 채널,수신 불량,
8184,실시간 채널>네트워크 오류,안심권 유 빠른 점검 요청 고객 요청사항 시청 불인터넷 연결 오류 나 옴 모든 장비...,실시간 채널,네트워크 오류,


In [10]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
result = le.fit_transform(df['depth_1'])
print(result)
print(le.classes_)

df['depth_1'] = result


[11  9  9 ...  9  9  3]
['AS접수/변경' 'VOD/컨텐츠' '고객원인' '단말' '데이터서비스' '리콜/손해배상' '부가/지능망서비스' '시설관리'
 '시설이전' '실시간 채널' '양방향서비스' '원인불명' '장애안내' '지니뮤직']


In [11]:
df.head()

Unnamed: 0,Label,sentence,depth_1,depth_2,depth_3
0,원인불명>조치 전 자연 회복,고객 요청사 항 안됨상담 중 자연회복됨,11,조치 전 자연 회복,
1,실시간 채널>네트워크 오류,고객 요청사항 수신불인터넷 연결오류 뜸재부팅해 봄 모텔 영업용 일 중 꼭 점검원하여...,9,네트워크 오류,
2,실시간 채널>수신 불량,고객 요청사항 수신불회선 단말특이사항 진단 결과 기타 추가 연락처 연후방,9,수신 불량,
3,실시간 채널>네트워크 오류,수신 불 네트워크 오류 접수 보류,9,네트워크 오류,
4,실시간 채널>수신 불량,고객 요청사항 수신불 연락 후 회선단말특이사항 진단 결과 기타 추가 연락처인 입,9,수신 불량,


In [12]:
from sklearn.model_selection import train_test_split
train_dataset, val_dataset = train_test_split(df, test_size = 0.1)
print(len(train_dataset))
print(len(val_dataset))

7367
819


In [13]:
# dataloader에서 오류가 나서 인덱스 재설정
train_dataset.index=[i for i in range(len(train_dataset))]
val_dataset.index=[i for i in range(len(val_dataset))]
val_dataset

Unnamed: 0,Label,sentence,depth_1,depth_2,depth_3
0,실시간 채널>수신 불량,코로나 이 상무 고객 요청사항 대중안방수신 불방문해서 점검 요청회선 단말특이사항 진...,9,수신 불량,
1,실시간 채널>화질 이상,요청사항 화면 안 나옴 음성 정상셋 탑재부팅해도 동일 방문 시간 참고,9,화질 이상,
2,단말>리모컨작동불가>현장출동,고객 요청사항 리모컨 작동 불가누르지 않아도 채널이 이동될 떄가 있다고 하심 전원도...,3,리모컨작동불가,현장출동
3,실시간 채널>수신 불량,코로나 이 상무재확인 필 고객 요청사항 시청 불 다른 것으로 교체해서 시청 중 원래...,9,수신 불량,
4,AS접수/변경>장비리셋 후 재사용 요청,고객 요청사항리셋 접수 수신 불회선 단말특이사항 진단 결과 기타 추가 연락처,0,장비리셋 후 재사용 요청,
...,...,...,...,...,...
814,원인불명>조치 전 자연 회복,재부팅 후 사용 가능 고객 요청사항 회선 단말특이사항 진단 결과 기타 추가 연락처,11,조치 전 자연 회복,
815,단말>음성인식이상(기가지니),일 시기가 지니 출도 안 했는데 혼자서 말하고 기가 지니 소리가 혼자서 커졌다 작아...,3,음성인식이상(기가지니),
816,단말>음성인식이상(기가지니),기가 지니 음성인식 안됨 네 소리에서 띵소리로 변경됨,3,음성인식이상(기가지니),
817,실시간 채널>수신 불량,고객 요청사항 티비신없음 리셋 안내함 코로나 안내 회선단말특이사항 진단 결과 기타 ...,9,수신 불량,


In [14]:
# train, val에 사용
class CompDataset(Dataset):

    def __init__(self, df):
        self.df_data = df

    def __getitem__(self, index):

        # 데이터프레임 칼럼 들고오기
        sentence = self.df_data.loc[index, 'sentence']



        encoded_dict = tokenizer.encode_plus(
                    sentence,          
                    add_special_tokens = True,      
                    max_length = MAX_LEN,           
                    pad_to_max_length = True,
                    truncation=True,
                    return_attention_mask = True,   
                    return_tensors = 'pt',          
               )
        
        padded_token_list = encoded_dict['input_ids'][0]
        att_mask = encoded_dict['attention_mask'][0]
        
        # 숫자로 변환된 label을 텐서로 변환
        target = torch.tensor(self.df_data.loc[index, 'depth_1'])
        # input_ids, attention_mask, label을 하나의 인풋으로 묶음
        sample = (padded_token_list, att_mask, target)

        return sample

    def __len__(self):
        return len(self.df_data)
    

In [15]:
# 모델 하이퍼파라미터

L_RATE = 1e-5 
MAX_LEN = 100 

BATCH_SIZE = 8 # batch size가 클수록 global minimum에 도달하는 속도가 증가합니다. (GPU 메모리에 따라 변경해 주세요, 너무 크면 OOM 문제가 발생합니다.)
NUM_CORES = os.cpu_count() # Dataloader에 사용됩니다. 

NUM_CORES

8

In [16]:
from transformers import XLMRobertaForSequenceClassification

model = XLMRobertaForSequenceClassification.from_pretrained(
    MODEL_TYPE, 
    num_labels = 14, # 출력 label의 개수
)

# model을 device위에 올림
model.to(device)

Some weights of the model checkpoint at xlm-roberta-base were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.weight', 'lm_head.layer_norm.weight', 'lm_head.bias', 'lm_head.decoder.weight', 'lm_head.dense.weight', 'lm_head.dense.bias', 'lm_head.layer_norm.bias', 'roberta.pooler.dense.bias']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of XLMRobertaForSequenceClassification were not initialized from the model checkpoint at xlm-roberta-base and are newly initialized: ['classifier.dense

XLMRobertaForSequenceClassification(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(250002, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0): RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (La

In [17]:
# optimizer 설정
optimizer = AdamW(model.parameters(),
              lr = L_RATE, 
              eps = 1e-8 
            )

In [18]:
train_data = CompDataset(train_dataset)
val_data = CompDataset(val_dataset)




# batch_size 만큼 데이터 분할
train_dataloader = DataLoader(train_data,
                                batch_size=BATCH_SIZE,
                                shuffle=True,
                                num_workers=0)

val_dataloader = DataLoader(val_data,
                            batch_size=BATCH_SIZE,
                            shuffle=True,
                            num_workers=0)




print(len(train_dataloader))
print(len(val_dataloader))


921
103


In [20]:
# 학습 횟수
NUM_EPOCHS=10

# loss값 저장
loss_values = []

# 학습 시작
for epoch in range(NUM_EPOCHS):
    
    print("")
    print('======== Epoch {:} / {:} ========'.format(epoch + 1, NUM_EPOCHS))
    
    stacked_val_labels = []
    targets_list = []

    # ========================================
    #               Training
    # ========================================
    
    print('Training...')
    
    # train mode 변환
    model.train()
    # True로 설정하게 되면 해당 텐서에서 어떤 연산이 이루어졌는지 추적할 수 있고, 해당 텐서에 대한 그라디언트를 저장하게 됩니다. 
    torch.set_grad_enabled(True)


    # 1epoch마다 loss값 초기화
    total_train_loss = 0

    for i, batch in enumerate(train_dataloader):
        
        train_status = 'Batch ' + str(i) + ' of ' + str(len(train_dataloader))
        
        print(train_status, end='\r')


        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device).long()

        model.zero_grad()        

        # 3개의 인풋
        outputs = model(b_input_ids, 
                    attention_mask=b_input_mask,
                    labels=b_labels)
        
        # outputs tuple: (loss, logits)
        loss = outputs[0]
        
        # loss는 텐서이기 때문에 숫자로 변환 후 더합니다. 
        total_train_loss = total_train_loss + loss.item()
        
        # backward()를 하기 전에 optimizer의 그라디언트를 0으로 합니다. 
        optimizer.zero_grad()
        
        # 그라디언트 계산
        loss.backward()
        
        
        # "exploding gradients" 문제를 예방해줍니다.
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        
        
        # optimizer 가중치 업데이트
        optimizer.step() 
    
    print('Train loss:' ,total_train_loss)


    # ========================================
    #               Validation
    # ========================================
    
    print('\nValidation...')

    # evaluation mode로 변환
    model.eval()

    # validation 과정에서는 그라디언트를 연산하거나 저장하지 않습니다.(메모리, 진행 속도 세이브)
    torch.set_grad_enabled(False)
    
    total_val_loss = 0
    

    for j, batch in enumerate(val_dataloader):
        
        val_status = 'Batch ' + str(j) + ' of ' + str(len(val_dataloader))
        
        print(val_status, end='\r')

        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device).long()   


        outputs = model(b_input_ids, 
                attention_mask=b_input_mask, 
                labels=b_labels)
        
        loss = outputs[0]
        
        total_val_loss = total_val_loss + loss.item()
        

        # 예측값
        preds = outputs[1]


        # 예측값을 CPU로 이동시킵니다. 
        val_preds = preds.detach().cpu().numpy()
        
        # labels을 cpu로 이동시킵니다.
        targets_np = b_labels.to('cpu').numpy()

        targets_list.extend(targets_np)

        if j == 0:  # 첫 번째 batch일 떄
            stacked_val_preds = val_preds

        else:
            stacked_val_preds = np.vstack((stacked_val_preds, val_preds))

        

    
    # validation accuracy 계산
    y_true = targets_list
    y_pred = np.argmax(stacked_val_preds, axis=1)
    
    val_acc = accuracy_score(y_true, y_pred)
    
    
    print('Val loss:' ,total_val_loss)
    print('Val acc: ', val_acc)


    # 모델 저장
    torch.save(model.state_dict(), '../model/RoBERTa:{}_model.pt'.format(epoch))
    
    # 메모리 관리
    gc.collect()


Training...
Train loss: 1008.318221449852

Validation...
Val loss: 73.93006584048271
Val acc:  0.8070818070818071

Training...
Train loss: 586.219025760889

Validation...
Val loss: 66.4939667955041
Val acc:  0.8278388278388278

Training...
Train loss: 476.22105411347

Validation...
Val loss: 58.85903475852683
Val acc:  0.8693528693528694

Training...
Train loss: 432.7693881522864

Validation...
Val loss: 61.7834887271747
Val acc:  0.873015873015873

Training...
Train loss: 361.9174917093478

Validation...
Val loss: 58.87978678685613
Val acc:  0.8852258852258852

Training...
Train loss: 318.1285489220172

Validation...
Val loss: 54.94982001069002
Val acc:  0.8937728937728938

Training...
Train loss: 280.9448131811805

Validation...
Val loss: 59.62415628193412
Val acc:  0.8913308913308914

Training...
Train loss: 249.8733259383589

Validation...
Val loss: 62.82539070933126
Val acc:  0.9010989010989011

Training...
Train loss: 212.59691920655314

Validation...
Val loss: 66.67807807121426

In [21]:
# 모델 불러오기 (선택)
from transformers import XLMRobertaForSequenceClassification

model = XLMRobertaForSequenceClassification.from_pretrained(
    MODEL_TYPE, 
    num_labels = 14, 
)

model.to(device)
model.load_state_dict(torch.load('../model/RoBERTa:1_model.pt'))

Some weights of the model checkpoint at xlm-roberta-base were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.weight', 'lm_head.layer_norm.weight', 'lm_head.bias', 'lm_head.decoder.weight', 'lm_head.dense.weight', 'lm_head.dense.bias', 'lm_head.layer_norm.bias', 'roberta.pooler.dense.bias']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of XLMRobertaForSequenceClassification were not initialized from the model checkpoint at xlm-roberta-base and are newly initialized: ['classifier.dense

<All keys matched successfully>

In [35]:
    print('Val loss:' ,total_val_loss)
    print('Val acc: ', val_acc)

Val loss: 70.25707527855411
Val acc:  0.8888888888888888
