출처 : https://www.kaggle.com/code/tanulsingh077/deep-learning-for-nlp-zero-to-transformers-bert

# Jigsaw Multilingual Toxic Comment Classification
## 데이터 설명
[데이터 링크](https://www.kaggle.com/competitions/jigsaw-multilingual-toxic-comment-classification/data)

데이터의 제목은 "Jigsaw 다국어 악성 댓글 분류"라는 뜻이다. 각각의 제공된 파일에는 comment_text라는 열이 있다. 이는 악성인지 악성이 아닌지로 분류되는 댓글의 텍스트를 포함한다(toxic열에 0, 1이 있다). 훈련 셋의 댓글들은 모두 영어로 이루어져 있고 Civil Comments 또는 Wikipedia talk page egits로부터 왔다. 테스트 데이터의 comment_text 열에는 영어가 아닌 다국어로 이루어져 있다.

train.csv 파일과 **validation.csv** 파일은 또한 훈련되어야 하는 타겟인 toxic 열이 포함되어있다.

**jigsaw-toxic-comment-train.csv**와 **jigsaw-unintended-bias-train.csv**는 두개의 이전 jigsaw competitions로부터 온 훈련 데이터(comment-text, toxic)가 포함되어있고 뿐만 아니라 유용한 추가적인 열도 포함되어있다.

*seqlen128.csv* 파일은 BERT에 입력으로 처리될 훈련, 검증, 테스트 데이터를 포함한다.

## 무엇을 예측하는가?
당신은 댓글이 악성일 확률을 예측한다. 악성 댓글은 1.0을 받는다. 온순하고 악성이 아닌 댓글은 0.0을 받는다. 테스트 셋에서 모든 댓글들은 1.0 또는 0.0을 받는다.

## 파일들
* jigsaw-toxic-comment-train.csv : 우리의 첫번째 대회의 데이터이다. 이 데이터는 위키피디아 토크 페이지로부터 온 영어 댓글로 만들어져있다.
* jigsaw-unintended-bias-train.csv : 두번째 대회의 데이터이다. 이는 추가적인 라벨이 붙은 Civil Comments 데이터셋의 확장된 버전이다.
* sample_submission.csv : 올바른 형식의 샘플 제출 파일
* test.csv : 영어가 아닌 언어로 이루어진 위키피디아 토크 페이지의 댓글들이다.
* test_labels.csv : 테스트 데이터의 정답 라벨(대회 데드라인 이후에 추가된 데이터)
* validation.csv : 영어가 아닌 언어로 이루어진 위키피디아 토크 페이지의 댓글들
* jigsaw-toxic-comment-train-processed-seqlen128.csv : BERT를 위해 전처리된 훈련 데이터
* jigsaw-unintended-bias-train-processed-seqlen128.csv : BERT를 위해 전처리된 훈련 데이터
* validation-processed-seqlen128.csv : BERT를 위해 전처리된 검증용 데이터
* test-processed-seqlen128.csv : BERT를 위해 전처리된 테스트 데이터

## 열(columns)
* id : 각 파일의 식별자
* comment_text : 분류되어야 하는 댓글의 텍스트
* lang : 댓글의 언어
* toxic : 댓글이 악성인지 아닌지로 분류(**text.csv**에는 없다)

In [21]:
import numpy as np
import pandas as pd
from tqdm import tqdm
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, GRU, SimpleRNN, Dense, Activation, Dropout, Embedding, BatchNormalization, GlobalMaxPooling1D, Conv1D, MaxPooling1D, Flatten, Bidirectional, SpatialDropout1D
from tensorflow.keras.utils import to_categorical
from sklearn import preprocessing, decomposition, model_selection, metrics, pipeline
from tensorflow.keras.preprocessing import sequence, text
from tensorflow.keras.callbacks import EarlyStopping

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from plotly import graph_objs as go
import plotly.express as px
import plotly.figure_factory as ff

## TPU 구성
이 노트북의 버전에서 우리는 BERT 모델을 만들어야 하기 때문에 TPU를 사용할 것이다.

In [22]:
try :
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver()
    print("Running on TPU ", tpu.master())
except ValueError :
    tpu = None
    
if tpu : 
    tf.config.experimental_connect_to_cluster(tpu)
    tf.tpu.experimental.initialize_tpu_system(tpu)
    strategy = tf.distribute.experimental.TPUStrategy(tpu)
else :
    strategy = tf.distribute.get_strategy()
    
print("REPLICAS : ", strategy.num_replicas_in_sync)

REPLICAS :  1


In [23]:
train = pd.read_csv('C:/Users/User/자연어처리/Kaggle/jigsaw-multilingual-toxic-comment-classification/jigsaw-toxic-comment-train.csv')
validation = pd.read_csv('C:/Users/User/자연어처리/Kaggle/jigsaw-multilingual-toxic-comment-classification/validation.csv')
test = pd.read_csv('C:/Users/User/자연어처리/Kaggle/jigsaw-multilingual-toxic-comment-classification/test.csv')

In [24]:
train.head()

Unnamed: 0,id,comment_text,toxic,severe_toxic,obscene,threat,insult,identity_hate
0,0000997932d777bf,Explanation\nWhy the edits made under my usern...,0,0,0,0,0,0
1,000103f0d9cfb60f,D'aww! He matches this background colour I'm s...,0,0,0,0,0,0
2,000113f07ec002fd,"Hey man, I'm really not trying to edit war. It...",0,0,0,0,0,0
3,0001b41b1c6bb37e,"""\nMore\nI can't make any real suggestions on ...",0,0,0,0,0,0
4,0001d958c54c6e35,"You, sir, are my hero. Any chance you remember...",0,0,0,0,0,0


우리는 다른 열들을 제거할 것이고 이 문제를 이진 분류 문제로 접근할 것이다. 또한 우리는 모델을 더 쉽게 훈련할 수 있도록 데이터셋의 더 작은 하위 섹션(12000개 데이터 포인트)에 대해 훈련을 수행할 것이다.

In [25]:
train.shape

(223549, 8)

In [26]:
train.drop(["severe_toxic", "obscene", "threat", "insult", "identity_hate"], axis = 1, inplace = True)

In [27]:
train = train.loc[:12000, : ]
train.shape

(12001, 3)

In [28]:
train

Unnamed: 0,id,comment_text,toxic
0,0000997932d777bf,Explanation\nWhy the edits made under my usern...,0
1,000103f0d9cfb60f,D'aww! He matches this background colour I'm s...,0
2,000113f07ec002fd,"Hey man, I'm really not trying to edit war. It...",0
3,0001b41b1c6bb37e,"""\nMore\nI can't make any real suggestions on ...",0
4,0001d958c54c6e35,"You, sir, are my hero. Any chance you remember...",0
...,...,...,...
11996,1fc25487b9b9187f,February 2006 (UTC)\n\nThank you for fixing th...,0
11997,1fc3e5540e2605d1,Erased another silly message.,0
11998,1fc4c99c34cf0e07,"""\n\n Helly Jimmy, well; fuck you. \n\nAccordi...",1
11999,1fc8d9f16da8cccc,"Why don't you run cry to your mommy, little As...",1


댓글에서 표현될 수 있는 최대의 단어 갯수를 체크한다. 이는 나중에 패딩을 할 때 도움을 줄 것이다.

In [29]:
# 댓글의 최대 길이
train["comment_text"].apply(lambda x : len(str(x).split())).max()

1403

In [30]:
def roc_auc(predictions, target) :
    '''
    이 메서드는 예측값들과 라벨들이 주어졌을 때 AUC Score를 반환한다.
    '''
    
    fpr, tpr, thresholds = metrics.roc_curve(target, predictions)
    roc_auc = metrics.auc(fpr, tpr)
    return roc_auc

## 데이터 준비

In [31]:
xtrain, xvalid, ytrain, yvalid = train_test_split(train.comment_text.values, train.toxic.values, stratify = train.toxic.values, random_state = 42, test_size = 0.2, shuffle = True)

## Simple RNN
### 기본 개요
RNN은 이전 시점의 출력이 현재 시점의 입력으로 들어오는 신경망이다. 전통적인 신경망은 모든 입력과 출력이 각각 독립적이지만 문장의 다음 단어를 예측하기 위해 필요한 경우처럼 이전 단어는 필요하고 이런 이유로 이전 단어를 기억할 필요가 있다. 그래서 은닉층을 이용해 이 문제점을 해결한 RNN이 나타났다

In [39]:
token = text.Tokenizer(num_words = None)
max_len = 1500

# 주어진 텍스트 데이터 이용하여 토크나이저 학습
# 이를 수행하고 나면 단어-인덱스 매핑이 word_index에 저장된다.
token.fit_on_texts(list(xtrain) + list(xvalid))
# 주어진 텍스트에 대해서 정수 인덱스를 할당해 변환한다.
xtrain_seq = token.texts_to_sequences(xtrain)
xvalid_seq = token.texts_to_sequences(xvalid)

xtrain_pad = sequence.pad_sequences(xtrain_seq, maxlen = max_len)
xvalid_pad = sequence.pad_sequences(xvalid_seq, maxlen = max_len)

word_index = token.word_index

In [41]:
# 주피터 노트북에서 사용되는 매직 명령어 중 하나로 이를 사용하면 코드 셀의 실행 시간을 측정할 수 있다.
%%time
# TensorFlow에서 제공하는 tf.distribute.Strategy를 사용하는 부분이다.
# 이는 분산훈련을 지원하는 Tensorflow의 API로 여러 GPU 또는 여러 장치 간에 모델을 효율적으로 분산시켜 학습할 수 있게 한다.
# strategy.scope() 내에서 정의된 모델과 연산은 지정된 분산 전략을 따른다. 이렇게 하면 모델이 여러 장치에서 효율적으로 실행된다.
with strategy.scope() :
    model = Sequential()
    model.add(Embedding(len(word_index) + 1, 300, input_length = max_len))
    model.add(SimpleRNN(100))
    model.add(Dense(1, activation = "sigmoid"))
    model.compile(loss = "binary_crossentropy", optimizer = "adam", metrics = ["accuracy"])
    
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 1500, 300)         13049100  
_________________________________________________________________
simple_rnn (SimpleRNN)       (None, 100)               40100     
_________________________________________________________________
dense (Dense)                (None, 1)                 101       
Total params: 13,089,301
Trainable params: 13,089,301
Non-trainable params: 0
_________________________________________________________________
Wall time: 779 ms


In [None]:
model.fit(xtrain_pad, ytrain, epochs = 5, batch_size = 64 * strategy.num_replicas_in_sync)

Epoch 1/5
Epoch 2/5
Epoch 3/5

In [None]:
scores = model.predict(xvalid_pad)
print("Auc : %.2f%%" % (roc_auc(scores, yvalid)))

In [None]:
scores_model = []
scores_model.append({"Model" : "SimpleRNN", "AUC_Score" : roc_auc(scores, yvalid)})

## Word Embeddings

Simple RNN을 만들 때 단어 임베딩 사용에 관한 이야기를 했다. 단어 임베딩을 얻기 위한 가장 최근의 접근법은 사전훈련된 GLoVe 또는 FastText를 사용하는 것이다. 이 노트북에서 GloVe를 사용할 것이다.

자세한 설명은 해당 노트북에서 전부 링크로 대체해서 필사는 생략하겠다.
END