In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings(action='ignore')

In [45]:
raw_data = pd.read_csv('./new_train.csv', index_col=0)
test = pd.read_csv('../../data/dev.hate.csv')
train = raw_data.copy()

In [46]:
train.head()

Unnamed: 0,comments,label
0,(현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속...,hate
1,....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을...,none
2,"...못된 넘들...남의 고통을 즐겼던 넘들..이젠 마땅한 처벌을 받아야지..,그래...",hate
3,"1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데",none
4,1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각...,hate


In [12]:
# 트레인 데이터 레이블대로 분류
none_df = train[train['label'] == 'none']['comments']
offensive_df = train[train['label'] == 'offensive']['comments']
hate_df = train[train['label'] == 'hate']['comments']
print(len(none_df), len(offensive_df), len(hate_df), "\n",
      "sum: {}".format(sum([len(none_df), len(offensive_df), len(hate_df)])))

3484 2502 1910 
 sum: 7896


In [6]:
# TfIdf 벡터라이즈
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# 훈련 데이터 전체 벡터라이즈 fit
tfidf_vectorizer.fit(train['comments'])

# 각각 레이블 벡터라이즈 transform
none_matrix = tfidf_vectorizer.transform(none_df)
offensive_matrix = tfidf_vectorizer.transform(offensive_df)
hate_matrix = tfidf_vectorizer.transform(hate_df)

none_matrix.shape, offensive_matrix.shape, hate_matrix.shape

((3484, 37157), (2502, 37157), (1910, 37157))

In [7]:
# 각각의 평균 벡터값(위치) 산출
none_vec = []
offensive_vec = []
hate_vec = []

for i in range(none_matrix.shape[1]):
    none_vec.append(none_matrix[:,i].mean())

for i in range(offensive_matrix.shape[1]):
    offensive_vec.append(offensive_matrix[:,i].mean())
    
for i in range(hate_matrix.shape[1]):
    hate_vec.append(hate_matrix[:,i].mean())

# 벡터라이즈 잘 되었는지 길이 확인
len(none_vec), len(offensive_vec), len(hate_vec)

(37157, 37157, 37157)

In [8]:
# 어레이 형태로 변환
none_vec = np.array(none_vec)
offensive_vec = np.array(offensive_vec)
hate_vec = np.array(hate_vec)
# 2차원 어레이로 변환
none_vec = none_vec.reshape(1, -1)
offensive_vec = offensive_vec.reshape(1, -1)
hate_vec = hate_vec.reshape(1, -1)

# 테스트 코멘트 벡터라이즈 적용
test_matrix = tfidf_vectorizer.transform(test['comments'])
test_matrix.shape

(471, 37157)

In [9]:
# 코멘트 <-> 각 레이블 간의 유사도 측정 후 가장 유사한 레이블 산출
from sklearn.metrics.pairwise import cosine_similarity

labels = []

for i in range(test_matrix.shape[0]):
    distances = {cosine_similarity(test_matrix[i,:], none_vec)[0][0] : "none",
                 cosine_similarity(test_matrix[i,:], offensive_vec)[0][0] : "offensive",
                 cosine_similarity(test_matrix[i,:], hate_vec)[0][0] : "hate"}
    labels.append( distances[max(distances.keys())] )
    
labels

['none',
 'offensive',
 'hate',
 'offensive',
 'hate',
 'hate',
 'none',
 'none',
 'offensive',
 'offensive',
 'hate',
 'offensive',
 'none',
 'hate',
 'hate',
 'none',
 'offensive',
 'offensive',
 'hate',
 'offensive',
 'offensive',
 'hate',
 'hate',
 'none',
 'hate',
 'none',
 'none',
 'hate',
 'offensive',
 'none',
 'offensive',
 'hate',
 'hate',
 'offensive',
 'none',
 'hate',
 'offensive',
 'offensive',
 'offensive',
 'offensive',
 'hate',
 'hate',
 'hate',
 'hate',
 'offensive',
 'offensive',
 'hate',
 'hate',
 'offensive',
 'offensive',
 'hate',
 'none',
 'offensive',
 'offensive',
 'offensive',
 'none',
 'none',
 'offensive',
 'none',
 'none',
 'none',
 'offensive',
 'none',
 'offensive',
 'hate',
 'none',
 'hate',
 'offensive',
 'offensive',
 'hate',
 'offensive',
 'none',
 'none',
 'offensive',
 'none',
 'none',
 'hate',
 'none',
 'offensive',
 'offensive',
 'none',
 'offensive',
 'hate',
 'offensive',
 'offensive',
 'none',
 'none',
 'none',
 'none',
 'hate',
 'none',
 'none

In [24]:
from sklearn.metrics import accuracy_score, f1_score
print('Acc : {}'.format((accuracy_score(test['label'], labels))), '\n'
      'F1 Score : {}'.format(f1_score(test['label'], labels, average='macro')))

Acc : 0.5095541401273885 
F1 Score : 0.5044346491441526


In [25]:
np.unique(np.array(labels), return_counts=True)

(array(['hate', 'none', 'offensive'], dtype='<U9'), array([147, 182, 142]))

In [31]:
test['pred'] = labels
error_df = test[test['label'] != test['pred']]
error_df.head()

### 전처리해서 진행

In [47]:
# 특수문자 제거
import re
def cleanse(text):
    pattern = re.compile(r'\s+')
    text = re.sub(pattern, ' ', text)
    text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9]', ' ', text)
    return text
train['comments'] = train['comments'].apply(cleanse)
print(train['comments'][185])

# 띄어쓰기
from pykospacing import spacing
train['comments'] = train['comments'].apply(spacing)
print(train['comments'][185])

# 문장 분리
import kss
train['comments'] = train['comments'].apply(kss.split_sentences)
train['comments'] = [','.join(map(str, ls)) for ls in train['comments']]
print(train['comments'][185])

# 중복 제거
from soynlp.normalizer import *
train['comments'] = [repeat_normalize(comment, num_repeats=2) for comment in train['comments']]
print(train['comments'][185])

X_train = train['comments']
X_test = test['comments']
y_train = train['label']
y_test = test['label']

ㅅㅅ 한게 자랑  ㅈㅅ로 그것도
ㅅㅅ 한 게 자랑 ㅈㅅ로 그것도
ㅅㅅ 한 게 자랑 ㅈㅅ로 그것도
ㅅㅅ 한 게 자랑 ㅈㅅ로 그것도


In [48]:
# 트레인 데이터 레이블대로 분류
none_df = train[train['label'] == 'none']['comments']
offensive_df = train[train['label'] == 'offensive']['comments']
hate_df = train[train['label'] == 'hate']['comments']
print(len(none_df), len(offensive_df), len(hate_df), "\n",
      "sum: {}".format(sum([len(none_df), len(offensive_df), len(hate_df)])))

3484 2502 1910 
 sum: 7896


In [49]:
# TfIdf 벡터라이즈
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# 훈련 데이터 전체 벡터라이즈 fit
tfidf_vectorizer.fit(train['comments'])

# 각각 레이블 벡터라이즈 transform
none_matrix = tfidf_vectorizer.transform(none_df)
offensive_matrix = tfidf_vectorizer.transform(offensive_df)
hate_matrix = tfidf_vectorizer.transform(hate_df)

none_matrix.shape, offensive_matrix.shape, hate_matrix.shape

((3484, 31290), (2502, 31290), (1910, 31290))

In [50]:
# 각각의 평균 벡터값(위치) 산출
none_vec = []
offensive_vec = []
hate_vec = []

for i in range(none_matrix.shape[1]):
    none_vec.append(none_matrix[:,i].mean())

for i in range(offensive_matrix.shape[1]):
    offensive_vec.append(offensive_matrix[:,i].mean())
    
for i in range(hate_matrix.shape[1]):
    hate_vec.append(hate_matrix[:,i].mean())

# 벡터라이즈 잘 되었는지 길이 확인
len(none_vec), len(offensive_vec), len(hate_vec)

(31290, 31290, 31290)

In [51]:
# 어레이 형태로 변환
none_vec = np.array(none_vec)
offensive_vec = np.array(offensive_vec)
hate_vec = np.array(hate_vec)
# 2차원 어레이로 변환
none_vec = none_vec.reshape(1, -1)
offensive_vec = offensive_vec.reshape(1, -1)
hate_vec = hate_vec.reshape(1, -1)

# 테스트 코멘트 벡터라이즈 적용
test_matrix = tfidf_vectorizer.transform(test['comments'])
test_matrix.shape

(471, 31290)

In [52]:
# 코멘트 <-> 각 레이블 간의 유사도 측정 후 가장 유사한 레이블 산출
from sklearn.metrics.pairwise import cosine_similarity

labels = []

for i in range(test_matrix.shape[0]):
    distances = {cosine_similarity(test_matrix[i,:], none_vec)[0][0] : "none",
                 cosine_similarity(test_matrix[i,:], offensive_vec)[0][0] : "offensive",
                 cosine_similarity(test_matrix[i,:], hate_vec)[0][0] : "hate"}
    labels.append( distances[max(distances.keys())] )
    
labels

['none',
 'hate',
 'hate',
 'none',
 'hate',
 'hate',
 'none',
 'none',
 'offensive',
 'offensive',
 'hate',
 'offensive',
 'none',
 'hate',
 'hate',
 'none',
 'offensive',
 'offensive',
 'hate',
 'offensive',
 'offensive',
 'hate',
 'hate',
 'none',
 'hate',
 'none',
 'none',
 'hate',
 'offensive',
 'none',
 'offensive',
 'offensive',
 'none',
 'offensive',
 'none',
 'hate',
 'offensive',
 'none',
 'offensive',
 'offensive',
 'hate',
 'hate',
 'hate',
 'hate',
 'offensive',
 'offensive',
 'hate',
 'hate',
 'hate',
 'offensive',
 'hate',
 'none',
 'offensive',
 'offensive',
 'offensive',
 'offensive',
 'none',
 'offensive',
 'none',
 'none',
 'hate',
 'offensive',
 'none',
 'offensive',
 'hate',
 'none',
 'hate',
 'hate',
 'none',
 'offensive',
 'offensive',
 'hate',
 'none',
 'offensive',
 'none',
 'none',
 'offensive',
 'hate',
 'hate',
 'offensive',
 'none',
 'offensive',
 'hate',
 'offensive',
 'offensive',
 'none',
 'none',
 'none',
 'none',
 'hate',
 'none',
 'none',
 'offensive'

In [53]:
from sklearn.metrics import accuracy_score, f1_score
print('Acc : {}'.format((accuracy_score(test['label'], labels))), '\n'
      'F1 Score : {}'.format(f1_score(test['label'], labels, average='macro')))

Acc : 0.5031847133757962 
F1 Score : 0.49830633609162717
