In [78]:
train = pd.read_csv('../../data/train.hate.csv')
test = pd.read_csv('../../data/dev.hate.csv')

In [79]:
# 특수문자 제거
import re

def cleanse(text):
    pattern = re.compile(r'\s+')
    text = re.sub(pattern, ' ', text)
    text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9]', ' ', text)
    return text

train['comments'] = train['comments'].apply(cleanse)

In [80]:
# 띄어쓰기
from pykospacing import spacing
train['comments'] = train['comments'].apply(spacing)

In [81]:
# 문장 분리
import kss
train['comments'] = train['comments'].apply(kss.split_sentences)
train['comments'] = [','.join(map(str, ls)) for ls in train['comments']]

In [82]:
# 중복 제거
from soynlp.normalizer import *
train['comments'] = [repeat_normalize(comment, num_repeats=2) for comment in train['comments']]

In [70]:
# konlpy
from konlpy.tag import Okt ; t=Okt()

words = []
for comment in train['comments']:
    # 문장 -> 토큰 분리
    sentence = t.nouns(comment)
    # 토큰 -> 한 문장으로 다시 합쳐서 저장
    words.append(' '.join([morph for morph in sentence]))
    # 품사 태깅
    #postagged.append(' '.join([morph.morphs.tag for morph in sentence]))

train['comments'] = words
train[200:250]

Unnamed: 0,comments,label
200,염병 재산 천억 안내 머리 다가 꼬시 오지,none
201,옘병 프로그램 연애 따위 젠 안,offensive
202,과 이별 별,hate
203,아빠 무슨 친가 뿌리 족보 제대로 걱정 구먼,hate
204,남 탓 한국 사람 안 한국 평생 후진국 대표 예 재앙,hate
205,개인 여행 걸 머 게 굳이 지금 시기 게 문제 거지,offensive
206,서로 거 충전 얼마나,none
207,했짘,none
208,난 키,offensive
209,만 병원 스티커 발부,offensive


['현재 호텔 주인 심정 난 하늘 날벼락 호텔 누 계속 추모',
 '한국 미인 대표 분 곱 모습 그 모습 뒤 슬픔 처 알',
 '남 고통 젠 처벌 래야 사회 대로',
 '화 어설 펐는데 화 갈수록 데',
 '사람 얼굴 손톱 것 인격 살해 동영상 몰카 메 생각',
 '진짜 이 승기 비교',
 '안 남녀 간 성 전쟁 한번 크게 치룬 후 일부다처제 여성 정치 참여 금지 여성 투표 삭제 세계 공통 문화 자리 잡 듯 암탉 댐',
 '뒤 윤서인 재 평가 것임 게',
 '재미 프로 왜 니 때문 폐지',
 '방탄 팬 우리 방탄 성공 일단 방탄 부하 이름 기억 해',
 '살 차이 부부 무슨 내용 긍금하',
 '더 결혼 수기 여름 속',
 '살 차이 요즘 세상 일도',
 '얼마나 억울 꼬 만큼',
 '아들 유모차 안타 데',
 '살 차이 때 사고 딸 벌 능력 전현무 여자 전현 무 스타일',
 '다이어트 필요 건강 위해 더 더 마르 봄',
 '진짜 것 사랑 수 도저히 납득',
 '정도 기럭지 애 의 심 의 구심 안 안 듬 비율 함',
 '이하 호빗 한남 결혼 마셈 돈 연애 마셈 니 호빗 유전자 고통 네 후손 죄임',
 '감량 박수 주지 그냥 거 디 자고 키 그냥',
 '자유당 시절 하버드 로스쿨 입학 할리우드 진출 요',
 '로 망 트리 거',
 '연예',
 '전인 둘 연남동 술집 술 거 이제야 기사',
 '박 재미 이제 것 폐지 학부모 입장 폐지',
 '진짜 뻔',
 '눈 거 부 졸라 웃기 더 만',
 '안',
 '식 아침 점심 저녁 공복 유지 게 건강 더 듯',
 '난 흐흐 한상진 연기',
 '교도소 마취 자기 몸 거 커피 거만 거 보고 아랏는데 난 무 통증 무감각',
 '로 안 시 청율 연기 이 거 때문 북 못',
 '골빈 여자 이 기사 건 여자 투표 안 엠넷 사전투표 계집',
 '여름 지영 스포츠카 타고 온 거 전',
 '포도 밭 그 사나이 가운 연구원 정소영 솔 대한민국 여배우 중 최고 이 쁘 단아 급식 충 멋 윤아 아이유',
 '홍보 시청률 자랑 남녀 주인공 비주 얼 

In [84]:
from sklearn.linear_model            import LogisticRegression
from sklearn.model_selection         import GridSearchCV, train_test_split, cross_val_score
from sklearn.metrics                 import accuracy_score, recall_score, roc_auc_score, f1_score
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag                      import Okt; t=Okt()

In [87]:
def t_tokenizer(text):
    tokens_ko = t.morphs(text)
    return tokens_ko

In [88]:
X_train = train['comments']
X_test = test['comments']
y_train = train['label']
y_test = test['label']

# 벡터라이저 생성
tfidf_vect = TfidfVectorizer(tokenizer=t_tokenizer, ngram_range=(1,2), min_df=3, max_df=0.9)

# 벡터라이저 학습
tfidf_vect.fit(X_train)

# 벡터라이저 리턴
tfidf_matrix_train = tfidf_vect.transform(X_train)

# 로지스틱 리그레션 학습
lr = LogisticRegression(solver='liblinear', random_state=13)
lr.fit(tfidf_matrix_train, y_train)

# 로지스틱 리그레션 예측
tfidf_matrix_test = tfidf_vect.transform(X_test)
preds = lr.predict(tfidf_matrix_test)
accuracy_score(y_test, preds), f1_score(y_test, preds, average='macro')



(0.5796178343949044, 0.5680260820583809)

In [45]:
test['label'] = preds
test.head()

Unnamed: 0,comments,label
0,ㅋㅋㅋㅋ 그래도 조아해주는 팬들 많아서 좋겠다 ㅠㅠ 니들은 온유가 안만져줌 ㅠㅠ,none
1,둘다 넘 좋다~행복하세요,none
2,근데 만원이하는 현금결제만 하라고 써놓은집 우리나라에 엄청 많은데,none
3,원곡생각하나도 안나고 러블리즈 신곡나온줄!!! 너무 예쁘게 잘봤어요,none
4,장현승 얘도 참 이젠 짠하다...,offensive


In [55]:
test['label'][test['label'] == 'none'] = 0

In [56]:
def kaggle_format(df):
    df['label'][df['label'] == 'none'] = 0
    df['label'][df['label'] == 'offensive'] = 1
    df['label'][df['label'] == 'hate'] = 2
    return df

In [57]:
kaggle_format(test)

Unnamed: 0,comments,label
0,ㅋㅋㅋㅋ 그래도 조아해주는 팬들 많아서 좋겠다 ㅠㅠ 니들은 온유가 안만져줌 ㅠㅠ,0
1,둘다 넘 좋다~행복하세요,0
2,근데 만원이하는 현금결제만 하라고 써놓은집 우리나라에 엄청 많은데,0
3,원곡생각하나도 안나고 러블리즈 신곡나온줄!!! 너무 예쁘게 잘봤어요,0
4,장현승 얘도 참 이젠 짠하다...,1
...,...,...
969,대박 게스트... 꼭 봐야징~ 컨셉이 바뀌니깐 재미지넹,0
970,성형으로 다 뜯어고쳐놓고 예쁜척. 성형 전 니 얼굴 다 알고있다. 순자처럼 된장냄새...,1
971,분위기는 비슷하다만 전혀다른 전개던데 무슨ㅋㅋㄱ 우리나라사람들은 분위기만 비슷하면 ...,0
972,입에 손가릭이 10개 있으니 징그럽다,2


In [58]:
test.head()

Unnamed: 0,comments,label
0,ㅋㅋㅋㅋ 그래도 조아해주는 팬들 많아서 좋겠다 ㅠㅠ 니들은 온유가 안만져줌 ㅠㅠ,0
1,둘다 넘 좋다~행복하세요,0
2,근데 만원이하는 현금결제만 하라고 써놓은집 우리나라에 엄청 많은데,0
3,원곡생각하나도 안나고 러블리즈 신곡나온줄!!! 너무 예쁘게 잘봤어요,0
4,장현승 얘도 참 이젠 짠하다...,1


In [59]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 974 entries, 0 to 973
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   comments  974 non-null    object
 1   label     974 non-null    object
dtypes: object(2)
memory usage: 15.3+ KB


In [60]:
test.to_csv('./0109_jc.csv', index=False)

In [61]:
pd.read_csv('./0109_jc.csv')

Unnamed: 0,comments,label
0,ㅋㅋㅋㅋ 그래도 조아해주는 팬들 많아서 좋겠다 ㅠㅠ 니들은 온유가 안만져줌 ㅠㅠ,0
1,둘다 넘 좋다~행복하세요,0
2,근데 만원이하는 현금결제만 하라고 써놓은집 우리나라에 엄청 많은데,0
3,원곡생각하나도 안나고 러블리즈 신곡나온줄!!! 너무 예쁘게 잘봤어요,0
4,장현승 얘도 참 이젠 짠하다...,1
...,...,...
969,대박 게스트... 꼭 봐야징~ 컨셉이 바뀌니깐 재미지넹,0
970,성형으로 다 뜯어고쳐놓고 예쁜척. 성형 전 니 얼굴 다 알고있다. 순자처럼 된장냄새...,1
971,분위기는 비슷하다만 전혀다른 전개던데 무슨ㅋㅋㄱ 우리나라사람들은 분위기만 비슷하면 ...,0
972,입에 손가릭이 10개 있으니 징그럽다,2
