In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from kiwipiepy import Kiwi

word_df = pd.read_csv('./datasets/Dataset.csv', sep='\t')

kiwi = Kiwi()
josa_tags = ["JKS","JKC","JKO","JKG","JKB","JKV","JKQ","JX","JC",
            "EC","EF","EP","ETN","ETM"]

def removes_josa(sentence):
    result = []
    for token in kiwi.tokenize(sentence):
        if token.tag in josa_tags:
            continue

        result.append(token.lemma)
    return " ".join(result)


word_df.content = word_df.content.apply(removes_josa)
word_df

Unnamed: 0,content,lable
0,이종석 한효주 나오다 드라마 이후 드라마 안 보다 . 2 년 전 이다 ?? 좀 신선...,0.0
1,씨 바 알 .. 노무 노무 술프노 ... 오늘 저녁 꽂다 등심 이다 ㅠㅜ,0.0
2,짱깨 꺼라 ㅡ 패쓰,0.0
3,그 들 사생활 ~ 고인 되다 설리 위하다 이다 모두 조용 하 지금 누구 탓 하 무슨...,1.0
4,아무리 법 뭣 같다 무슨 자격 개인 신상 정보 불 특정 다수 공개 하 도저히 이해 ...,1.0
...,...,...
9995,이거 더 하 막장 드라마 넋 놓다 보다 무슨 ?,1.0
9996,머 ... 제네시스 .. 올라프 에디션 ?,1.0
9997,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,0.0
9998,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,0.0


In [2]:
word_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   content  10000 non-null  object 
 1   lable    9975 non-null   float64
dtypes: float64(1), object(1)
memory usage: 156.4+ KB


In [3]:
word_df.duplicated().sum()

np.int64(20)

In [4]:
word_df.isna().sum()

content     0
lable      25
dtype: int64

In [5]:
word_df = word_df.dropna(subset=['lable'])
word_df.isna().sum()

content    0
lable      0
dtype: int64

In [6]:
word_df.drop_duplicates(inplace=True)
word_df = word_df.reset_index(drop=True)
word_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  word_df.drop_duplicates(inplace=True)


Unnamed: 0,content,lable
0,이종석 한효주 나오다 드라마 이후 드라마 안 보다 . 2 년 전 이다 ?? 좀 신선...,0.0
1,씨 바 알 .. 노무 노무 술프노 ... 오늘 저녁 꽂다 등심 이다 ㅠㅜ,0.0
2,짱깨 꺼라 ㅡ 패쓰,0.0
3,그 들 사생활 ~ 고인 되다 설리 위하다 이다 모두 조용 하 지금 누구 탓 하 무슨...,1.0
4,아무리 법 뭣 같다 무슨 자격 개인 신상 정보 불 특정 다수 공개 하 도저히 이해 ...,1.0
...,...,...
9950,이거 더 하 막장 드라마 넋 놓다 보다 무슨 ?,1.0
9951,머 ... 제네시스 .. 올라프 에디션 ?,1.0
9952,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,0.0
9953,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,0.0


In [7]:
from sklearn.preprocessing import LabelEncoder

word_encoder = LabelEncoder()
targets = word_encoder.fit_transform(word_df.lable)
word_df['Target'] = targets
word_df

Unnamed: 0,content,lable,Target
0,이종석 한효주 나오다 드라마 이후 드라마 안 보다 . 2 년 전 이다 ?? 좀 신선...,0.0,0
1,씨 바 알 .. 노무 노무 술프노 ... 오늘 저녁 꽂다 등심 이다 ㅠㅜ,0.0,0
2,짱깨 꺼라 ㅡ 패쓰,0.0,0
3,그 들 사생활 ~ 고인 되다 설리 위하다 이다 모두 조용 하 지금 누구 탓 하 무슨...,1.0,1
4,아무리 법 뭣 같다 무슨 자격 개인 신상 정보 불 특정 다수 공개 하 도저히 이해 ...,1.0,1
...,...,...,...
9950,이거 더 하 막장 드라마 넋 놓다 보다 무슨 ?,1.0,1
9951,머 ... 제네시스 .. 올라프 에디션 ?,1.0,1
9952,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,0.0,0
9953,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,0.0,0


In [8]:
word_df.drop(labels=['lable'], axis=1, inplace=True)
word_df

Unnamed: 0,content,Target
0,이종석 한효주 나오다 드라마 이후 드라마 안 보다 . 2 년 전 이다 ?? 좀 신선...,0
1,씨 바 알 .. 노무 노무 술프노 ... 오늘 저녁 꽂다 등심 이다 ㅠㅜ,0
2,짱깨 꺼라 ㅡ 패쓰,0
3,그 들 사생활 ~ 고인 되다 설리 위하다 이다 모두 조용 하 지금 누구 탓 하 무슨...,1
4,아무리 법 뭣 같다 무슨 자격 개인 신상 정보 불 특정 다수 공개 하 도저히 이해 ...,1
...,...,...
9950,이거 더 하 막장 드라마 넋 놓다 보다 무슨 ?,1
9951,머 ... 제네시스 .. 올라프 에디션 ?,1
9952,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,0
9953,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,0


In [9]:
word_df.Target.value_counts()

Target
1    4982
0    4973
Name: count, dtype: int64

In [10]:
word_df['Target'] = 1 - word_df['Target']
word_df

Unnamed: 0,content,Target
0,이종석 한효주 나오다 드라마 이후 드라마 안 보다 . 2 년 전 이다 ?? 좀 신선...,1
1,씨 바 알 .. 노무 노무 술프노 ... 오늘 저녁 꽂다 등심 이다 ㅠㅜ,1
2,짱깨 꺼라 ㅡ 패쓰,1
3,그 들 사생활 ~ 고인 되다 설리 위하다 이다 모두 조용 하 지금 누구 탓 하 무슨...,0
4,아무리 법 뭣 같다 무슨 자격 개인 신상 정보 불 특정 다수 공개 하 도저히 이해 ...,0
...,...,...
9950,이거 더 하 막장 드라마 넋 놓다 보다 무슨 ?,0
9951,머 ... 제네시스 .. 올라프 에디션 ?,0
9952,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,1
9953,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,1


In [11]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from kiwipiepy import Kiwi

bad_df = pd.read_csv('../c_recommendation_system/datasets/tbl_bad_sentence.csv')

kiwi = Kiwi()
josa_tags = ["JKS","JKC","JKO","JKG","JKB","JKV","JKQ","JX","JC",
            "EC","EF","EP","ETN","ETM"]

def removes_josa(sentence):
    result = []
    for token in kiwi.tokenize(sentence):
        if token.tag in josa_tags:
            continue

        result.append(token.lemma)
    return " ".join(result)


bad_df.content = bad_df.content.apply(removes_josa)
bad_df

Unnamed: 0,content,target
0,미쉐린 좆 병신 이다 생기다 사태 이다 욕 피아 다 먹다 전설 경기 ㅋㅋㅋㅋ,1
1,다른 애 들 현역 받다 우울 하 전화 면제 받다 자랑 하 씹새끼 떠오르다 부럽다,1
2,꼬우 이다 수능 잘 치다 가 훠훠 -,1
3,이 만화 보다 개 쫄다 가다 다행히 불 친절 하 않다,1
4,나 말귀 못 알다 처먹다 화내다 만 하다 요즘 안 저렇다 .,1
...,...,...
495,더쿠 뒤지다 하다 뒤지다 년 이다 ㅋㅋㅋ,1
496,WWE 마음껏 즐기다 두다 개 돼지 새끼 들,1
497,전두 창 술 처먹다 지지율 좃 박다 스스로 거대 야당 만들다 주다,1
498,경제 안보 민심 계엄 다시 ㅈ 박다 뭐 생 지랄 하 야당 대통령 각 이다 여기 무리...,1


In [12]:
bad_df.drop_duplicates(inplace=True)
bad_df = bad_df.reset_index(drop=True)

In [13]:
bad_df.duplicated().sum()

np.int64(0)

In [14]:
from sklearn.preprocessing import LabelEncoder

bad_encoder = LabelEncoder()
targets = bad_encoder.fit_transform(bad_df.target)
bad_df['Target'] = targets
bad_df.drop(labels=['target'], axis=1, inplace=True)
bad_df

Unnamed: 0,content,Target
0,미쉐린 좆 병신 이다 생기다 사태 이다 욕 피아 다 먹다 전설 경기 ㅋㅋㅋㅋ,0
1,다른 애 들 현역 받다 우울 하 전화 면제 받다 자랑 하 씹새끼 떠오르다 부럽다,0
2,꼬우 이다 수능 잘 치다 가 훠훠 -,0
3,이 만화 보다 개 쫄다 가다 다행히 불 친절 하 않다,0
4,나 말귀 못 알다 처먹다 화내다 만 하다 요즘 안 저렇다 .,0
...,...,...
483,더쿠 뒤지다 하다 뒤지다 년 이다 ㅋㅋㅋ,0
484,WWE 마음껏 즐기다 두다 개 돼지 새끼 들,0
485,전두 창 술 처먹다 지지율 좃 박다 스스로 거대 야당 만들다 주다,0
486,경제 안보 민심 계엄 다시 ㅈ 박다 뭐 생 지랄 하 야당 대통령 각 이다 여기 무리...,0


In [15]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from kiwipiepy import Kiwi

good_df = pd.read_csv('../c_recommendation_system/datasets/tbl_good_word.csv')

kiwi = Kiwi()
josa_tags = ["JKS","JKC","JKO","JKG","JKB","JKV","JKQ","JX","JC",
            "EC","EF","EP","ETN","ETM"]

def removes_josa(sentence):
    result = []
    for token in kiwi.tokenize(sentence):
        if token.tag in josa_tags:
            continue

        result.append(token.lemma)
    return " ".join(result)


good_df.content = good_df.content.apply(removes_josa)
good_df

Unnamed: 0,content,target
0,이런 정보 진짜 꿀 팁 이다 . 공유 감사 하 .,0
1,영상미 너무 예쁘다 . 눈 힐링 되 .,0
2,시간 가다 줄 모르다 보다 . 다음 편 기대 하 .,0
3,목소리 너무 차분 하 듣다 좋다 .,0
4,이런 콘텐츠 자주 올리다 주다 ! 너무 좋다 .,0
...,...,...
514,자극 적 이다 않다 정직 하 만들다 콘텐츠 이다 더 소중 하 느끼다 지다 .,0
515,영상 하나 이렇다 기분 좋다 지다 수 있다 것 놀랍다 .,0
516,삶 지치다 현대인 꼭 필요 하 콘텐츠 이다 생각 들다 .,0
517,단어 선택 하나하나 깊다 생각 담기다 있다 감동 적 이다 .,0


In [16]:
good_df.drop_duplicates(inplace=True)
good_df = good_df.reset_index(drop=True)
good_df.duplicated().sum()

np.int64(0)

In [17]:
from sklearn.preprocessing import LabelEncoder

good_encoder = LabelEncoder()
targets = good_encoder.fit_transform(good_df.target)
good_df['Target'] = targets
good_df.drop(labels=['target'], axis=1, inplace=True)
good_df

Unnamed: 0,content,Target
0,이런 정보 진짜 꿀 팁 이다 . 공유 감사 하 .,0
1,영상미 너무 예쁘다 . 눈 힐링 되 .,0
2,시간 가다 줄 모르다 보다 . 다음 편 기대 하 .,0
3,목소리 너무 차분 하 듣다 좋다 .,0
4,이런 콘텐츠 자주 올리다 주다 ! 너무 좋다 .,0
...,...,...
510,자극 적 이다 않다 정직 하 만들다 콘텐츠 이다 더 소중 하 느끼다 지다 .,0
511,영상 하나 이렇다 기분 좋다 지다 수 있다 것 놀랍다 .,0
512,삶 지치다 현대인 꼭 필요 하 콘텐츠 이다 생각 들다 .,0
513,단어 선택 하나하나 깊다 생각 담기다 있다 감동 적 이다 .,0


In [18]:
bad_df['Target'] = 1
good_df['Target'] = 0

check_word_df = pd.concat([bad_df, good_df]).reset_index(drop=True)
check_word_df
print(check_word_df.Target.value_counts())

Target
0    515
1    488
Name: count, dtype: int64


In [19]:
check_word_df

Unnamed: 0,content,Target
0,미쉐린 좆 병신 이다 생기다 사태 이다 욕 피아 다 먹다 전설 경기 ㅋㅋㅋㅋ,1
1,다른 애 들 현역 받다 우울 하 전화 면제 받다 자랑 하 씹새끼 떠오르다 부럽다,1
2,꼬우 이다 수능 잘 치다 가 훠훠 -,1
3,이 만화 보다 개 쫄다 가다 다행히 불 친절 하 않다,1
4,나 말귀 못 알다 처먹다 화내다 만 하다 요즘 안 저렇다 .,1
...,...,...
998,자극 적 이다 않다 정직 하 만들다 콘텐츠 이다 더 소중 하 느끼다 지다 .,0
999,영상 하나 이렇다 기분 좋다 지다 수 있다 것 놀랍다 .,0
1000,삶 지치다 현대인 꼭 필요 하 콘텐츠 이다 생각 들다 .,0
1001,단어 선택 하나하나 깊다 생각 담기다 있다 감동 적 이다 .,0


In [20]:
word_df

Unnamed: 0,content,Target
0,이종석 한효주 나오다 드라마 이후 드라마 안 보다 . 2 년 전 이다 ?? 좀 신선...,1
1,씨 바 알 .. 노무 노무 술프노 ... 오늘 저녁 꽂다 등심 이다 ㅠㅜ,1
2,짱깨 꺼라 ㅡ 패쓰,1
3,그 들 사생활 ~ 고인 되다 설리 위하다 이다 모두 조용 하 지금 누구 탓 하 무슨...,0
4,아무리 법 뭣 같다 무슨 자격 개인 신상 정보 불 특정 다수 공개 하 도저히 이해 ...,0
...,...,...
9950,이거 더 하 막장 드라마 넋 놓다 보다 무슨 ?,0
9951,머 ... 제네시스 .. 올라프 에디션 ?,0
9952,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,1
9953,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,1


In [21]:
good_words = word_df[word_df.Target == 0].sample(4973, random_state=124)
bad_words = word_df[word_df.Target == 1]

word_df = pd.concat([good_words, bad_words])
word_df

Unnamed: 0,content,Target
5724,변화 되 하다 ㅡ 강력 하 하다 주다 것 없다 데 ㅡ 계약서 한 장 심하다 듯 제도...,0
9168,클라라 집안 스펙 ? 서울대 보다 . 32 계단 높다 스위스 대학 졸업 6 개 국어...,0
6291,나 재밌다 데 ㅋㅋ,0
1093,이 기사 제목 송혜교 싫다 하다,0
762,가다 수 있다 거 이다 ~~~ 못 가다 되다 출국 못 하다 거 이다 ~~ 별 거 다...,0
...,...,...
9946,기사 더 자극 적 이다 지랄 이다 기레기 이다,1
9948,나 글 쓰다 것 이 말 맞다 보다,1
9952,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,1
9953,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,1


In [22]:
word_df.reset_index(drop=True, inplace=True)
word_df.Target.value_counts()
word_df

Unnamed: 0,content,Target
0,변화 되 하다 ㅡ 강력 하 하다 주다 것 없다 데 ㅡ 계약서 한 장 심하다 듯 제도...,0
1,클라라 집안 스펙 ? 서울대 보다 . 32 계단 높다 스위스 대학 졸업 6 개 국어...,0
2,나 재밌다 데 ㅋㅋ,0
3,이 기사 제목 송혜교 싫다 하다,0
4,가다 수 있다 거 이다 ~~~ 못 가다 되다 출국 못 하다 거 이다 ~~ 별 거 다...,0
...,...,...
9941,기사 더 자극 적 이다 지랄 이다 기레기 이다,1
9942,나 글 쓰다 것 이 말 맞다 보다,1
9943,항상 여자 ㅡ ㅡ 저 지랄 들 남자 들 벗기다 보다,1
9944,첫 번 째 이유 ㄹㅇ 맞다 특히 뉴스 기사 몇 줄 읽다 학생 들 끼리 대화 하 서로...,1


In [23]:
word_df = pd.concat([word_df, check_word_df], ignore_index=True)
word_df

Unnamed: 0,content,Target
0,변화 되 하다 ㅡ 강력 하 하다 주다 것 없다 데 ㅡ 계약서 한 장 심하다 듯 제도...,0
1,클라라 집안 스펙 ? 서울대 보다 . 32 계단 높다 스위스 대학 졸업 6 개 국어...,0
2,나 재밌다 데 ㅋㅋ,0
3,이 기사 제목 송혜교 싫다 하다,0
4,가다 수 있다 거 이다 ~~~ 못 가다 되다 출국 못 하다 거 이다 ~~ 별 거 다...,0
...,...,...
10944,자극 적 이다 않다 정직 하 만들다 콘텐츠 이다 더 소중 하 느끼다 지다 .,0
10945,영상 하나 이렇다 기분 좋다 지다 수 있다 것 놀랍다 .,0
10946,삶 지치다 현대인 꼭 필요 하 콘텐츠 이다 생각 들다 .,0
10947,단어 선택 하나하나 깊다 생각 담기다 있다 감동 적 이다 .,0


In [24]:
print(word_df.Target.value_counts())

Target
0    5488
1    5461
Name: count, dtype: int64


In [25]:
good_targets = word_df[word_df.Target == 0].sample(5461, random_state=124)
bad_targets = word_df[word_df.Target == 1]

check_word_df = pd.concat([good_targets, bad_targets])
check_word_df

Unnamed: 0,content,Target
1866,와 이 정도 이다 괴물 님 ??????,0
10937,마치 친구 대화 하 듯 하 자연 스럽 분위기 참 좋다 .,0
2134,이통 업계 관계자 따르다 ... = 소설 혹은 광고 .,0
4670,아니 저러다 4 계열사 이전 최상 호 서성 면식 있다 하다 거 이다 ? 안 둘 어 ...,0
375,의사 하다 사람 3 명 죽다 하다 말 있다 . 이 말 누구 만들다 모르다 섭득 하 !,0
...,...,...
10429,더쿠 뒤지다 하다 뒤지다 년 이다 ㅋㅋㅋ,1
10430,WWE 마음껏 즐기다 두다 개 돼지 새끼 들,1
10431,전두 창 술 처먹다 지지율 좃 박다 스스로 거대 야당 만들다 주다,1
10432,경제 안보 민심 계엄 다시 ㅈ 박다 뭐 생 지랄 하 야당 대통령 각 이다 여기 무리...,1


In [26]:
check_word_df.reset_index(drop=True, inplace=True)
check_word_df.Target.value_counts()
check_word_df

Unnamed: 0,content,Target
0,와 이 정도 이다 괴물 님 ??????,0
1,마치 친구 대화 하 듯 하 자연 스럽 분위기 참 좋다 .,0
2,이통 업계 관계자 따르다 ... = 소설 혹은 광고 .,0
3,아니 저러다 4 계열사 이전 최상 호 서성 면식 있다 하다 거 이다 ? 안 둘 어 ...,0
4,의사 하다 사람 3 명 죽다 하다 말 있다 . 이 말 누구 만들다 모르다 섭득 하 !,0
...,...,...
10917,더쿠 뒤지다 하다 뒤지다 년 이다 ㅋㅋㅋ,1
10918,WWE 마음껏 즐기다 두다 개 돼지 새끼 들,1
10919,전두 창 술 처먹다 지지율 좃 박다 스스로 거대 야당 만들다 주다,1
10920,경제 안보 민심 계엄 다시 ㅈ 박다 뭐 생 지랄 하 야당 대통령 각 이다 여기 무리...,1


In [27]:
check_word_df.Target.value_counts()

Target
0    5461
1    5461
Name: count, dtype: int64

In [38]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = \
train_test_split(check_word_df.content, check_word_df.Target, stratify=check_word_df.Target, test_size=0.2)
y_test.value_counts()

Target
1    1093
0    1092
Name: count, dtype: int64

In [39]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

m_nb_pipe = Pipeline(
    [
        ('count_vectorizer', CountVectorizer()), ('multinomail_NB', MultinomialNB())
    ])
m_nb_pipe.fit(X_train.values, y_train)

0,1,2
,steps,"[('count_vectorizer', ...), ('multinomail_NB', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'
,ngram_range,"(1, ...)"

0,1,2
,alpha,1.0
,force_alpha,True
,fit_prior,True
,class_prior,


In [40]:
m_nb_pipe.score(X_test.values, y_test)

0.8210526315789474

In [49]:
print(m_nb_pipe.predict(['']))

[0]


In [50]:
import joblib
joblib.dump(m_nb_pipe, 'word_model.pkl')

['word_model.pkl']