## 1. 라이브러리 및 데이터 불러오기

In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(style='darkgrid', font_scale=1.4)

# 경고 메세지 무시
import warnings
warnings.filterwarnings('ignore')

# 얼마나 걸리는지 화면에 보여주는 모듈
import tqdm

# 경로
import os

# 정규표현식 
import re

plt.rc('font', family='AppleGothic')
# plt.rc('font', family='Malgun Gothic')



# 맥 폰트 
plt.rcParams['axes.unicode_minus'] = False


# 한국어 자연어 처리 패키지
from konlpy.tag import Mecab

# 자연어 처리 패키지
import nltk
from nltk import FreqDist

In [2]:
# 학습 데이터 불러오기 
train_data = pd.read_csv('train.csv', index_col=0)


# test용 데이터 불러오기
test_data = pd.read_csv('test.csv', index_col=0)

# 제출용 데이터 불러오기 
submission_data = pd.read_csv('sample_submission.csv', index_col=0)

### 1) 변수 소개

- 독립변수

![image.png](attachment:image.png)

- 종속변수

![image.png](attachment:image.png)

### 2) 데이터 확인 및 기초 전처리

In [3]:
train_data.head()

Unnamed: 0_level_0,category,data
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2,신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지...
1,0,학교이름에 '남자'도 붙여주세요. 울산여자중학교에 재학중인 학생입니다 최근 양성평등...
2,1,"빙상연맹, 대한축구협회등 각종 체육협회의 비리를 철저하게 밝혀주세요.. 최근 동계올..."
3,1,"티비 12세,15세 관람가도 연령확인 의무화 하자.. 제기 에전에 티비를 보다가 잠..."
4,1,무더운 여름철엔 남성들도 시원한 자율복장을 해야. 무더운 여름철에는 남성들도 노넥타...


In [4]:
test_data.head()

Unnamed: 0_level_0,data
index,Unnamed: 1_level_1
0,소년법 폐지해주세요. 법 아래에서 보호받아야 할 아이들이\n법으로 인해 보호받지 못...
1,국공립 유치원 증설에 관하여. 국공립 유치원 부지 학보와건립및 증설에\n*지역 어린...
2,나경원파면. 나경원의원의 동계올림픽 위원을 파면해 주세요
3,국민위원에가 삼성편만들어요. 삼성에서 11년간 일하고 혈암과 백혈병 진단을 받은 ...
4,"방과후,유치원,어린이집 영어교육을 유지시켜주세요. 저는 아이 셋 키우는 평범한 주부..."


In [5]:
print('train_data shape : {}'.format(train_data.shape))
print('train_data의 결측치 : {}'.format(sum(train_data.isna().sum())))
print('test_data shape : {}'.format(test_data.shape))
print('test_data의 결측치 : {}'.format(sum(test_data.isna().sum())))

train_data shape : (40000, 2)
train_data의 결측치 : 8
test_data shape : (5000, 1)
test_data의 결측치 : 0


- train_data는 행이 40000개이며, test_data는 행이 5000개이다. 
- train_data의 결측값들은 총 8개이며, test_data의 결측값들은 총 0개이다.

In [6]:
print(f'train_data 중복값: {train_data.duplicated().sum()}, ({np.round(100*train_data.duplicated().sum()/len(train_data),1)}%)')
print('')
print(f'test_data 중복값: {test_data.duplicated().sum()}, ({np.round(100*test_data.duplicated().sum()/len(test_data),1)}%)')

train_data 중복값: 615, (1.5%)

test_data 중복값: 25, (0.5%)


- train_data에 중복값이 있으니 삭제해준다. 
- test_data에도 25개의 행이 겹치지만 sample_submission을 제출하기 해야되기 때문에 별도로 삭제 x

In [7]:
# train_data 중복값 확인
train_data[train_data.duplicated() == True]

Unnamed: 0_level_0,category,data
index,Unnamed: 1_level_1,Unnamed: 2_level_1
402,2,청소년보호법폐지. 청소년보호법폐지
920,1,영화 5천원 마지막 수요일에서 매주 수요일로 확대해야. 영화 5천원 마지막 수요일에...
1270,1,영화 5천원 마지막 수요일에서 매주 수요일로 확대해야. 영화 5천원 마지막 수요일에...
1812,0,조두순 출소 반대. 조두순 출소 반대합니다.
2140,1,축구장에 있는 천연 잔디좀 신경 써주세요!!. 지금 축구장에 천연 잔디 모습이 안 ...
...,...,...
39856,2,소년법 개정과 부산 폭행사건 가해자 엄중 처벌을 청원합니다.. 소년법 개정\n어리다...
39867,0,청소년보호법 폐지해 주세요!!. 인천8세여아살인사건과 부산여중생폭행사건 너무 잔인합...
39893,2,2020년도 대학 입시. 현재 고2 자녀를 둔 학부모 입니다\n오늘 뉴스를 보니 ...
39895,1,2018월드컵. 안녕 하세요 저는 중학교2학년인 학생 입 니다. 저는 신 태용 감...


In [8]:
# train_data 중복값 삭제
train_data.drop_duplicates(keep='first', inplace=True)

# 인덱스 초기화 
train_data.reset_index(drop=True, inplace=True)

## 2. 데이터 전처리

### 1) 정규표현식을 이용한 기초적인 텍스트 전처리

In [9]:
def clean_text(x):
    # 구두점 제거 
    x = re.sub(r'[@%\\*=()/~#&\+á?\xc3\xa1\-\|\.\:\;\!\-\,\_\~\$\'\"]', '',x) 
    # 숫자 제거 
    x = re.sub(r'\d+','', x)
    # 소문자로 변환 
    x = x.lower()
    # 여백 제거 
    x = re.sub(r'\s+', ' ', x) 
    x = re.sub(r'<[^>]+>','',x) 
    x = re.sub(r'\s+', ' ', x)
    x = re.sub(r"^\s+", '', x) 
    x = re.sub(r'\s+$', '', x) 
    
    # 특수문자 제거 
    x = re.sub('[-=+,#:;//●<>▲\?:^$.☆!★()Ⅰ@*\"※~>`\'…》]', ' ', x)
    return x

In [10]:
train_data

Unnamed: 0,category,data
0,2,신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지...
1,0,학교이름에 '남자'도 붙여주세요. 울산여자중학교에 재학중인 학생입니다 최근 양성평등...
2,1,"빙상연맹, 대한축구협회등 각종 체육협회의 비리를 철저하게 밝혀주세요.. 최근 동계올..."
3,1,"티비 12세,15세 관람가도 연령확인 의무화 하자.. 제기 에전에 티비를 보다가 잠..."
4,1,무더운 여름철엔 남성들도 시원한 자율복장을 해야. 무더운 여름철에는 남성들도 노넥타...
...,...,...
39380,2,시간유연근무제. 저는 국립대에서 일하고 있는 비정규직 근로자입니다.\n동시에 두 ...
39381,0,소년법을 폐지해 주시고 부산 여중생 가해자 학생들의 강력한 처벌을 요구합니다. 소년...
39382,2,무서운데 지켜야 할게 있어요 도와주세요. 안녕하세요 . 한부모엄마 입니다.\n양육비...
39383,2,교복에 고정식 이름표를 달게 하는 것을 금지해 주세요.. 교복에 이름표를 박아놓아...


In [11]:
# 전처리한 텍스트 열 추가 
train_data['text_preprocess'] = train_data['data'].apply(lambda x : clean_text(str(x)))

In [12]:
test_data['text_preprocess'] = test_data['data'].apply(lambda x : clean_text(str(x)))

In [13]:
# 전처리 전 컬럼 삭제
train_data.drop('data', axis=1, inplace=True)
test_data.drop('data', axis=1, inplace=True)

### 2) 토큰화 및 불용어 처리 

- 주어진 문장에서 토큰(token)이라 불리는 단위로 나누는 작업을 진행한다. 토큰의 단위을 단어 하나로 정하여 토큰화를 수행한다.
- 불용어(stopword= 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어)을 삭제해주는 작업을 진행한다. 
- 블로그(출처: https://bab2min.tistory.com/544)에서 수집한 한국어 불용어 리스트인 불용어 100.txt 사전을 활용하여, 불용어를 제거해준다.

In [14]:
stop_word = pd.read_csv('한국어불용어100.txt', sep = '\t', header = None, names = ['형태','품사','비율'])
stop_word

Unnamed: 0,형태,품사,비율
0,이,VCP,0.018280
1,있,VA,0.011699
2,하,VV,0.009774
3,것,NNB,0.009733
4,들,XSN,0.006898
...,...,...,...
95,원,NNB,0.000492
96,잘,MAG,0.000491
97,통하,VV,0.000487
98,소리,NNG,0.000486


In [15]:
stop_words = list(stop_word['형태'])

- 토큰화 및 불용어 처리를 진행

In [None]:
# 한국어 자연어 처리 라이브러리 - 
mecab = Mecab()

train_token_list = []

train_text = list(train_data['text_preprocess'])

for i in range(len(train_text)):
    temp_X = []
    # 명사를 기준으로 토큰화
    temp_X = mecab.nouns(train_text[i]) 
    # 불용어 사전에 포함되어 있다면 해당 토큰 제거
    temp_X = [word for word in temp_X if not word in stop_words]
    temp_X = [word for word in temp_X if len(word) > 1]
    train_token_list.append(temp_X)

In [23]:
len(train_token_list)

39385

In [20]:
# 한국어 자연어 처리 라이브러리 
mecab = Mecab()

test_token_list = []

train_text = list(test_data['text_preprocess'])

for i in range(len(train_text)):
    temp_X = []
    # 명사를 기준으로 토큰화
    temp_X = mecab.nouns(train_text[i]) 
    # 불용어 사전에 포함되어 있다면 해당 토큰 제거
    temp_X = [word for word in temp_X if not word in stop_words]
    temp_X = [word for word in temp_X if len(word) > 1]
    test_token_list.append(temp_X)

In [22]:
len(test_token_list)

5000

### 3) 단어 집합 생성

- train_data의 토큰 리스트를 통해 단어 집합을 생성했을 때, 총 45487의 단어가 나타난다.

In [46]:
# 단어 집합 생성 
train_vocab = FreqDist(np.hstack(train_token_list))
print('train_data = 단어 집합의 크기 : {}'.format(len(train_vocab)))

# 단어 집합 생성 
test_vocab = FreqDist(np.hstack(test_token_list))
print('test_data = 단어 집합의 크기 : {}'.format(len(test_vocab)))

train_data = 단어 집합의 크기 : 45487
test_data = 단어 집합의 크기 : 19193


In [49]:
# 희귀한 단어의 개수를 정할 임계값 
threshold = 11

# 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
total_cnt = len(train_vocab) 

# 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
rare_cnt = 0 

 # 훈련 데이터의 전체 단어 빈도수 총 합
total_freq = 0

 # 등장 빈도수가 threshold보다 작은 단어의 등장 빈도수의 총 합
rare_freq = 0

# 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
for key, value in train_vocab.items():
    total_freq = total_freq + value

    # 단어의 등장 빈도수가 threshold보다 작으면
    if(value < threshold):
        rare_cnt = rare_cnt + 1
        rare_freq = rare_freq + value

print('train 데이터 = 단어 집합(vocabulary)의 크기 :',total_cnt)
print('등장 빈도가 {}번 이하인 희귀 단어의 수: {}'.format(threshold - 1, rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

train 데이터 = 단어 집합(vocabulary)의 크기 : 45487
등장 빈도가 10번 이하인 희귀 단어의 수: 32865
단어 집합에서 희귀 단어의 비율: 72.25141249148108
전체 등장 빈도에서 희귀 단어 등장 빈도 비율: 3.323441678269844


- 단어 집합에서 빈도가 10번 이하인 회귀 단어의 비율이 72%를 차지하지만, 전체 단어의 빈도에 비해면 매우 미미한 수준이라고 볼 수 있다. 

- 빈도를 기준으로 상위를 차지하는 10000개의 단어만 추출한다.

In [50]:
vocab_size = 10000
# 상위 vocab_size개의 단어만 보존
train_vocab = train_vocab.most_common(vocab_size)
print('train_data = 단어 집합의 크기 : {}'.format(len(train_vocab)))

test_vocab = test_vocab.most_common(vocab_size)
print('test_data = 단어 집합의 크기 : {}'.format(len(test_vocab)))

train_data = 단어 집합의 크기 : 10000
test_data = 단어 집합의 크기 : 10000


### 4) 각 단어에 고유한 정수 부여 

- 단어 집합 내의 단어의 각각 고유한 정수를 부여해주었다. 2부터 10001까지 부여해줬으며, 1은 패딩을 위해 0은 삭제한 단어의 인덱스를 통일하기 위해 비워놓았다. 

In [60]:
word_to_index = {word[0] : index + 2 for index, word in enumerate(train_vocab)}
word_to_index['pad'] = 1
word_to_index['unk'] = 0

- 기존의 훈련 데이터와 테스트 데이터에서 각 단어를 고유한 정수로 부여하는 작업을 진행하였다.

In [61]:
train_encoded = []
#입력 데이터에서 1줄씩 문장을 읽음
for line in train_token_list:
    temp = []
    for w in line: #각 줄에서 1개씩 글자를 읽음
        # 글자를 해당되는 정수로 변환
        try:
            temp.append(word_to_index[w]) 
        # 단어 집합에 없는 단어일 경우 unk로 대체된다.
        except KeyError:
            temp.append(word_to_index['unk']) # unk의 인덱스로 변환

    train_encoded.append(temp)

In [62]:
# test 데이터도 동일한 작업 진행 
word_to_index = {word[0] : index + 2 for index, word in enumerate(test_vocab)}
word_to_index['pad'] = 1
word_to_index['unk'] = 0

In [63]:
test_encoded = []
#입력 데이터에서 1줄씩 문장을 읽음
for line in test_token_list:
    temp = []
    for w in line: #각 줄에서 1개씩 글자를 읽음
        # 글자를 해당되는 정수로 변환
        try:
            temp.append(word_to_index[w]) 
        # 단어 집합에 없는 단어일 경우 unk로 대체된다.
        except KeyError:
             # unk의 인덱스로 변환
            temp.append(word_to_index['unk'])

    test_encoded.append(temp)

 ### 5) 패딩(padding)   

- 길이가 다른 문장들을 모두 동일한 길이로 바꿔주는 패딩을 진행하였다. 