## Step 4. 추가 전처리

#### Step 3. 에서 저장한 엑셀 파일을 불러와서 추가 전처리 하기 위한 Package를 import 해 줍니다.

In [1]:
# -*- coding: utf-8 -*-
import pandas as pd
from collections import Counter

In [2]:
data = pd.read_excel('./Data/tokenized_news_body.xlsx')

In [3]:
data.head()

Unnamed: 0,제목,출처,날짜,Tokens
0,공시위반 4개 법인 등에 과징금 3억 9200만원,국민일보,2017-08-30 21:46,금융/위원회/증권/선물/위원회/건설/법인/건설/이사/공시/위반/과징금/만원/부과/금...
1,"박삼구측, 금호타이어 상표권 계약서 초안에 수정의견 제시",뉴시스,2017-08-30 21:41,서울/뉴시스/안호균/기자/박삼구/금호아시아나/회장/금호/타이어/채권/상표권/사용/계...
2,금융소비자 정보포털 '파인' 개설 1주년 맞아 새 단장,전자신문,2017-08-30 20:31,금융/소비자/정보/포털/개설/주년/단장/금융감독원/작년/개설/금융/소비자/정보/포털...
3,7월 기업 직접금융 조달액 14조 4168억원…전월 比 0.6% 증가,헤럴드경제,2017-08-30 19:52,대형/주식/회사채/소폭/감소/헤럴드경제/필수/기자/올해/공모/통한/기업/직접/금융/...
4,"KIC, 내년부터 주주 의결권 행사한다",파이낸셜뉴스,2017-08-30 19:32,성수/사장/간담/회서/펀드/조성/추진/성수/한국/투자/공사/사장/스튜어드/코드/도입...


#### Stop word list를 자동으로 만들어, 사람이 수작업으로지정해주지 않아도 어느 정도 깔끔한 단어만 뽑아낼 수 있도록 합니다.
stop word list를 자동으로 구성하는 방법에는 여러가지가 있지만, 여기서는 전체 신문 기사의 50% 이상에서 동시에 등장한 단어와, 1% 미만에서만 등장한 단어를 stop word로 판단합니다.

#### / 을 기준으로 붙여놓았던 토큰을 다시 분리하여 가져옵니다. 그 다음에, 전체 단어의 corpus list를 구성합니다.

In [4]:
corpus = []
for index, row in data.iterrows():
    tkns = row['Tokens']
    tkns = list(set(tkns.split('/')))
    corpus.extend(tkns)

#### corpus 내의 단어 개수를 세는 작업입니다. 

#### data에서 토큰을 가져올 때에 set으로 변환한 후 list로 가져왔기 때문에 corpus 내의 단어 개수는 해당 단어가 등장한 기사의 개수와 일치합니다.

In [5]:
counts = Counter(corpus)
print(counts.most_common(10))

[('기자', 215), ('배포', 166), ('금지', 165), ('무단', 164), ('전재', 164), ('금융', 163), ('은행', 115), ('위해', 94), ('서울', 91), ('통해', 86)]


#### 전체 신문 기사의 50% 이상에서 동시에 등장한 단어와, 1% 미만에서만 등장한 단어를 뽑아냅니다.

In [6]:
freq = counts.most_common()
upper_bound = len(data) * 0.5
lower_bound = len(data) * 0.01

In [7]:
stop_words = [w[0] for w in freq if (w[1] > upper_bound) or (w[1] < lower_bound)]
print('총 {}개의 단어 중 {}개의 stop words를 골라냈습니다.'.format(len(corpus), len(stop_words)))

총 22222개의 단어 중 2069개의 stop words를 골라냈습니다.


#### 해당 stop words를 제외하도록 Token을 update 합니다.

In [8]:
updated = []
for index, row in data.iterrows():
    tkns = row['Tokens']
    tkns = tkns.split('/')
    tkns_new = [t for t in tkns if t not in stop_words]
    tkns_new = '/'.join(tkns_new)
    updated.append(tkns_new)
data['Tokens'] = updated

In [9]:
data.head()

Unnamed: 0,제목,출처,날짜,Tokens
0,공시위반 4개 법인 등에 과징금 3억 9200만원,국민일보,2017-08-30 21:46,위원회/증권/선물/위원회/법인/이사/공시/위반/만원/부과/금융위/코스닥/상장/법인/...
1,"박삼구측, 금호타이어 상표권 계약서 초안에 수정의견 제시",뉴시스,2017-08-30 21:41,서울/뉴시스/안호균/박삼구/금호아시아나/회장/금호/타이어/채권/상표권/사용/계약/내...
2,금융소비자 정보포털 '파인' 개설 1주년 맞아 새 단장,전자신문,2017-08-30 20:31,소비자/정보/포털/개설/주년/단장/금융감독원/작년/개설/소비자/정보/포털/소비자/정...
3,7월 기업 직접금융 조달액 14조 4168억원…전월 比 0.6% 증가,헤럴드경제,2017-08-30 19:52,대형/주식/소폭/감소/헤럴드경제/필수/올해/공모/통한/기업/직접/조달/실적/대비/소...
4,"KIC, 내년부터 주주 의결권 행사한다",파이낸셜뉴스,2017-08-30 19:32,성수/사장/간담/펀드/조성/추진/성수/한국/투자/공사/사장/스튜어드/코드/도입/시기...


#### Excel로 저장합니다.

In [10]:
writer = pd.ExcelWriter('./Data/' + 'tokens_final.xlsx')
data.to_excel(writer,'Naver Finance',index=False)
writer.save()