In [104]:
import pandas as pd
import numpy as np

# merge data from media
data = pd.DataFrame({'url':[], 'title':[], 'date':[], 'press':[], 'article':[]})
file_list = ['joongang', 'hk', 'SBS', 'KBS', 'MBC', 'chosun', 'hani', 'khan', 'donga', 'mk']
for name in file_list:
    data = pd.concat([data, pd.read_csv(name + '.csv', engine='python', encoding='utf8')], sort=True)

# drop duplicates and filter too short articles
data = data.dropna(subset=['article', 'date', 'press']).drop_duplicates()
data = data.drop_duplicates(subset=['article'], keep='first')
data = data[data['article'].str.len() > 50].reset_index(drop=True)

In [105]:
data['date'] = data['date'].str.replace(' ', '').str.replace('-', '.')

data['article'] = data['article'].str.replace('아무개', '모')
data['article'] = data['article'].str.replace('[가-힣]{2,3}\s{1,3}기자', '')
data['article'] = data['article'].str.replace(r'\s[김이박최정강조윤장임한오서신권황안송전홍류고문양손배조'
                                              '백허유남심노하A-Zㄱ-ㅎ]{1}\s{0,1}[모]{0,1}\s{0,'
                                              '1}\({1}.{1,10}\){1}\s{0,1}(?P<name>[양군씨])', ' 김\g<1> ')
data['article'] = data['article'].str.replace(r'\s[김이박최정강조윤장임한오서신권황안송전홍류고문양손배조'
                                              '백허유남심노하A-Zㄱ-ㅎ]{1}\s{0,1}\({1}.{1,'
                                              '10}\){1}\s{0,1}[모]{0,1}\s{0,1}(?P<name>[양군씨])', ' 김\g<1> ')
data['article'] = data['article'].str.replace(r'\s[김이박최정강조윤장임한오서신권황안송전홍류고문양손배조'
                                              '백허유남심노하A-Zㄱ-ㅎ]{1}\s{0,1}\s{0,1}[모]{0,1}\s{0,1}(?P<name>[양군씨])', ' 김\g<1> ')

data['article'] = data['article'].str.replace(r'\s[김이박최정강조윤장임한오서신권황안송전홍류고문양손배조'
                                              '백허유남심노하A-Zㄱ-ㅎ]\s{0,1}모\s{0,1}씨{1}', ' 김모씨 ')
data['article'] = data['article'].str.replace(r'\s[김이박최정강조윤장임한오서신권황안송전홍류고문양손배조'
                                              '백허유남심노하A-Zㄱ-ㅎ]\s{0,1}모\s{0,1} ', ' 김모씨 ')

data['article'] = data['article'].str.replace(r'[연합뉴스] <저작권자 ⓒ 1980-2018 ㈜연합뉴스. 무단 전재 재배포 금지.>', ' ')
data['article'] = data['article'].str.replace(r'연합뉴스 모바일', ' ')

data['article'] = data['article'].str.replace(' [김은진주윤양현이최박권배날신엄원곽'
                                        '연구변우조오송석민천전정홍강임장한유서'
                                        '선황고노공차안나함모방성]\s{0,1}모{0,1}'
                                        '\s{0,1}씨 ', ' 김모씨 ')
data['article'] = data['article'].str.replace(' [김은진주윤양현이최박권배날신엄원곽'
                                        '연구변우조오송석민천전정홍강임장한유서'
                                        '선황고노공차안나함모방성]\s{0,1}모{0,1}'
                                        '\s{0,1}양 ', ' 김모양 ')
data['article'] = data['article'].str.replace(' [김은진주윤양현이최박권배날신엄원곽'
                                        '연구변우조오송석민천전정홍강임장한유서'
                                        '선황고노차안나함모방성]\s{0,1}모{0,1}'
                                        '\s{0,1}군 ', ' 김모군 ')
data['pos'] = data['article']
data.to_csv('merged.csv', encoding='utf8', index=False)

In [106]:
data = pd.read_csv('merged.csv')

In [107]:
data = data.dropna(subset=['title', 'article']).reset_index(drop=True)

In [108]:
data = data[(data.title.str.contains('성범죄|성폭행|강간|성폭력|성추행|성희롱')) | 
         (data.article.str.count('성범죄|성폭행|강간|성폭력|성추행|성희롱|추행|미투') >= 1)].reset_index(drop=True)

In [110]:
from konlpy.tag import Komoran
import re

pos_tagger = Komoran()

def pos(doc): 
    
    stopwords = ['기자', '대한', '위해', '이후', '이나', '에서', '로부터', '면서', 
             '상대로', '하자', '중이', '로서', '대로', '이기', '구독',
            '구독','글방', '한수진', '사회자', '무단', '전재', '복제',
             '콘텐츠', '허브', '배포', '저작권', '베스트', '추천', '포토', '연합뉴스',
             '래빗', '뉴스래빗', '기사', '중앙',  '한경', '한경닷컴', '한겨레', '경향',
             '동아', '동아일보', '조선', '조선일보', '중앙일보', '매일경제', '매일',
             '뉴스', '앵커', '있다', '있는', '하는', 
             '입니', '있었', '아니', '없다', '이런', '않았', '하지', '하기', '하게', 
             '하다', '이어', '하려', '관한', '있어', '이를', '않고', '않은', 
             '어떤', '많은', '하며', '어떻', '있지', '있던', '아닌', '있으', '있고', 
             '있도', '하거', '하던', '하도', '그러', '겁니', '보여', '있거']
    doc = re.sub('|'.join(stopwords), '', doc)
    return ['/'.join(t) for t in pos_tagger.pos(doc) 
            if re.search('NNG|NNP|VV|VA|MM', t[1]) != None and re.search('[0-9]', t[0]) == None]

In [111]:
data['pos'] = [pos(i) for i in data['pos']]

In [137]:
data['pos'] = [' '.join(i) for i in data['pos']]

In [113]:
data.pos = data.pos.str.replace('/VV|/VA', '다/VV').str.replace('/[A-Z]{2,3}', '')

In [117]:
for i in data[data.pos.str.contains('김 모 군') & data.pos.str.contains('육군|병장|상병|군대|헌병대|군기|부대|김군기')].index:
    data.loc[i, 'pos'] = re.sub(data.loc[i, 'pos'], '김 모 군', '육군')

In [118]:
data.pos = data.pos.str.replace(' 김 모양 ', ' 김양 ')
data.pos = data.pos.str.replace(' 김 모 군 ', ' 김군 ')
data.pos = data.pos.str.replace(' 김 모씨 | 김모씨 ', ' 김씨 ')
data.pos = data.pos.str.replace('[김은진주윤양현이최박권배신엄원곽'
                                        '연구변우조오송석민천전정홍강임장한유서'
                                        '황노차나방성]\s{0,1}모{1}'
                                        '\s{0,1}(?P<name>[양군씨])', '김\g<1>')
data.pos = data.pos.str.replace('[김은진주윤양현이최박권배신엄원곽'
                                        '연구변우조오송석민천전정홍강임장한유서'
                                        '황노차나방성]\s{0,1}모{0,1}'
                                        '\s{0,1}씨', '김씨')
data.pos = data.pos.str.replace(' 양 ', ' 김양 ')

In [119]:
data['pos'] = data['pos'].str.replace('갈리아', '메갈리아')
data['pos'] = data['pos'].str.replace('드 루킹', '드루킹')
data['pos'] = data['pos'].str.replace('더불 민주', '더불어민주당')
data['pos'] = data['pos'].str.replace('와인 스티|와인 스타', '와인스타인')
data['pos'] = data['pos'].str.replace('스트로스 칸', '스트로스칸')
data['pos'] = data['pos'].str.replace('양 예원', '양예원')
data['pos'] = data['pos'].str.replace('승우 |여가 ', '')
data['pos'] = data['pos'].str.replace(' 여신 도 | 여신[도]{1,4} | 여신 ', ' 여신도 ')
data['pos'] = data['pos'].str.replace('피의자|용의자', '가해자')
data['pos'] = data['pos'].str.replace('\s{2,}', '\s')

In [120]:
for i in data[data.pos.str.contains('김군') & data.pos.str.contains('육군|병장|상병|군대|헌병대|군기|부대|김군기')].index:
    data.loc[i, 'pos'] = re.sub(data.loc[i, 'pos'], '김군', '육군')

In [121]:
data.pos = data.pos.str.replace(' 곽 | 한 | 이 | 말 | 전 | 뒤 | 그 | 때 | 고 | 일 | 성 | 게 | 두 | 이 '
                                '| 하 | 록 | 후 | 안 | 앞 | 모 | 라 | 을 | 의 | 달 | 으 | 주 | 범 | 방 | 곳 | 다 |'
                                ' 면 | 당 | 직 | 날 | 미 | 위 | 반 | 도 | 부 | 약 | 단 | 끝 | 장 | 차 | 세 | 뒤 | 한 | 현 | 급 '
                                ' 사 | 실 | 뜻 | 시 | 요 | 올 | 인 | 새 | 옆 | 르 | 하다 | 되다 | 없다 | 가다 | 같다 ', ' ')

In [122]:
data.pos = data.pos.str.replace('저렇다|아무렇다|거리다 ', ' ')
data.pos = data.pos.str.replace(r'\s{2,}', ' ')

In [123]:
import nltk
from nltk import FreqDist

tokens = [j for i in data['pos'] for j in i.split(' ')]
text = nltk.Text(tokens)
freq = FreqDist(text)
# sorted(freq.items(), key=lambda item: item[1], reverse=True)

In [None]:
# [i for i in sorted(freq.items(), key=lambda item: item[1], reverse=True) if len(i[0])==1]

날짜 단위로 잘라서 저장

In [125]:
data['date'] = [i[:7] for i in data['date']]

In [126]:
for i in data[data['date'].str.len() == 4]['date'].index:
    data.loc[i, 'date'] = data['date'][i] + '.01.01'
data = data[data['date'].str.len() >= 7].reset_index(drop=True)
data = data[data['date'].str.contains('[^\d.]') == False].reset_index(drop=True)

In [127]:
year = 2002
month = 1

In [128]:
import numpy as np
data['dindex'] = [np.nan for _ in range(0, len(data['url']))]
data['dindex'] = [12*(int(i.split('.')[0]) - year) + int(i.split('.')[1]) - month for i in data['date']]

In [129]:
data = data[data['date'] > '2002.01']

In [130]:
data['date'] = [i[:7] for i in data['date']]

In [131]:
data = data.dropna(subset=['article', 'date', 'press', 'pos'])

In [142]:
data['num'] = [len(i.split(' ')) for i in data['pos']]

In [147]:
data.to_csv('processed_2002.csv', encoding='utf8', index=False)

In [148]:
import sys
import csv
import pandas as pd
from gensim.models.word2vec import Word2Vec

data = pd.read_csv('processed_2002.csv', encoding='utf8', engine='python').dropna(subset=['pos'])
data['pos'] = [i.split(' ') for i in data['pos']]
model = Word2Vec(data['pos'], size=300, alpha=0.025, min_alpha=0.025,
                 window=5, workers=12, min_count=150)
model.save('standard.model')