In [1]:
from bs4 import BeautifulSoup
from datetime import datetime
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import multiprocessing
from gensim.models import Word2Vec, fasttext
from konlpy.tag import *

## 크롤링

네이버 뉴스 제목 크롤링하기

In [2]:
# 네이버 뉴스 제목 크롤링 하기!
def crawler(maxpage,query,s_date,e_date):
    s_from = s_date.replace(".","")
    e_to = e_date.replace(".","")
    page = 1
    maxpage_t =(int(maxpage)-1)*10+1
    title_text = list()
    while page <= maxpage_t:
        url = "https://search.naver.com/search.naver?where=news&query=" + query + "&sort=0"+"&ds=" + s_date + "&de=" + e_date + "&nso=so%3Ar%2Cp%3Afrom" + s_from + "to" + e_to + "%2Ca%3A&start=" + str(page)   
        response = requests.get(url)
        html = response.text       
        #뷰티풀소프의 인자값 지정
        soup = BeautifulSoup(html, 'html.parser')        
        #태그에서 제목과 링크주소 추출
        atags = soup.select('._sp_each_title')
        for atag in atags:
            title_text.append(atag.text) #제목      
        #모든 리스트 딕셔너리형태로 저장
        result= {"title":title_text}  
        df = pd.DataFrame(result) #df로 변환
        page += 10
    return df
# 참고 : https://bumcrush.tistory.com/116

In [3]:
df = crawler(300, "조국", "2019.09.04", "2019.09.08") # 조국에 대한 이슈를 크롤링! 기간은 내가 제주도 가있는 동안!

## 전처리

In [4]:
text = df["title"]

In [5]:
twitter = Okt()
def make_corpus_rm_stopwords(text):
    corpus = []
    for line in text:
        corpus.append(['/'.join(p) for p in twitter.pos(line) if p[1] not in ("Josa", "Punctuation", "Foreign", "Number")]) #전처리 
    return corpus

#주로 명사를 다룰 것이기 때문에 너무 세세하고 나누는 다른 방법보다 twitter가 더 유용할 것으로 보인다.

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [6]:
corpus = make_corpus_rm_stopwords(text) # 말뭉치 형태로 변환

## 모델링

### 1. Skip Gram

In [7]:
Skip_Gram_model = Word2Vec(corpus, size=3, window=3, min_count=4, workers=multiprocessing.cpu_count(), iter=10, sg=1)
# 3차원의 벡터로 변환, 주변 단어는 앞뒤로 세개까지, 코퍼스 내 출현 빈도 최소 4회, 스킵그램
# 표본이 그렇게 많지 않기 때문에 min_count도 크지 않은 4으로 설정, 문장이 길지 않은 뉴스 기사 제목 분석이기 때문에 window 역시 크지 않은 3로 설정했다.
# 역시 표본이 많지 않아 모델을 돌리는 속도가 크게 느리지 않기 때문에 iteration은 10 정도로 설정
# 차원은 3이면 충분해보임

  "C extension not loaded, training will be slow. "


In [60]:
w2c = dict()
for item in Skip_Gram_model.wv.vocab :
    w2c[item] = Skip_Gram_model.wv.vocab[item].count

In [61]:
words = Skip_Gram_model.wv.index2word
vectors = Skip_Gram_model.wv.vectors
Skip_Gram_model_result = dict(zip(words, vectors))
Skip_Gram_model.most_similar('사퇴/Noun', topn=20)

  after removing the cwd from sys.path.


[('치닫는/Verb', 0.9999467134475708),
 ('부담/Noun', 0.9999353885650635),
 ('집회/Noun', 0.9998221397399902),
 ('초읽기/Noun', 0.9997962713241577),
 ('뒤/Noun', 0.9996634721755981),
 ('따라/Verb', 0.9996448159217834),
 ('위해/Noun', 0.9995923638343811),
 ('공세/Noun', 0.9995636940002441),
 ('이슈/Noun', 0.9993616938591003),
 ('자진/Noun', 0.9985596537590027),
 ('당연한/Adjective', 0.9983656406402588),
 ('폭풍/Noun', 0.998248279094696),
 ('수준/Noun', 0.9974390864372253),
 ('경실련/Noun', 0.9972667098045349),
 ('대안/Noun', 0.9969713687896729),
 ('경우/Noun', 0.9969574809074402),
 ('압박/Noun', 0.9968871474266052),
 ('워터게이트/Noun', 0.9967479109764099),
 ('대한/Noun', 0.9967138171195984),
 ('추석/Noun', 0.9966588020324707)]

In [62]:
w2v_df = pd.DataFrame(vectors, columns = ['x1', 'x2', 'x3'])
w2v_df['word'] = words
w2v_df = w2v_df[['word', 'x1', 'x2', 'x3']]

### 2. CBOW

In [10]:
CBOW_model = Word2Vec(corpus, size=3, window=3, min_count=4, workers=multiprocessing.cpu_count(), iter=100, sg=0)

In [11]:
CBOW_words = CBOW_model.wv.index2word
CBOW_vectors = CBOW_model.wv.vectors
CBOW_model_result = dict(zip(words, vectors))
CBOW_model.most_similar('사퇴/Noun', topn=20)

  after removing the cwd from sys.path.


[('데스노트/Noun', 0.9999883770942688),
 ('현장/Noun', 0.999874472618103),
 ('VS/Alpha', 0.9998599886894226),
 ('개혁/Noun', 0.9998507499694824),
 ('상실/Noun', 0.9997360706329346),
 ('정의당/Noun', 0.999668300151825),
 ('부적절/Noun', 0.9993557929992676),
 ('사법/Noun', 0.9992281794548035),
 ('따를/Verb', 0.999178409576416),
 ('자진/Noun', 0.9991564750671387),
 ('제외/Noun', 0.9987576007843018),
 ('전문/Noun', 0.9986372590065002),
 ('여론조사/Noun', 0.9985661506652832),
 ('찬성/Noun', 0.9985058307647705),
 ('아닌/Adjective', 0.9984228014945984),
 ('남용/Noun', 0.9982161521911621),
 ('하라/Noun', 0.9980080127716064),
 ('올려/Verb', 0.9979280233383179),
 ('있을/Adjective', 0.9978268146514893),
 ('분노/Noun', 0.9976824522018433)]

In [12]:
CBOW_w2v_df = pd.DataFrame(CBOW_vectors, columns = ['x1', 'x2', 'x3'])
CBOW_w2v_df['word'] = CBOW_words
CBOW_w2v_df = w2v_df[['word', 'x1', 'x2', 'x3']]

In [13]:
# CBOW 모델과 Skip-gram 모델을 비교하면 CBOW의 모델이 조금 더 논리적이라고 개인적으로 생각하지만, 실제 실험 결과에서는 Skip-gram이 CBOW에 비해 전체적으로 다소 좋은 결과를 내는 추세를 보인다. 현재는 대부분의 사람들이 Skip-gram 모델을 사용하는 것 같다.
# 출처 : https://shuuki4.wordpress.com/2016/01/27/word2vec-%EA%B4%80%EB%A0%A8-%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%A6%AC/
# 모델링 결과도 큰 차이가 없어보인다. Skip Gram 방법을 활용하여 분석해보기로 하자

## 인사이트 도출

어떤 단어가 어떤 단어들과 관련이 있는지를 클러스터링을 통해 분석한 후 각 클러스터를 살펴봐 인사이트를 도출하고자 한다.

In [66]:
count = [Skip_Gram_model.wv.vocab[item].count for item in Skip_Gram_model.wv.vocab]
w2v_df["count"] = count # 데이터 프레임에 빈도수 추가

In [67]:
from sklearn.cluster import KMeans

In [91]:
data_points = w2v_df.iloc[:, 1:4].values
kmeans = KMeans(n_clusters=4).fit(data_points)
w2v_df['cluster_id'] = kmeans.labels_

# 약 5일간의 기간 동안의 데이터이므로 클러스터 갯수가 너무 많으면 제대로 주제로 나눠지기 힘들다고 판단해 4로 설정했다.

In [92]:
w2v_df[w2v_df["cluster_id"] == 0].loc[:,("word", "count")].sort_values('count', ascending=False).head(15)

Unnamed: 0,word,count
1,임명/Noun,3114
58,존중/Noun,264
8,대통령/Noun,187
38,문/Noun,127
93,정의/Noun,127
269,이후/Noun,101
72,논의/Noun,82
78,긴급/Noun,79
35,강행/Noun,78
235,리얼미터/Noun,75


In [93]:
w2v_df[w2v_df["cluster_id"] == 1].loc[:,("word", "count")].sort_values('count', ascending=False).head(15)

Unnamed: 0,word,count
12,것/Noun,410
190,학생/Noun,384
89,안/Noun,190
88,포토/Noun,159
5,후보자/Noun,147
73,적/Suffix,142
136,청와대/Noun,136
18,개혁/Noun,95
412,두/Determiner,94
7,청문회/Noun,75


In [94]:
w2v_df[w2v_df["cluster_id"] == 2].loc[:,("word", "count")].sort_values('count', ascending=False).head(15)

Unnamed: 0,word,count
6,딸/Noun,645
10,표창장/Noun,353
62,없이/Adverb,148
43,논문/Noun,145
44,정경/Noun,132
3,부인/Noun,129
17,동양대/Noun,109
4,기소/Noun,108
21,위조/Noun,85
22,소환/Noun,72


In [95]:
w2v_df[w2v_df["cluster_id"] == 3].loc[:,("word", "count")].sort_values('count', ascending=False).head(15)

Unnamed: 0,word,count
66,주광덕/Noun,433
129,공개/Noun,355
132,달라/Noun,347
16,총장/Noun,144
131,했다/Verb,137
196,측/Suffix,94
212,종용/Noun,86
64,증명서/Noun,76
80,생/Noun,75
278,자녀/Noun,67


4개의 집단으로 클러스터링을 했으며, 나름대로 각각 주제를 잘 갖춰서 분류된거 같다.

첫번째 집단의 경우 '임명' 과 '대통령', '문재인' 에 대한 이야기가 주로 언급되었다. 대통령이 임명을 감행함에 따라 혹은 여론조사를 통한 지지율 같은 주제로 볼 수 있었다.

두번째 집단의 경우 '부인' 과 관련된 이슈인 것으로 보인다. 검색 결과 조국의 부인이 해명글을 올렸으며 포토라인 등에 대한 이야기가 나왔다.

세번째 집단의 경우 '딸' 에 대한 이슈로 동양대 표창장 등의 이야기가 나왔다.

네번째 집단의 경우 '주광덕' 의원이 청문회 과정에서 '조국' 에게 제기한 의혹들을 의미하며 아들 및 자녀들에 대한 이야기도 있으며 조국이 관련 인물과 통화를 했다는 의혹도 제기되어 '통화' 등의 키워드도 발견할 수 있었다.

이와 같이 뉴스 기사 제목만을 클러스터링을 해 당시 기간동안 있었던 '조국' 에 관련된 여러 이슈들을 알아볼 수 있었다.