# 뉴스데이터 연관키워드 분석 (2020년 07월 01일 ~ 07월 05일) / 형태소분석 적용

In [None]:
%matplotlib inline

In [2]:
try:
    import pandas as pd
except:
    !pip install pandas
    !pip install numpy==1.19.0
    !pip install matplotlib
    import pandas as pd
    

import numpy as np
import matplotlib.pyplot as plt

import warnings

In [3]:
warnings.filterwarnings("ignore")

## 2. 키워드 추출

#### [2-1) 텍스트 데이터 전처리]

In [None]:
import re

# 텍스트 정제 함수 : 할글 이외의 문자는 전부 제거
def text_cleaning(text):
#     hangul = re.compile('[^ㄱ-ㅎ|가-힣|a-z|A-Z|0-9|\*]') #한글의 정규표현식을 나타냅니다.
    hangul = re.compile('[^ㄱ-ㅎ|가-힣|a-z|A-Z|0-9]') #한글의 정규표현식을 나타냅니다.
    result = hangul.sub(' ', text)
    result = re.sub(' +', ' ', result)
    return result



#### [2-2) KoNLPy를 이용한 키워드 추출 (형태소 분석기)]
#### 한국어 약식 불용어 사전 사용 (http://ranks.nl/stopwords/korean)

In [14]:
# csv파일 불러오기
df = pd.read_csv('news_data_ori_0701_0705.csv')
# df = pd.read_csv('tweet_data_ori_0925.csv')
df.head()

print(df)

df['ko_text'] = df['본문'].apply(lambda x: text_cleaning(x))
df.head()


#konlpy 문서 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/api/konlpy.tag/
#형태소 분석 태그정리 : https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0
#사전 튜닝 : https://cromboltz.tistory.com/18

# from konlpy.tag import Okt
from eunjeon import Mecab
from collections import Counter
from IPython.display import clear_output


korean_stopwords_path = './korean_stopwords.txt'
with open(korean_stopwords_path, encoding='utf8') as f:
    stopwords = f.readlines()
stopwords = [x.strip() for x in stopwords]

nouns_cnt = 1
count_data = []

def get_nouns(x):
    global nouns_cnt, count_data
    
#     nouns_tagger = Okt()
    nouns_tagger=Mecab(dicpath='D:/DEV/python/workspace_python/python1/0.prototype/lib/mecab/mecab-ko-dic')
    nouns = nouns_tagger.nouns(x)
    count_data.extend([y for y in nouns])
#     count_data.extend([z for y in nouns for z in y])

    #한글자 키워드를 제거합니다.
    nouns = [noun for noun in nouns if len(noun) > 1]

    #불용어를 제거합니다.
    nouns = [noun for noun in nouns if noun not in stopwords]

    clear_output(wait=True)
    print(f'형태소,불용어 제거중 .. {round((nouns_cnt / df.shape[0])*100,3)} %')
    nouns_cnt+=1
    
    return nouns



                        생성일                                                 본문
0       2020-09-23 10:10:53  RT @M2MPD: 44초 짜리 티저 44시간째 돌려보는중..\n  ㄴ 이거 방금 ...
1       2020-09-23 10:10:52  RT @treasuremembers: 여러분...거울에 있는 저만 보세요!!!\n다...
2       2020-09-23 10:10:52  RT @bts_love_myself: 유엔 총회에 참여한 방탄소년단의 메시지를 아래...
3       2020-09-23 10:10:52  RT @iyagideul: [비터애플/BL] 제이윰 작가님의 &lt;여우, 꽃피다&...
4       2020-09-23 10:10:52  RT @hellokoook: 이 짤에서 못나가겠네... https://t.co/zC...
...                     ...                                                ...
337513  2020-09-25 07:06:29    @energydrink1215 @lastm2704 @SaintPorte 살려야 한다.
337514  2020-09-25 07:06:29  흑과 백, 선과 악, 빛과 어둠, 참과 거짓, 이슬람교와 그리스도교, 만남과 헤어짐...
337515  2020-09-25 07:06:28  @L4NYU 그거나쁘지않네요 재밌으면됐죠 지나가는사람들한테 너도술래잡기할래!!하면 ...
337516  2020-09-25 07:06:27  @eto__o 이제 곧 주말인데 모이도 놀아...(폭풍이 휩쓸고 간 자리에서 얼빠진...
337517  2020-09-25 07:06:26                           北  통지문에는\n우리국민 월북 시도 없었다

[337518 rows x 2 columns]


In [15]:
# df = df.iloc[:1000,:]


import time
start = time.time()  # 시작 시간 저장

nouns_cnt = 1
# df['nouns'] = df['ko_text'].apply(lambda x: get_nouns(x))
# df['nouns'] = df['본문'].apply(lambda x: get_nouns(x))
df['nouns'] = df['ko_text'].apply(lambda x: get_nouns(x))

print("time :", time.time() - start)  # 현재시각 - 시작시간 = 실행 시간


print(df.shape)
df.head()

형태소,불용어 제거중 .. 100.0 %
(1000, 3)


Unnamed: 0,생성일,본문,nouns
0,2020-09-23 10:10:53,RT @M2MPD: 44초 짜리 티저 44시간째 돌려보는중..\n ㄴ 이거 방금 ...,"[티저, 중, 거, 방금, 요]"
1,2020-09-23 10:10:52,RT @treasuremembers: 여러분...거울에 있는 저만 보세요!!!\n다...,"[거울, 건, 볼, 생각, 거울, 속, 사랑, 트, 레저, 메이커]"
2,2020-09-23 10:10:52,RT @bts_love_myself: 유엔 총회에 참여한 방탄소년단의 메시지를 아래...,"[유엔, 총회, 참여, 방탄소년단, 메시지, 아래, 링크, 확인]"
3,2020-09-23 10:10:52,"RT @iyagideul: [비터애플/BL] 제이윰 작가님의 &lt;여우, 꽃피다&...","[비터, 애플, 제이, 윰, 작가, 여우, 꽃피, 전, 권, 간, 기념, 이벤트, ..."
4,2020-09-23 10:10:52,RT @hellokoook: 이 짤에서 못나가겠네... https://t.co/zC...,[짤]


In [16]:
#빈도 수 구하기.

# count_data = [y for x in df['nouns'].tolist() for y in x]

from collections import Counter
count = Counter(count_data)

node_df = pd.DataFrame(count.items(), columns=['node', 'nodesize'])
# node_df = node_df[node_df['nodesize'] >= 50]

# 형태소 데이터 / csv파일로 저장
df.to_csv('save/tmp_mecab_data_growth.csv', index=False)
# 카운트 데이터 / csv파일로 저장
node_df.to_csv('save/tmp_mecab_count_growth.csv', index=False)

node_df.head()

Unnamed: 0,node,nodesize
0,티저,2
1,중,23
2,거,39
3,방금,3
4,요,22


In [17]:
from ast import literal_eval

# literal_eval이 기본 자료형만
# eval은 모든 스트링을 코드화

df = pd.read_csv('save/tmp_mecab_data_growth.csv',  converters={'nouns': literal_eval})
# df = pd.read_csv('save/tmp_data2.csv', converters={'nouns': eval})
node_df = pd.read_csv('save/tmp_mecab_count_growth.csv')

## 3. 연관 키워드 추출하기

### [트위터 연관 키워드 분석]

In [18]:
transactions = df['nouns'].tolist()
transactions = [transaction for transaction in transactions if transaction] # 공백 문자열을 방지합니다.and
# transactions

In [None]:
# pyfpgrowth 사용 준비
# 라이브러리 패키지 정보 : https://pypi.org/project/pyfpgrowth/
# 문서 : https://fp-growth.readthedocs.io/en/latest/
try:
    import pyfpgrowth
except:
    !pip install pyfpgrowth
    import pyfpgrowth

In [20]:
import time
start = time.time()  # 시작 시간 저장

#재귀 제한 수정
import sys 
sys.setrecursionlimit(6000)   # 기본 값 : 3000


patterns = pyfpgrowth.find_frequent_patterns(transactions, 2)
# rules = pyfpgrowth.generate_association_rules(patterns, 0.7)

# df2 = pd.DataFrame(te_result, columns=te.columns_)

# itemset = apriori2(df2, min_support=0.05, use_colnames=True)
# itemset
print("time :", time.time() - start)  # 현재시각 - 시작시간 = 실행 시간
# patterns


time : 11.767228603363037


In [21]:
start = time.time()  # 시작 시간 저장
rules = pyfpgrowth.generate_association_rules(patterns, 0.001)
print("time :", time.time() - start)  # 현재시각 - 시작시간 = 실행 시간
rules

time : 720.1234750747681


{('여우',): (('꽃피', '분', '이벤트', '작가', '전권', '화'), 1.0),
 ('작가',): (('분', '이벤트', '화'), 0.3333333333333333),
 ('중',): (('분',), 0.13043478260869565),
 ('관', '여우'): (('꽃피', '분', '이벤트', '중'), 3.0),
 ('발표', '여우'): (('관', '꽃피', '분', '이벤트', '전', '중'), 3.0),
 ('기념', '여우'): (('관', '꽃피', '발표', '분', '이벤트', '전', '중', '트윗'), 3.0),
 ('권', '여우'): (('관', '기념', '꽃피', '당첨', '발표', '분', '이벤트', '전', '중', '트윗'), 3.0),
 ('여우',
  '추첨'): (('관',
   '권',
   '기념',
   '꽃피',
   '당첨',
   '발표',
   '분',
   '이벤트',
   '전',
   '중',
   '트윗',
   '화'), 3.0),
 ('간',
  '여우'): (('관',
   '권',
   '기념',
   '꽃피',
   '당첨',
   '발표',
   '분',
   '세',
   '이벤트',
   '전',
   '중',
   '추첨',
   '트윗',
   '화'), 3.0),
 ('여우', '작가'): (('꽃피', '분', '이벤트', '전권', '화'), 1.0),
 ('세',
  '여우'): (('관',
   '권',
   '기념',
   '꽃피',
   '당첨',
   '발표',
   '분',
   '이벤트',
   '전',
   '중',
   '추첨',
   '트윗',
   '화'), 3.0),
 ('여우', '화'): (('꽃피', '분', '이벤트', '작가', '전권'), 1.0),
 ('당첨', '여우'): (('관', '기념', '꽃피', '발표', '분', '이벤트', '전', '중', '트윗'), 3.0),
 ('여우', '트윗'): (('관'

In [31]:
# aa = rules[('차',)] #쓰레기
print(type(rules))

# aa = rules.keys()
aa = rules.get(('트윗',))

print(aa)


<class 'dict'>
None
