# import

In [1]:
# data handling
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import csv
import re
import json

# crawling
import requests
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup

# time control
from time import sleep
from datetime import datetime, date, timedelta

# NLP
import re
import ckonlpy
from ckonlpy.tag import Twitter
import gensim
from gensim import corpora
from gensim.models import CoherenceModel
from gensim.models import LdaModel
from gensim.utils import simple_preprocess
import openai

# NLP Visualization
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis
from wordcloud import WordCloud
import cv2


# customized functions
from news_utils import *
from news_crawling import *
from news_utils import *
from news_words import *
from news_summarize import *

# utils
from tqdm import tqdm
import os

import warnings # FutureWarning 안보이게
warnings.simplefilter(action='ignore', category=DeprecationWarning)

# 다음 뉴스 크롤링

In [None]:
prepared_urls = get_urls_daum()

df_daum = pd.DataFrame({'URL':prepared_urls, '신문사':np.nan, '기자명':np.nan, '제목':np.nan, '본문':np.nan,
                   '날짜':np.nan, '연':np.nan, '월':np.nan, '일':np.nan, '요일':np.nan})

df_daum = news_crawler_daum(df_daum)
display(df_daum.head(3))
display(df_daum.tail(3))

An exception occurred: Message: 



  0%|          | 1/1439 [00:01<27:32,  1.15s/it]

# 네이버 뉴스 크롤링

In [None]:
# 네이버 IT뉴스 게시판에서 근 24시간에 해당하는 페이지 범위 설정
pages = page_lists(endpage=20)

# get_urls함수에 게시판 링크를 입력해 각 뉴스의 URL 저장
prepared_urls = get_urls_naver(pages=pages, hidden_window=True, verbose=False)

# 기사를 담을 데이터프레임 생성

df_naver = pd.DataFrame({'URL':prepared_urls, '신문사':np.nan, '기자명':np.nan, '제목':np.nan, '본문':np.nan,
                   '날짜':np.nan, '연':np.nan, '월':np.nan, '일':np.nan, '요일':np.nan})

# 각 네이버 기사에서 필요한 정보 스크래핑하여 데이터프레임에 적재
df_naver = news_crawler_naver(df_naver)
display(df_naver.head(3))
display(df_naver.tail(3))

# 네이버 뉴스와 다음 뉴스를 Merge 데이터프레임 만들기

In [None]:
df = pd.concat([df_naver, df_daum], axis=0)
df = df.reset_index(drop=True)
df

# 텍스트 전처리

In [None]:
# raw text와 processed text를 비교하기 위해 copy
df_preprocess = df.copy()
df_preprocess['본문'] = df_preprocess['본문'].str.upper() # 전부 대문자로 변경

# twitter 객체에 Noun 단어 adding
twitter = Twitter()

# 사용자 정의 명사 지정 리스트 받기
add_words = get_addwords()
# 불용어 리스트 받기
stop_words = get_stopwords()

for noun in add_words:
    twitter.add_dictionary(noun, 'Noun')

# re와 ckonlpy로 전처리
articles = df_preprocess['본문']

# 본문 Seriese객체에서 index 받아오기
# 기사의 건수(약 1400건)만큼 iter
for idx in tqdm(range(len(articles))): 
    # re로 기본적인 전처리
    text = articles[idx]
    to_remove = '[\n,@\'()‘“”’%./■△\"·]+'
    text = re.sub(to_remove, '', text)
    
    # ckonlpy로 ' '로 구분된 string형태의 corpus 생성
    contents =''
    for temp_word in twitter.nouns(text):
        # 한글자와 불용어 제외
        if (len(temp_word) > 1)&(temp_word not in stop_words):
            contents = contents + ' ' + temp_word
    
    # 전처리를 거친 corpus를 df_preprocess의 본문에 저장
    df_preprocess.loc[idx, '본문'] = contents.strip()

# 중복 제거
df_preprocess = df_preprocess.drop_duplicates(subset=['본문'])
    
######################################## Check result
sleep(2)
print("전처리 전 :")
print("*"*50)
display(df.head(3))
display(df.tail(3))
print('\n\n')
print("전처리 후 :")
print("*"*50)
display(df_preprocess.head(3))
display(df_preprocess.tail(3))
########################################

In [None]:
articles = df_preprocess['본문'].tolist()
articles[0]

# 토픽 모델링 및 Topic Num 최적화

In [None]:
# 리스트 내 리스트 형태로 저장
preprocessed_articles = [article.split(' ') for article in articles]

In [None]:
# corpora.Dictionary
dictionary = corpora.Dictionary(preprocessed_articles)
dictionary.filter_extremes(no_below=10, no_above=0.6)

corpus = [dictionary.doc2bow(article) for article in preprocessed_articles]
texts = [preprocessed_articles[idx] for idx in range(len(corpus))]

In [None]:
PARAM = {
    'RANGES':30,
    'PASSES':1,
    'ITER':100,
    'COHERENCE_METRIC':'c_v',
}

In [None]:
# 2부터 20까지의 토픽 수를 비교하며 정합도 점수 기록
news_coherence_scores = []

for i in tqdm(range(10, PARAM['RANGES']+1), desc="Operating All Topic Ranges"):
    model = LdaModel(corpus=corpus, num_topics=i, id2word=dictionary, passes=PARAM['PASSES'],
                     iterations=PARAM['ITER'])#, alpha=PARAM['ALPHA'], eta=PARAM['ETA'])
    coherence_model = CoherenceModel(model=model, texts=texts, corpus=corpus, dictionary=dictionary, coherence=PARAM['COHERENCE_METRIC'])
    coherence_lda = coherence_model.get_coherence()
    news_coherence_scores.append(coherence_lda)

In [None]:
k = [i for i in range(10, PARAM['RANGES']+1)]
x = np.array(k)
y = np.array(news_coherence_scores)
plt.figure(figsize=(10, 5))
plt.plot(x, y)
plt.xlabel("Number Of Topic(2-"+str(PARAM['RANGES'])+")")
plt.ylabel('Coherence Score')
plt.show()

# Topic Num이 최적화된 모델

In [None]:
find_best = np.array([news_coherence_scores])
Best_Num_Of_Topic = int(np.where(y==find_best.max())[0][0]+10)
print("최적의 토픽 수 :", Best_Num_Of_Topic)
print("정합도 점수 :", round(find_best.max(), 4))

In [None]:
num_topics = Best_Num_Of_Topic
lda_model = LdaModel(corpus, num_topics, dictionary, passes=PARAM['PASSES'], iterations=PARAM['ITER'])#, alpha=PARAM['ALPHA'], eta=PARAM['ETA'])

In [None]:
# LDA 시각화
pyLDAvis.enable_notebook()
p = pyLDAvis.gensim_models.prepare(topic_model=lda_model, corpus=corpus, dictionary=dictionary)
pyLDAvis.display(p)

# 각 토픽에 정합하는 기사 추출

In [None]:
# 각 문서에 대한 주제 분포 가져오기
document_topics = [lda_model.get_document_topics(doc) for doc in corpus]
# document_topics # 1382개

main_topic_list = []

for article_idx, article in enumerate(document_topics):
    max_score = 1e-8
    max_topic_num = -1e-8
    
    # 한 기사안에서 토픽 : 점수
    for topicnum, score in article:
        if score > max_score:
            max_score = score
            max_topic_num = topicnum
    #main_topic_list.append((str(max_topic_num+1)+'번토픽', max_score))
    main_topic_list.append((int(max_topic_num)+1, max_score))

main_topic_list

In [None]:
# 토픽과 점수 추가하여 df_merged로 합치기
df_score = pd.DataFrame(main_topic_list, columns=['토픽', '점수'])
df_merged = pd.concat([df_preprocess, df_score], axis=1)

In [None]:
# 높은 점수 순서대로 정렬한 후, 토픽으로 group을 생성한 후, 상위 5개씩 추출
df_merged = df_merged.drop_duplicates(subset=['제목'])
df_merged = df_merged.sort_values('점수', ascending=False)
df_result = df_merged.groupby('토픽').head(5)
df_result = df_result.sort_values('토픽', ignore_index=True)
df_result['토픽'] = df_result['토픽'].astype(int)
df_result = df_result[['URL', '토픽', '점수', '제목', '본문']]
# 최대 행 제한 해제
pd.set_option('display.max_rows', None)
# 최대 열 제한 해제
pd.set_option('display.max_columns', None)

df_result

# 확인한 결과에서, 메일에 사용할 기사만 추출

In [None]:
select_topic = input('사용할 토픽을 입력하세요')
select_topic = select_topic.split(' ')

cond1 = (df_result['토픽']==int(select_topic[0]))
cond2 = (df_result['토픽']==int(select_topic[1]))
cond3 = (df_result['토픽']==int(select_topic[2]))

df_result = df_result[cond1|cond2|cond3]
df_result

In [None]:
topic_num, topic_keywords = [int(select_topic[0]), int(select_topic[1]), int(select_topic[2])], ['토픽1', '토픽2', '토픽3']
df_result.loc[df_result['토픽'].isin(topic_num), '토픽'] = df_result['토픽'].map(dict(zip(topic_num, topic_keywords)))
df_result

# 메일링 형식으로 데이터프레임 가공 (+ 기사요약)

In [None]:
# Inner Join으로 본문 컬럼 다시 가져와 추가
df_final = pd.merge(df_result, df[['URL', '본문']], on='URL', how='inner')

# 컬럼명 재설정
df_final = df_final.rename(columns={'본문_x':'본문', '본문_y':'원본', 'URL':'link', '제목':'title', '토픽':'topic'})
df_final = df_final.rename(columns={'본문':'wc'})

# 빈 요약 컬럼 추가
df_final['desc'] = np.nan

# 가독성을 위해 순서 변경
df_final = df_final[['topic', 'link', 'wc', 'desc', '원본', 'title']]

# 네이버 클로바를 이용한 요약 추가
df_final = df_final['원본'].apply(summarize_text)

# 본문 요약에 사용한 원본 컬럼 삭제
df_final = df_final.drop(columns=['원본'])

df_final

# 워드클라우드 생성 및 wordclouds 폴더에 저장

In [None]:
# 설정
width = 580
height = 338
max_words=30
mask = cv2.imread('./image/circle.png')
mask = cv2.cvtColor(mask, cv2.COLOR_BGR2GRAY)

In [None]:
# 업로드 하는 for문 짜기

# topic = input('토픽을 입력해주세요.')

# text = ' '.join(df[df['topic']==topic]['desc'])
# wordcloud = WordCloud(font_path='C:/Windows/Fonts/malgun.ttf', width=width, height=height, max_words=max_words,
#                       background_color='white', collocations=False, prefer_horizontal=1, mask=mask).generate(text)
# plt.figure(figsize=(width/100, height/100))
# plt.imshow(wordcloud, interpolation='bilinear')
# plt.axis('off')
# plt.show()
# # save
# image = wordcloud.to_image()
# image.save(formatted_time+'_'+topic+'.jpg')

# git push 후, 데이터 프레임에 추가

In [None]:
!cd Documents/DA28_final_PagePalette/news
!git add *
!git commit -m 'upload wordclouds'
!git push

In [None]:
# https://github.com/jinn0135/DA28_final_PagePalette/blob/news/news/wordclouds/     #####.jpg    ?raw=true