In [1]:
import pandas as pd
import re
# coding: utf-8

# 만든 기능 임포트
from crawling import UrlCrawling, ContentCrawling
from preprocessing import Preprocessing
from clustering import Clustering
from summary import Summary
from remove import Remove
from database import insert, selectAll, selectToDay
from tts import tts

In [2]:
# url 크롤링
url_crawler = UrlCrawling()     # 기사 링크 크롤링 객체

six_url_df = url_crawler.getSixUrl()                            # 6개 카테고리 (카테고리, url 데이터프레임)
entertainment_url_df = url_crawler.getEntertainmentUrl()        # 연예 (카테고리, url 데이터프레임)
sports_url_df = url_crawler.getSportsUrl()                      # 스포츠 (카테고리, url 데이터프레임)

Remove.duplication(six_url_df, entertainment_url_df, sports_url_df)     # 이미 요약한 기사 제거

# 본문 크롤링
six_url, entertainment_url, sports_url = list(six_url_df['six_url']), list(entertainment_url_df['entertainment_url']), list(sports_url_df['sports_url'])
all_url = six_url + entertainment_url + sports_url      # 전체 url
category = list(six_url_df['category']) + list(entertainment_url_df['category']) + list(sports_url_df['category'])

content_crawler = ContentCrawling()     # 기사 크롤링 객체

content_crawler.getSixContent(six_url)                                          # 6개 카테고리 기사 크롤링
content_crawler.getEntertainmentContent(entertainment_url)                      # 연예 기사 크롤링
content_crawler.getSportsContent(sports_url)                                    # 스포츠 기사 크롤링

news_df = content_crawler.makeDataFrame(all_url, category)                      # 본문 데이터프레임 생성

Remove.photoNews(news_df)                                                       # 포토 기사 삭제
Remove.shortNews(news_df)                                                       # 3문장 이하 기사 삭제

Preprocessing.getNouns(news_df)                                                 # 명사 추출

Remove.englishNews(news_df)                                                     # 영어 기사 삭제

vector_list = Preprocessing.getVector(news_df)                                  # 명사 벡터화

Clustering.addClusterNumber(news_df, vector_list)                               # 군집 번호 열 생성
cluster_counts_df = Clustering.getClusteredArticle(news_df)                     # 군집 개수 카운트한 df

summary_news = Summary.getSummaryArticle(news_df, cluster_counts_df)            # 요약한 기사 데이터 프레임 반환

Preprocessing.convertCategory(summary_news)                                     # 카테고리 이름을 번호로 변경

Remove.similarNews(summary_news)                                                # 오늘 요약한 기사와 유사한 기사 drop                       

정치 1 페이지
경제 1 페이지
사회 1 페이지
생활/문화 1 페이지
세계 1 페이지
IT/과학 1 페이지
연예 1 페이지
스포츠 1 페이지
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 


In [3]:
insert(summary_news)

insert 성공


In [5]:
df = selectToDay()

In [79]:
from collections import Counter

t = df['KEYWORD'].explode()
tmp = t[t.apply(lambda x : len(x) >= 2)]
print(", ".join(tmp))
# Counter(tmp).most_common(5)

서진, 최영, 기자, 국민, 대변인, 이재명, 민주당, 대표, 습격, 피의자, 모씨, 과거, 국힘, 당적, 논란, 대해, 수사, 기관, 요청, 경우, 협조, 대변인, 국회, 대위, 회의, 기자, 모씨, 국민, 당적, 보유, 여부, 대해, 당적, 관련, 저희, 정보, 충분, 동명이인, 다른, 분일, 경우, 피해, 확인, 수사, 기관, 요청, 경우, 협조, 경찰, 당적, 확인, 요청, 대해, 요청, 위원장, 대표, 병문안, 계획, 있냔, 질문, 대표, 쾌유, 외부, 병문안, 상황, 관련, 저런, 억측, 우리, 당내, 우리, 당원, 현재, 자제, 계시, 전혀, 우리, 억측, 음모, 대해, 의심, 대변인, 한동훈, 비대, 위원, 회의, 비대, 위원, 인재, 우리, 대위, 성공, 우리, 성공, 구가, 강조, 사람, 제안, 부탁, 여기, 비대, 위원, 모두, 인재, 위원, 자세, 추천, 당부, 앞서, 위원장, 회의, 발언, 비대, 위원장, 직접, 인재, 위원장, 대변인, 위원장, 위원, 라며, 실무, 단계, 직접, 진행, 취지, 부연, 의원, 이준석, 대표, 개혁, 신당, 합류, 선언, 대해, 전반, 영향, 현재, 판단, 현재, 시간, 탈당, 접수, 안대희, 대법관, 공천, 관리, 위원장, 하마, 오른, 대해, 전체, 국민, 상일, 법조인, 논란, 바람, 기대, 우려, 이재명, 민주당, 대표, 불의, 피습, 자리, 비운, 민주당, 모든, 당무, 대응, 방안, 모색, 총선, 개월, 만큼, 대표, 공백, 불구, 당무, 차질, 진행, 계획, 중환자실, 회복, 치료, 대표, 면회, 총선, 레이스, 잠시, 홍익표, 민주당, 원내대표, 오전, 서울, 여의도, 국회, 비상, 의원, 총회, 마치, 이재명, 대표, 피습, 관련, 입장, 발표, 민주당, 국회, 비상, 의원, 총회, 대표, 부상, 상태, 치료, 방안, 공유, 향후, 운영, 관련, 대응, 방법, 논의, 무엇, 이번, 사건, 정치, 확산, 집중, 민주당, 의원, 총회, 경찰, 당국, 수사, 상황, 보도, 모니터링, 대표, 정치