In [12]:
import pandas as pd

# coding: utf-8

# 만든 기능 임포트
from crawling import UrlCrawling, ContentCrawling
from preprocessing import Preprocessing
from clustering import Clustering
from summary import Summary
from database import insert, select
from tts import tts

In [13]:
# 링크 크롤링하는 객체 생성
url_crawler = UrlCrawling()

six_url = url_crawler.getSixUrl()                          # 6개 카테고리 url
entertainment_url = url_crawler.getEntertainmentUrl()      # 연예 url
sports_url = url_crawler.getSportsUrl()                    # 스포츠 url
all_url = six_url + entertainment_url + sports_url        # 전체 url
category = url_crawler.category                            # 카테고리 리스트

# 본문 크롤링하는 객체 생성
content_crawler = ContentCrawling([], [], [], [])

content_crawler.getSixContent(six_url)
content_crawler.getEntertainmentContent(entertainment_url)
content_crawler.getSportsContent(sports_url)

article_df = content_crawler.makeDataFrame(all_url, category)                   # 본문 데이터프레임 생성

article_df = Preprocessing.getNouns(article_df)                                 # 명사 추출

Preprocessing.removeEnglishArticle(article_df)                                  # 영어 기사 삭제

vector_list = Preprocessing.getVector(article_df)                               # 명사 벡터화

Clustering.addClusterNumber(article_df, vector_list)                            # 군집 번호 열 생성
cluster_counts_df = Clustering.getClusteredArticle(article_df)                  # 군집 개수 카운트한 df

summary_article = Summary.getSummaryArticle(article_df, cluster_counts_df)              # 요약한 기사 데이터 프레임 반환
summary_article = Preprocessing.convertCategory(summary_article)

정치 1 페이지
연예 1 페이지
스포츠 1 페이지
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
크롤링 안 한 카테고리 : 경제
크롤링 안 한 카테고리 : 사회
크롤링 안 한 카테고리 : 생활/문화
크롤링 안 한 카테고리 : 세계
크롤링 안 한 카테고리 : IT/과학


In [19]:
summary_article.drop(summary_article['content'][summary_article['content'] == '요약 실패'].index, inplace=True)
summary_article.reset_index(inplace=True, drop=True)

In [20]:
summary_article

Unnamed: 0,category,title,content,img,url
0,100,"김영배 ""민주당 비대위 전환? 섣부른 얘기...이낙연 나가면 안 돼""","""엑스포 유치 실패, 참담을 넘어 분노"" ""다당제 요소, 연합 정치적 요소 도입...",https://imgnews.pstatic.net/image/437/2023/12/...,https://n.news.naver.com/mnews/article/437/000...
1,100,"“86운동권의 이기적 정치 끝내자”, 與 ‘동부벨트’ 이승환·이재영·김재섭",내년 총선에서 이를 부각해야 한다”고 했다.공교롭게도 이들 3인방이 출마하는 서울...,https://imgnews.pstatic.net/image/081/2023/12/...,https://n.news.naver.com/mnews/article/081/000...
2,100,"與 비대위원장, 원희룡이냐 한동훈이냐…비상의총서 '격론'","이용호 국민의힘 의원은 ""한 장관 같은 분을 모셔야 한단 얘기가 상당수 있었다""며 ...",https://imgnews.pstatic.net/image/008/2023/12/...,https://n.news.naver.com/mnews/article/008/000...
3,100,김기현 끌어내린 장제원 나비효과,장제원 국민의힘 의원의 불출마 선언 이후 장고에 들어갔던 김기현 국민의힘 대표가 결...,https://imgnews.pstatic.net/image/053/2023/12/...,https://n.news.naver.com/mnews/article/053/000...
4,100,“한동훈 비대위? 새로운 김주애 올리려는 것…이러면 또 탄핵”,지성호 의원 등이 한동훈 법무부 장관을 비대위원장으로 앉혀야 한다고 주장하자 김웅 ...,https://imgnews.pstatic.net/image/028/2023/12/...,https://n.news.naver.com/mnews/article/028/000...
5,106,"스님 사칭한 발전기 도둑, 총선 특수 노린 범죄일까(궁금한이야기Y)",발전기 도둑이 전국을 누비고 있다.12월 15일 방송되는 SBS '궁금한 이야기 Y...,https://ssl.pstatic.net/mimgnews/image/609/202...,https://entertain.naver.com/now/read?oid=609&a...
6,106,‘금쪽같은 내새끼’ 가족 내 균형과 서열이 무너졌다…설 자리를 잃은 엄마와 권력자 ...,"금쪽이는 왜 엄마의 지시에 분노하는 것일지, 엄마를 무시하는 금쪽이의 이유는 무엇일...",https://ssl.pstatic.net/mimgnews/image/449/202...,https://entertain.naver.com/now/read?oid=449&a...
7,106,"허경환 “신인 시절 7번 연속 NG, 관객 1천 명이 대사 외쳐”(비보티비)",다들 괜찮다고 하고 넘겼는데 또 NG가 났다“라고 7번이나 반복된 상황을 전했다.이...,https://ssl.pstatic.net/mimgnews/image/609/202...,https://entertain.naver.com/now/read?oid=609&a...
8,106,"'스위트홈2' 이진욱 ""나체로 잔혹한 연기하니 카타르시스 있더라""",'스위트홈' 시즌2가 공개되고 새로운 많은 캐릭터가 소개된 가운데 가장 미스터리한 ...,https://ssl.pstatic.net/mimgnews/image/408/202...,https://entertain.naver.com/now/read?oid=408&a...
9,106,"'시골경찰 리턴즈2' 정형돈 ""일하면서 오히려 힐링 ..컴백 감사하다""(일문일답)",정형돈이 ‘시골경찰 리턴즈2’에 대한 남다른 애정을 드러냈다.MBC에브리원 ‘시골경...,https://mimgnews.pstatic.net/image/112/2023/12...,https://entertain.naver.com/now/read?oid=112&a...


In [21]:
# csv로 저장
summary_article.to_csv("tts_test.csv",index=False, encoding="utf-8-sig")

In [22]:
df = pd.read_csv("tts_test.csv")
df

Unnamed: 0,category,title,content,img,url
0,100,"김영배 ""민주당 비대위 전환? 섣부른 얘기...이낙연 나가면 안 돼""","""엑스포 유치 실패, 참담을 넘어 분노"" ""다당제 요소, 연합 정치적 요소 도입...",https://imgnews.pstatic.net/image/437/2023/12/...,https://n.news.naver.com/mnews/article/437/000...
1,100,"“86운동권의 이기적 정치 끝내자”, 與 ‘동부벨트’ 이승환·이재영·김재섭",내년 총선에서 이를 부각해야 한다”고 했다.공교롭게도 이들 3인방이 출마하는 서울...,https://imgnews.pstatic.net/image/081/2023/12/...,https://n.news.naver.com/mnews/article/081/000...
2,100,"與 비대위원장, 원희룡이냐 한동훈이냐…비상의총서 '격론'","이용호 국민의힘 의원은 ""한 장관 같은 분을 모셔야 한단 얘기가 상당수 있었다""며 ...",https://imgnews.pstatic.net/image/008/2023/12/...,https://n.news.naver.com/mnews/article/008/000...
3,100,김기현 끌어내린 장제원 나비효과,장제원 국민의힘 의원의 불출마 선언 이후 장고에 들어갔던 김기현 국민의힘 대표가 결...,https://imgnews.pstatic.net/image/053/2023/12/...,https://n.news.naver.com/mnews/article/053/000...
4,100,“한동훈 비대위? 새로운 김주애 올리려는 것…이러면 또 탄핵”,지성호 의원 등이 한동훈 법무부 장관을 비대위원장으로 앉혀야 한다고 주장하자 김웅 ...,https://imgnews.pstatic.net/image/028/2023/12/...,https://n.news.naver.com/mnews/article/028/000...
5,106,"스님 사칭한 발전기 도둑, 총선 특수 노린 범죄일까(궁금한이야기Y)",발전기 도둑이 전국을 누비고 있다.12월 15일 방송되는 SBS '궁금한 이야기 Y...,https://ssl.pstatic.net/mimgnews/image/609/202...,https://entertain.naver.com/now/read?oid=609&a...
6,106,‘금쪽같은 내새끼’ 가족 내 균형과 서열이 무너졌다…설 자리를 잃은 엄마와 권력자 ...,"금쪽이는 왜 엄마의 지시에 분노하는 것일지, 엄마를 무시하는 금쪽이의 이유는 무엇일...",https://ssl.pstatic.net/mimgnews/image/449/202...,https://entertain.naver.com/now/read?oid=449&a...
7,106,"허경환 “신인 시절 7번 연속 NG, 관객 1천 명이 대사 외쳐”(비보티비)",다들 괜찮다고 하고 넘겼는데 또 NG가 났다“라고 7번이나 반복된 상황을 전했다.이...,https://ssl.pstatic.net/mimgnews/image/609/202...,https://entertain.naver.com/now/read?oid=609&a...
8,106,"'스위트홈2' 이진욱 ""나체로 잔혹한 연기하니 카타르시스 있더라""",'스위트홈' 시즌2가 공개되고 새로운 많은 캐릭터가 소개된 가운데 가장 미스터리한 ...,https://ssl.pstatic.net/mimgnews/image/408/202...,https://entertain.naver.com/now/read?oid=408&a...
9,106,"'시골경찰 리턴즈2' 정형돈 ""일하면서 오히려 힐링 ..컴백 감사하다""(일문일답)",정형돈이 ‘시골경찰 리턴즈2’에 대한 남다른 애정을 드러냈다.MBC에브리원 ‘시골경...,https://mimgnews.pstatic.net/image/112/2023/12...,https://entertain.naver.com/now/read?oid=112&a...


In [23]:
tts(df)

InvalidArgument: 400 Either `input.text` or `input.ssml` is longer than the limit of 5000 bytes. This limit is different from quotas. To fix, reduce the byte length of the characters in this request, or consider using the Long Audio API: https://cloud.google.com/text-to-speech/docs/create-audio-text-long-audio-synthesis.

In [22]:
insert(summary_article.values.tolist())

In [25]:
select()

Unnamed: 0,NEWS_ID,CATE_ID,TITLE,CONTENT,IMG,LINK,VIEWS
0,20231129201,100,尹 국정2기 민생 드라이브 대통령실 '정책실장' 부활,총선을 앞두고 2기 대통령실 출범과 함께 민생을 위해 정책 분야에 더 집중하겠다는 ...,https://imgnews.pstatic.net/image/009/2023/11/...,https://n.news.naver.com/mnews/article/009/000...,0
1,20231129202,100,'사단장 진술서'는 빼고 '박 대령 비판 칼럼'은 증거로?,XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX,,https://n.news.naver.com/mnews/article/214/000...,0
2,20231129203,100,"2030 엑스포, 박빙이라더니… / 김정은, 딸도 “샛별 장군” / 한동훈-이정재,...",[이재명 / 더불어민주당 대표 (오늘)]2030 엑스포 부산 유치가 불발됐습니다. ...,,https://n.news.naver.com/mnews/article/449/000...,0
3,20231129204,100,"'尹, 총선 승리시 계엄령' 민주당 주장에…與 ""국민 무시한 발언""",XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX,https://imgnews.pstatic.net/image/008/2023/11/...,https://n.news.naver.com/mnews/article/008/000...,0
4,20231129205,100,"홍익표 ""법사위 정상화 안 되면 모든 수단 동원해 김도읍 책임 물을 것""","홍 원내대표, 29일 오전 ""법사위 정상화 안 될 경우 중대한 결심"" 선언 ""이 문...",https://imgnews.pstatic.net/image/003/2023/11/...,https://n.news.naver.com/mnews/article/003/001...,0
5,20231129206,100,"전현희, '추미애子 유권해석에 개입' 수사 궤도에",", 법무부 장관의 가족을 검찰이 수사하면 그게 이해충돌인지 아닌지를 권익위가 판단하...",,https://n.news.naver.com/mnews/article/448/000...,0
6,20231129207,100,재건축 대못 ‘재초환’ 풀린다…초과이익 8000만원까지 부담금 면제,"부담금을 부과하는 초과이익 기준을 3000만원에서 8000만원으로 올리고, 부과 구...",https://imgnews.pstatic.net/image/022/2023/11/...,https://n.news.naver.com/mnews/article/022/000...,0
7,20231129208,100,여야 '이동관·검사탄핵' 두고 대치…국힘 '연좌농성' 예고,"민주당은 30일과 1일 이틀 본회의로 탄핵을 강행한다는 계획인 반면, 국민의힘은 탄...",https://imgnews.pstatic.net/image/031/2023/11/...,https://n.news.naver.com/mnews/article/031/000...,0
8,20231129209,100,"북, 김주애 '조선의 샛별 여장군' 신격화…후계자 작업 나섰나","【 앵커멘트 】 '사랑하는 자제분', '존귀하신 자제분'으로 불리던 북한 김정은 ...",,https://n.news.naver.com/mnews/article/057/000...,0
9,202311292010,100,김종민 “‘원칙없는 승리보다 원칙있는 패배를 택하겠다’는 노무현의 말 떠올라”,이재명 대표가 선거제 개편과 관련 ‘병립형 비례대표제 회귀’ 또는 위성정당 창당 가...,https://imgnews.pstatic.net/image/021/2023/11/...,https://n.news.naver.com/mnews/article/021/000...,0
