In [34]:
!pip install textrankr
!pip install bs4
!pip install kss
!pip install scipy

Collecting scipy
  Using cached scipy-1.7.3-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (38.1 MB)
Installing collected packages: scipy
Successfully installed scipy-1.7.3


In [54]:
import requests
from bs4 import BeautifulSoup, Comment
from typing import List
from textrankr import TextRank
import random
import kss
from pprint import pprint
import re

class ShortContentError(Exception):
    pass

class ArticleListCrawler:
    def __init__(self, count):
        custom_header = {
          'referer' : 'https://www.naver.com/',
          'user-agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
        }

        list_href = []
        result = []

        section = "정치"
        req = self.get_request(section)
        soup = BeautifulSoup(req.text, "html.parser")

        list_href = self.get_href(soup)

        target = random.randrange(0, count)
        target_url = list_href[target]
        print(target_url)
        oid = target_url.split('/')[5]
        aid = target_url.split('/')[6].split('?')[0]
        print(oid)
        print(aid)

        self.ids = {
          "oid": oid,
          "aid": aid
        }

    def get_href(self, soup) :
        result = []

        div = soup.find("div", class_="list_body newsflash_body")

        for dt in div.find_all("dt", class_="photo"):
            result.append(dt.find("a")["href"])

        return result

    def get_request(self, section) :
        custom_header = {
          'referer' : 'https://www.naver.com/',
          'user-agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
        }

        url = "https://news.naver.com/main/list.nhn"

        sections = {
          "정치" : 100,
          "경제" : 101,
          "사회" : 102,
          "생활" : 103,
          "세계" : 104,
          "과학" : 105
        }

        req = requests.get(url, headers = custom_header,
              params = {"sid1" : sections[section]})

        return req

class MyTokenizer:
    def __call__(self, text: str) -> List[str]:
        tokens: List[str] = text.split()
        return tokens

def summarize(text, line):
    mytokenizer: MyTokenizer = MyTokenizer()
    textrank: TextRank = TextRank(mytokenizer)

    summaries: List[str] = textrank.summarize(text, line, verbose=False)
    return summaries

def getArticle(try_n, content_min_len):
    cnt = 0
    
    while cnt <= try_n:
        try:
            ids = ArticleListCrawler(20).ids
            
            url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=100&oid={}&aid={}'.format(ids['oid'], ids['aid'])
            r = requests.get(url, headers={'User-Agent':'Mozilla/5.0'})
            soup = BeautifulSoup(r.text, 'html.parser')

            title = soup.select_one('.media_end_head_headline').text
            content = soup.select_one('#newsct_article').text
            print(len(content))
            if len(content) < content_min_len:
                raise ShortContentError(f"본문의 길이가 너무 짧습니다. (길이 : {len(content)}")
            
            try:
                subtitle = content.select_one('strong')
            except:
                subtitle = None
            if subtitle is not None: subtitle = subtitle.extract().text
            break

        except Exception as e:
            cnt += 1
            print(f"Error로 인하여 다시 시도합니다. (try : {cnt})")
            print(e)

    content = content.strip()                                                  # 앞뒤 공백 제거
    content= " ".join(re.split("\s+", content, flags=re.UNICODE))
    print(content)
    content = kss.split_sentences(content)                                     # 문장 단위로 분리
    summary = summarize("\n".join(content), 5)                                 # 문장 요약

    return {
      "title": title,
      "subtitle": subtitle,
      "content": content,
      "summary": summary
    }

pprint(getArticle(5, 20))

https://n.news.naver.com/mnews/article/047/0002370574?sid=100
047
0002370574
2645
[인터뷰] 윤종영 경기도의회 예산정책위원회 위원장(국민의힘·연천) ▲ 윤종영 예산정책위원회 위원장 윤종영 경기도의원은 예산정책위원회 위원장으로 선출돼 2024년 6월 30일까지 활동한다. ⓒ 정진희 경기도의회가 예산 정책 심의기능 확대에 나선다. 의회는 지난 11일 '제11대 전반기 예산정책위원회(아래 위원회)'를 구성하고 예·결산 심사 강화를 위한 본격 활동에 돌입했다고 밝혔다.위원회는 도내 주요 사업지에 대한 현장탐방을 통해 의정 역량을 강화하고, 외부 전문가로 구성된 정책자문위원 자문 병행으로 지방재정 건전성을 확보한다는 취지다. 위원장으로 당선된 안전행정위원회 소속 윤종영 도의원(국민의힘·연천)을 통해 자세한 내용을 들어봤다. 윤 도의원은 위원회 활동을 통해 "재정분석에 대한 개선방안 도출을 목표로 하고 있다"라고 포부를 밝혔다.경기도의회 예산결산특별위원회는 추가경정예산안 심의에 있어 양당의 합의를 이끌어내지 못함에 따라 21일 예정돼 있던 원포인트 임시회 본회의도 열리지 않게 됐다. 앞서 경기도는 35조6709억 원 규모의 2차 추경안을 제출했다. 도교육청 추경안은 본예산인 19조1959억 원보다 5조62억 원 늘어난 24조 2021억 원이 책정됐다.국민의힘은 추경예산의 재원이 된 통합재정안정화기금 9000억 원을 일반회계로 전출하는 것이 적법한지를 따지며 민주당 측과 마찰을 빚어왔다. 민주당에서는 추경예산이 통과되지 못할 경우 도민들의 피해가 우려된다는 입장을 보이면서도 경기도교육청 정책사업 예산이 검증 없이 편성됐다고 맞불을 놨다. 윤 도의원은 "애초에 일반회계 전출 요건 충족 여부에 대한 구체적이고 객관적인 근거자료 제시가 부족했다"고 지적했다. 집행부는 당초 세수 추계 시 부동산 거래 활성화를 전제로 했으나, 실제 부동산 거래 침체로 지방세수의 감소가 심화되면서 부족한 재원 충당을 위해 통합재정안정화