# Naver News Headline & URL Collector

* **`알림사항`** : 2021년 5월을 기준으로 생성된 코드입니다!

* 검색엔진 : **네이버 뉴스(최신순)**
* 입력 : **`키워드`**, **`페이지 수`**
* 결과 :
    * 콘솔 출력 & **`뉴스 헤드라인`**, **`언론사`**, **`기사 URL`** 이 정리된 **`.csv`** 파일
    * 결과 파일 위치 : 지정된 경로, 'bs'폴더의 'naver'폴더 내부
    * 결과 파일 이름 : `naver_news_recent_키워드_연월일.csv`

# Imports
* 없는 패키지는`!pip install`을 사용하여 설치해 줍니다.

In [1]:
import requests
from bs4 import BeautifulSoup
import csv #> csv 파일 처리
import os
from datetime import datetime

# Define Functions
* 필요한 함수 정의
* **`naver_news_recent_page_url()`** : 네이버 뉴스 검색란의 키워드, 페이지별 URL 수집
* **`naver_news_search_recent_by_pages()`** : 뉴스 크롤링 & 저장 & 콘솔 출력

In [2]:
def naver_news_recent_page_url(keyword:str, pages:int) -> list:
    """네이버 뉴스 검색란의 keyword, page별 URL 수집하는 함수"""
    
    urls = []
    startpage = (pages - 1) * 10 + 1
    
    for page in range(1, pages + 1):
        url = f'https://search.naver.com/search.naver?where=news&query={keyword}&sm=tab_srt&sort=1&photo=0&field=0&reporter_article=&pd=0&ds=&de=&docid=&nso=so%3Add%2Cp%3Aall%2Ca%3Aall&mynews=0&refresh_start={startpage}&related=0'
        urls.append(url)
        
    return urls

In [3]:
def naver_news_search_recent_by_pages(urls:list) -> None:
    """네이버 뉴스 검색란에 키워드(keyword), 페이지 수(pages)를 입력하여,
    검색된 최신 뉴스의 헤드라인과 URL, 언론사 크롤링 후
    'bs'폴더의 'naver'폴더 내에 'naver_news_recent_키워드_연월일.csv'로 저장,
    콘솔에도 출력"""
    
    naver_news_list = []
    press_list = []
    
    selector_headline = 'ul.list_news div > div.news_area > a'
    selector_press = 'div.news_info > div.info_group > a.info.press'

    for page, url in enumerate(urls):
        response = requests.get(url)
        
        if response.ok:
            html = response.text.strip()
            soup = BeautifulSoup(markup=html, features='html5lib')
            headlines = soup.select(selector_headline)
            press_names = soup.select(selector_press)
            
            for press in press_names:
                press_list.append(press.text)
                
            for i,headline in enumerate(headlines):
                naver_news_list.append([headline.text.strip(), press_list[i], headline['href']])
                print(f'[{(page)*10 + i + 1}]{headline.text.strip()} - {press_list[i]} : {headline["href"]}')
                
    execute_date=datetime.today().strftime("%y%m%d")
    execute_time=datetime.today().strftime("%H%M%S")
    
    # .csv 파일 저장 경로 설정
    default_dir = 'E:/git_github_regenesis90/Python_JupyterLab/downloads/bs/'
    folder_name = f'naver_news_recent_{keyword}'
    download_dir = os.path.join(default_dir, folder_name)
    
    if not os.path.exists(download_dir):
        os.makedirs(download_dir) #> 저장할 경로가 없으면, 폴더를 만들어 주는 명령어
    
    with open(file = f'{download_dir}/naver_news_recent_{keyword}_{execute_date}_{execute_time}.csv', mode='w', encoding='UTF-8', newline='') as f: #> 지정된 경로와 파일이름으로 .csv 저장
        writer=csv.writer(f)
        writer.writerow(["Headline", "Press", "URL"])
        writer.writerows(naver_news_list)

In [4]:
def naver_news_search_recent(keyword:str, pages:int):
    naver_news_search_recent_by_pages(naver_news_recent_page_url(keyword, pages))

# RUN! 
* 검색을 원하는 키워드와 페이지 수를 입력해 주세요

In [5]:
keyword = input('키워드 입력: ')
pages = int(input('페이지 수 입력: '))
naver_news_search_recent(keyword, pages)

키워드 입력:  로또
페이지 수 입력:  3


[1][경제뭐니] ‘로또 아파트’ 대책…재개발 단지에선 왜? - KBS : https://news.kbs.co.kr/news/view.do?ncd=5190485&ref=A
[2]세종-세종 한전까지 특공혜택…혜택만 받고 퇴직까지 - 한국경제TV : http://www.wowtv.co.kr/NewsCenter/News/Read?articleId=A202105200381&t=NN
[3]한전도 '로또 특혜' 논란…세종→세종 �ケ穗� 데 특공 - 에너지경제 : https://www.ekn.kr/web/view.php?key=20210520010004018
[4][경제뭐니] ‘로또 아파트’ 대책…재개발 단지에선 왜? - KBS : https://news.kbs.co.kr/news/view.do?ncd=5190322&ref=A
[5]전북에 상륙한 미국복권 '약 인가? 독 인가?' - 전북도민일보 : http://www.domin.co.kr/news/articleView.html?idxno=1340778
[6]세종→세종 이전하는데도 '특공'…시민들 "공무원 돈벌이 수단" - 중앙일보 : https://news.joins.com/article/olink/23657423
[7]세종→세종 옮긴 한전지사도 특공…분양만 받고 관둔 직원도 - 중앙일보 : https://news.joins.com/article/olink/23657420
[8]세종에서 세종으로 옮겼는데도 특공…한전 직원도 ‘특공 특혜’ 논란 - 헤럴드경제 : http://news.heraldcorp.com/view.php?ud=20210520000944
[9]세종에서 세종으로 옮겼는데도 특공…한전도 '특공 특혜' 논란(종합) - 연합뉴스언론사 선정 : http://yna.kr/AKR20210520163000003?did=1195m
[10]연금복권 720 55회 당첨결과확인 및 당첨금액 정보 - 톱스타뉴스 : http://www.topstarnews.net/news/articleView.html?idxno=7024505
