# 네이버 자주 본 뉴스 크롤링

1) 수집내용

    1) 많이본뉴스–섹션별(정치~IT/과학)Top5기사제목,신문사,뷰 
    2) 해당 기사별 기사 내용, 리액션 (좋아요 ~ 후속기사 원해요)
    
2) 수집방법(택1)

    1) [기본] Requests , BeautifulSoup, Selenium
    2) [심화] Requests, BeautifulSoup (+ 멀티프로세싱)
    
3) 수집범위 및 저장

    1) 2019년7월21일~2020년8월20일(동작가능,실제구동x)
    2) 하나의 파일로 저장 (방식 자유)
    3) Ex)총6섹션*Top5*365일=10950rows

In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

from selenium import webdriver
from IPython.display import Image
import os
from pathlib import Path
import glob

import datetime

## 날짜 String 생성

In [2]:
start_date = datetime.datetime(2019, 7, 21, 3, 22, 32)
# start_date.strftime("%Y%m%d %Y-%m-%d 시간 표시외 %H:%M:%S 아무거나 넣어도 됩니다.") #strftime 활용 예시
start_date.strftime('%Y%m%d')

'20190721'

In [3]:
def get_date_string(start_date, period=365):
    # 20190721 형태의 Date String List 생성
    return [
        (start_date + datetime.timedelta(days=day)).strftime("%Y%m%d")
        for day in range(period)
    ]

In [4]:
date_string_list = get_date_string(start_date, 366)

In [5]:
date_string_list[0], date_string_list[-1] # 생성 완료

('20190721', '20200720')

## Part 1. Request를 이용한 크롤링

In [313]:
def get_top_news(date):
    """
    해당 날짜의 자주 본 뉴스 30개에 대한 정보를 반환하는 함수입니다.
    """
    url = f"https://news.naver.com/main/ranking/popularDay.nhn?rankingType=popular_day&date={date}" # 이부분을 잘 채워넣어주세요 (네이버 뉴스 자주보는 뉴스 링크에서 date를 제외한 부분)
    res = requests.get(url)
    soup = BeautifulSoup(res.text, "html.parser")
    
    result = []
    
    # soup.select를 잘 활용하여

    for i in range(30):
        # 1. 신문 제목 
        # 2. 기사 링크 (a tag의 href 속성)
        html = soup.select('.ranking_section > ol > li > dl > dt > a')[i]
        title = html.attrs['title'] 
        link = html.attrs['href'] 
        
        # 3. 신문사명
        # 4. View
        if (i+1) % 5 == 1: # dd tag의 경우, 각 섹션의 1위 기사
            press = soup.select('.ranking_section > ol > li > dl > dd > span:nth-of-type(2)')[int(i//5)].text.strip()
            view = soup.select('.ranking_section > ol > li > dl > dd > .count_view')[int(i//5)].text
        else: # dt tag의 경우, 각 섹션의 2~5위 기사
            press = soup.select('.ranking_section > ol > li > dl > dt > span:nth-of-type(1)')[int(i-((i//5)+1))].text.strip()
            view = soup.select('.ranking_section > ol > li > dl > dt > .count_view')[int(i-((i//5)+1))].text
           
        result.append([title, link, press, view])

    return result

In [317]:
TEST_DATE_RANGE = 20 # 1년치 전체를 하는 것이 아닌 앞 20일치만 테스트 해보기 위함 (개인적으로 바꿔도 무방)

news_data = []
for date in date_string_list[:TEST_DATE_RANGE]:
     news_data.extend(get_top_news(date)) # 결과로 나온 30개를 이어 붙임

In [318]:
len(news_data)

600

In [319]:
news_data[:5] # 결과 예시

[['[단독] 황교안 딸 운영 사이트, 대학 진학 후 왜 문 닫았나',
  '/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=032&aid=0002952683&date=20190721&type=1&rankingSectionId=100&rankingSeq=1',
  '경향신문',
  '201,039'],
 ['조국 폭풍페북, 日주장 정면반박…"친일파" 표현은 野 반발',
  '/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=008&aid=0004251344&date=20190721&type=1&rankingSectionId=100&rankingSeq=2',
  '머니투데이',
  '185,396'],
 ['조국, 연일 對日 \'항전\' 주문…"겁먹고 쫄지말자…싸워 이겨야"',
  '/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=001&aid=0010969325&date=20190721&type=1&rankingSectionId=100&rankingSeq=3',
  '연합뉴스',
  '130,198'],
 ['[김순덕의 도발]복수를 하려면 아일랜드처럼!',
  '/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=020&aid=0003230442&date=20190721&type=1&rankingSectionId=100&rankingSeq=4',
  '동아일보',
  '120,897'],
 ['조국, 또 페북에 反日 선전전..."文정부, 서희·이순신 역할⋯싸워야 한다. 쫄지 말자"',
  '/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=023&aid=0003462170&date=20190721&type=

In [332]:
# 결과물을 데이터 프레임으로 변환 및 Column Name 부여
df_top_news = pd.DataFrame(news_data, columns=["title", "url", "press", "views"])

In [333]:
df_top_news

Unnamed: 0,title,url,press,views
0,"[단독] 황교안 딸 운영 사이트, 대학 진학 후 왜 문 닫았나",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,경향신문,201039
1,"조국 폭풍페북, 日주장 정면반박…""친일파"" 표현은 野 반발",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,머니투데이,185396
2,"조국, 연일 對日 '항전' 주문…""겁먹고 쫄지말자…싸워 이겨야""",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,연합뉴스,130198
3,[김순덕의 도발]복수를 하려면 아일랜드처럼!,/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,동아일보,120897
4,"조국, 또 페북에 反日 선전전...""文정부, 서희·이순신 역할⋯싸워야 한다. 쫄지 말자""",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,조선일보,119463
...,...,...,...,...
595,"갤노트10 만져본 미국인들 ""실물 보고싶어 일부러 찾아와""",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,서울경제,173703
596,"""유튜브 뛰어드니""…월급 295만→536만원 '껑충' vs 소득 '극과 극'",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,뉴스1,134014
597,"[SNS 세상] ""공감이 최고의 위로"" 암 투병기 연재하는 뷰티 유튜버",/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,연합뉴스,111786
598,네이버·카카오 2분기 성적표 '희비'…하반기 '페이전쟁' 격돌,/main/ranking/read.nhn?mid=etc&sid1=111&rankin...,뉴스1,77278


In [334]:
# URL 앞에  "https://news.naver.com" 붙이기
df_top_news.url = "https://news.naver.com" + df_top_news.url

In [335]:
df_top_news

Unnamed: 0,title,url,press,views
0,"[단독] 황교안 딸 운영 사이트, 대학 진학 후 왜 문 닫았나",https://news.naver.com/main/ranking/read.nhn?m...,경향신문,201039
1,"조국 폭풍페북, 日주장 정면반박…""친일파"" 표현은 野 반발",https://news.naver.com/main/ranking/read.nhn?m...,머니투데이,185396
2,"조국, 연일 對日 '항전' 주문…""겁먹고 쫄지말자…싸워 이겨야""",https://news.naver.com/main/ranking/read.nhn?m...,연합뉴스,130198
3,[김순덕의 도발]복수를 하려면 아일랜드처럼!,https://news.naver.com/main/ranking/read.nhn?m...,동아일보,120897
4,"조국, 또 페북에 反日 선전전...""文정부, 서희·이순신 역할⋯싸워야 한다. 쫄지 말자""",https://news.naver.com/main/ranking/read.nhn?m...,조선일보,119463
...,...,...,...,...
595,"갤노트10 만져본 미국인들 ""실물 보고싶어 일부러 찾아와""",https://news.naver.com/main/ranking/read.nhn?m...,서울경제,173703
596,"""유튜브 뛰어드니""…월급 295만→536만원 '껑충' vs 소득 '극과 극'",https://news.naver.com/main/ranking/read.nhn?m...,뉴스1,134014
597,"[SNS 세상] ""공감이 최고의 위로"" 암 투병기 연재하는 뷰티 유튜버",https://news.naver.com/main/ranking/read.nhn?m...,연합뉴스,111786
598,네이버·카카오 2분기 성적표 '희비'…하반기 '페이전쟁' 격돌,https://news.naver.com/main/ranking/read.nhn?m...,뉴스1,77278


## Part 2. Selenium을 이용한 크롤링

In [336]:
driver_path =  os.path.join(Path().absolute(),  "chromedriver") # driver 경로 설정

In [338]:
driver = webdriver.Chrome(driver_path) # Chrome driver 실행

In [339]:
df_top_news.url[:10]

0    https://news.naver.com/main/ranking/read.nhn?m...
1    https://news.naver.com/main/ranking/read.nhn?m...
2    https://news.naver.com/main/ranking/read.nhn?m...
3    https://news.naver.com/main/ranking/read.nhn?m...
4    https://news.naver.com/main/ranking/read.nhn?m...
5    https://news.naver.com/main/ranking/read.nhn?m...
6    https://news.naver.com/main/ranking/read.nhn?m...
7    https://news.naver.com/main/ranking/read.nhn?m...
8    https://news.naver.com/main/ranking/read.nhn?m...
9    https://news.naver.com/main/ranking/read.nhn?m...
Name: url, dtype: object

In [369]:
NEWS_TEST_RANGE = 10
for idx, news_url in enumerate(df_top_news.url[:NEWS_TEST_RANGE]):
    # 드라이버 내에서 해당 URL로 이동
    driver.get(news_url)
    
    ## BeautifulSoup 혹은 driver.find_element[s]_by_css_selector 을 이용하여 정보 파싱
    # +기사 내용
    content = driver.find_element_by_css_selector("#articleBodyContents").text
    
    # +5가지 리액션 (좋아요, 훈훈해요, 슬퍼요, 화나요, 후속기사원해요) 투표 수
    # 좋아요
    good = driver.find_element_by_css_selector("#spiLayer > div._reactionModule.u_likeit > ul > li.u_likeit_list.good > a > span.u_likeit_list_count._count").text
    # 훈훈해요
    warm = driver.find_element_by_css_selector("#spiLayer > div._reactionModule.u_likeit > ul > li.u_likeit_list.warm > a > span.u_likeit_list_count._count").text
    # 슬퍼요
    sad = driver.find_element_by_css_selector("#spiLayer > div._reactionModule.u_likeit > ul > li.u_likeit_list.sad > a > span.u_likeit_list_count._count").text
    # 화나요
    angry = driver.find_element_by_css_selector("#spiLayer > div._reactionModule.u_likeit > ul > li.u_likeit_list.angry > a > span.u_likeit_list_count._count").text
    # 후속기사 원해요
    want = driver.find_element_by_css_selector("#spiLayer > div._reactionModule.u_likeit > ul > li.u_likeit_list.want > a > span.u_likeit_list_count._count").text    
    
    # 예시로 content라는 변수에 기사 내용을 담고 Column "content"에 해당 내용 저장
    df_top_news.loc[idx,"content"] = content
    df_top_news.loc[idx,"good"] = good
    df_top_news.loc[idx,"warm"] = warm
    df_top_news.loc[idx,"sad"] = sad
    df_top_news.loc[idx,"angry"] = angry
    df_top_news.loc[idx,"want"] = want

In [370]:
df_top_news.head(5)

# content 앞 전처리할 필요가 없었습니다!

Unnamed: 0,title,url,press,views,content,good,warm,sad,angry,want
0,"[단독] 황교안 딸 운영 사이트, 대학 진학 후 왜 문 닫았나",https://news.naver.com/main/ranking/read.nhn?m...,경향신문,201039,중 3 때 오빠와 장관상이어 고3 때도 ‘장함모’ 활동으로 자원봉사대회 금상\n\n...,131,16,17,2605,121
1,"조국 폭풍페북, 日주장 정면반박…""친일파"" 표현은 野 반발",https://news.naver.com/main/ranking/read.nhn?m...,머니투데이,185396,"[머니투데이 김성휘 ,백지수 기자] [[the300]징용판결 해설 글 ""대통령 법률...",1710,32,13,6058,48
2,"조국, 연일 對日 '항전' 주문…""겁먹고 쫄지말자…싸워 이겨야""",https://news.naver.com/main/ranking/read.nhn?m...,연합뉴스,130198,"""文정부, 서희와 이순신 역할 함께 수행…지레 겁먹지 말아야""\n\n""文정부 매도 ...",1799,19,13,9120,30
3,[김순덕의 도발]복수를 하려면 아일랜드처럼!,https://news.naver.com/main/ranking/read.nhn?m...,동아일보,120897,"친일잔재를 청산하고 한번도 경험하지 못한 나라로 가는 것이 목적이라면, 문재인 정부...",0,19,16,623,37
4,"조국, 또 페북에 反日 선전전...""文정부, 서희·이순신 역할⋯싸워야 한다. 쫄지 말자""",https://news.naver.com/main/ranking/read.nhn?m...,조선일보,119463,"""문재인 정부, 국익 수호 위해 '서희' '이순신' 역할 함께 수행""\n\n""법적·...",0,13,14,11468,38


# 데이터 저장

> 파일 형태로 크롤링한 데이터를 저장

In [372]:
df_top_news.to_csv('crawling.csv')