# 다음 뉴스 크롤링
다음 뉴스 메인페이지에 있는 모든 뉴스를 리스트화 하여 제목, 내용, 댓글을 가져오는 코드입니다.

# module import
크롤링에 사용할 모듈을 import 합니다.
## 사용 모듈 :
### requests
웹 request, response를 처리하기 위한 모듈
### BeautifulSoup
request의 html 데이터를 DOM Object처럼 처리하기 위한 모듈
### time
지연시간을 두어 반복문에 딜레이를 주기 위하여 사용( time.sleep(초))
### ++ fileIO.py
csv, json파일로 변환하기 위하여 따로 만든 py 파일

In [2]:
import requests
from bs4 import BeautifulSoup as bs
import time
import fileIO as io

# 뉴스 하나의 제목, 내용 가져오기
## 필요한 정보
### url 생성 
https://news.v.daum.net/v/20200608091904580
### 제목, 내용을 출력하는 element 파악(css selector)
제목 : h3.tit_view
내용 : div#harmonyContainer p (p태그 여러 개에 분할되어있음)

In [3]:
url = 'https://news.v.daum.net/v/20200608091904580'
req = requests.get(url)
# 페이지가 잘 로드되었는지 체크
print('title,content req:',req.status_code)
soup = bs(req.text, 'html.parser')
# title
news_title = soup.select_one('h3.tit_view').text
# content
news_content = "\n".join(list(map(lambda i:i.text, soup.select('div#harmonyContainer p'))))
# 본문 내용이 크므로 100글자만 출력(제대로 담겨있음)
print(news_title, news_content[0:100]) 

title,content req: 200
"트럼프에 질렸다" 부시·파월·롬니 등 공화당 거물들 반기 
(서울=연합뉴스) 장재은 기자 = 도널드 트럼프 미국 대통령의 실정을 주장하며 반기를 드는 공화당 거물 인사들이 속출하고 있다고 미국 뉴욕타임스(NYT)가 7일(현지시간) 보도했


# 뉴스 하나의 댓글 가져오기
## 필요한 정보
### 댓글은 response가 도착했을 때 바로 오지 않음
web의 network 탭에서 댓글을 불러오는 url을 찾아서 가공해야함.
댓글 : headers에 Authorization 값을 첨부하여 params와 함께 요청
댓글 개수 : params 없이 headers 값만 첨부하여 요청
### 댓글은 한 번에 100개까지만 긁어올 수 있음
반복문을 사용하여 100개씩 전부 가져오도록 설정.
#### 변경해야 하는 값 : params
offset
limit
### 댓글의 답글은 parentid값을 조정하여 다시 요청해야함
#### 변경해야 하는 값 : params
parentid
### 댓글의 response data는 json 형태로 옴(list로 설정 가능)

In [7]:
# get comment count
# 인증 값(web에서 찾아야 함)
auth_code = 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTU5MTg4MzY5MCwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiMTQ0NjBhNWQtYTVlMi00NGU0LWFkNzUtZDMyYTNmZDc0MjY1IiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.hepLtngDWjpD6PVpCKN4dwSk4w6oyR8Xjeg8x2RvxsU'
headers = { 
    'Authorization': auth_code
}
url = 'https://comment.daum.net/apis/v1/posts/@20200608091904580'
req = requests.get(url, headers=headers)
# print('commentCount req:',req.status_code)
commentCount = req.json()['commentCount']
commentCount
# 댓글을 담을 리스트
comments_list = []
cnt = 0
# cnt를 따로 설정한 이유? 
# comment_list의 값이 답글을 긁어오지 못하면 
# commentCount값을 넘을 수 없기 때문.
while int(commentCount / 100) >= cnt:
    # url 가공
    url = f'https://comment.daum.net/apis/v1/posts/@20200608091904580/comments'
    params = f'parentId=0&offset={cnt*100}&limit=100&sort=CHRONOLOGICAL&isInitial=true'
    params = list(map(lambda i: i.split('='),params.split('&')))
    params = {k: v for k, v in params}
    req = requests.get(url, headers=headers, params=params) 
    # response check
#     print('comment req:',req.status_code)
    # json 가공
    comments = list(map(lambda i:i['content'].replace('\n',''), req.json()))
    # list에 저장
    comments_list.extend(comments)
    cnt = cnt + 1
#     # data 확인용 코드
#     print('total: ', commentCount, ', current: ', len(comments_list))
    # 지연 시간 설정(1초)
    time.sleep(0.1)
# 답글 긁어오기
cnt = 0
while int(commentCount / 100) >= cnt:
    # url 가공
    url = f'https://comment.daum.net/apis/v1/posts/@20200608091904580/comments'
    params = f'parentId=-1&offset={cnt*100}&limit=100&sort=CHRONOLOGICAL&isInitial=true'
    params = list(map(lambda i: i.split('='),params.split('&')))
    params = {k: v for k, v in params}
    headers = { 
        'Authorization': auth_code
    }
    # request
    req = requests.get(url, headers=headers, params=params) 
#     print('comment req:',req.status_code)
    comments = list(map(lambda i:i['content'].replace('\n',''), req.json()))
    comments_list.extend(comments)
#     print('total: ', commentCount, ', current: ', len(comments_list))
    cnt += 1
    time.sleep(0.1)
print('total: ', commentCount, ', current: ', len(comments_list))

total:  1221 , current:  1221


# 메인 페이지 뉴스 id 전부 가져오기
## 필요한 정보
### 뉴스 id는 17자리 숫자값
### 뉴스 id를 가지고 있는 엘리먼트
a.link_txt에서 추출


In [10]:
# news list crawling
def get_news_list():
    main_req = requests.get('https://news.daum.net/')
    main_soup = bs(main_req.text, 'html.parser')
    news_list = list(map(lambda i:i.attrs['href'].split('/')[-1], main_soup.select('a.link_txt')))
    cnt = 0
    for i in range(len(news_list)):
        if len(news_list[i - cnt]) != 17:
            del news_list[i - cnt]
            cnt += 1
    return news_list
# main의 모든 뉴스를 가져옴
news_id_list = get_news_list()
news_id_list

['20200611105656253',
 '20200611105614228',
 '20200611090008538',
 '20200611104550719',
 '20200611103458188',
 '20200611102918864',
 '20200611103003906',
 '20200611102113491',
 '20200611091455299',
 '20200611094653789',
 '20200611080954323',
 '20200611060206595',
 '20200611105006957',
 '20200611104738814',
 '20200611104657793',
 '20200611104637775',
 '20200611104517696',
 '20200611104453654',
 '20200611104403635',
 '20200611104312601',
 '20200611104218555',
 '20200611103911391',
 '20200611103552225',
 '20200611103256065',
 '20200611075819073',
 '20200611060137555',
 '20200611090131623',
 '20200611102654742',
 '20200611050048845',
 '20200611050154881',
 '20200611102658749',
 '20200611080037113',
 '20200611085626422',
 '20200611094022485',
 '20200611053957305',
 '20200611060025455',
 '20200610143109395',
 '20200611103040950',
 '20200611030200994',
 '20200611050137874',
 '20200610135519441',
 '20200610135510433',
 '20200611030337070',
 '20200610030500259',
 '20200610030458257',
 '20200606

# 반복문으로 main에 있는 모든 뉴스의 제목, 내용, 댓글을 가져와 파일로 저장

In [12]:
# 제목 list
news_title_list = []
# 내용 list
news_content_list = []
# 댓글 list
comments_list_all = []
# 인증 값(web에서 찾아야 함)
headers = {
        'Authorization': auth_code
}
# csv 변환을 위한 list
news_list = []
# json 변환을 위한 dict
news_json = {}

for news_id in news_id_list:
    print('news_id: ', news_id)
# 제목, 내용  
    url = f'https://news.v.daum.net/v/{news_id}'
    req = requests.get(url)
#     # 페이지가 잘 로드되었는지 체크
#     print('title,content req:',req.status_code)
    soup = bs(req.text, 'html.parser')
    # title
    news_title = soup.select_one('h3.tit_view').text
    # content
    news_content = "\n".join(list(map(lambda i:i.text, soup.select('div#harmonyContainer p'))))
# 댓글
    # get comment count
    url = f'https://comment.daum.net/apis/v1/posts/@{news_id}'
    req = requests.get(url, headers=headers)
#     print('commentCount req:',req.status_code)
    commentCount = req.json()['commentCount']
    commentCount
    # 댓글을 담을 리스트
    comments_list = []
    cnt = 0
    # cnt를 따로 설정한 이유? 
    # comment_list의 값이 답글을 긁어오지 못하면 
    # commentCount값을 넘을 수 없기 때문.
    while int(commentCount / 100) >= cnt:
        # url 가공
        url = f'https://comment.daum.net/apis/v1/posts/@{news_id}/comments'
        params = f'parentId=0&offset={cnt*100}&limit=100&sort=CHRONOLOGICAL&isInitial=true'
        params = list(map(lambda i: i.split('='),params.split('&')))
        params = {k: v for k, v in params}
        req = requests.get(url, headers=headers, params=params) 
        # response check
#         print('comment req:',req.status_code)
        # json 가공
        comments = list(map(lambda i:i['content'].replace('\n',''), req.json()))
        # list에 저장
        comments_list.extend(comments)
        cnt = cnt + 1
#         # data 확인용 코드
#         print('total: ', commentCount, ', current: ', len(comments_list))
        # 지연 시간 설정(1초)
        time.sleep(0.1)
    # 답글 긁어오기
    cnt = 0
    while int(commentCount / 100) >= cnt:
        # url 가공
        url = f'https://comment.daum.net/apis/v1/posts/@{news_id}/comments'
        params = f'parentId=-1&offset={cnt*100}&limit=100&sort=CHRONOLOGICAL&isInitial=true'
        params = list(map(lambda i: i.split('='),params.split('&')))
        params = {k: v for k, v in params}
        headers = {
                'Authorization': auth_code
        }
        # request
        req = requests.get(url, headers=headers, params=params) 
#         print('comment req:',req.status_code)
        comments = list(map(lambda i:i['content'].replace('\n',''), req.json()))
        comments_list.extend(comments)
#         print('total: ', commentCount, ', current: ', len(comments_list))
        cnt += 1
        time.sleep(0.1)
    print('total: ', commentCount, ', current: ', len(comments_list))
    news_title_list.append(news_title)
    news_content_list.append(news_content)
    comments_list_all.append(comments_list)
    
# list, dict로 통합
news_list = [(news_title_list[i], news_content_list[i], comments_list_all[i]) for i in range(len(news_id_list))]
news_json = [{'title': news_title_list[i], 'content': news_content_list[i], 'comments': comments_list_all[i]} for i in range(len(news_id_list))]    
# 날짜를 이용하여 파일 이름 생성
dt = time.strftime('%Y%m%d', time.localtime(time.time()))
xml_file = 'forecast_'+ dt + '.xml'

# 파일로 변환
io.list_to_csv('news.csv', news_list)
io.list_to_json('news.json', news_json)
print('**crawling complete**')

news_id:  20200611105656253
total:  0 , current:  0
news_id:  20200611105614228
total:  0 , current:  0
news_id:  20200611090008538
total:  105 , current:  105
news_id:  20200611104550719
total:  18 , current:  18
news_id:  20200611103458188
total:  17 , current:  17
news_id:  20200611102918864
total:  60 , current:  60
news_id:  20200611103003906
total:  96 , current:  96
news_id:  20200611102113491
total:  15 , current:  15
news_id:  20200611091455299
total:  39 , current:  39
news_id:  20200611094653789
total:  1 , current:  1
news_id:  20200611080954323
total:  0 , current:  0
news_id:  20200611060206595
total:  0 , current:  0
news_id:  20200611105006957
total:  7 , current:  7
news_id:  20200611104738814
total:  163 , current:  163
news_id:  20200611104657793
total:  14 , current:  14
news_id:  20200611104637775
total:  27 , current:  27
news_id:  20200611104517696
total:  9 , current:  9
news_id:  20200611104453654
total:  1 , current:  1
news_id:  20200611104403635
total:  5 , 

# 개선사항
매일 Authorization 값이 바뀌어 자동화가 불가능

search 페이지에서 모든 뉴스id 긁어오는 코드로 개량