### 학습목표
1. 다음 뉴스 댓글 개수 크롤링
2. 로그인하여 크롤링하기

In [3]:
import requests
from bs4 import BeautifulSoup

import re

In [4]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

# beautifulsoup 모듈로 html 파일 가져온다
soup = BeautifulSoup(resp.text)

### HTTP 상태 코드
- 1xx (정보) : 요청을 받았으며 프로세스를 계속한다
- 2xx (성공) : 요청을 성공적으로 받았으며 인식했고 수용하였다
- 3xx (리다이렉션) : 요청 완료를 위해 추가 작업 조치가 필요하다
- 4xx (클라이언트 오류) : 요청의 문법이 잘못되었거나 요청을 처리할 수 없다
- 5xx (서버 오류) : 서버가 명백히 유효한 요청에 대해 충족을 실패했다

In [5]:
url = 'https://comment.daum.net/apis/v1/posts/@20190728165812603'

# 실패함
resp = requests.get(url)
print(resp)

<Response [401]>


In [11]:
headers = {
    'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTU4MDk1NjY4MCwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiMWZhZjgzZDYtZGY0OC00OTExLWJkZWEtZTE2MGY2ZTZmMTI0IiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.hQuXa9IryfhIORv4JcMxtYV5oJ0_MXMx-Inpv_syXes',
    'Origin': 'https://news.v.daum.net',
    'Referer': 'https://news.v.daum.net/v/20190728165812603',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}

url = 'https://comment.daum.net/apis/v1/posts/@20190728165812603'

# 헤더를 보내준다
resp = requests.get(url, headers = headers)
print(resp)

# json dict 형식으로 가져옴
print(resp.json())

# 댓글 수 가져온다
resp.json()['commentCount']

<Response [200]>
{'id': 133493400, 'forumId': -99, 'userId': 0, 'postKey': '20190728165812603', 'type': 'AUTO', 'status': 'S', 'flags': 0, 'createdAt': '2019-07-28T16:59:33+0900', 'updatedAt': '2020-02-05T23:01:59+0900', 'title': '일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"', 'url': 'https://news.v.daum.net/v/20190728165812603', 'icon': 'https://img1.daumcdn.net/thumb/S1200x630/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg', 'commentCount': 42, 'childCount': 8, 'officialCount': 0}


42

### 로그인 후 데이터 크롤링 하기
1. endpoint 찾기 (개발자 도구의 network를 활용)
2. id와 password가 전달되는 form data찾기
3. session 객체 생성하여 login 진행
4. 이후 session 객체로 원하는 페이지로 이동하여 크롤링

- endpoint 찾기

In [12]:
# 로그인 endpoint
url = 'https://www.kangcom.com/member/member_check.asp'

- id, password로 구성된 form data 생성하기

In [13]:
data = {
    'id' : 'macmath22',
    'pwd' : 'Test1357!'
}

* login
 - endpoint(url)과 data를 구성하여 post 요청
 - login의 경우 post로 구성하는 것이 정상적인 웹사이트!

In [16]:
# 로그인 세션 연결
s = requests.Session()

resp = s.post(url, data = data)
print(resp)

<Response [200]>


* crawling
 - login 시 사용했던 session을 다시 사용하여 요청

In [22]:
# 로그인 세션을 유지한 상태에서 html 파일 가져옴
my_page = 'https://www.kangcom.com/mypage/'
resp = s.get(my_page)

# html 파일을 읽어서
soup = BeautifulSoup(resp.text)

# td 태그의 a_bbslist55 클래스 가져온다
print(soup.select('td.a_bbslist55'))

print()

# td 태그의 a_bbslist55 클래스 3번째꺼 가져온다
td = soup.select_one('td.a_bbslist55:nth-child(3)')
print(td)

mileage = td.get_text()
print(mileage)

[<td class="a_bbslist55" width="60"><strong>마일리지</strong></td>, <td class="a_bbslist55" width="25">| </td>, <td align="left" class="a_bbslist55">5,040원 <a href="/mypage/mileage/"><img border="0" height="9" src="/images/mypage/btn_more1.gif" width="21"/></a></td>, <td class="a_bbslist55"><strong>쿠     폰</strong></td>, <td class="a_bbslist55" width="25">| </td>, <td align="left" class="a_bbslist55"><span class="a_orange">0</span>장 <a href="/mypage/coupon/"><img border="0" height="9" src="/images/mypage/btn_more1.gif" width="21"/></a></td>]

<td align="left" class="a_bbslist55">5,040원 <a href="/mypage/mileage/"><img border="0" height="9" src="/images/mypage/btn_more1.gif" width="21"/></a></td>
5,040원 
