### 학습목표
1. 다음 뉴스 댓글 개수 크롤링
2. 로그인 하여 크롤링 하기

* 댓글 개수 추출
 - 댓글의 경우, 최초 로딩시에 전달되지 않음
 - 이 경우는 추가적으로 AJAX로 비동기적 호출을 하여 따로 data 전송을 함
   - 개발자 도구의 network 탭에서 확인(XHR: XmlHTTPRequest)
   - 비동기적 호출: 사이트의 전체가 아닌 일부분만 업데이트 가능하도록 함

#### 다음 뉴스 댓글 개수 크롤링하기

In [11]:
import requests
from bs4 import BeautifulSoup

#### HTTP 상태 코드
 - 1xx (정보): 요청을 받았으며 프로세스를 계속한다
 - 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다
 - 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다
 - 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다
 - 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다

[출처: 위키피디아](https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C)

In [4]:
url = 'https://comment.daum.net/apis/v1/posts/@20190728165812603'

'''
headers= {'Authorization': ~~,
            'Origin': ~~,
            'Referer': ~~,
            'User-Agent': ~~ }
'''

resp = requests.get(url)
print(resp)

#401 은 오류

<Response [401]>


In [14]:
url = 'https://n.news.naver.com/mnews/article/comment/001/0014629216'
resp = requests.get(url)
soup = BeautifulSoup(resp.text)
soup

<!DOCTYPE html>
<html data-useragent="python-requests/2.31.0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="이란, 이스라엘 본토 첫 보복공격…드론·미사일 대규모 공습(종합2보)" property="og:title"/>
<meta content="article" property="og:type"/>
<meta content="https://n.news.naver.com/mnews/article/001/0014629216" property="og:url"/>
<meta content="https://imgnews.pstatic.net/image/001/2024/04/14/AKR20240414001752079_01_i_P4_20240414082905342.jpg?type=w800" property="og:image"/>
<meta content="12일만 보복 감행…&quot;1979년 이란 이슬람 혁명 이후 이스라엘 전면 공격은 최초&quot; &quot;탄도미사일 발사&quot; 보도도…중동 확전 위기, '영공 폐쇄' 이스라엘 대응 주목 예루살렘 등 이스라엘 전역 사이렌·폭발음…&quot;이란 표적" property="og:description"/>
<meta content="연합뉴스 | 네이버" property="og:article:author"/>
<meta content="summary_large_image" name="twitter:card"/>
<meta content="이란, 이스라엘 본토 첫 보복공격…드론·미사일 대규모 공습

In [25]:
soup.select('h2#title_area')

[<h2 class="media_end_head_headline" id="title_area"><span>이란, 이스라엘 본토 첫 보복공격…드론·미사일 대규모 공습(종합2보)</span></h2>]

In [20]:
soup.findAll('span', class_='u_cbox_contents')

[]

#### 로그인하여 데이터 크롤링하기
 - 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재
 - 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등
 - 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행

#### 로그인 후 데이터 크롤링 하기
 1. endpoint 찾기 (개발자 도구의 network를 활용)
 2. id와 password가 전달되는 form data찾기
 3. session 객체 생성하여 login 진행
 4. 이후 session 객체로 원하는 페이지로 이동하여 크롤링
 

In [26]:
import requests
from bs4 import BeautifulSoup

* endpoint 찾기

In [27]:
#로그인 endpoint
url = 'https://log.data.musinsa.com/log/user-event/component_view'

* id, password로 구성된 form data 생성하기

In [28]:
data = {
    'id' : 'crystal9807',
    'pwd' : 'Na0319na!!'
}

* login
 - endpoint(url)과 data를 구성하여 post 요청
 - login의 경우 post로 구성하는 것이 정상적인 웹사이트!

In [35]:
s  = requests.Session()

s.post(url, data=data)
soup= BeautifulSoup(resp.text)
soup

<!DOCTYPE html>
<html lang="ko">
<!-- Google Tag Manager -->
<head><script>
        var dataLayer = dataLayer || [];
        window.addEventListener("load", function () {
            var memberGA = null;
            if (memberGA != null && memberGA.dimension1 != null) {
                dataLayer.push(memberGA);
            }

            (function (w, d, s, l, i) {
                w[l] = w[l] || [];
                w[l].push({
                    'gtm.start':
                        new Date().getTime(), event: 'gtm.js'
                });
                var f = d.getElementsByTagName(s)[0],
                    j = d.createElement(s), dl = l != 'dataLayer' ? '&l=' + l : '';
                j.async = true;
                j.src =
                    'https://www.googletagmanager.com/gtm.js?id=' + i + dl;
                f.parentNode.insertBefore(j, f);
            })(window, document, 'script', 'dataLayer', 'GTM-TXDSFSF');
        }, false);
    </script>
<!-- End Google Tag Manager --

* crawling
 - login 시 사용했던 session을 다시 사용하여 요청

In [37]:
my_page = 'https://www.musinsa.com/member/mypage'
resp = s.get(my_page)
soup=BeautifulSoup(resp.text)
soup

<!DOCTYPE html>
<html lang="ko">
<!-- Google Tag Manager -->
<head><script>
        var dataLayer = dataLayer || [];
        window.addEventListener("load", function () {
            var memberGA = null;
            if (memberGA != null && memberGA.dimension1 != null) {
                dataLayer.push(memberGA);
            }

            (function (w, d, s, l, i) {
                w[l] = w[l] || [];
                w[l].push({
                    'gtm.start':
                        new Date().getTime(), event: 'gtm.js'
                });
                var f = d.getElementsByTagName(s)[0],
                    j = d.createElement(s), dl = l != 'dataLayer' ? '&l=' + l : '';
                j.async = true;
                j.src =
                    'https://www.googletagmanager.com/gtm.js?id=' + i + dl;
                f.parentNode.insertBefore(j, f);
            })(window, document, 'script', 'dataLayer', 'GTM-TXDSFSF');
        }, false);
    </script>
<!-- End Google Tag Manager --

In [44]:
td = soup.find('a', href='https://www.musinsa.com/billing/point')
td

In [None]:
mileage = td.get_text()
mileage