## 학습목표
1. beautifulsoup 모듈 사용하기

In [1]:
from bs4 import BeautifulSoup

**html 문자열 파싱**
- 문자열로 정의된 html 데이터 파싱하기

In [2]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

**find 함수**
- 특정 html tag 탐색
- 검색 조건을 명시하여 찾고자하는 tag를 검색

In [4]:
soup = BeautifulSoup(html)

In [5]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [6]:
soup.find('p')

<p>Test contents</p>

In [7]:
soup.find('div')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [8]:
soup.find('div', id = "lower")

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [9]:
# class는 키워드이므로 '_'를 붙여서 찾을 수 있음
soup.find('div', class_ = "test")

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [10]:
attrs = {'id':'upper', 'class':'test'}
soup.find('div', attrs = attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

**find_all 함수**
- find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [11]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

In [12]:
soup.find_all('p')

[<p>Test contents</p>,
 <p>Test Test Test 1</p>,
 <p>Test Test Test 2</p>,
 <p>Test Test Test 3</p>]

In [13]:
soup.find_all('div', class_ = 'test')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

**get_text 함수**
- tag안의 value를 추출
- 부모 tag의 경우, 모든 자식 tag의 value를 추출

In [14]:
tag = soup.find('h3')
print(tag)
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [15]:
tag = soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [17]:
tag = soup.find('div', id = 'upper')
print(tag)
tag.get_text().strip()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'Contents Title\nTest contents'

**attribute값 추출하기**
- 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
- 이 경우에는 검색한 tag에 attibute 이름을 []연산을 통해 추출 가능
- 예) div.find('h3')['title']

In [18]:
tag = soup.find('h3')
print(tag)

<h3 title="Good Content Title">Contents Title</h3>


In [19]:
tag['title']

'Good Content Title'

## 학습목표

1. beautifulsoup 모듈 사용하기
2. id, class 속성으로 tag 찾기
3. CSS를 이용하여 tag 찾기
4. 속성 값으로 tag 찾기
5. 정규표현식으로 tag 찾기
6. 개발자도구를 이용하여 동적으로 로딩되는 데이터 추출하기

In [5]:
import requests
from bs4 import BeautifulSoup

#### 다음 뉴스 데이터 추출
 - 뉴스기사에서 제목, 작성자, 작성일
 , 댓글 개수 추출
 - [뉴스링크](https://news.v.daum.net/v/20190728165812603)
 - tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용
  - id의 경우 원칙적으로 한 html 문서 내에서 유일

- id, class 속성으로 tag 찾기
 - 타이틀
 - 작성자, 작성일

In [21]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

resp.text

'<!doctype html>\n<html lang="ko"> \n <head data-cloud-area="head"> \n  <meta charset="utf-8"> \n  <meta http-equiv="X-UA-Compatible" content="IE=edge"> \n  <style>\n            @import url(\'//t1.daumcdn.net/harmony_static/cloud/page/f59861785a6c9c7572f3d952fb602790402f8d93.css\');\n            @import url(\'//t1.daumcdn.net/harmony_static/cloud/2021/09/27/common.4dbc7802ca0d6fdc2aba.css\')\n        </style> \n  <style>\n            /* 다음 카페 소셜 쉐어 임시 비활성화 */\n            .list_sns li:nth-child(6) {\n                display: none;\n            }\n        </style> \n  <meta property="mccp:docId" content="NHT9NtZWBe"> \n  <meta property="og:site_name" content="다음뉴스"> \n  <meta property="og:title" content="일론머스크 &quot;테슬라에서 넷플릭스·유튜브 즐길 날 온다&quot;"> \n  <meta property="og:regDate" content="20190728165812"> \n  <meta property="og:type" content="article"> \n  <meta property="og:article:author" content="아시아경제"> \n  <meta property="og:url" content="https://news.v.daum.net/v/NHT9NtZWBe"> \n  <m

In [22]:
soup = BeautifulSoup(resp.text)
soup

<!DOCTYPE html>
<html lang="ko">
<head data-cloud-area="head">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<style>
            @import url('//t1.daumcdn.net/harmony_static/cloud/page/f59861785a6c9c7572f3d952fb602790402f8d93.css');
            @import url('//t1.daumcdn.net/harmony_static/cloud/2021/09/27/common.4dbc7802ca0d6fdc2aba.css')
        </style>
<style>
            /* 다음 카페 소셜 쉐어 임시 비활성화 */
            .list_sns li:nth-child(6) {
                display: none;
            }
        </style>
<meta content="NHT9NtZWBe" property="mccp:docId"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content='일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"' property="og:title"/>
<meta content="20190728165812" property="og:regDate"/>
<meta content="article" property="og:type"/>
<meta content="아시아경제" property="og:article:author"/>
<meta content="https://news.v.daum.net/v/NHT9NtZWBe" property="og:url"/>
<meta content="https://img1.daumcdn.net/thumb/S1200x630/?fname=https

In [24]:
title = soup.find('h3', class_ = 'tit_view')
title

<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>

In [25]:
title.get_text()

'일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"'

In [26]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)
soup.find_all('span', class_ = 'txt_info')

[<span class="txt_info">이민우</span>,
 <span class="txt_info">입력 <span class="num_date">2019. 07. 28. 16:58</span></span>]

In [27]:
info = soup.find('span', class_ = 'info_view')
info

<span class="info_view"> <span class="txt_info">이민우</span> <span class="txt_info">입력 <span class="num_date">2019. 07. 28. 16:58</span></span> <button class="emph_g2 link_cmt" id="alexCounter">댓글 <span class="alex-count-area">0</span>개</button> </span>

In [28]:
info.find('span', class_='txt_info')

<span class="txt_info">이민우</span>

In [30]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)
container = soup.find('div', id = 'harmonyContainer')
container.find_all('p')

[<p class="link_figure"><img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/></p>,
 <p>[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.</p>,
 <p>27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.</p>,
 <p class="link_figure"><img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" data-org-width="550" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="

In [32]:
container = soup.find('div', id = 'harmonyContainer')
contents = ''

for p in container.find_all('p'):
    contents += p.get_text().strip()
    
contents

'[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 \'폴아웃 쉘터\'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 \'훌루\'를 이용하고 있던 것으로 밝혀졌다.이민우 기자 letzwin@asiae.co.kr<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지>'

- CSS를 이용하여 tag 찾기
 - select, select_one 함수 사용
 - css selector 사용법
   - 태그명 찾기 tag
   - 자손 태그 찾기 - 자손 관계 (tag tag)
   - 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)
   - 아이디 찾기 #id
   - 클래스 찾기 .class
   - 속성값 찾기 [name='test']
     - 속성값 prefix 찾기 [name^='test']
     - 속성값 suffix 찾기 [name$='test']
     - 속성값 substring 찾기 [name*='test']
   - n번째 자식 tag 찾기 :nth-child(n)

In [6]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)

soup.select('h3')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [41]:
soup.select('#harmonyContainer p') #자손태그

[<p class="link_figure"><img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/></p>,
 <p>[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.</p>,
 <p>27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.</p>,
 <p class="link_figure"><img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" data-org-width="550" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="

In [44]:
soup.select('#harmonyContainer > p') #자식태그 

[<p data-translation="true">&lt;ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지&gt;</p>]

In [46]:
soup.select('h3.tit_view')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [48]:
soup.select('.tit_view') # 태그에 관계없이 class 이름이 tit_view인 것만 추출

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [49]:
soup.select('h3')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [51]:
soup.select('h3[class^=tx]')

[<h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [53]:
soup.select('h3[class$=_view]')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [8]:
soup.select('h3[class*=t_]')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [56]:
soup.select('span.txt_info')

[<span class="txt_info">이민우</span>,
 <span class="txt_info">입력 <span class="num_date">2019. 07. 28. 16:58</span></span>]

In [57]:
soup.select('span.txt_info:nth-child(1)')

[<span class="txt_info">이민우</span>]

In [58]:
soup.select('span.txt_info:nth-child(2)')

[<span class="txt_info">입력 <span class="num_date">2019. 07. 28. 16:58</span></span>]

- 정규표현식으로 tag 찾기
 - 타이틀
 - 작성자, 작성일

In [9]:
import re

In [61]:
soup.find_all(re.compile('h\d'))

[<h1> <a class="link_daum" href="https://www.daum.net"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a href="//news.daum.net" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a> </h1>,
 <h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">IT</h2>,
 <h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h4 class="screen_out">기사 도구 모음</h4>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [62]:
soup.find_all('img')

[<img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/>,
 <img alt="아시아경제" class="thumb_g" src="https://t1.daumcdn.net/media/news/news2016/cp/cp_akn.gif"/>,
 <img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/>,
 <img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" data-org-width="550" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" width="658"/>]

In [63]:
soup.find_all('img', attrs={'src':re.compile('.+\.jpg')})

[<img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/>,
 <img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/>]

In [64]:
soup.find_all('img', attrs={'src':re.compile('.+\.gif')})

[<img alt="아시아경제" class="thumb_g" src="https://t1.daumcdn.net/media/news/news2016/cp/cp_akn.gif"/>]

In [65]:
soup.find_all('img', attrs={'src':re.compile('.+\.png')})

[<img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" data-org-width="550" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" width="658"/>]

In [67]:
soup.find_all('h3', class_=re.compile('.+newsview$'))

[<h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

## 학습목표
1. 다음뉴스 댓글 개수 크롤링
2. 로그인 하여 크롤링 하기

**다음 뉴스 댓글 개수 크롤링 하기**

In [1]:
import requests

**HTTP 상태 코드**
- 1xx (정보): 요청을 받았으며 프로세스를 계속한다.
- 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용한다.
- 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다.
- 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수가 없다
- 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다.

In [2]:
url = 'https://comment.daum.net/apis/v1/ui/single/main/@20190728165812603'

headers = {
    'authorization':'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTYzODQ4Nzg4OCwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiOTA3NGU4ZDMtMjk4Zi00MzNmLTkxZmYtN2YwZmU4ZjUxOWY1IiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.oYE67Z51naq8S5AP7mUpeTep3lOJnfv2nb2tUDd5g1I',
    'origin':'https://news.v.daum.net',
    'referer':'https://news.v.daum.net/v/20190728165812603',
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}

resp = requests.get(url, headers=headers)
resp

<Response [200]>

In [3]:
print(resp.text)

{"post":{"id":133493400,"forumId":-99,"postKey":"20190728165812603","flags":0,"title":"일론머스크 \"테슬라에서 넷플릭스·유튜브 즐길 날 온다\"","url":"https://news.v.daum.net/v/NHT9NtZWBe","icon":"https://img1.daumcdn.net/thumb/S1200x630/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg","commentCount":42,"childCount":9,"popularOpened":true}}


In [4]:
resp.json()

{'post': {'id': 133493400,
  'forumId': -99,
  'postKey': '20190728165812603',
  'flags': 0,
  'title': '일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"',
  'url': 'https://news.v.daum.net/v/NHT9NtZWBe',
  'icon': 'https://img1.daumcdn.net/thumb/S1200x630/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg',
  'commentCount': 42,
  'childCount': 9,
  'popularOpened': True}}

In [5]:
resp.json()['post']['commentCount']

42

**로그인하여 데이터 크롤링하기**
- 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재
- 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등
- 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링 진행

**로그인 후 데이터 크롤링하기**
1. endpoint 찾기 (개발자 도구의 network 활용)
2. id와 password가 전달되는 form data 찾기
3. session 객체 생성하여 login 진행
4. 이후 session 객체로 원하는 페이지로 이동하여 크롤링

In [6]:
import requests
from bs4 import BeautifulSoup

- endpoint 찾기

In [7]:
url = 'https://library.kyonggi.ac.kr/login'

- id, password로 구성된 form data 생성하기

In [8]:
data = {
    'id':'201511200',
    'pwd':'960823'
}

- login
 - endpoint(url)와 data를 구성하여 post 요청
 - login의 경우 post로 구성하는 것이 정상적인 웹사이트

In [9]:
s = requests.Session()
resp = s.post(url, data=data)

print(resp)

<Response [500]>


- crawling
 - login 시 사용했던 session을 다시 사용하여 요청

In [10]:
my_page = "https://www.dropbox.com/account/general"
resp = s.get(my_page)

soup = BeautifulSoup(resp.text)
soup.select('div.sc-iqAbSa gfcIZQ account-page-module account-key-value-block preference-name-row')

[]