#### requests 모듈
1. http request/response를 위한 모듈
2. HTTP method를 메소드 명으로 사용하여 request 요청 예) get, post

In [1]:
import requests

#### get 요청하기
1. http get 요청하기
2. query parameter 이용하여 데이터 전달하기

In [2]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

resp   # '응답'에는 코드가 주어지는데, 첫 숫자가 2이면 성공이다.

resp.text  # view page source에서 보는 텍스트와 같다.

'<!doctype html>\n<html lang="ko"> \n <head data-cloud-area="head"> \n  <meta charset="utf-8"> \n  <meta http-equiv="X-UA-Compatible" content="IE=edge"> \n  <style>\n            @import url(\'//t1.daumcdn.net/harmony_static/cloud/page/a3807badcf782bfe521bceb8b042040ee11676b0.css\');\n            @import url(\'//t1.daumcdn.net/harmony_static/cloud/2021/07/09/common.08ed249def6c63782e5d.css\')\n        </style> \n  <style>\n            /* 다음 카페 소셜 쉐어 임시 비활성화 */\n            .list_sns li:nth-child(6) {\n                display: none;\n            }\n        </style> \n  <meta property="mccp:docId" content="NHT9NtZWBe"> \n  <meta property="og:site_name" content="다음뉴스"> \n  <meta property="og:title" content="일론머스크 &quot;테슬라에서 넷플릭스·유튜브 즐길 날 온다&quot;"> \n  <meta property="og:regDate" content="20190728165812"> \n  <meta property="og:type" content="article"> \n  <meta property="og:article:author" content="아시아경제"> \n  <meta property="og:url" content="https://news.v.daum.net/v/NHT9NtZWBe"> \n  <m

#### post 요청하기
1. http post 요청하기
2. post data 이용하여 데이터 전달하기

In [None]:
url = 'https://www.kangcom.com/member/member_check.asp'

data = {
    'id': 'caphi0202',
    'pwd': 'WLgns7872!'
}

resp = requests.post(url, data=data)
resp.text

#### HTTP header 데이터 이용하기
1. header 데이터 구성하기
2. header 데이터 전달하기

In [None]:
url = 'https://news.v.daum.net/v/20190728165812603'
headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}

resp = requests.get(url, headers=headers)
resp.text

#### HTTP response 처리하기
1. response 객체의 이해
2. status_code 확인하기
3. text 속성 확인하기

In [None]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

if resp.status_code == 200:
    print(resp.text)
else:
    print('error')

### API 활용하기

공공데이터 포털에 가서,
- 데이터 활용 신청
- API 호출에 필요한 parameter 값 확인 및 구성
- 인증키 입력하기

In [None]:
serviceKey = 'tBgGZ6H%2B7SsFy0sxJQDw6BekvxeLL4Cg1fKoXaw%2Bjy8UVtdG3qNi%2BdLtKiT%2FEFhDTbWsutRNRDTJj02RvBhS9A%3D%3D'

endpoint = 'http://apis.data.go.kr/B552584/ArpltnInforInqireSvc/getMsrstnAcctoRltmMesureDnsty?stationName=종로구&dataTerm=month&pageNo=1&numOfRows=100&returnType=json&serviceKey={}'.format(serviceKey)
resp = requests.get(endpoint)

print(endpoint)
print(resp.status_code)
print(resp.text)

In [None]:
# 받아온 데이터가 json인 경우..

data = resp.json()   # resp.json()은 dict type이다.

### BeautifulSoup

In [None]:
from bs4 import BeautifulSoup

#### html 문자열 파싱
 - 문자열로 정의된 html 데이터 파싱하기

In [None]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

#### find 함수
 - 특정 html tag를 검색
 - 검색 조건을 명시하여 찾고자하는 tag를 검색

In [None]:
soup = BeautifulSoup(html)

soup.find('h3')  # 가장 먼저 찾는 태그를 반환시킨다.

In [None]:
soup.find('div', custom='nice')   # 원하는 태그, 원하는 attribute값을 검색할 수 있음.

In [None]:
# class 값을 검색하려면 class_ 로 입력해야됌.
soup.find('div', class_='test')

In [None]:
# dict로 attributes 입력 가능

attrs = {'id': 'upper', 'class': 'test'}
soup.find('div', attrs=attrs)

#### find_all 함수
 - find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [None]:
soup.find_all('p')

#### get_text 함수
 - tag안의 value를 추출
 - 부모tag의 경우, 모든 자식 tag의 value를 추출

In [None]:
tag = soup.find('h3')
print(tag)
tag.get_text()    # 태그 사이의 value를 반환한다.

In [None]:
tag = soup.find('div')
print(tag)
tag.get_text()

#### attribute 값 추출하기
 - 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
 - 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
 - 예) div.find('h3')['title']

In [None]:
tag = soup.find('h3')
print(tag)
tag['title']  # title이라는 attr의 값을 반환

### 학습목표
1. beautifulsoup 모듈 사용하기
2. id, class 속성으로 tag 찾기
3. CSS를 이용하여 tag 찾기
4. 속성 값으로 tag 찾기
5. 정규표현식으로 tag 찾기
6. 개발자도구를 이용하여 동적으로 로딩되는 데이터 추출하기

In [None]:
import requests
from bs4 import BeautifulSoup as bs

#### 다음 뉴스 데이터 추출
 - 뉴스기사에서 제목, 작성자, 작성일
 , 댓글 개수 추출
 - [뉴스링크](https://news.v.daum.net/v/20190728165812603)
 - tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용
  - id의 경우 원칙적으로 한 html 문서 내에서 유일
  

In [None]:
url = 'https://news.v.daum.net/v/20190728165812603'

resp = requests.get(url)

soup = bs(resp.text)
soup.find('h3', class_='tit_view').get_text()   # 제목 가져오기

* id, class 속성으로 tag 찾기
 - 타이틀
 - 작성자, 작성일

In [None]:
soup.find_all('span', class_='txt_info') # 작성자와 작성일이 나온다.

soup.find_all('span', class_='txt_info')[0] # 작성자
soup.find_all('span', class_='txt_info')[1] # 작성일

# 아니면 parent를 변수에 넣어놓은 다음에, 그 변수 내에서 다시 찾는다.
info = soup.find('span', class_='info_view')   # 이 예시에서는 부모가 <span, class=info_view>
info.find('span', class_='txt_info')

In [None]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)
soup = bs(resp.text)

# p 태그는 워낙 자주 쓰이기 때문에.. 본문의 parent container를 먼저 설정해두고,
# container 내에서 p 태그를 찾는다.
# 이렇게만 해놓으면 p 태그가 모두 '리스트' 형식으로 반환되기 때문에 아래 for문으로 text만 추출한다.
container = soup.find('div', id='harmonyContainer')
contents = ''
for p in container.find_all('p'):
    contents += p.get_text().strip()
    
contents

* CSS를 이용하여 tag 찾기
 - select, select_one함수 사용 
 - css selector 사용법
   - 태그명 찾기 tag 
   - 자손 태그 찾기 - 자손 관계 (tag tag)
   - 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)
   - 아이디 찾기 #id
   - 클래스 찾기 .class
   - 속성값 찾기 [name='test']
     - 속성값 prefix 찾기 [name ^='test']
     - 속성값 suffix 찾기 [name $='test']
     - 속성값 substring 찾기 [name *='test]
   - n번째 자식 tag 찾기 :nth-child(n)

In [None]:
# select는 만족하는 모든 값을 반환 / select_one은 첫 번째 값만.

url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)
soup = bs(resp.text)

In [None]:
soup.select('#harmonyContainer p')

In [None]:
soup.select('#harmonyContainer > p')

In [None]:
soup.select('h3.tit_view')

In [None]:
soup.select('h3[class^="t"]')

soup.select('h3[class^="tx"]')

In [None]:
soup.select('h3[class*="view"]')

## ^=는 첫 시작
## $=는 끝부터
## *=는 ~~을 포함하는

In [None]:
soup.select('span.txt_info:nth-child(1)')

soup.select('span.txt_info:nth-child(2)')

# 여러 개의 동일한 태그가 있는 경우에는 :nth-child(n)을 쓰면 됌.

#### 정규표현식으로 tag 찾기

In [None]:
import re

In [None]:
# 모든 h 관련 태그를 가져오기
soup.find_all(re.compile('h\d'))

In [None]:
soup.find_all('img', attrs={'src': re.compile('.+\.jpg')})

# img 태그에서 src 속성의 값이 .jpg로 끝나는 모든 값 반환

In [None]:
soup.find_all('h3', class_=re.compile('.+view$'))

# h3 태그에서 class가 view로 끝나는 모든 값 반환

### 학습목표
1. 다음 뉴스 댓글 개수 크롤링
2. 로그인 하여 크롤링 하기

* 댓글 개수 추출
 - 댓글의 경우, 최초 로딩시에 전달되지 않음
 - 이 경우는 추가적으로 AJAX로 비동기적 호출을 하여 따로 data 전송을 함
   - 개발자 도구의 network 탭에서 확인(XHR: XmlHTTPRequest)
   - 비동기적 호출: 사이트의 전체가 아닌 일부분만 업데이트 가능하도록 함

#### HTTP 상태 코드
 - 1xx (정보): 요청을 받았으며 프로세스를 계속한다
 - 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다
 - 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다
 - 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다
 - 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다

[출처: 위키피디아](https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C)

In [None]:
# 개발자 도구 - 네트워크 - XHR(비동기적) - Response에서 원하는 값을 찾기 -
# Headers에서 Endpoint 찾기(url)

url = 'https://comment.daum.net/apis/v1/ui/single/main/@20190728165812603'

resp = requests.get(url)
print(resp)

In [None]:
# 클라이언트 오류가 나온 경우.. Request header를 dict 형태로 입력할 경우 호출에 성공할 확률이 높아진다.

headers = {
    'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTYyNjE3NzUzMSwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiNjQwY2Q4NWMtZGEyYy00ZjUzLTk5MTMtMTE2OTFiNTA2OWRlIiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.y2pkPeCWE6bcBlTtTG9jEca963vRT3yNCB_OPGChe3c',
    'Origin': 'https://news.v.daum.net',
    'Referer': 'https://news.v.daum.net/v/20190728165812603',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36',
}

resp = requests.get(url, headers=headers)


resp.text  # json 형식으로 값을 가져온다.

print(resp.json())
resp.json()['post']['commentCount']

#### 로그인하여 데이터 크롤링하기
 - 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재
 - 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등
 - 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행

#### 로그인 후 데이터 크롤링 하기
 1. endpoint 찾기 (개발자 도구의 network를 활용)
 2. id와 password가 전달되는 form data찾기
 3. session 객체 생성하여 login 진행
 4. 이후 session 객체로 원하는 페이지로 이동하여 크롤링
 

* endpoint 찾기

In [None]:
import requests
from bs4 import BeautifulSoup as bs

In [None]:
url = 'https://www.kangcom.com/member/member_check.asp'

* id, password로 구성된 form data 생성하기

In [None]:
data = {
    'id': 'caphi0202',
    'pwd': 'WLgns7872!'
}

* login
 - endpoint(url)과 data를 구성하여 post 요청
 - login의 경우 post로 구성하는 것이 정상적인 웹사이트!

In [None]:
s = requests.Session()

resp = s.post(url, data=data)
print(resp)

* crawling
 - login 시 사용했던 session을 다시 사용하여 요청

In [None]:
my_page = 'https://www.kangcom.com/mypage/'
resp = s.get(my_page)

soup = bs(resp.text)

soup.select_one('td.a_bbslist55:nth-child(3)').get_text() # 마일리지 값 가져오기

### 학습목표
 1. selenium 모듈 사용법 알아보기

In [None]:
pip install selenium
pip install webdriver-manager

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

from bs4 import BeautifulSoup as bs
import time

#### selenium
 - 웹페이지 테스트 자동화용 모듈
 - 개발/테스트용 드라이버(웹브라우저)를 사용하여 실제 사용자가 사용하는 것처럼 동작
 - 실습전 확인사항
   - selenium 모듈 설치
   - [크롬 드라이버 다운로드](https://chromedriver.chromium.org/downloads)

#### selenium 예제
 - python.org 로 이동하여 자동으로 검색해보기
   1. python.org 사이트 오픈
   2. input 필드를 검색하여 Key 이벤트 전달
 


In [12]:
chrome_driver = '/Users/Jihun/Desktop/Fastcampus/chromedriver'
driver = webdriver.Chrome(chrome_driver)

driver.get('https://www.python.org')

search = driver.find_element_by_id('id-search-field')
search.clear()
time.sleep(3)

search.send_keys('lambda')
time.sleep(3)

search.send_keys(Keys.RETURN)
time.sleep(3)

driver.close()

#### selenium을 이용한 다음뉴스 웹사이트 크롤링
 - driver 객체의 find_xxx_by 함수 활용

In [17]:
chrome_driver = '/Users/Jihun/Desktop/Fastcampus/chromedriver'
driver = webdriver.Chrome(chrome_driver)

url = 'https://news.v.daum.net/v/20190728165812603'
driver.get(url)

time.sleep(2)   # 이 sleep을 안 주고 코드 돌리면 comment 0이 된다.
                # sleep 동안 로딩이 되고 나서 page_source를 받으면 comment count가 제대로 나온다.
src = driver.page_source
soup = bs(src)

driver.close()

comment = soup.select_one('span.alex-count-area')
comment.get_text()

'42'

#### selenium을 활용하여 특정 element의 로딩 대기
 - WebDriverWait 객체를 이용하여 해당 element가 로딩 되는 것을 대기
 - 실제로 해당 기능을 활용하여 거의 모든 사이트의 크롤링이 가능
 - WebDriverWait(driver, 시간(초)).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'CSS_RULE')))
 

In [21]:
chrome_driver = '/Users/Jihun/Desktop/Fastcampus/chromedriver'
driver = webdriver.Chrome(chrome_driver)

url = 'https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=102&oid=056&aid=0011081710'
driver.get(url)

WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'span.u_cbox_info_txt')))
# 10초 안에 로딩이 되면 그대로 완료; 10초 안에 로딩 안 되면 오류 발생

src = driver.page_source
soup = bs(src)

driver.close()

comment = soup.select_one('span.u_cbox_info_txt')
comment.get_text()

'43'

### 학습목표
 - 1. 다음 뉴스와 그 뉴스의 댓글 크롤링하기

In [22]:
import requests
from bs4 import BeautifulSoup as bs

#### 뉴스 제목 크롤링

In [35]:
def get_daum_news_title(news_id):
    url = 'https://news.v.daum.net/v/{}'.format(news_id)
    resp = requests.get(url)
    
    soup = bs(resp.text)
    
    title_tag = soup.select_one('h3.tit_view')
    if title_tag:
        return title_tag.get_text()
    return ""

In [38]:
get_daum_news_title('20190728165812603')

'일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"'

In [39]:
get_daum_news_title('20190801114158041')

'5G 2∼3위 경쟁 치열..LGU+, 6월 가입자 순증 KT 앞서'

#### 뉴스 본문 크롤링

In [42]:
def get_daum_news_content(news_id):
    url = 'https://news.v.daum.net/v/{}'.format(news_id)
    resp = requests.get(url)
    
    soup = bs(resp.text)
    
    content = ''
    for p in soup.select('div#harmonyContainer p'):  # div 태그에 harmonyContainer 아이디의 child p 태그
        content += p.get_text()
    return content

In [43]:
get_daum_news_content('20190728165812603')

'[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 \'폴아웃 쉘터\'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 \'훌루\'를 이용하고 있던 것으로 밝혀졌다.이민우 기자 letzwin@asiae.co.kr<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지>'

In [44]:
get_daum_news_content('20190801114158041')

'(서울=연합뉴스) 채새롬 기자 = LG유플러스가 6월 한 달간 KT보다 5G 가입자 순증 수가 더 많았던 것으로 집계됐다.1일 과학기술정보통신부와 통신업계에 따르면 6월 말 기준 국내 5G 가입자는 133만 6천865명으로 한 달간 55만2천650명이 늘어났다.통신사별로는 SK텔레콤이 53만346명, KT가 41만9천316명, LG유플러스가 38만7천203명이었다. SK텔레콤의 점유율은 5월 40.8%에서 6월 39.7%, KT는 32.1%에서 31.4%로 다소 줄어든 반면 LG유플러스는 점유율이 27.1%에서 29.0%로 늘었다. 5대 3대 2 구도에서 4대 3대 3 구도가 고착화하는 양상이다.특히 LG유플러스는 월별 순증 가입자 기준 KT를 처음으로 앞질렀다. KT가 6월 16만7천775명 증가한 데 비해 LG유플러스는 17만4천505명을 늘렸다. SK텔레콤은 21만370명을 모집했다.이에 따라 5월 5%포인트였던 LG유플러스와 KT의 점유율 차는 6월 2.4%포인트로 좁혀졌다.6월 공격적인 마케팅을 펼친 LG유플러스가 마케팅 재원이 바닥나자 경쟁사 발목 잡기에 나섰다는 지적도 제기된다. LG유플러스는 지난달 24일 방송통신위원회에 SK텔레콤과 KT를 불법 보조금 살포 혐의로 신고했다.업계 관계자는 "KT와 LG유플러스의 가입자 순증 격차가 좁혀짐에 따라 양사가 3위로 떨어지지 않기 위해 갤럭시노트10이 나오는 8월 치열한 마케팅 싸움을 전개할 것으로 보인다"고 말했다.다음 달 삼성전자 갤럭시노트10 출시를 앞두고 이통사들은 일찌감치 프로모션을 발표하며 5G 가입자 유치 전에 나서고 있다. 7월말 현재 5G 가입자는 180만명 수준으로 파악된다. SK텔레콤 점유율이 41%, KT 31%, LG유플러스 28% 수준으로 알려졌다. 업계에서는 갤럭시노트10이 출시되는 8월 5G 가입자가 200만명을 넘기고 9월부터 갤럭시A90, 갤럭시 폴드, LG전자 5G 스마트폰 등이 출시되면 연말 5G 가입자가 400만명을 넘기리라는 예상이 나온다. SK텔레콤은 1일 5G

#### 뉴스 댓글 크롤링

In [53]:
url = 'https://comment.daum.net/apis/v1/posts/@20190728165812603/comments?parentId=0&offset=43&limit=10&sort=RECOMMEND&isInitial=false'
headers = {
    'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTYyNjE3NzUzMSwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiNjQwY2Q4NWMtZGEyYy00ZjUzLTk5MTMtMTE2OTFiNTA2OWRlIiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.y2pkPeCWE6bcBlTtTG9jEca963vRT3yNCB_OPGChe3c',
    'Origin': 'https://news.v.daum.net',
    'Referer': 'https://news.v.daum.net/v/20190728165812603',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36',
}
resp = requests.get(url, headers=headers)

In [57]:
def get_daum_news_comments(news_id):
    headers = {
        'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJncmFudF90eXBlIjoiYWxleF9jcmVkZW50aWFscyIsInNjb3BlIjpbXSwiZXhwIjoxNTY0Njc4NjQ1LCJhdXRob3JpdGllcyI6WyJST0xFX0NMSUVOVCJdLCJqdGkiOiJlZGUxNzM0MS1hNWNjLTRmYmQtODJkMy0zZTMwOGMwMGViZTEiLCJjbGllbnRfaWQiOiIyNkJYQXZLbnk1V0Y1WjA5bHI1azc3WTgifQ.Cxs2g1hUUAjyuSrUDAhaKGol8vvyW-_mwPtV0X0DvEU',
        'Origin': 'https://news.v.daum.net',
        'Referer': 'https://news.v.daum.net/v/20190728165812603',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
    }
    
    url_template = 'https://comment.daum.net/apis/v1/posts/@{}/comments?parentId=0&offset={}&limit=10&sort=RECOMMEND&isInitial=false'
    offset = 0
    comments = []
    while True:
        url = url_template.format(news_id, offset)
        resp = requests.get(url, headers=headers)
        data = resp.json()
        if not data:
            break
            
        comments.extend(data)
        offset += 10
        
    return comments