### 학습목표
1. 다음 뉴스 댓글 개수 크롤링
2. 로그인 하여 크롤링 하기

In [27]:
import requests

#### HTTP 상태 코드
 - 1xx (정보): 요청을 받았으며 프로세스를 계속한다
 - 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다
 - 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다
 - 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다
 - 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다

[출처: 위키피디아](https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C)

#### 로그인하여 데이터 크롤링하기
 - 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재
 - 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등
 - 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행

#### 로그인 후 데이터 크롤링 하기
 1. endpoint 찾기 (개발자 도구의 network를 활용)
 2. id와 password가 전달되는 form data찾기
 3. session 객체 생성하여 login 진행
 4. 이후 session 객체로 원하는 페이지로 이동하여 크롤링
 

In [28]:
from bs4 import BeautifulSoup

In [29]:
# 로그인 endpoint
url = 'https://www.sonohotelsresorts.com/frontlogin.LoginAction.dp/dmparse.dm?&menuCd=7700000'


In [30]:
data = {
  'id' : '아이디',
  'pwd' : '비밀번호!'
}

In [31]:
s = requests.Session()

res = s.post(url, data=data)
print(res)

<Response [200]>


In [32]:
my_page = 'https://www.sonohotelsresorts.com/myDm.index.memberIndex.dp/dmparse.dm?menuCd=6570000'
res = s.get(my_page)

soup = BeautifulSoup(res.text)
soup.select('img')

[<img alt="소노호텔앤리조트" src="/img/front/common/layout/logo.gif"/>,
 <img alt="이전페이지로 돌아가기" src="/img/front/error/btn_prev_page.gif"/>,
 <img alt="family site" src="/img/front/totalmain/btn_familysite.png"/>,
 <img alt="family site - 소노호텔앤리조트의 패밀리사이트입니다." src="/img/front/common/layout/stit_familysite.gif"/>,
 <img alt="대명소노그룹 홈페이지" src="/img/front/common/layout/img_family.gif"/>,
 <img alt="사이트 바로가기" src="/img/front/common/layout/btn_fms_go.gif"/>,
 <img alt="대명소노윤리경영 홈페이지" src="/img/front/common/layout/img_dm_ethics.jpg"/>,
 <img alt="사이트 바로가기" src="/img/front/common/layout/btn_fms_go.gif"/>,
 <img alt="소노펠리체 컨트리클럽 홈페이지" src="/img/front/common/layout/img_dgolfClubcc.gif"/>,
 <img alt="사이트 바로가기" src="/img/front/common/layout/btn_fms_go.gif"/>,
 <img alt="승마클럽 홈페이지" src="/img/front/common/layout/img_horse.gif"/>,
 <img alt="사이트 바로가기" src="/img/front/common/layout/btn_fms_go.gif"/>,
 <img alt="소노펠리체 컨벤션 홈페이지" src="/img/front/common/layout/img_convention.gif"/>,
 <img alt="사이트 바로가기" src="/img

In [33]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

import time

#### selenium
 - 웹페이지 테스트 자동화용 모듈
 - 개발/테스트용 드라이버(웹브라우저)를 사용하여 실제 사용자가 사용하는 것처럼 동작
 - [크롬 드라이버 다운로드](https://chromedriver.chromium.org/downloads)

In [34]:
driver = webdriver.Chrome(r'D:\Download\chromedriver.exe')
driver.get('https://github.com/')

url = 'https://news.v.daum.net/v/20190728165812603'
driver.get(url)

src = driver.page_source
soup = BeautifulSoup(src)
comment_area = soup.select_one('span.alex-count-area')

driver.close()

comment_area.get_text()

  """Entry point for launching an IPython kernel.


'42'

#### selenium을 활용하여 특정 element의 로딩 대기
 - WebDriverWait 객체를 이용하여 해당 element가 로딩 되는 것을 대기
 - 실제로 해당 기능을 활용하여 거의 모든 사이트의 크롤링이 가능
 - WebDriverWait(driver, 시간(초)).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'CSS_RULE')))
 

In [35]:
driver = webdriver.Chrome(r'D:\Download\chromedriver.exe')

url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=081&aid=0003018031'
driver.get(url)

WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.u_cbox_count')))

src = driver.page_source

soup = BeautifulSoup(src)
comment_area = soup.select_one(".u_cbox_count")

driver.close()

print(comment_area.get_text())

  """Entry point for launching an IPython kernel.


21


In [44]:
def get_daum_news_title(news_id):
  url = 'https://news.v.daum.net/v/{}'.format(news_id)
  res = requests.get(url)
  soup = BeautifulSoup(res.text)

  title_tag = soup.select_one('h3.tit_view')
  if title_tag:
    return title_tag.get_text()
  return ""

In [48]:
display(get_daum_news_title('20190728165812603'))
display(get_daum_news_title('20190801114158041'))

'일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"'

'5G 2∼3위 경쟁 치열..LGU+, 6월 가입자 순증 KT 앞서'

#### 뉴스 본문 크롤링

In [52]:
def get_daum_news_content(news_id):
  url = 'https://news.v.daum.net/v/{}'.format(news_id)
  res = requests.get(url)

  soup = BeautifulSoup(res.text)

  content = ''
  for p in soup.select('div#harmonyContainer p'):
    content += p.get_text()
  return content

In [55]:
display(get_daum_news_content('20190728165812603'))
display(get_daum_news_content('20190801114158041'))

'[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 \'폴아웃 쉘터\'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 \'훌루\'를 이용하고 있던 것으로 밝혀졌다.이민우 기자 letzwin@asiae.co.kr<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지>'

'(서울=연합뉴스) 채새롬 기자 = LG유플러스가 6월 한 달간 KT보다 5G 가입자 순증 수가 더 많았던 것으로 집계됐다.1일 과학기술정보통신부와 통신업계에 따르면 6월 말 기준 국내 5G 가입자는 133만 6천865명으로 한 달간 55만2천650명이 늘어났다.통신사별로는 SK텔레콤이 53만346명, KT가 41만9천316명, LG유플러스가 38만7천203명이었다. SK텔레콤의 점유율은 5월 40.8%에서 6월 39.7%, KT는 32.1%에서 31.4%로 다소 줄어든 반면 LG유플러스는 점유율이 27.1%에서 29.0%로 늘었다. 5대 3대 2 구도에서 4대 3대 3 구도가 고착화하는 양상이다.특히 LG유플러스는 월별 순증 가입자 기준 KT를 처음으로 앞질렀다. KT가 6월 16만7천775명 증가한 데 비해 LG유플러스는 17만4천505명을 늘렸다. SK텔레콤은 21만370명을 모집했다.이에 따라 5월 5%포인트였던 LG유플러스와 KT의 점유율 차는 6월 2.4%포인트로 좁혀졌다.6월 공격적인 마케팅을 펼친 LG유플러스가 마케팅 재원이 바닥나자 경쟁사 발목 잡기에 나섰다는 지적도 제기된다. LG유플러스는 지난달 24일 방송통신위원회에 SK텔레콤과 KT를 불법 보조금 살포 혐의로 신고했다.업계 관계자는 "KT와 LG유플러스의 가입자 순증 격차가 좁혀짐에 따라 양사가 3위로 떨어지지 않기 위해 갤럭시노트10이 나오는 8월 치열한 마케팅 싸움을 전개할 것으로 보인다"고 말했다.다음 달 삼성전자 갤럭시노트10 출시를 앞두고 이통사들은 일찌감치 프로모션을 발표하며 5G 가입자 유치 전에 나서고 있다. 7월말 현재 5G 가입자는 180만명 수준으로 파악된다. SK텔레콤 점유율이 41%, KT 31%, LG유플러스 28% 수준으로 알려졌다. 업계에서는 갤럭시노트10이 출시되는 8월 5G 가입자가 200만명을 넘기고 9월부터 갤럭시A90, 갤럭시 폴드, LG전자 5G 스마트폰 등이 출시되면 연말 5G 가입자가 400만명을 넘기리라는 예상이 나온다. SK텔레콤은 1일 5G

In [89]:
url = 'https://comment.daum.net/apis/v1/posts/{}/comments?parentId=0&offset=0&limit=10&sort=POPULAR&isInitial=false&hasNext=true&randomSeed=1642342702'.format('133493400')
res = requests.get(url)
res.json()

[{'id': 393676353,
  'userId': -534043351,
  'postId': 133493400,
  'forumId': -99,
  'parentId': 0,
  'type': 'COMMENT',
  'status': 'S',
  'flags': 256,
  'rating': 0,
  'content': '그니까 왜 자동차에는 유심을 안 넣어 주냐고요. 인터넷 되게 말이에요.',
  'createdAt': '2019-07-28T18:04:58+0900',
  'updatedAt': '2019-07-28T18:04:58+0900',
  'childCount': 0,
  'likeCount': 0,
  'dislikeCount': 0,
  'recommendCount': 0,
  'screenedByKeeper': False,
  'user': {'id': -534043351,
   'status': 'S',
   'type': 'USER',
   'flags': 0,
   'icon': 'https://t1.daumcdn.net/profile/BqUq4T4xttg0',
   'url': '',
   'username': 'DAUM:A8N4r',
   'roles': 'ROLE_USER,ROLE_DAUM,ROLE_IDENTIFIED',
   'providerId': 'DAUM',
   'providerUserId': 'A8N4r',
   'displayName': '민본',
   'description': '',
   'commentCount': 4508}},
 {'id': 393726385,
  'userId': -7821475,
  'postId': 133493400,
  'forumId': -99,
  'parentId': 0,
  'type': 'COMMENT',
  'status': 'S',
  'flags': 0,
  'rating': 0,
  'content': '어이 화성인 아이언맨...\n\n그대 남은 인생이 기껏 3~40년일

In [87]:
def get_daum_news_comments(news_id):
  url_template = 'https://comment.daum.net/apis/v1/posts/{}/comments?parentId=0&offset={}&limit=10&sort=POPULAR&isInitial=false&hasNext=true&randomSeed=1642342702'
  offset = 0
  comments = []
  url = 'https://comment.daum.net/apis/v1/posts/133493400/comments?parentId=0&offset=13&limit=10&sort=POPULAR&isInitial=false&hasNext=true&randomSeed=1642342702'
  res = requests.get(url)
  print(res.json())
  while True:
    url = url_template.format(news_id, offset)
    res = requests.get(url)
    data = res.json()
    
    if not data:
      break
    comments.extend(data) # append x
    offset += 10
  
  return comments



In [90]:
len(get_daum_news_comments('133493400'))

[{'id': 393713011, 'userId': -9657523, 'postId': 133493400, 'forumId': -99, 'parentId': 0, 'type': 'COMMENT', 'status': 'S', 'flags': 0, 'rating': 0, 'content': '그냥 따로 즐기는게 더 낫다.ㅎㅎ', 'createdAt': '2019-07-28T20:00:28+0900', 'updatedAt': '2019-07-28T20:00:28+0900', 'childCount': 0, 'likeCount': 1, 'dislikeCount': 0, 'recommendCount': 1, 'screenedByKeeper': False, 'user': {'id': -9657523, 'status': 'S', 'type': 'USER', 'flags': 0, 'icon': 'https://t1.daumcdn.net/profile/olFpMzWuKwg0', 'url': '', 'username': 'DAUM:Ewmv', 'roles': 'ROLE_USER,ROLE_DAUM,ROLE_IDENTIFIED', 'providerId': 'DAUM', 'providerUserId': 'Ewmv', 'displayName': 'hsgp', 'description': '', 'commentCount': 15127}}, {'id': 394002136, 'userId': 3015947, 'postId': 133493400, 'forumId': -99, 'parentId': 0, 'type': 'COMMENT', 'status': 'S', 'flags': 0, 'rating': 0, 'content': '실제 아이언맨이라고 불리는 얼론 머스크 잘 알고 있습니다. 항상 발전하는 모습 보고있고 언젠가 우리도 그의 기술을 사용하며 편의를 즐기는 날이 올것 갔습니다. 우주에서도 많은 계획이 있다고 들었습니다. 화이팅', 'createdAt': '2019-07-29T16:06:10+

15