### 크롤링 순서
1. 원하는 웹페이지에 접속 HTML 데이터를 받아온다
2. 받아온 HTML을 분석(파싱) 가능한 형태로 가공한다
3. 원하는 데이터를 추출한다

In [104]:
# 웹페이지에 접속하기 위한 라이브러리
import urllib.request

In [105]:
#웹섭에 request하기위한 객체 생성
request = urllib.request.Request('https://www.naver.com')

In [106]:
#request를 통해 urlopen후 결과를 변수에 저장
response = urllib.request.urlopen(request)

In [107]:
#html_bytes는 바이트 형태로 저장, 문자열로 사용하기 위해서 utf-8로 디코딩 필요
html_bytes = response.read()
html_str = html_bytes.decode('utf8')

In [None]:
#html_str의 내용을 엔터값(줄바꿈)으로 분리 작업(\n)
html_split = html_str.split('\n')
print(html_split)

In [None]:
#분리된 내용을 줄단위로 출력
for line in html_split:
    print(line)
    print()

### Requests
- 파이썬에서 웹서버에 접속해서 HTML을 받을 수 있는 외부 라이브러리 
- 파이썬 설치시 설치되는 기본 라이브러리 보다 사용성 편하고 속도도 빠름
- pip install requests

In [110]:
import requests

In [143]:
response = requests.get('https://www.naver.com')

In [112]:
print(response.status_code)

200


In [113]:
print(response.headers['content-type'])

text/html; charset=UTF-8


In [114]:
print(response.encoding)

UTF-8


In [None]:
print(response.text)

### BeautifulSoup
- HTML을 분석 가능한 형태로 가공, 추출할 수 있는 외부 라이브러리
- pip install BeautifulSoup4 # (bs4)
- BeautifulSoup 사용시 해석 라이브러리(파서)를 지정 해 줘야 한다.
- 파서로는 기본적인 html.parser, lxml 등이 있음. (lxml 파서는 외부 라이브러리)

In [116]:
import requests
from bs4 import BeautifulSoup

In [117]:
response = requests.get('https://www.naver.com')
bs = BeautifulSoup(response.text, 'html.parser')

In [118]:
print(bs.select('a')[1])

<a href="#themecast"><span>주제별캐스트 바로가기</span></a>


### Requests-HTML
- requests 제작자가 만든 requests에 기능을 추가하여 확장 시킨 라이브러리
- requests_html 내부에서 requests를 사용함
- requests에서 지원하지 않는 javascript를 지원하여 javascript를 렌더링 할 수 있음
- pip install requests_html

In [119]:
!pip install requests_html



In [120]:
from requests_html import HTMLSession

In [121]:
session = HTMLSession()
r = session.get('https://www.naver.com')
print(r.html.links)

{'/policy/youthpolicy.html', 'https://vibe.naver.com/artist/3657600', 'https://tv.naver.com/v/14979864', 'https://vibe.naver.com/artist/266987', 'https://tv.naver.com/v/14980087', 'https://nid.naver.com/nidlogin.login', 'http://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y&aid=0011771992', 'https://www.vlive.tv/video/204541', 'https://vibe.naver.com/magazines/31255', 'https://tv.naver.com/v/14818971', 'http://newsstand.naver.com/?list=&pcode=945', 'https://tv.naver.com/v/14912507', 'https://tv.naver.com/v/14938850', 'http://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y', 'https://land.naver.com/', 'http://newsstand.naver.com/?list=&pcode=117', 'https://tv.naver.com/v/14978882', 'https://tv.naver.com/v/14977807', 'https://tv.naver.com/v/9621192', 'https://tv.naver.com/v/14888467', 'https://tv.naver.com/r', 'https://nid.naver.com/nidlogin.login?mode=form&url=https%3A%2F%2Fwww.naver.com', 'https://tv.n