# 크롤링 순서

1. 원하는 웹페이지에 접속하여 HTML 데이터를 받아온다
2. 받아온 HTML을 분석(파싱) 가능한 형태로 가공한다.
3. 원하는 데이터를 추출한다.

In [None]:
# 웹페이지에 접속하기 위해 라이브러리 사용 urllib 는 기본 라이브러리
import urllib.request

# 웹서버에 request 하기 위한 객체를 생성해서 request 변수에 저장
request = urllib.request.Request('https://www.naver.com')
# request 를 통해 urlopen 후 결과를 response 변수에 저장
response = urllib.request.urlopen(request)
# response 된 내용을 read()
htmlBytes = response.read()
# htmlBytes 는 bytes 형태로 저장됨 따라서 문자열로 사용하기 위해 utf-8로 디코딩
htmlStr = htmlBytes.decode("utf8")
# htmlStr 의 내용을 엔터값으로 분리 (보기좋게 하기 위해)
htmlSplit = htmlStr.split('\n')
# 분리된 내용을 줄단위로 출력
for line in htmlSplit:
    print(line)

# Requests

* 파이썬에서 웹서버에 접속해서 HTML을 받아올 수 있는 외부 라이브러리 입니다.
* 파이썬 설치시 설치되는 기본라이브러리 보다 사용성도 편하고 속도도 더 빠릅니다.
* ***pip install requests*** 로 설치 후 사용할 수 있습니다.
* <a href="https://2.python-requests.org/en/master/">Requests 공식사이트</a>

In [None]:
# 네이버 메인 페이지 HTML 가져오기
import requests
response = requests.get("https://www.naver.com")

print(response.status_code)
print(response.headers['content-type'])
print(response.encoding)
print(response.text)

# BeautifulSoup

* HTML을 분석 가능한 형태로 가공하고 추출할 수 있는 외부 라이브러리 입니다.
* ***pip install BeautifulSoup4*** 로 설치 후 사용할 수 있습니다.
* BeautifulSoup 사용시 해석라이브러리(파서)를 지정해줘야 합니다.
* 파서로는 기본적인 html.parser, lxml 등이 있습니다. lxml 은 외부라이브러리로 따로 설치를 해야만 사용할 수 있습니다.

* <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">BeautifulSoup 공식 사이트</a>

In [None]:
# 네이버 메인 페이지에서 A 링크만 추출하기
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.naver.com")
bs = BeautifulSoup(response.text, "html.parser")
print(bs.select("a"))

# Requests-HTML

* requests 제작자가 만든 requests에 기능을 추가하여 확장시킨 외부 라이브러리 입니다.
* requests_html 내부에서 requests를 사용합니다.
* requests 에서 지원하지 않는 javasript을 지원하여 javascript를 렌더링 할 수 있습니다.
* ***pip install requests_html*** 로 설치 후 사용할 수 있습니다.
* <a href="https://html.python-requests.org/">requests_html 공식사이트</a>

In [None]:
from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://www.naver.com')
print(r.html.links)
print(r.html.absolute_links)