<div class="alert alert-block" style="border: 2px solid #1976D2;background-color:#E3F2FD;padding:5px;font-size:0.9em;">
본 자료는 저작권법 제25조 2항에 의해 보호를 받습니다. 본 자료를 외부에 공개하지 말아주세요.<br>
본 강의만 잘 정리하면, 데이터 분석, 데이터 과학, 풀스택(백엔드, 프론트엔드) 개발 모두 가능합니다!<br>
<b><a href="https://school.fun-coding.org/">잔재미코딩</a> 에서 본 강의 기반 최적화된 로드맵도 확인하실 수 있습니다</b></div>

## requests 라이브러리와 urllib 라이브러리 비교
- 기존에는 urllib + bs4 셋트로 많이 사용됨
- 최근에는 requests + bs4 셋트로 많이 사용됨
- 기존 코드 중 일부가 urllib 을 사용하는 경우가 있으므로, 참고로 간단한 사용법만 익히기로 함

> 경우에 따라 urllib 송수신시 인코딩 처리가 달라서, urllib 으로는 정상적으로 데이터를 가져오는 경우가 간혹 있음 (예전 사이트의 경우)
> 최근에는 대부분의 사이트가 인코딩 처리를 유니코드로 설정하고 있으므로, 이런 경우는 극히 드물다고 보면 됨

- requests 라이브러리를 사용해서 크롤링을 진행하고,
  - 문제가 있어보이는 경우만, urllib 으로도 한번 실행해보면 좋음
 

### requests 라이브러리로 작성한 코드

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/')
soup = BeautifulSoup(res.content, 'html.parser')

data = soup.select('h4.card-text')
for item in data:
    print (item.get_text().strip())

### urllib 라이브러리로 작성한 코드

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

res = urlopen('https://davelee-fun.github.io/')
soup = BeautifulSoup(res, 'html.parser')

data = soup.select('h4.card-text')
for item in data:
    print (item.get_text().strip())

### HTTP response code (크롤링할 페이지가 없는 경우 확인 방법)
- HTTP 라는 프로토콜 규격에 따라서, 응답 데이터에 응답 코드(response code)를 넣어서 보내게 됨
  - requests 라이브러리의 경우, requests.get() 의 리턴변수.status_code 에서 응답 코드를 확인할 수 있음
  - HTTP 규격에 따라 응답 코드가 200 인 경우는 정상 응답, 그렇지 않으면 무언가 문제가 있다는 뜻
    - 참고: https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C
    - 특정 페이지 요청 후, 응답 코드가 200 이 아니면, 특정 페이지가 없는 경우 (또는 결과적으로는 문제가 있는 경우)라고 인지할 수 있음

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/xxx')
if res.status_code != 200:
    print ('페이지 없음')
else:
    soup = BeautifulSoup(res.content, 'html.parser')

    data = soup.select('h4.card-text')
    for item in data:
        print (item.get_text())

### 여러 페이지를 한번에 크롤링하는 기법

In [None]:
import requests
from bs4 import BeautifulSoup

for page_num in range(10):
    if page_num == 0:
        res = requests.get('https://davelee-fun.github.io/')
    else:
        res = requests.get('https://davelee-fun.github.io/page' + str(page_num + 1))
    soup = BeautifulSoup(res.content, 'html.parser')

    data = soup.select('h4.card-text')
    for item in data:
        print (item.get_text().strip())

<div class="alert alert-block" style="border: 2px solid #1976D2;background-color:#E3F2FD;padding:5px;font-size:0.9em;">
본 자료는 저작권법 제25조 2항에 의해 보호를 받습니다. 본 자료를 외부에 공개하지 말아주세요.<br>
본 강의만 잘 정리하면, 데이터 분석, 데이터 과학, 풀스택(백엔드, 프론트엔드) 개발 모두 가능합니다!<br>
<b><a href="https://school.fun-coding.org/">잔재미코딩</a> 에서 본 강의 기반 최적화된 로드맵도 확인하실 수 있습니다</b></div>