### 크롤러: 사람처럼 웹에 접속해서 데이터를 받아오는 프로그램  
1. 웹 페이지를 요청하는 라이브러리가 필요. 자바스크립트때문에 실제 보이는것 처럼 HTML을 가져오지 못할수도.. selenium 사용!!  
2. 요청 결과를 파이썬에서 사용할 수 있는 타입으로 변환.. bs4 사용!

### 요청 모듈
**requests**와 **urllib** 두 개. requests를 더 많이 사용.

In [1]:
import requests as rq

url = "https://pjt3591oo.github.io"

rq.get(url)

<Response [200]>

서버가 클라이언트의 요청을 성공적으로 처리. 웹 페이지에서는 페이지 요청이 정상적으로 완료되면 200 반환..

In [2]:
rq.post(url)

<Response [405]>

잘못된 요청 메소드 사용??

In [3]:
# 응답 코드 가져오기.
res = rq.get(url)
print(res)
print(res.status_code)

<Response [200]>
200


In [4]:
# 없는 페이지 응답 코드 확인
url = "https://pjt3591pp.github.io/a"

res = rq.get(url)

print(res)
print(res.status_code)

<Response [404]>
404


In [5]:
# header 가져오기
url = "https://blog.naver.com/pjt3591oo"

res = rq.get(url)

print(res)
print(res.headers)

<Response [200]>
{'Date': 'Sat, 16 Feb 2019 05:57:39 GMT', 'Content-Type': 'text/html;charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'close', 'Cache-Control': 'no-cache', 'Expires': 'Thu, 01 Jan 1970 00:00:00 GMT', 'Set-Cookie': 'JSESSIONID=1EA4621DE499DD564C6E7946FC54A6AC.jvm1; Path=/; HttpOnly', 'P3P': 'CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Headers': 'accept, content-type', 'Access-Control-Allow-Methods': 'GET, POST', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Server': 'nxfps', 'Referrer-policy': 'unsafe-url'}


딕셔너리 형태. 특정값을 가져올 수 있다.

In [6]:
headers = res.headers
print(headers['Set-Cookie'])

JSESSIONID=1EA4621DE499DD564C6E7946FC54A6AC.jvm1; Path=/; HttpOnly


쿠키값은 요청되는 PC, 사용자에 따라 매우 유동적으로 다르게 나타남...

In [13]:
# 헤더의 모든 요소 접근
for header in headers:
    print(f'{"-"*20}\n{header}\n\n{headers[header]}\n')
    

--------------------
Date

Sat, 16 Feb 2019 05:57:39 GMT

--------------------
Content-Type

text/html;charset=UTF-8

--------------------
Transfer-Encoding

chunked

--------------------
Connection

close

--------------------
Cache-Control

no-cache

--------------------
Expires

Thu, 01 Jan 1970 00:00:00 GMT

--------------------
Set-Cookie

JSESSIONID=1EA4621DE499DD564C6E7946FC54A6AC.jvm1; Path=/; HttpOnly

--------------------
P3P

CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"

--------------------
Access-Control-Allow-Credentials

true

--------------------
Access-Control-Allow-Headers

accept, content-type

--------------------
Access-Control-Allow-Methods

GET, POST

--------------------
Vary

Accept-Encoding

--------------------
Content-Encoding

gzip

--------------------
Server

nxfps

--------------------
Referrer-policy

unsafe-url



헤더에서 가장 중요한 부분은 쿠키! Set-Cookie부분. headers 속성 말고 cookies 속성으로 바로 가져올 수 있다.

In [14]:
cookies = res.cookies
print(cookies)

<RequestsCookieJar[<Cookie JSESSIONID=1EA4621DE499DD564C6E7946FC54A6AC.jvm1 for blog.naver.com/>]>


리스트나 튜플, 딕셔너리로 변환해서 사용..

In [18]:
print(list(cookies),'\n\n', tuple(cookies), '\n\n', dict(cookies))

[Cookie(version=0, name='JSESSIONID', value='1EA4621DE499DD564C6E7946FC54A6AC.jvm1', port=None, port_specified=False, domain='blog.naver.com', domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)] 

 (Cookie(version=0, name='JSESSIONID', value='1EA4621DE499DD564C6E7946FC54A6AC.jvm1', port=None, port_specified=False, domain='blog.naver.com', domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False),) 

 {'JSESSIONID': '1EA4621DE499DD564C6E7946FC54A6AC.jvm1'}


cookies 속성으로 보는게 headers에서 보는것보다 자세히 나옴..

### HTML 코드 가져오기

In [20]:
url = "https://pjt3591oo.github.io/"

res = rq.get(url)

print(res.text)

<!DOCTYPE html>
<html lang="en">

  <head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1">

  <title>Home</title>
  <meta name="description" content="멍개의 개발 블로그입니다. 궁금하신 사항 혹은 전달하고 싶은 내용이 있으시면 메일로 문의 주세요.">

  <link rel="stylesheet" href="/assets/main.css">
  <link rel="canonical" href="/">
  <link rel="alternate" type="application/rss+xml" title="Home" href="/feed.xml">
  
  
</head>


  <body>

    <header class="site-header" role="banner">

  <div class="wrapper">
    
    
    <a class="site-title" href="/">Home</a>
  
    
      <nav class="site-nav">
        <input type="checkbox" id="nav-trigger" class="nav-trigger" />
        <label for="nav-trigger">
          <span class="menu-icon">
            <svg viewBox="0 0 18 15" width="18px" height="15px">
              <path fill="#424242" d="M18,1.484c0,0.82-0.665,1.484-1.484,1.484H1.484C0.665,2.969,0,2.304,0,1.484l0,0C0,0.665,0.6

text속성 이용보다 res.content로 가져오는 방법을 추천!

In [21]:
print(res.content)

b'<!DOCTYPE html>\n<html lang="en">\n\n  <head>\n  <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge">\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n  <title>Home</title>\n  <meta name="description" content="\xeb\xa9\x8d\xea\xb0\x9c\xec\x9d\x98 \xea\xb0\x9c\xeb\xb0\x9c \xeb\xb8\x94\xeb\xa1\x9c\xea\xb7\xb8\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4. \xea\xb6\x81\xea\xb8\x88\xed\x95\x98\xec\x8b\xa0 \xec\x82\xac\xed\x95\xad \xed\x98\xb9\xec\x9d\x80 \xec\xa0\x84\xeb\x8b\xac\xed\x95\x98\xea\xb3\xa0 \xec\x8b\xb6\xec\x9d\x80 \xeb\x82\xb4\xec\x9a\xa9\xec\x9d\xb4 \xec\x9e\x88\xec\x9c\xbc\xec\x8b\x9c\xeb\xa9\xb4 \xeb\xa9\x94\xec\x9d\xbc\xeb\xa1\x9c \xeb\xac\xb8\xec\x9d\x98 \xec\xa3\xbc\xec\x84\xb8\xec\x9a\x94.">\n\n  <link rel="stylesheet" href="/assets/main.css">\n  <link rel="canonical" href="/">\n  <link rel="alternate" type="application/rss+xml" title="Home" href="/feed.xml">\n  \n  \n</head>\n\n\n  <body>\n\n    <header class="site-header" r

한글깨짐, 인코딩 문제를 해결할 수 있다. 그대로 읽는 것이 아니라 binary로 바꿔서 가져오기 때문에..

#### UTF-8
조합형 인코딩 방식.. 오늘날 웹에서 선호되는 방식..
#### EUC-KR
완성형 인코딩 방식..  

In [22]:
res.encoding

'utf-8'

## 데이터 보내는 법.
requests로 요청할 때 데이터를 실어 보낼 수 있다. 쿼리스트링같은 경우 URL에 직접 표현 할 수 있지만 번거롭다.  
데이터를 딕셔너리 형태로 만들어 보내는 방식으로 쉽게 가능.. 헤더, 쿠키 데이터도 원하는 값으로 변경하여 요청 가능하다  
특정 페이지는 헤더의 user-agent가 비었거나, 쿠키가 비어있을 경우 정상적으로 HTML을 주지 않을 수 있다.  
이럴 때는 쿠키를 직접 만들어야 한다.  

In [23]:
# 1. 쿼리스트링 데이터 만들어 요청. 요청할 때 필요한 데이터를 두 번째 인자부터 넣을 수 있다.
res = rq.get(url, params={"key1": "value1", "key2": "value2"})
print(res.url)

https://pjt3591oo.github.io/?key1=value1&key2=value2


## post  요청 보내기-body에 데이터 추가.
POST 요청을 할 때 데이터가 URL에 포함되어 있지 않고 header의 body에 포함되기 때문에 반드시 추가적인 인자를 넣어 보내야 함.  
쿼리스트링은 params를 이용했고, body 데이터에 추가할 땐 data를 이용. 

In [24]:
url = "http://www.example.com"
res = rq.post(url, data={"key1": "value1", "key2": "value2"})
print(res.url)

http://www.example.com/


data 키워드를 이용해서 post 요청 시 데이터를 포함하여 보낼 수 있지만, 단순히 data=dict()를 하면 정상적으로 요청이 안 될 수 있다.  
이 때는 딕셔너리 형태를 유지한 문자열 형태로 데이터를 전달해야함.. json 사용!!

In [25]:
import json
res = rq.post(url, data=json.dumps({"key1": "value1", "key2": "value2"}))
print(res.url)

http://www.example.com/


In [26]:
json.dumps({'1':'3', '2': 5})

'{"1": "3", "2": 5}'

큰따옴표 ""로 키와 값을 표시해야 하므로 str(dict())로 바꿔주는게 아니라 json.dumps 이용!

## 헤더 설정
헤더를 설정할 때는 headers를 이용

In [27]:
url = "https://pjt3591oo.github.io/"

res = rq.get(url, headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/60.0.3112.113 Safari/537.36"})

print(res.url)

https://pjt3591oo.github.io/


## 예외처리
try except 구문으로 처리..

In [28]:
url = "blog.naver.com/pjt3591oo"
res = rq.get(url)

MissingSchema: Invalid URL 'blog.naver.com/pjt3591oo': No schema supplied. Perhaps you meant http://blog.naver.com/pjt3591oo?

http나 https를 명시하지 않으면 MissingSchema 에러 발생.

In [29]:
try:
    res = rq.get(url)
except rq.exceptions.MissingSchema:
    print('MissingSchema 에러 발생')

MissingSchema 에러 발생


위와 같이 http를 안쓴거는 코드단에서 처리 가능. 이런것들은 예외처리를 하지 않는 것이 좋다.  
timeout같은 서버에 의한 에러들을 except 처리하는 것이 좋다.

In [30]:
# time 에러 발생 시
import time

url = "http://blog.naver.com/pjt3591oo"
delay_time = 1

def connection(u):
    return rq.get(u)

try:
    connection(url)
except rq.exceptions.Timeout:
    time.sleep(delay_time)
    connection(url)

서버 상황으로 timeout에러 발생할수도.. 서버가 일정시간동안 요청한 클라이언트에 응답하지 않을 때 발생하는 에러.  
잠깐 기다렸다가 재요청을 하는 방법으로 해결. retry패턴.

### urllib 사용
내장모듈.

In [33]:
from urllib.request import urlopen, Request

url = "https://pjt3591oo.github.io/"

req = Request(url)
page = urlopen(req)
print(page)

<http.client.HTTPResponse object at 0x000001FDC1BA0240>


urllib은 객체를 만들어 요청.Request(url)이 객체를 만드는 부분.

In [34]:
# 다양한 정보 확인
req = Request(url)
page = urlopen(req)

print(page)
print(page.code)
print(page.headers)
print(page.url)
print(page.info().get_content_charset())

<http.client.HTTPResponse object at 0x000001FDC1BA06D8>
200
Server: GitHub.com
Content-Type: text/html; charset=utf-8
Last-Modified: Sat, 20 May 2017 06:31:56 GMT
ETag: "591fe2dc-50f0"
Access-Control-Allow-Origin: *
Expires: Sat, 16 Feb 2019 07:08:06 GMT
Cache-Control: max-age=600
X-GitHub-Request-Id: 6E6A:4AC1:3048BC:3671EC:5C67B47E
Content-Length: 20720
Accept-Ranges: bytes
Date: Sat, 16 Feb 2019 06:58:06 GMT
Via: 1.1 varnish
Age: 0
Connection: close
X-Served-By: cache-hnd18746-HND
X-Cache: MISS
X-Cache-Hits: 0
X-Timer: S1550300286.436614,VS0,VE94
Vary: Accept-Encoding
X-Fastly-Request-ID: 915387623d7b00caadca1700d95fbb4dd08abd36


https://pjt3591oo.github.io/
utf-8


In [36]:
# HTML 코드 가져오기
print(page.read())

b'<!DOCTYPE html>\n<html lang="en">\n\n  <head>\n  <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge">\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n  <title>Home</title>\n  <meta name="description" content="\xeb\xa9\x8d\xea\xb0\x9c\xec\x9d\x98 \xea\xb0\x9c\xeb\xb0\x9c \xeb\xb8\x94\xeb\xa1\x9c\xea\xb7\xb8\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4. \xea\xb6\x81\xea\xb8\x88\xed\x95\x98\xec\x8b\xa0 \xec\x82\xac\xed\x95\xad \xed\x98\xb9\xec\x9d\x80 \xec\xa0\x84\xeb\x8b\xac\xed\x95\x98\xea\xb3\xa0 \xec\x8b\xb6\xec\x9d\x80 \xeb\x82\xb4\xec\x9a\xa9\xec\x9d\xb4 \xec\x9e\x88\xec\x9c\xbc\xec\x8b\x9c\xeb\xa9\xb4 \xeb\xa9\x94\xec\x9d\xbc\xeb\xa1\x9c \xeb\xac\xb8\xec\x9d\x98 \xec\xa3\xbc\xec\x84\xb8\xec\x9a\x94.">\n\n  <link rel="stylesheet" href="/assets/main.css">\n  <link rel="canonical" href="/">\n  <link rel="alternate" type="application/rss+xml" title="Home" href="/feed.xml">\n  \n  \n</head>\n\n\n  <body>\n\n    <header class="site-header" r

requests의 content()함수처럼 read()함수가 HTML을 바이너리 형태로 가져옴.

In [38]:
# 데이터 요청
import urllib

url = "http://blog.naver.com/pjt3591oo"

# post 요청 시 보낼 데이터 만들기
# encode()함수를 바이너리 형태로 인코딩하여 보내야 한다.
data = {'key': 'value1', 'key2': 'value2'}
data = urllib.parse.urlencode(data)    # 딕셔너리를 쿼리스트링 형태로 바꿔줌.
data = data.encode('utf-8')            # 쿼리스트링처럼 표현된 문자열을 UTF-8로 인코딩하여 바이너리 형태로 바꿔줌.

print(data)

# Request()함수에 두 번째 인자값(data)가 존재하면 POST요청, 없으면 GET요청.
# post 요청
req_post = Request(url, data=data, headers={}) # 두 번째 인자 데이터, 세 번째 인자 헤더
page = urlopen(req_post)

print(page)
print(page.url)

# get 요청
req_get = Request(url+"?key1=value1&key=value2", None, headers={})
page = urlopen(req_get)

print(page)
print(page.url)

b'key=value1&key2=value2'
<http.client.HTTPResponse object at 0x000001FDC1BA0DA0>
https://blog.naver.com/pjt3591oo
<http.client.HTTPResponse object at 0x000001FDC1B3EDD8>
https://blog.naver.com/pjt3591oo?key1=value1&key=value2


In [39]:
# 없는 페이지 요청
url = "https://pjt3591oo.github.io/1"
req_post = Request(url)
page = urlopen(req_post)

print(page)
print(page.url)

HTTPError: HTTP Error 404: Not Found

requests와 다르게 잘못된 페이지 요청 시 에러를 띄워줌.

## 파싱 모듈
요청 모듈로 가져온 HTML코드를 파이썬이 쓸 수 있는 코드로 변환해 주어야.. bs4모듈을 사용하여 HTML코드를 파이썬에서 사용 가능한 객체로 바꿔줌.  
내장모듈!

In [40]:
import bs4

html = """"""""

soup = bs4.BeautifulSoup(html)



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


두 번째 인자로 파서를 넣지 않았기 때문에 시스템에서 가장 적합한 파서를 선택했다는 경고 메시지..

In [41]:
soup = bs4.BeautifulSoup(html, 'lxml')

BeautifulSoup() 함수 첫 번째 인자로 파이썬 객체로 바꿀 스트링을 넣어주고, 두 번째 인자로 파서를 넣음.  
**파서**란, 원시 코드인 순수 문자열 객체를 해석할 수 있도록 분석하는 것을 의미..  
lxml  
html5lib  
html.parser 세 개 존재.  
주로 lxml을 이용하지만 한글깨질때 파서를 바꾸면 되기도..
1. **lxml**
XML 해석이 가능한 파서. 그리고 파이썬 2.x, 3.x 모두 지원. 매우 빠른속도(c로 구현)  
2. **html5lib**
웹 브라우저 방식으로 HTML해석. 하지만 매우 느림. 2.x 버전 전용.
3. **html.parser**
최신버전에서 사용 불가.  
  
BeautifulSoup 다 쓰기 너무 길다.. BS 로 쓸까??

In [42]:
from bs4 import BeautifulSoup as BS
html = """"""
soup = BS(html, 'lxml')

## 웹 테스팅 모듈
웹 자동 테스팅 프레임워크인 selenium에 대해 알아보자! 크롤러를 만들 때 requests + bs4 조합을 쓰거나 selenium 사용.  
설치필요, 브라우저 드라이버도 설치해야. 드라이버는 크롤러가 작성된 폴더에 있어야함.

In [43]:
from selenium import webdriver

driver = webdriver.Chrome('chromedriver.exe')  # 설치된 드라이버의 경로. 반드시 같은폴더일 필요는 없구나 역시.

윈도우에선 .exe 붙여주기...  위처럼만 하면 빈 브라우저 뜬다.
다른 브라우저들.
1. chrome_driver = webdriver.Chrome('chromedriver')
2. iexplore_driver = webdriver.Ie('IEDriverServer')
3. firefox_driver = webdriver.Firefox('FirefoxDriver')