### 6-1 requests 모듈 import 
>* requests 모듈은 파이썬에서 웹 데이터를 받아올 때 가장 많이 사용하는 모듈

In [1]:
import requests

### 6-2 requests 모듈 import 
>* requests 모듈을 이용하여 웹 페이지에 접속하기
>* requests를 get과 post로 요청을 보낼 수 있음
>* get 요청을 보낼때는 requests.get()을 이용
>* post 요청을 보낼때는 requests.post()을 이용

In [3]:
import requests as rq

### 6-3 get요청 
>* requests는 요청 후 응답 객체를 반환

In [4]:
import requests as rq

url = 'https://pjt3591oo.github.io'

rq.get(url)

<Response [200]>

### 6-4 응답결과 

In [5]:
import requests as rq

url = 'https://pjt3591oo.github.io'

res = rq.get(url)
print(res)

<Response [200]>


### 6-5  응답코드 가져오기
>* 응답객체에서 응답코드를 가져올 수 있음
>* status_code 속성을 통해 응답코드를 확인 할 수 있음

In [7]:
import requests as rq

url = 'https://pjt3591oo.github.io'

res= rq.get(url)
print(res)
print(res.status_code)

<Response [200]>
200


### 6-6  없는 페이지 응답 코드 확인하기
>* 404는 찾을 수 없다는 의미이며, 존재하지 않는 url에 접속하여 해당 페이지에 접속 할 수 없을 때 반환하는 코드

In [9]:
import requests as rq

url = 'https://pjt3591oo.github.io/a'

res= rq.get(url)

print(res)
print(res.status_code)

<Response [404]>
404


### 6-7  응답코드를 활용한 조건 분기
>* 응답코드인 status_code에 따라 조건을 나누어 처리할 수 있음

In [14]:
import requests as rq

def url_check(url):
    res = rq.get(url)
    
    print(res)
    
    sc = res.status_code
    
    if sc ==200:
        print('%s 요청 성공' %(url))
        
    elif sc == 404:
        print('%s 찾을 수 없음' %(url))
    else:
        print('%s 알 수 없는 에러 : %s ' %(url, sc))
        
url_check('https://pjt3591oo.github.io/')
url_check('https://pjt3591oo.github.io//a')

<Response [200]>
https://pjt3591oo.github.io/ 요청 성공
<Response [404]>
https://pjt3591oo.github.io//a 찾을 수 없음


### 6-8  헤더가져오기
>* 응답 객체에서 헤더를 딕셔너리 형태로 가져옴

In [17]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)

print(res)
print(res.headers)

<Response [200]>
{'Date': 'Thu, 20 Feb 2020 05:16:05 GMT', 'Content-Type': 'text/html;charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'close', 'Cache-Control': 'no-cache', 'Expires': 'Thu, 01 Jan 1970 00:00:00 GMT', 'Set-Cookie': 'JSESSIONID=EADA379BC390EC017C7FBC2D521A14C4.jvm1; Path=/; HttpOnly', 'P3P': 'CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Headers': 'accept, content-type', 'Access-Control-Allow-Methods': 'GET, POST', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Server': 'nxfps', 'Referrer-policy': 'unsafe-url'}


### 6-9 특정 값 가져오기
>* set_cookie를 이용하여 설전된 쿠키값을 볼 수 있음 => 쿠키값은 요청되는 pd,사용자에 따라 다르게 나타나므로, 값이 유동적으로 바뀜 
>* 쿠기값 내에 expires는 쿠키만료기간으로 , 해당 쿠키가 expires 날짜까지 존재한다면 만료되어 다시 재발급

In [1]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)

headers = res.headers
print(headers['Set-Cookie'])

JSESSIONID=58C699010D38276C78DFDD2622717EF4.jvm1; Path=/; HttpOnly


### 6-10 헤더의 모든 요소 접근
>* 크롤러를 만들 때 응답 객체의 헤더에서 가장 중요한 부분은 서버에서 쿠키값을 만들어 준 set-cookie 부분

In [19]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)

print(res)

headers = res.headers

for header in headers:
    print(headers[header])

<Response [200]>
Thu, 20 Feb 2020 05:19:16 GMT
text/html;charset=UTF-8
chunked
close
no-cache
Thu, 01 Jan 1970 00:00:00 GMT
JSESSIONID=902DE6110A66153F2B98A1E51A8BFBDD.jvm1; Path=/; HttpOnly
CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"
true
accept, content-type
GET, POST
Accept-Encoding
gzip
nxfps
unsafe-url


### 6-11  쿠키 가져오기 1)
>* 쿠키는 headers 속성에서 접근하지 않고 cookies 속성으로 바로 가져올 수 있음

In [21]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)

print(res)

cookies = res.cookies
print(cookies)

<Response [200]>
<RequestsCookieJar[<Cookie JSESSIONID=E1CA7B1FD48F8BB5CB4A1E7830172A5C.jvm1 for blog.naver.com/>]>


### 6-12 쿠키 가져오기 2)
>* cookie 속성은 requestscookiejar 형태로 반환
>* 이 경우 리스트와 같은 타입으로 변환한 후 사용하면 됨

In [22]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)

print(res)

cookies = res.cookies
print(list(cookies))

<Response [200]>
[Cookie(version=0, name='JSESSIONID', value='A482C6B8F6B22FCA539E21F7D508A87B.jvm1', port=None, port_specified=False, domain='blog.naver.com', domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)]


### 6-13 쿠키 가져오기 3)
>* 튜플로 가져오기

In [23]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)
print(res)

cookies = res.cookies
print(tuple(cookies))

<Response [200]>
(Cookie(version=0, name='JSESSIONID', value='61F2E933D5CAD435F4BC81638D37D164.jvm1', port=None, port_specified=False, domain='blog.naver.com', domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False),)


### 6-14 쿠키 가져오기 4)
>* 딕셔너리 형태로 가져오기
>* 이 경우 쿠키에 있는 name과 value를 name:value의 형태로 딕셔너리를 만듬

In [25]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)
print(res)

cookies = res.cookies
print(dict(cookies))

<Response [200]>
{'JSESSIONID': 'F8CFE1602F47DD68DCF01D2CF6C27125.jvm1'}


### 6-15 header 와 cookie 속성 비교
>* cookie 속성이 headers보다 쿠키값의 정보를 더 자세히 볼 수 있음
>* 또한 name 단위로 구분지어져 있기 때문에 headers보다 더 자세히 볼 수 있음

In [26]:
import requests as rq

url = 'http://blog.naver.com/pjt3591oo'

res = rq.get(url)
print(res)

cookies = res.cookies
headers_cookies = res.headers['Set-Cookie']

print('cookies 속성')
print(cookies)
print('')
print('header 속성')
print(headers_cookies)

<Response [200]>
cookies 속성
<RequestsCookieJar[<Cookie JSESSIONID=900D2E7B995154B2496AABC54AD9620E.jvm1 for blog.naver.com/>]>

header 속성
JSESSIONID=900D2E7B995154B2496AABC54AD9620E.jvm1; Path=/; HttpOnly


### 6-16 html 속성 가져오기
>* text 속성을 이용하면 html 코드를 가져올 수 있음

In [27]:
import requests as rq

url = 'https://pjt3591oo.github.io/'

res = rq.get(url)

print(res.text)


<!DOCTYPE html>
<html lang="en">

  <head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1">

  <title>Home</title>
  <meta name="description" content="멍개의 개발 블로그입니다. 궁금하신 사항 혹은 전달하고 싶은 내용이 있으시면 메일로 문의 주세요.">

  <link rel="stylesheet" href="/assets/main.css">
  <link rel="canonical" href="/">
  <link rel="alternate" type="application/rss+xml" title="Home" href="/feed.xml">
  
  
</head>


  <body>

    <header class="site-header" role="banner">

  <div class="wrapper">
    
    
    <a class="site-title" href="/">Home</a>
  
    
      <nav class="site-nav">
        <input type="checkbox" id="nav-trigger" class="nav-trigger" />
        <label for="nav-trigger">
          <span class="menu-icon">
            <svg viewBox="0 0 18 15" width="18px" height="15px">
              <path fill="#424242" d="M18,1.484c0,0.82-0.665,1.484-1.484,1.484H1.484C0.665,2.969,0,2.304,0,1.484l0,0C0,0.665,0.6

### 6-17 html 코드 가져오기 2)
>* text 속성보다는 content속성으로 가져오는 것을 추천
>* content는 한글이 깨지는 현상이 존재하면, 한글을 바이너리 형태(인코딩)로 바꾸므로 코드화 시켜서 가져옴. 
>* 즉 바이너리 형태로 html을 가져올 경우 text속성을 이용하였을 때 발생하는 한글문자가 깨지는 현상을 방지 할 수 있음

In [28]:
import requests as rq

url = 'https://pjt3591oo.github.io/'

res = rq.get(url)

print(res.content)


b'<!DOCTYPE html>\n<html lang="en">\n\n  <head>\n  <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge">\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n  <title>Home</title>\n  <meta name="description" content="\xeb\xa9\x8d\xea\xb0\x9c\xec\x9d\x98 \xea\xb0\x9c\xeb\xb0\x9c \xeb\xb8\x94\xeb\xa1\x9c\xea\xb7\xb8\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4. \xea\xb6\x81\xea\xb8\x88\xed\x95\x98\xec\x8b\xa0 \xec\x82\xac\xed\x95\xad \xed\x98\xb9\xec\x9d\x80 \xec\xa0\x84\xeb\x8b\xac\xed\x95\x98\xea\xb3\xa0 \xec\x8b\xb6\xec\x9d\x80 \xeb\x82\xb4\xec\x9a\xa9\xec\x9d\xb4 \xec\x9e\x88\xec\x9c\xbc\xec\x8b\x9c\xeb\xa9\xb4 \xeb\xa9\x94\xec\x9d\xbc\xeb\xa1\x9c \xeb\xac\xb8\xec\x9d\x98 \xec\xa3\xbc\xec\x84\xb8\xec\x9a\x94.">\n\n  <link rel="stylesheet" href="/assets/main.css">\n  <link rel="canonical" href="/">\n  <link rel="alternate" type="application/rss+xml" title="Home" href="/feed.xml">\n  \n  \n</head>\n\n\n  <body>\n\n    <header class="site-header" r

### 6-18 인코딩 확인

In [29]:
import requests as rq

url = 'https://pjt3591oo.github.io/'

res = rq.get(url)

print(res.encoding)


utf-8


### 6-19 쿼리스트링 생성 1)
>* requests로 요청할 때 데이터를 실어 보낼 수 있는데, 쿼리 스트링의 경우 url에 직접 표현 할 수 있는지만 쿼리스트링을 만들어야 한다는 번거로움이 있음. 
>* 하지만 데이터를 딕셔너리로 만들어 보내는 방식으로 번거로움을 줄 일수 있음. 
>* 데이터뿐만 아니라 헤더 쿠키 같은 데이터도 원하는 값으로 변경하여 요청이 가능
>* 요청할 때 필요한 데이터를 두번째 인자부터 넣을 수 있음
>* 두번쨰 인자로 params를 넣어 쿼리스트링을 만들어 요청을 보냈음

In [30]:
import requests as rq

url = 'https://pjt3591oo.github.io/'

res = rq.get(url, params ={'key1':'values', 'key2':'values'})

print(res.url)


https://pjt3591oo.github.io/?key1=values&key2=values


### 6-20 쿼리스트링 생성 2)
>* 6-19처럼 코드를 작성하지 않고 url로만 데이터를 보낼 경우에는 url에 파라미터 포함된 주소로 하면 됨
>* 이렇게 하면 / 같은 것을 신경 써야 하므로 코드 관히를 하려면 6-19 처럼 하는게 더 좋음

In [31]:
import requests as rq

url = 'https://pjt3591oo.github.io/?key1=values&key2=values'

res = rq.get(url)

print(res.url)


https://pjt3591oo.github.io/?key1=values&key2=values


### 6-21 post 요청
>* post요청을 할 때는 데이터가 url에 포함되어 있지 않고, header의 body에 포함되기 때문에 반드시 추가적인 인자를 넣어 보내야 함. 
>* 쿼리스트링은 params를 사용하지만, post는 body데이터를 추가할때 data를 이용

In [32]:
import requests as rq

url = 'http://www.example.com'

res = rq.post(url, data={'key1':'value1', 'key2':'value2'})

print(res.url)


http://www.example.com/


### 6-22 json 모듈을 활용한 post 요청
>* data 키워드를 이용하여 post요청시 데이터를 포함하여 보낼 수 있음
>* 하지만 단순희 data=dict()를 하면 정상적인 요청이 안 될 수 있음
>* 이럴때눈 딕셔너리 형태를 유지한 문자열 형태로 데이터를 전달해야함. 
>* 이럴때 사용하는 모듈이 json 모듈!
>* 결과는 달라지지 않았지만, data를 딕셔너리에서 문자열 형태로 바꾸어 보낸것
>* json.dump(딕셔너리)를 하면 해당 딕셔너리의 형태를 유지하면서 문자열로 바꾸어 줌. 

In [35]:
import requests as rq
import json

url = 'http://www.example.com'

res = rq.post(url, data=json.dumps({'key1':'value1', 'key2':'value2'}))

print(res.url)


http://www.example.com/


### 6-23 json 모듈과 str의 차이
>* 딕셔너리 형태로 유지하면서 문자열로 바꾸기 위해서는 큰타옴표로 키:값을 표현해야함.
>* 그렇기 때문에 json.dump()를 확인하여 딕셔너리를 문자열 형태로 바꾸어 사용

In [38]:
import json

dict1 = {'key1':'value1', 'key2':'value2'}
dict2 = {'key1':'value1', 'key2':'value2'}

print(json.dumps(dict1))
print(str(dict1))

print(json.dumps(dict2))
print(str(dict2))

{"key1": "value1", "key2": "value2"}
{'key1': 'value1', 'key2': 'value2'}
{"key1": "value1", "key2": "value2"}
{'key1': 'value1', 'key2': 'value2'}


### 6-24 헤더 설정하기
>* 헤더나 데이터를 보내는 경우 크롤러 입장에서는 달라지는 것이 없음

In [39]:
import requests as rq

url = 'https://pjt3591oo.github.io/'

res = rq.get(url, headers ={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"})

print(res.url)

https://pjt3591oo.github.io/


### 6-25 requests 요청시 오류 발생
>* url 명시시 http 혹은 https를 명시하지 않으면 mIssingSchema 오류 발생

In [41]:
import requests as rq
url = 'blog.naver.com/pjt3591oo'

res = rq.get(url)

MissingSchema: Invalid URL 'blog.naver.com/pjt3591oo': No schema supplied. Perhaps you meant http://blog.naver.com/pjt3591oo?

### 6-26 에러 처리
>* 코드단에서 처리 가능한 부분이기 때문에 이런 것들은 예외 처리를 하는 것은 좋지 않음
>* tieout 같은 서버에 의한 에러들을 except 처리 하는 것이 좋음.

In [42]:
import requests as rq
url = 'blog.naver.com/pjt3591oo'

try:
    res = rq.get(url)
except rq.exceptions.MissingSchema:
    print('MissingSchema 에러 발생')

MissingSchema 에러 발생


### 6-27  time 에러 발생시
>* 서버측의 특수한 상황 때문에 timeout 에러가 발생 할 수 있음
>* timeout은 서버가 일정 시간 동안 요청한 클라이언트에 응답하지 않았을 때 발생하는 에러
>* 이럴때는 일정 시간 동안 잠시 기다렸다가 재요청을 하는 방법으로 해결 할 수 있음
>* time을 임포트 한후 sleep() 함수를 호출하묜, 인자로 넘긴 값 만큼 코드가 정지
>* 특정 코드를 다시 호출할 결우 retry 패턴을 이용하면 효율적인 관리 가능

In [43]:
import requests as rq
import time

url ='http://blog.naver.com/pjt3591oo'
delay_time = 1

def connection(u):
    return rq.get(u)
try:
    connection(url)
    
except rq.exceptions.Timeout:
    time.sleep(delay_time)
    connection(url)

### 6-28 urllib 사용 방법
>* urllib는 객체를 만들어 요청

In [45]:
from urllib.request import urlopen, Request

url = 'https://pjt3591oo.github.io/'

req = Request(url) # 요청 객체를 만드는 부분
page = urlopen(req) # 만들어진 요청 객체를 이용하여 요청하는 부분

print(page)

<http.client.HTTPResponse object at 0x00000244CE4EE8C8>


### 6-29 다양한 정보 확인

In [46]:
from urllib.request import urlopen, Request

url = 'https://pjt3591oo.github.io/'

req = Request(url)
page = urlopen(req)

print(page)
print(page.code)
print(page.headers)
print(page.url)
print(page.info().get_content_charset())

<http.client.HTTPResponse object at 0x00000244CF3C7548>
200
Content-Type: text/html; charset=utf-8
Server: GitHub.com
Last-Modified: Sat, 20 May 2017 06:31:56 GMT
ETag: "591fe2dc-50f0"
Access-Control-Allow-Origin: *
Expires: Wed, 19 Feb 2020 13:32:02 GMT
Cache-Control: max-age=600
X-Proxy-Cache: MISS
X-GitHub-Request-Id: 4440:4513:14D35D:169B31:5E4D367A
Content-Length: 20720
Accept-Ranges: bytes
Date: Thu, 20 Feb 2020 05:50:52 GMT
Via: 1.1 varnish
Age: 82
Connection: close
X-Served-By: cache-hnd18728-HND
X-Cache: HIT
X-Cache-Hits: 1
X-Timer: S1582177853.880847,VS0,VE0
Vary: Accept-Encoding
X-Fastly-Request-ID: 8a519da89247a8d59231f7aba65bc5394c4ca74f


https://pjt3591oo.github.io/
utf-8


### 6-30 html 코드 가져오기
>* urllib는 read()함수를 이용하여 html을 바이너리 형태로 가져옴.
>* 이는 requests의 content() 와 같은 기능을 함

In [47]:
from urllib.request import urlopen, Request

url = 'https://pjt3591oo.github.io/'

req = Request(url)
page = urlopen(req)

print(page)
print(page.read())

<http.client.HTTPResponse object at 0x00000244CF2FF3C8>
b'<!DOCTYPE html>\n<html lang="en">\n\n  <head>\n  <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge">\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n  <title>Home</title>\n  <meta name="description" content="\xeb\xa9\x8d\xea\xb0\x9c\xec\x9d\x98 \xea\xb0\x9c\xeb\xb0\x9c \xeb\xb8\x94\xeb\xa1\x9c\xea\xb7\xb8\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4. \xea\xb6\x81\xea\xb8\x88\xed\x95\x98\xec\x8b\xa0 \xec\x82\xac\xed\x95\xad \xed\x98\xb9\xec\x9d\x80 \xec\xa0\x84\xeb\x8b\xac\xed\x95\x98\xea\xb3\xa0 \xec\x8b\xb6\xec\x9d\x80 \xeb\x82\xb4\xec\x9a\xa9\xec\x9d\xb4 \xec\x9e\x88\xec\x9c\xbc\xec\x8b\x9c\xeb\xa9\xb4 \xeb\xa9\x94\xec\x9d\xbc\xeb\xa1\x9c \xeb\xac\xb8\xec\x9d\x98 \xec\xa3\xbc\xec\x84\xb8\xec\x9a\x94.">\n\n  <link rel="stylesheet" href="/assets/main.css">\n  <link rel="canonical" href="/">\n  <link rel="alternate" type="application/rss+xml" title="Home" href="/feed.xml">\n  \n  \n</

### 6-31 데이터 요청
>* urllib는 requests()함수를 이용하여 요청객체를 만들때 두번째 인자에는 data, 세번째 인자에는 header가 들어감. 
>* 만약 두번째 인자 값이 존재한다면 post요청, 존재 안하면 get(get 요청일 때는 두번째 인자에 none을 넣거나 넣지 않으면 됨)
>* data를 만들때는 encode() 함수를 바이너리 형태로 인코딩하여 보내야 함. 

In [50]:
from urllib.request import urlopen, Request
import urllib

url = 'http://blog.naver.com/pjt3591oo'

# post 요청시 보낼 데이터 만들기
data = {'key1':'value1','key2':'value2'}
data = urllib.parse.urlencode(data) # 딕셔너리를 쿼리스트링의 형태로 바꿔줌
data = data.encode('utf-8') # 쿼리스트링 처럼 표현된 문자열을 utf-8로 인코딩하여 바이너리 형태로 바꿔줌

print(data)

#post 요청
req_post = Request(url, data=data, headers={}) #2번째 인자 데이터, 세번째 인자 헤더
page =  urlopen(req_post)

print(page)
print(page.url)

# get요청
req_get = Request(url+"?key1=value1&key2&value2", None, headers={}) #2번째 인자 데이터, 세번쨰 인자 헤더
page = urlopen(req_get)

print(page)
print(page.url)

b'key1=value1&key2=value2'
<http.client.HTTPResponse object at 0x00000244CED5FDC8>
https://blog.naver.com/pjt3591oo
<http.client.HTTPResponse object at 0x00000244CF08DE88>
https://blog.naver.com/pjt3591oo?key1=value1&key2&value2


### 6-32 없는 페이지 요청
>* urllib는 requests와 다르게 잘못된 페이지 요청시 에러를 띄어줌

In [52]:
from urllib.request import urlopen, Request

url = "https://pjt3591oo.github.io/1"

req_post = Request(url)
page = urlopen(req_post)

print(page)
print(page.url)

HTTPError: HTTP Error 404: Not Found

### 6-33 bs4 import

In [58]:
import bs4

### 6-34 bs4 사용하기
>* Beautifulsoup() 함수를 사용하여 문자열을 파이썬에서 사용가능한 객체로 만들어 줌

In [61]:
import bs4 
html = """"""

soup = bs4.BeautifulSoup(html)

### 6-35 파서 선택
>* BeautifulSoup(파이써 객체로 바꿀 스트링, 파서)
>* 파서란 원시코드인 순수문자열 객체를 해석할 수 있도록 분석하는 것으로, 파이썬에서는 lxml/ html5lib/ html.parser 가 있음
>* lxml은 xml 해석이 가능한 파서로, 파이썬 2.x와 3.x 모두 지원, 다른 파서에 비해 빠른 처리 가능, 그이유는 c로 구성되어 있기 때문
>* html5lib는 웹 브라우저 방식으호 html을 해석, 하지만 처리 속도가 매우 느림, 그리고 2.x 버전 (아 그래서 내꺼에서 안되는구나)
>* html.parser는 최신 버전의 파이썬 에서 사용 불가능

In [63]:
import bs4 
html = """"""

soup = bs4.BeautifulSoup(html, 'lxml')

### 6-36 bs4 편리한 사용

In [66]:
from bs4 import BeautifulSoup
html = """"""

soup = BeautifulSoup(html, 'lxml')

### 6-37 웹 브라우저 띄우기

In [70]:
from selenium import webdriver

driver = webdriver.Chrome('chromedriver') #윈도우용은 .exe 가 붙어 있음

### 6-38 웹 드라이버를 잘못 명시할 경우 
>*  해당 웹드라이버를 설치할 수 있는 사이트 띄움

In [71]:
from selenium import webdriver

driver = webdriver.le('chromedriver.exe')

AttributeError: module 'selenium.webdriver' has no attribute 'le'

### 6-39 웹드라이버를 명시하지 않을 경우
>* 6-38과 같은 에러가 발생할 수도 있고 실행 될수도 있기때문에 정확하게 웹드라이버 명시해주는게 좋다.

In [73]:
from selenium import webdriver

driver = webdriver.Ie()

WebDriverException: Message: 'IEDriverServer.exe' executable needs to be in PATH. Please download from http://selenium-release.storage.googleapis.com/index.html and read up at https://github.com/SeleniumHQ/selenium/wiki/InternetExplorerDriver
