In [1]:
import requests

In [2]:
import time

def download(method, url, param=None, data=None, headers = None, timeout=1, maxretries=3):
    try:
        resp = requests.request(method, url, 
                                params=param, data=data, 
                                headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'})
        resp.raise_for_status()
    except requests.exceptions.HTTPError as e:
        if 500 <= e.response.status_code < 600 and maxretries > 0:
            print(maxretries)
            time.sleep(timeout)
            maxretries -= 1
            resp = download(method, url, param, data, headers, timeout, maxretries)
        else:
            print(e.response.status_code)
            print(e.response.reason)
    return resp

In [4]:
# get방식을 사용하는 대표적인 네이버를 해보자.

headers = None
url = "https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=%EB%B0%95%EB%B3%B4%EC%98%81"
params = None
html = download("get", url, params)

In [5]:
# 성공

html.text

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="박보영 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'박보영\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'박보영\'의 네이버 통합검색 결과입니다."> <title>박보영 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_140327.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_190711.css"> <link rel="stylesheet" type="text/css" href="h

----

In [16]:
# 교보문고는 post 방식이다. 
# 교보문고에서 박보영을 검색한 뒤에 개발자 도구 -> network -> headers에서 post 방식임을 확인할 수 있다.
# 개발자도구에서 headers를 잘 보면 form data 라는 부분이 있다.여기에 파라미터 정보 들어 있음.
# url 주소에 파라미터 정보를 포함하는 get 방식과 다름. post 방식은 파라미터를 headers에 포함함.

# post 방식은 params가 아니라 data로 보내야 한다.

headers = None
url = "http://www.kyobobook.co.kr/search/SearchCommonMain.jsp"
# vPstrKeyWord는 검색어를 뜻한느 파라미터이다.
data = {"vPstrKeyWord":"&#48149;&#48372;&#50689;"}
html = download("post", url, data=data)

In [17]:
html

<Response [200]>

In [18]:
html.text

'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml">\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<!-- header -->\n \n\n\n\n\n\n\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\n\n\n<head>\n\t<title>&#48149;&#48372;&#50689; -  인터넷교보문고</title>\n<META http-equiv="Pragma" content="nocache">\n<meta http-equiv="Expires" content="0"/>\n<META http-equiv="Cache-Control" content="no-cache">\n<META http-equiv=\'Content-Type\' content=\'text/html; charset=euc-kr\'>\n<meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">\n<!--<LINK href="/common/Style.css" rel="stylesheet" type="text/css"/>-->\n<link rel="shortcut icon" href="/newimages/apps/b2c/kyobo.ICO"/>\n<link rel="stylesheet" type="text/css" href="http://image.kyobobook.co.kr/ink/css/default_ink.css" />\n<link rel="stylesheet" type="text/css" href="http://image.kyobobook.co.kr/ink/css/search.css" />\n<!--\n

In [9]:
from html import unescape

In [15]:
# 유니코드는 html에서 인코딩되서 표현된다.

unescape("&#48149;&#48372;&#50689;")

'박보영'

In [19]:
# data에 들어가는 값은 인코딩 되서 들어가야한다.
# 읽을때는 다시 디코딩

unescape(data["vPstrKeyWord"])

'박보영'

In [20]:
# 이렇게 escape로 한글을 쉽게 변환해서 리퀘스트를 날릴 수도 있다.

from html import escape

headers = None
url = "http://www.kyobobook.co.kr/search/SearchCommonMain.jsp"
data = {"vPstrKeyWord":escape("박보영")}
html = download("post", url, data=data)

In [21]:
html.text

'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml">\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<!-- header -->\n \n\n\n\n\n\n\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\n\n\n<head>\n\t<title>諛?蹂댁?? -  인터넷교보문고</title>\n<META http-equiv="Pragma" content="nocache">\n<meta http-equiv="Expires" content="0"/>\n<META http-equiv="Cache-Control" content="no-cache">\n<META http-equiv=\'Content-Type\' content=\'text/html; charset=euc-kr\'>\n<meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">\n<!--<LINK href="/common/Style.css" rel="stylesheet" type="text/css"/>-->\n<link rel="shortcut icon" href="/newimages/apps/b2c/kyobo.ICO"/>\n<link rel="stylesheet" type="text/css" href="http://image.kyobobook.co.kr/ink/css/default_ink.css" />\n<link rel="stylesheet" type="text/css" href="http://image.kyobobook.co.kr/ink/css/search.css" />\n<!--\n<link rel="stylesh

In [22]:
# 교보문고는 utf-8을 사용하지 않고 euc-kr를 사용하고 있다.
# 그래서 해외 os로 접속하면 한글이 다 깨질 것이다.
# utf-8이 대세.

In [24]:
# 개발자도구 - 헤더에서 확인할 수 있는 다른 파라미터도 포함시켜서 날려보자.

headers = None
url = "http://www.kyobobook.co.kr/search/SearchCommonMain.jsp"
data = {"vPstrKeyWord":"python", "vPstrCategory": "TOT", "vPplace": "top"}
html = download("post", url, data=data)
html.text

'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml">\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<!-- header -->\n \n\n\n\n\n\n\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\n\n\n<head>\n\t<title>python -  인터넷교보문고</title>\n<META http-equiv="Pragma" content="nocache">\n<meta http-equiv="Expires" content="0"/>\n<META http-equiv="Cache-Control" content="no-cache">\n<META http-equiv=\'Content-Type\' content=\'text/html; charset=euc-kr\'>\n<meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">\n<!--<LINK href="/common/Style.css" rel="stylesheet" type="text/css"/>-->\n<link rel="shortcut icon" href="/newimages/apps/b2c/kyobo.ICO"/>\n<link rel="stylesheet" type="text/css" href="http://image.kyobobook.co.kr/ink/css/default_ink.css" />\n<link rel="stylesheet" type="text/css" href="http://image.kyobobook.co.kr/ink/css/search.css" />\n<!--\n<link rel="stylesh

In [25]:
# html 파일로 저장해서 notepad로 열어보자
# 더 읽기 쉬움

# 페이지에 있는 책이름을 검색했을때 나오면 성공!

with open("교보문고.html", "w") as f:
    f.write(html.text)