# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.
- 설치
    - `pip install requests`
    - `conda install -c conda-forge requests`

In [None]:
#http : hyper text transfer protocol - protocol은 통신규약을 의미

## Crawling을 위한 requests 코딩 패턴
1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
3. 응답받은 내용을 처리.
    - text(HTML)은 BeautifulSoup에 넣어 parsing
    - binary 파일의 경우 파일출력을 이용해 local에 저장

## 요청 함수
- get(): GET방식 요청
- post(): POST방식 요청

### requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

In [None]:
# header 정보는 자신의 정보를 의미
# http 요청 line(url, protocol)
# 크롤링을 차단되기도 하는데 그것을 방지하기 위해 'User-Agent' 사용
# server가 client에게 응답한 결과가 return 된다.

### requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 요청파라미터란?
>     - 서버가 일하기 위해 클라이언트로 부터 받아야하는 값들
>     - `name=value` 형태이며 여러개일 경우 `&`로 연결해서 전송됨
> - Get 요청시 queryString 으로 전달
>     - querystring : URL 뒤에 붙여서 전송한다.
>     - ex) https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=python
>     - requests.get() 요청시 
>         1. url 뒤에 querystring으로 붙여서 전송
>         2. dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
> - Post 요청시 요청정보의 body에 넣어 전달

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 -  응답데이터
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요 속성(Attribut)
    - **url**
        - 응답 받은(요청한) url 
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - **text**
        - 응답내용(html을 str로 반환)
    - **content**
        - 응답내용(응답결과가 binary-image, 동영상등- 일 경우사용하며 bytes로 반환)
    - **json()**
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
- [JSON 공식사이트](http://json.org)
>
> ### json 모듈
> JSON 형식 문자열을 다루는 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - https://developer.mozilla.org/ko/docs/Web/HTTP/Status 
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

In [8]:
import requests
from bs4 import BeautifulSoup
url="https://www.naver.com/a;slkdjf;al"

res=requests.get(url) # 요청 ~ 응답까지의 과정
print(type(res.text))
soup=BeautifulSoup(res.text)
soup



<class 'str'>


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<title>네이버 :: 페이지를 찾을 수 없습니다.</title>
<link href="/dist/css/err_170424.css?1017" rel="stylesheet" type="text/css"/>
<script type="text/javascript">
var defaultCharset = document.charset ;
function isIE(){ return /msie/i.test(navigator.userAgent) && !/opera/i.test(navigator.userAgent); }
function setDefaultCharset() { document.charset = defaultCharset ; }
function emulAcceptCharset(form) { if (isIE) { var defCharset = document.charset ; document.charset = form.acceptCharset ; window.onbeforeunload = setDefaultCharset ; } return true; }
</script>
</head>
<body>
<style>
a { cursor: pointer; }
</style>
<div id="wrap">
<div id="header">
<h1><a href="http://www.naver.com/"><img alt="NAVER" height="33" src="https://s.pstatic.net/static/w8/err/lg_naver.gif

In [6]:
type(res)

requests.models.Response

In [9]:
print(res.status_code)
==> 200을 성공값 404를 실패 값으로 if문에 사용한다.

404


### Get 방식 요청 예제

In [22]:
import requests

base_url="https://httpbin.org/{}"

url=base_url.format("get")
print(url)
#url="https://httpbin.org/get?name=홍길동&age=30&address=부산"
#요청 파라미터 -> dictionary로 name:value 형식을 저장. 같은 이름으로 여러개 값을 보내면
# name=[value1, value2, vlaue3, ,,, vlauen]
req_param = {
    "name":"홍길동",
    "age":[20,30,40],
    "address":"서울"
}

response=requests.get(url,params=req_param)


print(response.status_code)
if response.status_code == 200: #정상응답
    #응답 데이터 출력
    #txt=response.text
    txt=response.json() #dictionary로 변환해준다.
    print(type(txt))
    print(txt["headers"]['Accept'])
    print(txt)

https://httpbin.org/get
200
<class 'dict'>
*/*
{'args': {'address': '서울', 'age': ['20', '30', '40'], 'name': '홍길동'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.1', 'X-Amzn-Trace-Id': 'Root=1-643ce586-3c0685301ee9eb2878238b19'}, 'origin': '222.112.208.66', 'url': 'https://httpbin.org/get?name=홍길동&age=20&age=30&age=40&address=서울'}


### Post 요청 예

### 응답결과(Response) 조회

In [None]:
import requests
from bs4 import BeautifulSoup
strftime() 날짜 시간을 웒는 형태의 

url = 'http://www.pythonscraping.com/pages/warandpeace.html'
user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch'
#요청
response = requests.get(url, headers={"User-Agent":user_agent})
if response.status_code == 200 : #정상응답이 왔다면
    result_green=[]