# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.
- 설치
    - `pip install requests`
    - `conda install -c conda-forge requests`

## Crawling을 위한 requests 코딩 패턴
1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
3. 응답받은 내용을 처리.
    - text(HTML)은 BeautifulSoup에 넣어 parsing
    - binary 파일의 경우 파일출력을 이용해 local에 저장

## 요청 함수
- HTTP 요청 방식에 따라 두개 함수를 사용.
- get(): GET방식 요청
    - GET 방식(기본방식): 목적 - client가 자원을 요청하는 것 목적(달라는 것.)
- post(): POST방식 요청
    - POST 방식: 목적 - client가 자기의 자원을 server로 전송하는 것이 목적.

### requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

### requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 요청파라미터란?
>     - 서버가 일하기 위해 클라이언트로 부터 받아야하는 값들
>     - `name=value` 형태이며 여러개일 경우 `&`로 연결해서 전송됨
> - Get 요청시 queryString 으로 전달
>     - querystring : URL 뒤에 붙여서 전송한다.
>     - ex) https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=python
>     - requests.get() 요청시 
>         1. url 뒤에 querystring으로 붙여서 전송
>         2. dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
> - Post 요청시 요청정보의 body에 넣어 전달

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 -  응답데이터
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요 속성(Attribut)
    - **url**
        - 응답 받은(요청한) url 
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - **text**
        - 응답내용(html을 str로 반환)
    - **content**
        - 응답내용(응답결과가 binary-image, 동영상등- 일 경우사용하며 bytes로 반환)
    - **json()**
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
- [JSON 공식사이트](http://json.org)
>
> ### json 모듈
> JSON 형식 문자열을 다루는 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - https://developer.mozilla.org/ko/docs/Web/HTTP/Status 
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

### Get 방식 요청 예제

In [17]:
import requests

url = "https://www.naver.com/"
# url = "https://www.naver.com/adfasdfasdf"
url = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={}"
res = requests.get(url) 
if res.status_code == 200:  # 정상 응답이 왔다면
    print(type(res))
    print(type(res.text), len(res.text))
    print(res.text[:200])
    print(len(res.text))
else:
    print("응답을 받지 못함.", res.status_code)


<class 'requests.models.Response'>
<class 'str'> 108069
<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:titl
108069


In [None]:
res.status_code  
# HTTP 에서 정의한 응답 코드(응답 상태마다 정의한 정수 코드값)

In [13]:
# print(type(res))
# print(type(res.text), len(res.text))
print(res.text[:200])
print(len(res.text))

<!DOCTYPE html
    PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">

<head>
    <meta http-equiv="
3613


In [36]:
####### httpbin.org를 이용해 요청 처리
#### GET 방식 요청
import requests
from pprint import pprint

base_url = "https://httpbin.org/{}"
url = base_url.format("get")
print(url)
##### 요청파라미터 정의(get방식-url뒤에 붙이기. dictionary 정의 후 get()의 argument로 전달.)
params = {
    "query":"python",  # name : value
    "fbm": 0,
    "page": 3
}
# "https://httpbin.org/get?name=value&name2=value2"

# google 검색 키워드: my user agent (웹브라우저의 user agent를 알려줌.)
## 요청 헤더(Request Header) 설정: dictionary
req_headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
    , "Referer":"https://www.google.com/"
}

res = requests.get(url,  # url
                   params=params, # 요청파라미터들
                   headers=req_headers) # 요청 header 정보들 
print("응답상태코드:",  res.status_code)
if res.status_code == 200:
    print("============응답데이터(text)==========")
    print(res.text)
    print("==========응답헤더============")
    print(res.headers)

https://httpbin.org/get
응답상태코드: 200
{
  "args": {
    "fbm": "0", 
    "page": "3", 
    "query": "python"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "Referer": "https://www.google.com/", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-66027c5c-4e79dfc922cf306c5611dbe8"
  }, 
  "origin": "222.112.208.67", 
  "url": "https://httpbin.org/get?query=python&fbm=0&page=3"
}

{'Date': 'Tue, 26 Mar 2024 07:42:20 GMT', 'Content-Type': 'application/json', 'Content-Length': '526', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}


In [21]:
print(type(res.text))
print(type(res.headers)) # CaseInsensitiveDict: dict

<class 'str'>
<class 'requests.structures.CaseInsensitiveDict'>


In [26]:
type(res.json())
## 응답 데이터가 JSON 형식 text일 때 
### res.text  : str
### res.json(): dict

dict

In [34]:
# JSON 모듈
import json
### json 형식 str -> dict
d = json.loads(res.text)
print(type(d))

#### dict -> json형식 str
t = json.dumps(d)
type(t), t


<class 'dict'>


(str,
 '{"args": {}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-requests/2.31.0", "X-Amzn-Trace-Id": "Root=1-66027565-1278a7807f2b48f20e9a6224"}, "origin": "222.112.208.67", "url": "https://httpbin.org/get"}')

### Post 요청 예

In [38]:
url = base_url.format("post")
print(url)

params = {
    "query":"python",
    "fbm": 0,
    "page": 3
}
req_headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
    , "Referer":"https://www.google.com/"
}

## post 요청 (서버로 데이터를 전달하는 목적의 요청.)
res = requests.post(url, 
                    data=params,       # 요청파라미터 
                    headers=req_headers # 요청 헤더정보들
                    )
if res.status_code == 200:
    print(res.text)
else:
    print("실패:", res.status_code)

https://httpbin.org/post
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "fbm": "0", 
    "page": "3", 
    "query": "python"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "25", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "Referer": "https://www.google.com/", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-66027e0f-7bbb32aa3dd08f033741f184"
  }, 
  "json": null, 
  "origin": "222.112.208.67", 
  "url": "https://httpbin.org/post"
}



### 응답결과(Response) 조회

In [1]:
from bs4 import BeautifulSoup
import requests
# 1. url 분석 (url, 요청파라미터,)
url = 'http://www.pythonscraping.com/pages/warandpeace.html'

# user-agent 설정
## 검색: 개발자도구 > 콘솔 : navigator.userAgent  실행. 
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"

## 요청
res = requests.get(url, headers={"user-agent":user_agent})
## 응답 데이터 처리
if res.status_code == 200:
    # 2. 내가 필요한 데이터를 어떻게 가져올지.(css selector)
    ### BeautifulSoup을 이용해서 원하는 정보를 조회
    #### 녹색으로 표시된 이름들. 
    soup = BeautifulSoup(res.text, "lxml")
        
    green_list = soup.select("span.green")
    
    search_names = []
    for tag in green_list:
        search_names.append(tag.text)
else:
    print("실패:", res.status_code)

In [2]:
search_names

['Anna\nPavlovna Scherer',
 'Empress Marya\nFedorovna',
 'Prince Vasili Kuragin',
 'Anna Pavlovna',
 'St. Petersburg',
 'the prince',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'the prince',
 'the prince',
 'Prince Vasili',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'Wintzingerode',
 'King of Prussia',
 'le Vicomte de Mortemart',
 'Montmorencys',
 'Rohans',
 'Abbe Morio',
 'the Emperor',
 'the prince',
 'Prince Vasili',
 'Dowager Empress Marya Fedorovna',
 'the baron',
 'Anna Pavlovna',
 'the Empress',
 'the Empress',
 "Anna Pavlovna's",
 'Her Majesty',
 'Baron\nFunke',
 'The prince',
 'Anna\nPavlovna',
 'the Empress',
 'The prince',
 'Anatole',
 'the prince',
 'The prince',
 'Anna\nPavlovna',
 'Anna Pavlovna']

In [3]:
result = [name.replace("\n", " ") for name in search_names]
result

['Anna Pavlovna Scherer',
 'Empress Marya Fedorovna',
 'Prince Vasili Kuragin',
 'Anna Pavlovna',
 'St. Petersburg',
 'the prince',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'the prince',
 'the prince',
 'Prince Vasili',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'Wintzingerode',
 'King of Prussia',
 'le Vicomte de Mortemart',
 'Montmorencys',
 'Rohans',
 'Abbe Morio',
 'the Emperor',
 'the prince',
 'Prince Vasili',
 'Dowager Empress Marya Fedorovna',
 'the baron',
 'Anna Pavlovna',
 'the Empress',
 'the Empress',
 "Anna Pavlovna's",
 'Her Majesty',
 'Baron Funke',
 'The prince',
 'Anna Pavlovna',
 'the Empress',
 'The prince',
 'Anatole',
 'the prince',
 'The prince',
 'Anna Pavlovna',
 'Anna Pavlovna']

## binary date 를 다운로드

In [59]:
url = "https://www.kia.com/content/dam/kwp/kr/ko/main-kv-contents/202311/kv_the_new_carnival_pc.jpg"

res = requests.get(url, headers={"user-agent":user_agent})

if res.status_code == 200:
    # binary 파일: res.content => bytes 로 반환.
    file = res.content
    print(type(file))
    # 파일 저장.
    with open("car.jpg", "wb") as fo:
        fo.write(file)

<class 'bytes'>


In [None]:
# res.text : html
# res.json() : json text -> dictionay (open api)
# res.content : binary data(file)