### Request 라이브러리
* `requests` 는 파이썬을 이용해 HTTP 통신을 진행할 수 있는 라이브러리
* `%` 를 이용해서 주피터 노트북 환경에서 터미널 코드 실행 가능      

In [2]:
%pip install requests


Note: you may need to restart the kernel to use updated packages.


### 정보를 달라고 요청하기, GET

In [5]:
# requests 라이브러리를 불러온 후, NAVER의 홈페이지를 요청한 후 응답 받기
import requests

res = requests.get("https://www.naver.com")

res # HTTP응답 & 객체

<Response [200]>

In [6]:
# Header를 확인 : .headers

res.headers

{'Server': 'NWS', 'Date': 'Tue, 18 Apr 2023 05:49:31 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': 'PM_CK_loc=ba9ff3cefefe70d1cb714576a204e2790d433f8d8391a42fcbbbd487ab094ae7; Expires=Wed, 19 Apr 2023 05:49:31 GMT; Path=/; HttpOnly', 'Cache-Control': 'no-cache, no-store, must-revalidate', 'Pragma': 'no-cache', 'P3P': 'CP="CAO DSP CURa ADMa TAIa PSAa OUR LAW STP PHY ONL UNI PUR FIN COM NAV INT DEM STA PRE"', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Content-Encoding': 'gzip', 'Strict-Transport-Security': 'max-age=63072000; includeSubdomains', 'Referrer-Policy': 'unsafe-url'}

In [8]:
# Body를 확인 : .Text

res.text[:1000] # 정보가 굉장히 많음

'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버

### 정보를 갱신하는 것을 요청하기 : POST

* 우리는 정보를 제공해주면서, 서버로 하여금 무언가 요청을 진행할 때 존재
* 우리가 매일 진행하는 로그인 !

* 이러한 요청을 처리하는 HTTP Method = POST

* 사용 사이트 : https://webhook.site

In [9]:
# payload와 함께 POST 보내기

payload = {"name" : "sj.park", "age" : 26}
res = requests.post("https://webhook.site/bc749caf-8f36-4ecd-9f51-c6b8c7ff2781", payload)

<Response [200]>

In [10]:
# 상태코드를 확인해보자. : .status_code

res.status_code

200

## 1-4 윤리적으로 웹 스크래핑 / 크롤링 진행하기

### robots.txt
* 웹 사이트 및 웹 페이지를 수지하는 로봇들의 무단 접근을 방지하기 위해 만들어진 로봇 배제 표준 권고안

일부 스팸 봇이나 악성 목적 -> 가짜 클라이언트 로봇은 웹사이트에 진짜 클라이언트 처럼 접근
무단으로 웹 사이트 정보를 긁어가거나, 웹서버에 부하를 준다.

이런 로봇들의 무분별한 접근을 통제하기 위해 마련된 것  : robots.txt
가끔 웹 서버에 요청을 보내도 요청 거부당하는 일 존재
무단 봇으로 짐작하고, 웹 서버에서 접근을 막는다.

스팸 봇이 아니라 사람임을 알려주기 위해 user_agent 정보를 준다.


웹 스크래핑 원칙
1. 요청하고자 하는 서버에 과도한 부하를 주지 않는다.
2. 가져온 정보를 사용할 때 저작권과 데이터베이스권에 위배되지 않는지 주의한다.

### robots.txt 가져오기

robots.txt는 웹 페이지의 메인주소에 '/robots.txt' 를 입력하면 확인할 수 있다.

예를 들어 naver의 경우 `www.naver.com/robots.txt`를 입력하면 된다.

* User-agent : 규칙이 적용되는 대상 사용자 에이전트
* Disallow : 크롤링을 금지할 웹 페이지
* Allow : 크롤링을 허용할 웹 페이지


In [13]:
# requests 모듈을 불러온 후, 다음 웹 사이트에 대한 Robots.txt 정책 확인

import requests

res = requests.get("https://www.naver.com/robots.txt")

In [15]:
print(res.text)

# 모든 유저가 모든 요청을 거부한다 / /$ : 순수한 https://naver.com/까지는 허용이 된다.

User-agent: *
Disallow: /
Allow : /$ 



In [19]:
test = requests.get("https://www.tistory.com/robots.txt")

print(test.text)

User-agent: *
Disallow: /m
Disallow: /login
Disallow: /gateway
Allow: /
