# 5-2. HTTP 통신
## 웹에서 수집할 수 있는 데이터의 형식
형식 | 설명 |
---- | ---- |
TEXT | 단순 텍스트 파일을 내려받아 문자열 변수에 저장해야 함 |
CSV, XLSX | Pandas가 자체적으로 처리 가능 |
<b>JSON</b> | requests 모듈을 통해 데이털르 받아온 후 JSON 클래스를 통해 DataFrame으로 변환 |
<b>HTML</b>(일반 웹 페이지), XML | requests 모듈을 통해 문자열 형태로 내려받고, BeautifulSoup 클래스를 통해 데이터 추출 |
이미지, 동영상 | requests 모듈을 통해 직접 파일 다운로드 구현

## requests 모듈
HTTP(웹) 통신 기능을 제공하는 파이썬 패키지
명령프롬프트를 실행한 후 다음의 명령어로 설치

```pip install --upgrade requests```

> --updarade 옵션은 이미 설치가 되어있다면 최신 버전으로 교체하는 옵션

# #01. 필요한 패키지 가져오기

In [2]:
import requests            #통신 기능 제공

# #02. 간단한 텍스트 데이터 가져오기
## 1) 텍스트 데이터 URL

In [5]:
simple_text_url = "http://itpaper.co.kr/demo/py/simple_text.txt"

## 2) 특정 웹 페이지에 접속
통신 결과를 저장하고 있는 객체가 반환된다.

In [6]:
r = requests.get(simple_text_url)
r

<Response [200]>

## 3) 접속에 실패한 경우에 대한 예외처리
통신결과 객체에 내장된 상태코드(Status_code) 값을 활용, 통신의 성공/실패 여부를 판단한다.
- 200 : OK
- 400, 403 : 잘못된 접근 / 접근 권한 없음
- 404 : Page Not Found (URL 오타)
- 50x : Server Error (접속대상이 에러인 상황)

In [7]:
if r.status_code != 200:
    # 에러코드와 에러 메시지 출력
    print("[%d Error] %s" % (r.status_code, r.reason))
    # 프로그램 강제 종료 (Jupyter 재시작)
    quit()

## 4) 텍스트 데이터 추출
수집한 컨텐츠의 인코딩 형식을 파이썬에게 알려준 후 텍스트를 추출한다.

인코딩 형식은 해당 데이터가 문자열을 부호화(2진수로 변환)하는데 사용한 변환방법으로, 인코딩 형식을 파이썬에게 알려줘야 해당 방법을 사용해 데이터를 문자열로 복호화 할 수 있다.

> 일반적인 인코딩 형식 = 'utf-8'(다국어지원) / 드물게 = 'euc-kr', 'euc-ch', 'euc-jp' 등을 사용

In [8]:
#인코딩 형식 지정 (대상 파일이 저장된 방식을 명시해야 함)
r.encoding = 'utf-8'

# 텍스트 출력
print(r.text)

Hello Python~!!!
안녕하세요. 파이썬~!!!



# #03. 파일 다운로드
HTML 웹 페이지, JSON 형식의 Open API, txt 파일 등은 텍스트 형식으로 식별 <br>
pptx, pdf, 이미지 파일 등은 직접 다운로드 처리 형태로 수집

그 밖에 일반 텍스트 형식의 파일도 필요한 경우 다운로드 형태로 구현 가능

## 1) 데이터 가져오기

In [3]:
# 다운로드 할 대상의 URL
file_url = 'https://search.pstatic.net/common/?src=https%3A%2F%2Fstorep-phinf.pstatic.net%2Fogq-59aa6742e540a%2Fimg%2Fkevpivff.jpg%3Ftype%3Do720_mask&type=sc960_832'

# URL에 파일을 다운로드하기 위해 접속
r = requests.get(file_url, stream=True)

# 접속에 실패한 경우
if r.status_code != 200:
    print("[%d Error] %s" % (r.status_code, r.reason))
    quit()

## 2) raw 데이터 저장하기
특별한 출력결과 없음. 지정한 경로에 다운로드 된 파일을 확인하세요.
> 여기서는 현재 작성중인 소스파일과 동일한 폴더 내에 저장

In [4]:
#수집 결과의 바이너리(이진값) 데이터를 추출
data = r.raw.read()

#추출한 데이터를 저장
# -> 'w' : 텍스트 쓰기 모드, 'wb' : 바이너리(이진값) 쓰기 모드
with open('다운받은파일.jpeg', 'wb') as f:
    f.write(data)
    print("다운로드 완료")

다운로드 완료


# #04. Session 처리
<b>Session</b> = 브라우저가 웹 사이트에 접속할 때 생성되는 통신 단위

웹 브라우저와 웹 사이트간 세션 생성 시 웹 브라우저는 웹 사이트에 자신의 버전 정보를 <b>UserAgent</b>라는 이름으로 전송

웹 개발자는 <b>UserAgent</b>값을 판별하면 현재 접근한 프로그램의 종류 파악<br>
-> <b>UserAgent</b>값이 알려진 웹 브라우저와 다르다면 사이트는 비정상 접속으로 간주하고 접근 차단 구현 가능

파이썬의 requests 모듈은 <b>UserAgent</b>값이 없다.

## 1) UserAgent 값이 없을 경우 접근이 차단되는 페이지에 접근 시도
브라우저로 접속한 경우 정상적인 페이지가 표시되지만 requests 모듈로 접근할 경우 컨텐츠 표시 X

In [5]:
r = requests.get('https://datalab.naver.com/keyword/realtimeList.naver?where=main')

if r.status_code != 200:
    print("[%d Error] %s" % (r.status_code, r.reason))
    quit()
    
r.encoding='utf-8'
r.text

'<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n    <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no">\n    <meta name="description" lang="ko" content="네이버 :: 서비스에 접속할 수 없습니다.">\n    <title>[접근 오류] 서비스에 접속할 수 없습니다.</title>\n    <style type="text/css">\n        /* PC */\n        body,p,h1,h2,h3,h4,h5,h6,ul,ol,li,dl,dt,dd,table,th,td,form,fieldset,legend,input,textarea,button,select{margin:0;padding:0}\n        body,input,textarea,select,button,table{font-size:12px;font-family:\'굴림\',Gulim,helvetica,sans-serif;color:#424242}\n        body,html{height:100%}\n        img,fieldset{border:0}\n        img{vertical-align:middle}\n        ul,ol{list-style:none}\n        em,address{font-style:normal}\n        a{color:#000;text-decoration:none}\n        legend{display:none}\n        hr{display:none !important}\n        #u_skip{position:relative;width:100%;z

## 2) requests 모뮬에 UserAgent 값 지정 후 접근하기
### UserAgent 값 지정
웹 브라우저의 주소 표시줄에 다음의 코드를 입력하고 엔터를 누르면 즉시 확인 가능

```javascript:document.write(navigator.userAgent);```
    
> 오타를 포함한 상태로 입력하거나 복사-붙여넣기로 실행하면 코드가 동작하지 않는 경우가 빈번하므로 직접 입력

In [6]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36"

### Session 객체 만들기
세션 객체에 포함된 headers 객체의 update() 함수를 사용하여 User-agent와 referer 값을 지정
- 현재 세션의 웹 브라우저 정보(User-agent)를 구글 크롬으로 설정
- 현재 세션의 referer 페이지를 '없음'으로 강제 설정

> referer=이전에 머물렀던 페이지 주소, referer 값이 없으면 웹 서버는 브라우저에서 직접 URL을 입력한 것으로 간주

In [7]:
session = requests.Session()
session.headers.update({'User-agent' : user_agent, 'referer' : None})

### 생성된 Session 객체를 통한 웹 페이지 접근

In [8]:
r = session.get('https://datalab.naver.com/keyword/realtimeList.naver?where=main')

if r.status_code != 200:
    print("[%d Error] %s" % (r.status_code, r.reason))
    quit()
    
r.encoding='utf-8'
r.text

'<!DOCTYPE html>\n<html lang="ko">\n<head>\n    <meta charset="utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\n    <meta name="viewport" content="width=1200">\n    <title>급상승검색어 : 네이버 데이터랩</title>\n    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.datalab/202102250221/css/datalab.css">\n    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.datalab/202102250221/css/graph.css">\n\n    <link rel="icon" sizes="192x192" href="https://ssl.pstatic.net/static.datalab/202102250221/img/favicon/android_legacy_xxxhpdi_192x192.png" >\n    <link rel="icon" sizes="144x144" href="https://ssl.pstatic.net/static.datalab/202102250221/img/favicon/android_legacy_xxhpdi_144x144.png" >\n    <link rel="icon" sizes="96x96" href="https://ssl.pstatic.net/static.datalab/202102250221/img/favicon/android_legacy_xhdpi_96x96.png" >\n    <link rel="icon" sizes="72x72" href="https://ssl.pstatic.net/static.datalab/202102250221/img/favicon/androi