# 17_Session 처리

**Session**이란 브라우저가 웹 사이트에 접속할 때 생성되는 통신 단위를 의미.

웹 브라우저와 웹 사이트간에 세션이 생성될 대 웹 브라우저는 웹 사이트에게 자신의 버전 정보를 **UserAgent**라는 이름으로 전송한다.

웹 개발자는  **UserAgent**값을 판별하여 현재 접근한 프로그램의 종류를 파악할 수 있기 때문에 **UserAgent**값이 알려진 웹 브라우저와 다르다면 사이트는 
비정상 접속으로 간주하고 접근을 차단하도록 구현할 수 있다.

파이썬의 requests 모듈은 **UserAgent**값이 없다.

## #01. 필요한 패키지 가져오기 

In [1]:
import requests

## #02. UsertAgent값이 없을 경우 접근이 차단되는 페이지에 접근 시도

브라우저로 접속할 경우 정상적인 페이지가 표시되지만, requests 모듈로 접근할 경우는 컨텐츠가 표시되지 않는다.

In [3]:
r = requests.get("https://datalab.naver.com/keyword/realtimeList.naver?where=main")

# 접속에 실패한 경우
if r.status_code != 200 :
    #에러 코드와 에러 메세지 출력
    printf("[%d Error] %s" % (r.status_code, r.reason))
    # 프로그램 강제 종료 (Jupyter가 재시작됨)
    quit() 

# 인코딩 형식 지정 (대상 파일이 저장된 방식을 명시해야 함)    
r.encoding = "utf-8"

# 텍스트 출력 
r.text

'<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n    <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no">\n    <meta name="description" lang="ko" content="네이버 :: 서비스에 접속할 수 없습니다.">\n    <title>[접근 오류] 서비스에 접속할 수 없습니다.</title>\n    <style type="text/css">\n        /* PC */\n        body,p,h1,h2,h3,h4,h5,h6,ul,ol,li,dl,dt,dd,table,th,td,form,fieldset,legend,input,textarea,button,select{margin:0;padding:0}\n        body,input,textarea,select,button,table{font-size:12px;font-family:\'굴림\',Gulim,helvetica,sans-serif;color:#424242}\n        body,html{height:100%}\n        img,fieldset{border:0}\n        img{vertical-align:middle}\n        ul,ol{list-style:none}\n        em,address{font-style:normal}\n        a{color:#000;text-decoration:none}\n        legend{display:none}\n        hr{display:none !important}\n        #u_skip{position:relative;width:100%;z

## #03. requests 모듈에 UserAgent값 지정 후 접근하기 

### 1) UserAgent 값 지정

웹 브라우저의 주소표시줄에 다음의 코드를 입력하고 엔터를 누르면 즉시 확인 가능하다.

```javascript
javascript:document.write(navigator.userAgent);
```

> 오타를 포함한 상태로 입력하거나, 복사-붙여넣기로 실행 했을 겨우 코드가 동작하지 않고 구글 검색 결과 페이지로 이동하는 경우가 빈번하므로 직접 입력하세요.

In [7]:
# user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
user_agent = "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Mobile Safari/537.36"

### 2) Session 객체 만들기

In [8]:
# Session 객체 생성
session = requests.Session()

# 현재 세션의 웹 브라우저 정보(User-Agent)를 구글 크롬으로 설정
# 현재 세션의 referer 페이지를 '없음'으로 강제 설정
# -> referer = 이전에 머물렀던 페이지 주소
# -> referer 값이 없으면 웹 서버는 브라우저에서 직접 URL을 입력한 것으로 간주한다.
session.headers.update({'User-agent':user_agent, 'referer':None})

### 3) 생성된 Session 객체를 통한 웹 페이지 접근 

In [10]:
r = session.get("https://datalab.naver.com/keyword/realtimeList.naver?where=main")

# 접속에 실패한 경우
if r.status_code != 200 :
    #에러 코드와 에러 메세지 출력
    printf("[%d Error] %s" % (r.status_code, r.reason))
    # 프로그램 강제 종료 (Jupyter가 재시작됨)
    quit() 

# 인코딩 형식 지정 (대상 파일이 저장된 방식을 명시해야 함)    
r.encoding = "utf-8"

# 텍스트 출력 
r.text

'\n<!doctype html>\n<html lang="ko">\n<head>\n    <meta charset="utf-8">\n    <meta name="viewport" content="width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no">\n    <title>네이버 :: 데이터랩 급상승 검색어</title>\n    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.datalab/202002190650/css/gnb.css">\n    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.datalab/202002190650/css/search.css">\n    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.datalab/202002190650/css/w.css">\n    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.datalab/202002190650/css/graph_m.css">\n\n    <link rel="icon" sizes="192x192" href="https://ssl.pstatic.net/static.datalab/202002190650/img/favicon/android_legacy_xxxhpdi_192x192.png" >\n    <link rel="icon" sizes="144x144" href="https://ssl.pstatic.net/static.datalab/202002190650/img/favicon/android_legacy_xxhpdi_144x144.png"