# requests 모듈
* requests 모듈은 표준 라이브러리보다 조금 더 쉽게 웹에 있는 데이터를 가져올 수 있습니다.

In [2]:
import requests

* get() 메소드를 사용하면 해당 url에 접근을 할 수 있습니다.

In [3]:
r = requests.get('https://api.github.com/events')

* 접속하고 난 뒤에 상태값을 확인하겠습니다.

In [5]:
r.status_code

200

* get 방식으로 url 주소를 만들어 보겠습니다.

In [6]:
payload = {'key1': 'values1', 'key2' : 'value2'}

In [7]:
r = requests.get('https://httpbin.org/get', params= payload)

In [9]:
r.status_code

200

In [10]:
r.url

'https://httpbin.org/get?key1=values1&key2=value2'

## 네이버 검색을 get으로 표현

In [11]:
naver_data = {'sm' : 'top_hty', 
              'fbm' : 1,
              'ie' : 'utf8',
              'query' : '퀀트'}

In [12]:
r = requests.get('https://search.naver.com/search.naver', params=naver_data)

In [13]:
r.url

'https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=%ED%80%80%ED%8A%B8'

## 헤더값 수정하기

In [14]:
header = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'}

In [15]:
url = 'http://www.useragentstring.com/'

In [16]:
r = requests.get(url, headers = header)

* 접속 했을때 브라우저 정보가 Firefox인지 찾아보겠습니다.

In [18]:
r.text.find('Firefox')

255

## post 방식 
* post 방식은 get 방식과 다르게 외부로 데이터가 표현되지 않습니다.
* requests 모듈에서 post 방식을 어떻게 사용하는지 알아보겠습니다.
* post 메소드를 사용하여 post 방식으로 접속할 수 있습니다.

In [21]:
payload = {'key1': 'values1', 'key2' : 'value2'}
r = requests.post('https://httpbin.org/post', params= payload)

In [22]:
print(r.text)

{
  "args": {
    "key1": "values1", 
    "key2": "value2"
  }, 
  "data": "", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "json": null, 
  "origin": "175.211.93.29, 175.211.93.29", 
  "url": "https://httpbin.org/post?key1=values1&key2=value2"
}



## session에 대해서 알아보겠습니다.
* 웹 브라우저안에서 일정 시간동안에 서버가 해당 사용자를 식별하고, 그에 따라 상태를 유지시켜주는데 이는 세션이 유지되어 있기 때문입니다.
* Session() 메소드를 사용하여 세션을 유지할 수 있습니다.
* 아래 예제는 헤더의 값을 변경하여 크롬에서 접속하는 것처럼 한번 위장하고 그 세션 값으로 여러 사이트에 접속하는 예제입니다. 
    > 세션의 헤더를 설정하고 해당 세션으로 웹에 접근하면 매번 헤더의 값을 변경하지 않고 접근할수 있습니다.

In [27]:
# Session() 메소드를 사용하여 세션을 활성화 합니다.
s = requests.Session()

In [28]:
# 헤더의 값을 변경하기 위해서 headers.update() 메소드를 실행하여 크롬에서 접속하는 것처럼 위장합니다.
s.headers.update({"user-agent" : 
                 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"})

In [29]:
r = s.get('https://naver.com')

In [30]:
r.status_code

200

In [31]:
r = s.get('https://daum.net')

In [32]:
r.status_code

200

### with와 함께 사용하기
* Session 메소드는 with와 함께 사용하면 with 구문 밑에 들여쓰기가 적요되는 코드블록은 모두 세션을 적용할 수 있습니다.

In [34]:
with requests.Session() as s:
    s.headers.update({"user-agent" : 
                 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"})
    r = s.get('https://naver.com')
    r = s.get('https://daum.net')

In [37]:
# enter, exit 메소드가 존재하기 때문에 with를 사용할 수 있습니다.
dir(s)

['__attrs__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'adapters',
 'auth',
 'cert',
 'close',
 'cookies',
 'delete',
 'get',
 'get_adapter',
 'get_redirect_target',
 'head',
 'headers',
 'hooks',
 'max_redirects',
 'merge_environment_settings',
 'mount',
 'options',
 'params',
 'patch',
 'post',
 'prepare_request',
 'proxies',
 'put',
 'rebuild_auth',
 'rebuild_method',
 'rebuild_proxies',
 'request',
 'resolve_redirects',
 'send',
 'should_strip_auth',
 'stream',
 'trust_env',
 'verify']

# ※ CSRF
* 해당 주소에 접근할 때마다 CSRF 값이 변경됩니다. 특히 로그인할 때 처음 접속할 때 CSRF 값과 로그인할 때 CSRF 값을 비교하여 값이 다르면 로그인이 되지 않습니다. 그때 세션을 통해서 접근하고 로그인하면 CSRF를 그대로 유지할수 있어 파이썬에서 로그인이 가능합니다.

# BeautifulSoup
* 웹의 정보는 html으로 되어 있습니다. 해당 html에서 데이터를 추출하기 위해서는 많은 노력이 필요하지만, 이를 쉽게 해결해주는 패키지가 존재합니다. 
* BeautifulSoup는 html을 쉽게 파싱할 수 있게 도와줍니다.

In [39]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [40]:
from bs4 import BeautifulSoup

In [41]:
soup = BeautifulSoup(html_doc, 'html.parser')

In [43]:
# 아래 prettify는 html을 보기 좋게 출력해줍니다.
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


## BeautifulSoup의 메소드를 알아보겠습니다.

In [44]:
# title 태그의 값을 출력합니다.
soup.title

<title>The Dormouse's story</title>

In [46]:
# title 태그의 이름을 출력합니다.
soup.title.name

'title'

In [47]:
# title 태그의 내용을 출력합니다.
soup.title.string

"The Dormouse's story"

In [50]:
# p태그를 찾아서 출력합니다.
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [51]:
# p 태그의 클래스 명을 출력합니다.
soup.p['class']

['title']

## 가장 많이 사용하게 될 메소드 findAll(), find_all()
* findAll -> find_all 으로 메소드명이 바뀌었을 뿐 둘은 같은 메소드입니다. 
* find_all를 사용해서 설명하겠습니다.

In [52]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [53]:
soup.findAll('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

* 아래 예제는 a라는 태그에서 id값이 link1이라는 값을 찾는 예제입니다.

In [74]:
# id 값이 link1만 찾고 싶다면 아래 처럼 'a' 태그의 값에서 id값이 link1을 전달하면 됩니다.
soup.find_all('a', id="link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [75]:
# 찾고 싶은 값이 2개 이상이라면 dict 형태로 값을 전달하면 됩니다.
# a태그 중에서 id값이 link1과 link3로 되어 있는 값을 찾습니다.
soup.find_all('a', {'id' : {'link1','link3'}})

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

# ※ BeautifulSoup는 이제 앞으로 계속 사용해야 합니다. Part 3에서 실습을 통하여 습득할 수 있도록 개념만 기억해주세요