# 8. Requests 요청정보 Payload

* 세션 활성화 및 비활성화
* 쿠키 정보 전송
* User-Agent 정보 전송
* 수신 상태 코드 확인

In [27]:
import requests

# 세션 활성화
s = requests.Session()
r = s.get('https://www.naver.com')

# 수신 데이터
# print(r.text)


#  수신 상태 코드
print('Status Code: {}'.format(r.status_code))


# 확인
print('Ok? : {}'.format(r.ok))




# 쿠기 Return

r = s.get('http://httpbin.org/cookies',cookies = {'name':'kim'})

print(r.text)


# 쿠키 set (rest API, 서버쪽에 저장)

r2 = s.get('http://httpbin.org/cookies/set',cookies={'name':'kim2'})
print(r2.text)

# User-Agent
url = 'http://httpbin.org'
headers = {'user-agent':'nice-man_1.0.0_win10_ram16_home'}



# Header 정보 전송
r3 = s.get(url, headers=headers)
print(r3.text)


# 세션 비활성화
s.close()


Status Code: 200
Ok? : True
{
  "cookies": {
    "name": "kim"
  }
}

{
  "cookies": {
    "name": "kim2"
  }
}

<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8">
    <title>httpbin.org</title>
    <link href="https://fonts.googleapis.com/css?family=Open+Sans:400,700|Source+Code+Pro:300,600|Titillium+Web:400,600,700"
        rel="stylesheet">
    <link rel="stylesheet" type="text/css" href="/flasgger_static/swagger-ui.css">
    <link rel="icon" type="image/png" href="/static/favicon.ico" sizes="64x64 32x32 16x16" />
    <style>
        html {
            box-sizing: border-box;
            overflow: -moz-scrollbars-vertical;
            overflow-y: scroll;
        }

        *,
        *:before,
        *:after {
            box-sizing: inherit;
        }

        body {
            margin: 0;
            background: #fafafa;
        }
    </style>
</head>

<body>
    <a href="https://github.com/requests/httpbin" class="github-corner" aria-label="View source on Github

In [28]:

# with문 사용(권장) -> 파일, DB , HTTP
with requests.Session()  as s:
    r = s.get('https://www.daum.net')
    print(r.text)
    print(r.ok)

<!DOCTYPE html>
<html lang="ko" class="">
<head>
<meta charset="utf-8"/>
<title>Daum</title>
<meta property="og:url" content="https://www.daum.net/">
<meta property="og:type" content="website">
<meta property="og:title" content="Daum">
<meta property="og:image" content="//i1.daumcdn.net/svc/image/U03/common_icon/5587C4E4012FCD0001">
<meta property="og:description" content="나의 관심 콘텐츠를 가장 즐겁게 볼 수 있는 Daum">
<meta name="msapplication-task" content="name=Daum;action-uri=https://www.daum.net/;icon-uri=/favicon.ico">
<meta name="msapplication-task" content="name=미디어다음;action-uri=http://media.daum.net/;icon-uri=/media_favicon.ico">
<meta name="msapplication-task" content="name=메일;action-uri=http://mail.daum.net;icon-uri=/mail_favicon.ico">
<meta name="referrer" content="origin">
<link rel="search" type="application/opensearchdescription+xml" href="//search.daum.net/OpenSearch.xml" title="다음">
<style type="text/css">
@charset "utf-8";
body,div,dl,dt,dd,ul,ol,li,h1,h2,h3,h4,h5,h6,pre,code,form,f

# 9. Httpbin 사이트를 이용한 JSON 실습

* 수신데이터 처리 실습
* 수신 데이터 -> JSON 변환 출력
* Response 다양한 정보 출력

In [44]:
import json
import requests

s = requests.Session() 

# 100개 JSON 데이터 요청
# text 형태의 데이터를 불러올때는 stream값을 True로 하는것이 좋다고만 알고있으면 된다. (내부적으로 stream형태로 가져옴)
r = s.get('https://httpbin.org/stream/100', stream= True)

# 수신 확인
# print(r.text)


# Encoding 확인
# print('Before Encoding : {}'.format(r.encoding))


# encoding이 없을 경우 예외처리
if r.encoding is None:
    r.encoding = 'UTF-8'
    
print('After Encoding : {}'.format(r.encoding))



for line in r.iter_lines(decode_unicode=True): # 깨짐방지
    #라인 출력 후 타입 확인
#     print(line)
#     print(type(line))

    # JSON(Dict) 변환 후 타입 확인
    b = json.loads(line) # str -> dict
#     print(b)
#     print(type(b))


    # 정보 내용 출력
    for k,v in b.items():
        print("key : {} , value : {}".format(k,v))
    
    print()
    print()


s.close()




{'Date': 'Sun, 09 Feb 2020 08:09:15 GMT', 'Content-Type': 'application/json', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}

In [43]:
r = s.get('https://jsonplaceholder.typicode.com/todos/1')

# Header정보
print(r.headers)

#'Content-Type': 'application/json;


# 본문 정보
# print(r.text)

# JSON 변환
print(r.json())

# key 변환
print(r.json().keys())

# values 변환
print(r.json().values())

# 인코딩 반환
print(r.encoding)

# 바이너리 정보
print(r.content)

{'Date': 'Sun, 09 Feb 2020 08:07:37 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'X-Powered-By': 'Express', 'Vary': 'Origin, Accept-Encoding', 'Access-Control-Allow-Credentials': 'true', 'Cache-Control': 'max-age=14400', 'Pragma': 'no-cache', 'Expires': '-1', 'X-Content-Type-Options': 'nosniff', 'Etag': 'W/"53-hfEnumeNh6YirfjyjaujcOPPT+s"', 'Via': '1.1 vegur', 'CF-Cache-Status': 'HIT', 'Age': '5563', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '562459ca7a0dfbcc-KIX', 'Content-Encoding': 'gzip'}
{'userId': 1, 'id': 1, 'title': 'delectus aut autem', 'completed': False}
dict_keys(['userId', 'id', 'title', 'completed'])
dict_values([1, 1, 'delectus aut autem', False])
utf-8
b'{\n  "userId": 1,\n  "id": 1,\n  "title": "delectus aut autem",\n  "completed": false\n}'


# 10. 개발자 도구 송수신 분석 및 실습

* Rest API란?
* POST , PUT
* DELETE
* Requests 최종 정리

In [3]:
# Rest API : GET, POST, DELETE, PUT:UPDATE, REPLACE(FETCH : UPDATE, MODIFY)
# 중요 :  URL을 활용해서 자원의 상태 정보를 주고 받는 모든 것을 의미  , URL로 자원의 행동을 실행시킬 수 있는 것.
# url 정보로 자원의 상태를 파악 -> 수정, 협업에 일관적인 개발 프로세스가 가능

# GET  :  www.movies.com/movies : 영화를 전부 조회  
# GET  :  www.movies.com/movies/:id : 아이디인 영화를 조회
# GET  :  www.movies.com/movies/:id : 아이디인 영화를 조회
# POST  :  www.movies.com/movies/  : 영화를 생성
# PUT :  www.movies.com/movies/ : 영화를 수정
# DELETE :  www.movies.com/movies/ : 영화를 삭제



import requests

s = requests.Session()




# 예제1
r = s.get('https://api.github.com/events')

#수신상태 체크
r.raise_for_status()


# 출력
# print(r.text)




# 예제 2
# 쿠키 설정(정석 방법)
jar = requests.cookies.RequestsCookieJar()

# 쿠키삽입 , 저장장소 설정
jar.set('name','niceman',domain = 'httpbin.org',path='/cookies')

# 요청
r = s.get('https://httpbin.org/cookies',cookies=jar)

# 출력
# print(r.text)





# 예제 3 
# 서버가 응답을 줄때까지 5초 기다림 (ex. 외국사이트)
r = s.get('https://github.com',timeout=5)

# print(r.text)




# 예제 4
r = s.post('http://httpbin.org/post', data = {'id':'test77', 'pw':'111'}, cookies=jar)

# 출력
# print(r.text)
# print(r.headers)





# 예제 5
# 요청(POST)
payload1 = {'id':'test77' , 'pw':'111'}
payload2 = (('id', 'test77') , ('pw', '111'))

r = s.post('http://httpbin.org/post', data= payload1)

# print(r.text)




# 예제 6(POST)
r = s.put('http://httpbin.org/put', data= payload1 )

# print(r.text)



# 예제 7(DELETE)
r = s.delete('http://httpbin.org/delete', data={'id':1})

# 출력
# print(r.text)




# 예제8()
r = s.delete('https://jsonplaceholder.typicode.com/posts/1' )
print(r.text)
print(r.ok)
print(r.headers)



s.close()

{}
True
{'Date': 'Sun, 09 Feb 2020 09:08:57 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Content-Length': '2', 'Connection': 'keep-alive', 'Set-Cookie': '__cfduid=dca6b6e090fdaca2de4d8ae9571c22e181581239336; expires=Tue, 10-Mar-20 09:08:56 GMT; path=/; domain=.typicode.com; HttpOnly; SameSite=Lax', 'X-Powered-By': 'Express', 'Vary': 'Origin, Accept-Encoding', 'Access-Control-Allow-Credentials': 'true', 'Cache-Control': 'no-cache', 'Pragma': 'no-cache', 'Expires': '-1', 'X-Content-Type-Options': 'nosniff', 'Etag': 'W/"2-vyGp6PvFo4RvsFtPoIWeCReyIC8"', 'Via': '1.1 vegur', 'CF-Cache-Status': 'DYNAMIC', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '5624b3a00c862082-KIX'}


# 11. Beautiful Soup Selector

* HTML 태그 선택자 이해
* FIND, FIND_ALL
* SELECT, SELECT_ONE
* 다양한 DOM 접근 방법


In [1]:
from bs4 import BeautifulSoup

html = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
        <h1>this is h1 area</h1>
        <h2>this is h2 area</h2>
        <p class="title"><b>the Dormouse's story</b></p>
        <p class="story">Once upon a time there were three little sistes.
            <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
            <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
            <a data-io="link3" href="http://example.com/little" class="sister" id="link3">Title</a>
        </p>
        <p class="story">
            story....
        </p>
    </body>
</html>
"""


In [10]:
# 예제 1
soup = BeautifulSoup(html,'html.parser')


#타입확인
# print(type(soup))
# print('prettify', soup.prettify())


# h1 태그 접근
h1 = soup.html.body.h1
# print('h1은 ', h1)


# p 태그 접근
p1 = soup.html.body.p
# print(p1)

# 다음 태그

p2 = p1.next_sibling
p2 = p1.next_sibling.next_sibling
print(p2)

<p class="story">Once upon a time there were three little sistes.
            <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" data-io="link3" href="http://example.com/little" id="link3">Title</a>
</p>


In [3]:
# 텍스트 출력1
# print('h1 >>' , h1.string)

# 텍스트 출력2  ??
# print('p >>' , p1.string)


# 다음 엘리먼트 확인
print(list(p2.next_element))

['O', 'n', 'c', 'e', ' ', 'u', 'p', 'o', 'n', ' ', 'a', ' ', 't', 'i', 'm', 'e', ' ', 't', 'h', 'e', 'r', 'e', ' ', 'w', 'e', 'r', 'e', ' ', 't', 'h', 'r', 'e', 'e', ' ', 'l', 'i', 't', 't', 'l', 'e', ' ', 's', 'i', 's', 't', 'e', 's', '.', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


In [6]:
for v in p2.next_element:
#     print(v)
    pass

In [5]:
# 예제2(Find, Find_all)

soup2 = BeautifulSoup(html,'html.parser')

# a 태그 모두 선택
link1 = soup2.find_all('a' , limit=2) # limit=2 옵션
# print(type(link1))

# 리스트 요소 확인
# print('links', link1)


# 값 접근 방법 ( class , id , string )
link2 = soup2.find_all("a", class_='sister') # class
# print(link2)

link2 = soup2.find_all("a", class_='sister') # id , string 
# print(link2)

link2 = soup2.find_all("a", string=["Elsie"])
# print(link2)

link2 = soup2.find_all("a", string=["Elsie","Title"])
# print(link2)


#
for t in link2:
    pass
#     print(t)

    
# 처음 발견한 a 태그 선택
link3 = soup2.find("a")
# print()
# print(link3)
# print(link3.string)
# print(link3.text)  # sting 과 text  속성으로 문자를 추출 


# 다중 조건
link4 = soup2.find("a", {"class": "sister", 'data-io' : "link3"})
# print(link4)
# print(link4.string)
# print(link4.text)




# 방법1. css 선택자 : select / select_one
# 방법2. 태그로 접근 : find /  find_all
# 예제3 (select, select_one)
# 태그 + 클래스 + 자식선택자


link5 = soup2.select_one('p.title > b')   # p태그 title클래스 b태그
# print(link5)
# print(link5.text)


link6 =  soup2.select_one('a#link1')
print()
print(link6)



<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [27]:
link7 = soup.select_one("a[data-io='link3']")
link7.text
link7.string

'Title'

In [32]:
# 선택자에 맞는 전체 선택

link8 = soup.select('p.story > a')
link8

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" data-io="link3" href="http://example.com/little" id="link3">Title</a>]

In [36]:
link9 = soup.select('p.story > a:nth-of-type(2)')
link9

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [37]:
link10 = soup.select('p.story')

for t in link10:
    temp = t.find_all("a")
    
    if temp:
        for v in temp:
            print('>>>>>>',v)
            print('>>>>>>',v.string)
            
    else:
        print('------',t)
        print('------',t.string)

>>>>>> <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
>>>>>> Elsie
>>>>>> <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
>>>>>> Lacie
>>>>>> <a class="sister" data-io="link3" href="http://example.com/little" id="link3">Title</a>
>>>>>> Title
------ <p class="story">
            story....
        </p>
------ 
            story....
        


# 12. 네이버 이미지 다운로드

In [61]:

import os
import urllib.parse as rep    # urllib 모듈을 사용할때 편리한 부분이 있으므로 urllib모듈을 사용
import urllib.request as req  # retrieve , request
from fake_useragent import UserAgent # 페이크유저 에이전트 사용 ex) 네이버 
from bs4 import BeautifulSoup


# request모듈이 비교적 헤더정보사용하기에 편리하지만...아래의 방법도 알아두는 것이 좋다.

# Header 정보 초기화
opener = req.build_opener()
#User-Agent 정보
opener.addheaders = [('User-agent',UserAgent().ie)]
#Header 정보 삽입
req.install_opener(opener)



# 네이버 이미지 기본 URL(크롬개발자 도구)
base = 'https://search.naver.com/search.naver?where=image&sm=tab_jum&query='
#검색어
quote = rep.quote_plus('호랑이')
#URL 완성
url = base + quote

# 요청 URL 확인
print('Request URL : {}'.format(url))

# Request
res = req.urlopen(url)

# 이미지 저장 경로
savePath = "C:/naverimages/"

# 폴더 생성 예외처리(문제 발생 시 프로그램 종료)
#권한이 없거나 여러 문제가 있을 때 폴더가 만들어지지않을 수 있다.

try: 
    #기본 폴더가 있는지 체크
    if not (os.path.isdir(savePath)):
        # 없으면 폴더 생성
        os.makedirs(os.path.join(savePath))
except OSError as e:
    # 에러내용
    print('foler creation failed')
    print('folder name : {}'.format(e.filename))
    
    #런타임 에러
    raise RuntimeError("System Exit!")
else:
    #
    print("folder is created!")



Request URL : https://search.naver.com/search.naver?where=image&sm=tab_jum&query=%ED%98%B8%EB%9E%91%EC%9D%B4
folder is created!


In [42]:
#  bs4 초기화

soup = BeautifulSoup(res,"html.parser")

In [44]:
print(soup.prettify)

<bound method Tag.prettify of <!DOCTYPE doctype html>
 <html lang="ko"> <head> <meta charset="utf-8"/> <meta content="always" name="referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"> <meta content="telephone=no,address=no,email=no" name="format-detection"/> <meta content="width=device-width,initial-scale=1.0,maximum-scale=2.0" name="viewport"/> <meta content="호랑이 : 네이버 이미지검색" property="og:title"> <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/> <meta content="'호랑이'의 네이버 이미지검색 결과입니다." property="og:description"/> <meta content="'호랑이'의 네이버 이미지검색 결과입니다." lang="ko" name="description"/> <title>호랑이 : 네이버 이미지검색</title> <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico" rel="shortcut icon"/> <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml"><link href="https://ssl.pstatic.net/sstatic/search/pc/css/se

In [63]:
# select 사용
img_list = soup.select('div.img_area > a.thumb._thumb > img')

for i, img in enumerate(img_list,1):
    print()
    print()
    # 속성확인
#     print(img['data-source'],i)

    # 저장 파일명 및 경로
    fullFileName = os.path.join(savePath,savePath+str(i)+'.png')
    print(fullFileName)

    #다운로드 요청(URL , 다운로드경로) 다운로드와 동시에 저장할 수 있는 함수 urlretrieve
    req.urlretrieve(img['data-source'], fullFileName)
    
print('download complete')



C:/naverimages/1.png


C:/naverimages/2.png


C:/naverimages/3.png


C:/naverimages/4.png


C:/naverimages/5.png


C:/naverimages/6.png


C:/naverimages/7.png


C:/naverimages/8.png


C:/naverimages/9.png


C:/naverimages/10.png


C:/naverimages/11.png


C:/naverimages/12.png


C:/naverimages/13.png


C:/naverimages/14.png


C:/naverimages/15.png


C:/naverimages/16.png


C:/naverimages/17.png


C:/naverimages/18.png


C:/naverimages/19.png


C:/naverimages/20.png


C:/naverimages/21.png


C:/naverimages/22.png


C:/naverimages/23.png


C:/naverimages/24.png


C:/naverimages/25.png


C:/naverimages/26.png


C:/naverimages/27.png


C:/naverimages/28.png


C:/naverimages/29.png


C:/naverimages/30.png


C:/naverimages/31.png


C:/naverimages/32.png


C:/naverimages/33.png


C:/naverimages/34.png


C:/naverimages/35.png


C:/naverimages/36.png


C:/naverimages/37.png


C:/naverimages/38.png


C:/naverimages/39.png


C:/naverimages/40.png


C:/naverimages/41.png


C:/naverimages/42.png



# 12. 로그인

In [72]:
import requests as req
from fake_useragent import UserAgent
from bs4 import BeautifulSoup 


# network - preserv log  체크할 것

# Login 정보 (개발자 도구)
login_info = {
    'redirectUrl': 'http://www.danawa.com/',
    'loginMemberType': 'general',
    'id': 'hoseong0701',
    'password': '*****'    
}

# Headers 정보
headers = {
        "User-Agent":UserAgent().chrome,
        "Referer": 'https://auth.danawa.com/login?url=http%3A%2F%2Fwww.danawa.com%2F'
}


with req.session() as s:
    #Request(로그인 시도)
    res = s.post('https://auth.danawa.com/login', login_info, headers=headers)
    
    # 로그인 시도 실패 시 예외
    if res.status_code != 200:
        raise Exception("Login failed!")
        
    # 본문 수신 데이터 확인
#     print(res.content.decode('utf-8'))

    # 로그인 성공 후 세션 정보를 가지고 페이지 이동
    res = s.get('https://buyer.danawa.com/order/Order/orderList',headers =headers)
    
    # Euc-kr(한글 깨질 경우)
    # res.encoding = 'euc-kr'
    
    # 페이지 이동 후 수신 데이터 확인
#     print(res.text)
    
    
    
    soup = BeautifulSoup(res.text,'html.parser')

    # 로그인 성공 체크
    check_name = soup.find('p',class_='user')
    
    if check_name is None:
        raise Exception('Login failed. wring password')
        
    # 선택자 사용
    info_list = soup.select("div.my_info > div.sub_info > ul.info_list > li")
    
    # 확인
    print(info_list)
    
    # 이부분에서 재요청 , 파일다운로드 , DB저장 , 파일 쓰기(엑셀)
    
    # 제목
    print()
    print()
    print()
    print("****************My Info************")
    
    for v in info_list:
        # 속성 메소드 확인
        #printer(div(v))
        
        proc, val = v.find('span').string.strip(), v.find('strong').string.strip()
        print('{} : {}'.format(proc,val))
    
    

[<li>
<span class="item">입금대기</span>
<a href="#" onclick="searchOrderByState(1); return false;" style="cursor: pointer;">
<strong class="item_num num_none">
									0								</strong>
</a>
</li>, <li>
<span class="item">결제완료</span>
<a href="#" onclick="searchOrderByState(2); return false;" style="cursor: pointer;">
<strong class="item_num num_none">
									0								</strong>
</a>
</li>, <li>
<span class="item">배송중</span>
<a href="#" onclick="searchOrderByState(4); return false;" style="cursor: pointer;">
<strong class="item_num num_none">
									0								</strong>
</a>
</li>, <li>
<span class="item">배송완료</span>
<a href="#" onclick="searchOrderByState(5); return false;" style="cursor: pointer;">
<strong class="item_num num_none">
									0								</strong>
</a>
</li>, <li>
<span class="item">취소중 / 취소완료</span>
<a href="#" onclick="searchOrderByStateList('10,11'); return false;" style="cursor: pointer;">
<strong class="item_num num_none">
									0								</strong>
</a>
</li>]

<p class="user">
<strong>hoseong0701</strong>님
										</p>
