# Chapter 2. 고급 스크레핑

## 로그인이 필요한 사이트에서 다운받기
>### HTTP 통신
- 웹 브라우저와 웹 서버는 HTTP 통신규약(PROTOCOL)을 사용해서 통신
- 브라우저에서 서버로 요청(request)하면, 서버에서 브라우저로 응답(response)할 때 어떻게 할 것인지를 나타내는 규약
    - 웹 브라우저로 http://www.naver.com이라는 웹 서버 탐색
    - 웹 서버가 발견되면 index.html 파일을 보고싶다고 요청
    - naver.com 서버가 이러한 요청을 받으면 index.html 파일의 내용을 응답
- 같은 URL에 여러 번 접근해도 같은 데이터를 돌려주는 무상태(stateless) 통신

>### 쿠키
- 웹 브라우저를 통해 사이트에 방문하는 사람의 컴퓨터에 일시적으로 데이터를 저장하는 기능
- 1개의 쿠키에 저장할 수 있는 데이터의 크기는 4,096 byte로 제한
- HTTP 통신 헤더를 통해 읽고 쓰기가 가능
- 방문자 또는 확인자 측에서 원하는 대로 변경 가능
- 변경하면 문제가 될 비밀번호 등의 정보를 저장하기는 알맞지 않음

>### 세션
- 쿠키를 사용해 데이터를 저장
- 쿠키에는 방문자 고유 ID만 저장, 모든 데이터는 웹 서버에 저장
- 저장할 수 있는 데이터에 제한이 없음
- 회원제 웹 사이트 등의 구현이 가능

>### requests 사용
- `urllib.requests`를 이용해 쿠키를 이용한 접근이 가능
    - 방법이 조금 복잡
- requests 패키지를 사용하면 쉽게 쿠키를 이용한 접근이 가능
- 프로그램(봇 등)이 쉽게 로그인할 수 없게 보안 처리된 네이버 또는 다음 등 포털 사이트 등은 지금 사용하는 방법으로 로그인 불가능

>### 한빛출판네트워크
- site : http://www.hanbit.co.kr/member/login.html
- 입력양식(input)으로 m_id와 m_passwd라는 값(name 속성의 값)을 입력하여 입력양식을 제출하면 로그인되는 구조

>### 로그인 과정 분석
- 크롬 등에서 [검사] 화면을 띄우고 [Network] 탭을 띄워 어떠한 네트워크 통신이 오가는지 확인
- login_proc.php 선택
    - 로그인 관련 기능 처리
    - m_id와 m_passwd 정보 확인
    - http://www.hanbit.co.kr/member/login_proc.php 에 입력양식 데이터를 POST로 전달하면 로그인

>### 파이썬으로 로그인
- 마일리지와 이코인 출력

In [1]:
# 로그인을 위한 모듈 추출하기
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from getpass import getpass

# 아이디와 비밀번호 지정하기 [자신의 것을 사용해주세요]
USER = input('ID : ')
PASS = getpass('Password : ')

# 세션 시작하기
session = requests.session()

# 로그인하기
login_info = {
    'm_id' : USER,     # 아이디 지정
    'm_passwd' : PASS  # 비밀번호 지정
}
url_login = 'http://www.hanbit.co.kr/member/login_proc.php'
res = session.post(url_login, data=login_info)
res.raise_for_status() # 오류가 발생하면 예외 발생

ID : jinmang2
Password : ········


In [2]:
# 마이페이지 접근
url_mypage = 'http://www.hanbit.co.kr/myhanbit/myhanbit.html'
res = session.get(url_mypage)
res.raise_for_status()

# 마일리지와 이코인 가져오기
soup = BeautifulSoup(res.text, 'html.parser')
mileage = soup.select_one('.mileage_section1 span').get_text()
ecoin = soup.select_one('.mileage_section2 span').get_text()
print('마일리지 : {}'.format(mileage))
print('이코인 : {}'.format(ecoin))

마일리지 : 3,000
이코인 : 0


In [3]:
# 마이페이지 접근
url_mypage = 'http://www.hanbit.co.kr/myhanbit/membership.html'
res = session.get(url_mypage)
res.raise_for_status()

# 날짜별 순수구매금액과 적립마일리지 가져오기
soup = BeautifulSoup(res.text, 'html.parser')
date = soup.select_one('table.tbl_type_list2  tr  td').get_text()
buy = soup.select_one('table.tbl_type_list2 tr td.right').get_text()
month_mileage = soup.select_one('table.tbl_type_list2 tr td:nth-of-type(4)').get_text()

print('날짜 : {}'.format(date))
print('순수구매금액 : {}'.format(buy))
print('적립마일리지 : {}'.format(month_mileage))

날짜 : 2019 / 07
순수구매금액 : 0 원
적립마일리지 : 0 점


>### requests의 메서드
- HTTP에서 사용하는 `get`과 `post`등의 메서드는 `requests` 모듈에 같은 이름의 메서드가 존재
- `get`
    - 사용자가 필요한 정보들을 주소창에 입력여 보내는 방식
    - 엽서에 써서 메일을 보낸다고 이해
    - 전달할 수 있는 정보의 양에 제한이 있음
- `post`
    - HTML 중 body 영역에 입력하여 보내는 방식
    - 택배 상자에 내용물을 넣어서 보낸다고 이해
    - 보낼 수 있는 양이 `get`에 비해 더 많음 (Container 방식)
    - 보안 상 `get`보다 좋음
- `put`, `delete`, `head`와 같은 메서드도 존재

In [4]:
# get 요청
r = requests.get('http://google.co.kr/search', 
                 params={'q' : '파이썬'})
print(r.text.split('<div>')[7], '\n')

<div class="BNeawe s3v9rd AP7Wnd">The official home of the Python Programming Language.
<span class="BNeawe"><a href="/url?q=https://www.python.org/downloads/release/python-373/&amp;sa=U&amp;ved=2ahUKEwilxdip0pzjAhVyxYsBHWKQCJgQ0gIwAHoECAgQAg&amp;usg=AOvVaw0vlT_axSSLItaQxyif_bhd"><span class="XLloXe AP7Wnd">Python 3.7.3</span></a></span> · <span class="BNeawe"><a href="/url?q=https://www.python.org/downloads/&amp;sa=U&amp;ved=2ahUKEwilxdip0pzjAhVyxYsBHWKQCJgQ0gIwAHoECAgQAw&amp;usg=AOvVaw373R-x29peMM4wJ0wtL6n4"><span class="XLloXe AP7Wnd">Download Python</span></a></span> · <span class="BNeawe"><a href="/url?q=https://www.python.org/downloads/windows/&amp;sa=U&amp;ved=2ahUKEwilxdip0pzjAhVyxYsBHWKQCJgQ0gIwAHoECAgQBA&amp;usg=AOvVaw0Z-w39llKC79H59WZiCBjv"><span class="XLloXe AP7Wnd">Windows</span></a></span> · <span class="BNeawe"><a href="/url?q=https://www.python.org/downloads/release/python-372/&amp;sa=U&amp;ved=2ahUKEwilxdip0pzjAhVyxYsBHWKQCJgQ0gIwAHoECAgQBQ&amp;usg=AOvVaw13zZjINhRbLMZ

In [None]:
# post 요청
formdata = {'key1' : 'value1', 'key2':'value2'}
r = requests.post('http://example.com', data=formdata)
print(r.content)

In [None]:
# 그 이외에 put, delete, head 등의 요청 메서드
r = requests.put('http://httpbin.org/put')
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/get')

>- 현재 시간에 대한 데이터를 추출하고 텍스트 형식과 바이너리 형식으로 출력
- 시간 모듈 공부 자료
    - https://godoftyping.wordpress.com/2015/04/19/python-%EB%82%A0%EC%A7%9C-%EC%8B%9C%EA%B0%84%EA%B4%80%EB%A0%A8-%EB%AA%A8%EB%93%88/
    - https://python.bakyeono.net/chapter-11-3.html

In [5]:
# 현재시간 데이터 가져오기
import requests
import time
import datetime
r = requests.get('http://api.aoikujira.com/time/get.php')

# 텍스트 형식으로 데이터 추출하기
text = r.text
print(text)

# 바이너리 형식으로 데이터 추출하기
binary = r.content
print(binary)

# time 모듈을 활용한 현재 시간 가져오기
print(time.gmtime(time.time()))

# datetime 모듈을 활용한 현재 시간 가져오기 
print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

myDatetimeStr = '2015-04-15 12:23:38'
myDatetime = datetime.datetime.strptime(myDatetimeStr, '%Y-%m-%d %H:%M:%S')
print(type(myDatetime))
print(myDatetime)
 
yourDatetime = myDatetime.replace(day=16)
print(myDatetime)   # 2015-04-15 12:23:38
print(yourDatetime) # 2015-04-16 12:23:38

2019/07/05 10:38:05
b'2019/07/05 10:38:05'
time.struct_time(tm_year=2019, tm_mon=7, tm_mday=5, tm_hour=1, tm_min=38, tm_sec=5, tm_wday=4, tm_yday=186, tm_isdst=0)
2019-07-05 10:38:05
<class 'datetime.datetime'>
2015-04-15 12:23:38
2015-04-15 12:23:38
2015-04-16 12:23:38


## 웹 API로 데이터 추출하기
>### 웹 API(Application Programming Interface)
- 어떤 사이트가 가지고 있는 기능을 외부에서도 쉽게 사용할 수 있게 공개한 것
- 원래 어떤 프로그램 기능을 외부 프로그램에서 호출해서 사용할 수 있게 만든 것
    - 간단하게 서로 다른 프로그램이 기능을 공유하 수 있게 절차와 규약을 정의한 것
- 웹 API는 HTTP 통신을 사용하여 클라이언트 프로그램이 API를 제공하는 서버로 HTTP 요청을 보내면 서버가 이러한 요청을 기반으로 XML 또는 JSON 형식 등으로 응답
    - 클라이언트 $\rightarrow$ 서버 $\rightarrow$ 클라이언트
    - 각각 HTML 요청

>### OpenWeatherMap의 날씨 정보
- http://openweathermap.org
- 개발자 등록을 하고 API 키를 발급
- 유료 API
    - 현재 날씨, 5일까지의 날씨는 무료 사용
    - 1분에 600번까지 호출 가능
- 도시목록 데이터
    - http://bulk.openweathermap.org/sample/city.list.json.gz

In [6]:
import requests
import json
# API 키를 지정
# 아래에서 접근하고자 하는 데이터는 무료 API로 충분
apikey = input('API Key : ')

# 날씨를 확인할 도시 지정하기
cities = {'Seoul':'KR', 'Tokyo':'JP', 'New York':'US'}

# API 지정
# api = 'https://api.openweathermap.org/data/2.5/forecast?id=524901&APPID={key}'
# api = 'https://api.openweathermap.org/data/2.5/weather?q={city}&APPID={key}'
api = 'https://api.openweathermap.org/data/2.5/weather?q={city_name}, {country_code}&APPID={key}'

# 켈빈 온도를 섭씨 온도로 변환하는 함수
k2c = lambda k : k - 273.15

# 각 도시의 정보 추출하기
for name, code in cities.items():
    # API의 URL 구성하기
    url = api.format(
        city_name=name, country_code=code, key=apikey)
    # API에 요청을 보내 데이터 추출하기
    r = requests.get(url)
    # 결과를 JSON 형식으로 변환하기
    data = json.loads(r.text)
    # 겨로가 출력하기 --- (%8)
    print('\n' + '+ 도시 =', data['name'])
    print(' | 날씨 =', data['weather'][0]['description'])
    print(' | 최저 기온 = {:.2f}'.format(k2c(data['main']['temp_min'])))
    print(' | 최고 기온 = {:.2f}'.format(k2c(data['main']['temp_max'])))
    print(' | 습도 =', data['main']['humidity'])
    print(' | 기압 =', data['main']['pressure'])
    print(' | 풍향 =', data['wind']['deg'])
    print(' | 풍속 =', data['wind']['speed'])

API Key : 69871d46bef8fb1a0acc5bea3296e0df

+ 도시 = Seoul
 | 날씨 = haze
 | 최저 기온 = 26.00
 | 최고 기온 = 29.00
 | 습도 = 45
 | 기압 = 1004
 | 풍향 = 170
 | 풍속 = 1.5

+ 도시 = Tokyo
 | 날씨 = broken clouds
 | 최저 기온 = 22.00
 | 최고 기온 = 26.67
 | 습도 = 73
 | 기압 = 1007
 | 풍향 = 40
 | 풍속 = 2.6

+ 도시 = New York
 | 날씨 = clear sky
 | 최저 기온 = 22.78
 | 최고 기온 = 26.11
 | 습도 = 88
 | 기압 = 1020
 | 풍향 = 160.432
 | 풍속 = 2.91


In [7]:
data

{'coord': {'lon': -73.99, 'lat': 40.73},
 'weather': [{'id': 800,
   'main': 'Clear',
   'description': 'clear sky',
   'icon': '01n'}],
 'base': 'stations',
 'main': {'temp': 297.46,
  'pressure': 1020,
  'humidity': 88,
  'temp_min': 295.93,
  'temp_max': 299.26},
 'visibility': 16093,
 'wind': {'speed': 2.91, 'deg': 160.432},
 'clouds': {'all': 1},
 'dt': 1562290405,
 'sys': {'type': 1,
  'id': 4686,
  'message': 0.0143,
  'country': 'US',
  'sunrise': 1562232587,
  'sunset': 1562286632},
 'timezone': -14400,
 'id': 5128581,
 'name': 'New York',
 'cod': 200}

>- JSON(JavaScript Object Notation)
    - '속성-값' 쌍 또는 '키-값' 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포멧
    - python의 dict와 거의 유사
- 국내 웹 API
    - API Store : http://www.apistore.co.kr/main.do
- 포탈 싸이트(네이버 개발자 센터와 다음 개발자 센터)
    - http://developers.naver.com/main/
    - http://developers.daum.net/
- 쇼핑 정보(옥션)
    - http://developer.auction.co.kr/
- 주소전환(행정자치부, 우체국)
    - http://www.juso.go.kr/openIndexPage.do
    - http://biz.epost.go.kr/ui/index.jsp

In [8]:
import os
import sys
import datetime
import time
import urllib.request
import json

def get_request_url(url, client_id, client_secret):
    rep = urllib.request.Request(url)
    rep.add_header('X-Naver-Client-id', client_id)
    rep.add_header('X-Naver-Client-Secret', client_secret)
    try:
        response = urllib.request.urlopen(rep)
        if response.getcode() == 200:
            print('{} Url request success'.format(datetime.datetime.now()))
            return response.read().decode('utf-8')
    except Exception as e:
        print(e)
        print('{:s} Error for URL : {}'.format(datetime.datetime.now(), url))
        return None

def get_naver_search_result(s_node, search_text, page_start, display,
                           client_id, client_secret):
    base = 'https://openapi.naver.com/v1/search'
    node = '/{}.json'.format(s_node)
    params = '?query={query}&start={start}&display={display}'.format(
                    query=urllib.parse.quote(search_text), 
                    start=page_start, display=display)
    url = base + node + params
    data = get_request_url(url, client_id, client_secret)
    if data == None:
        return None
    else:
        return json.loads(data)
    
def get_post_data(post, json_res):
    title = post['title']
    description = post['description']
    link = post['link']
    org_link = post['originallink']
    
    p_date = datetime.datetime.strptime(post['pubDate'],
                                       '%a, %d %b %Y %H:%M:%S +0900')
    p_date = p_date.strftime('%Y-%m-%d %H:%M:%S')
    json_res.append({'title':title, 'description':description,
                     'org_link':org_link, 'link':link, 'p_date':p_date})
    return

def main(client_id, client_secret,
         s_node='news', search_text='빅데이터', display_count=100):
    """
    s_node : ex) blog, cafearticle
    """
    json_res = []
    json_search = get_naver_search_result(s_node, search_text, 
                              page_start=1, display=display_count,
                         client_id=client_id, client_secret=client_secret)
    while ((json_search != None) and (json_search['display'] != 0)):
        for post in json_search['items']:
            get_post_data(post, json_res)
        n_start = json_search['start'] + json_search['display']
        json_search = get_naver_search_result(s_node, search_text, 
                                  page_start=n_start, display=display_count,
                         client_id=client_id, client_secret=client_secret)
    with open('{}_naver_{}.json'.format(search_text, s_node), 'w', 
              encoding='utf-8') as f:
        ret_json = json.dumps(json_res, indent=4, sort_keys=True,
                             ensure_ascii=False)
        f.write(ret_json)
    print('{}_naver_{}.json SAVED'.format(search_text, s_node))

if __name__ == '__main__':
    client_id = input('client_id : ')
    client_secret = getpass('client_secret : ')
    main(client_id=client_id, client_secret=client_secret, 
         s_node='news', search_text='신세경', display_count=10)

client_id : dHkT3kW_iC7IqHn24Ccl
client_secret : ········
2019-07-05 10:38:32.504120 Url request success
2019-07-05 10:38:32.682463 Url request success
2019-07-05 10:38:32.813290 Url request success
2019-07-05 10:38:32.952525 Url request success
2019-07-05 10:38:33.087100 Url request success
2019-07-05 10:38:33.216722 Url request success
2019-07-05 10:38:33.341039 Url request success
2019-07-05 10:38:33.489821 Url request success
2019-07-05 10:38:33.642517 Url request success
2019-07-05 10:38:33.742269 Url request success
2019-07-05 10:38:33.848930 Url request success
2019-07-05 10:38:33.984293 Url request success
2019-07-05 10:38:34.122822 Url request success
2019-07-05 10:38:34.264060 Url request success
2019-07-05 10:38:34.419925 Url request success
2019-07-05 10:38:34.590968 Url request success
2019-07-05 10:38:34.747214 Url request success
2019-07-05 10:38:34.899307 Url request success
2019-07-05 10:38:35.030401 Url request success
2019-07-05 10:38:35.187966 Url request success
20

In [9]:
client_id = input('client_id : ')
client_secret = getpass('client_secret : ')
encText = urllib.parse.quote("검색할 단어")
url = "https://openapi.naver.com/v1/search/blog?query=" + encText # json 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

client_id : dHkT3kW_iC7IqHn24Ccl
client_secret : ········
{
"lastBuildDate": "Fri, 05 Jul 2019 10:39:08 +0900",
"total": 608485,
"start": 1,
"display": 10,
"items": [
{
"title": "최근 네이버에서 &quot; 자동커피머신 &quot;이라는 <b>단어</b>의 <b>검색</b>이... ",
"link": "https:\/\/blog.naver.com\/nams1004?Redirect=Log&logNo=221574480743",
"description": "최근에 네이버에서 &quot;자동 커피 머신&quot;이라는 <b>단어</b>의 <b>검색</b>량이 부쩍 늘고 있는 것 같네요.... 자동 커피 머신이라.... 자동 커피 머신이라면, 1. 자동판매기나 2. 특별한 기술을 갖고 있지 않더라도 버튼만 누르면... ",
"bloggername": "Noble Tree Coffee",
"bloggerlink": "https://blog.naver.com/nams1004",
"postdate": "20190630"

},
{
"title": "［절대 <b>검색</b>하면 안되는 <b>단어</b> -레벨도 2 -］あかんか (안되는기가)",
"link": "https:\/\/blog.naver.com\/qwsaerfd87?Redirect=Log&logNo=221552096607",
"description": "설명만 보고 자세한 내용이 궁금해서 <b>검색</b>했다가 장남이 결국 투신자살을 했단 소식을 보고 충격을 좀 받았습니다. 왜 죽었는지 자세한 이유는 밝혀지지 않은 것 같지만 아무래도 냉혹한 현실로 인해... ",
"bloggername": "AO-1",
"bloggerlink": "https://blog.naver.com/qwsaerfd87",
"postdate": "20190601"

},
{
"title": "리딩앤 ORT

- 프로젝트 하나 잡아서 실습해보지 않는 한 죽어도 이해할 수 없을 것.