## 크롤링과 관련한 라이브러리, 이론 등을 정리

참고자료:
    
`askdjango`, `구글링`

#### 우리가 보는 웹페이지들은 어떻게 보여지는걸까?

```
Client 가 요청을 보내면 브라우저가 서버로부터 HTML 코드를 받는다.

그리고 HTML 코드를 Client 그러니까 사용자가 한줄씩 코드 분석을 하며 읽으면 사람들이 인터넷을 이용할까?

그 역할을 대신해주는 것이 브라우저이며, 한줄 한줄 코드 분석을 하여 Client 에게 Response 해주는 것이다.

- 브라우저의 역할: HTML 코드를 분석하여 사용자가 보기 편하도록 이미지화
```

#### 프로토콜, 도메인, 요청할 자원!?

```python
https://www.google.co.kr/members/

http(s): 프로토콜(통신규약)

www.google.co.kr: 서버 도메인

members: 요청할 자원의 이름
```


### urllib 을 사용하여 status 확인하기

In [1]:
import urllib.request

req = urllib.request
req.urlopen("https://google.co.kr")

data = req.urlopen("https://google.co.kr")
statuses = data.getheaders()
for status in statuses:
    print(status)

('Date', 'Thu, 25 Oct 2018 09:42:12 GMT')
('Expires', '-1')
('Cache-Control', 'private, max-age=0')
('Content-Type', 'text/html; charset=EUC-KR')
('P3P', 'CP="This is not a P3P policy! See g.co/p3phelp for more info."')
('Server', 'gws')
('X-XSS-Protection', '1; mode=block')
('X-Frame-Options', 'SAMEORIGIN')
('Set-Cookie', '1P_JAR=2018-10-25-09; expires=Sat, 24-Nov-2018 09:42:12 GMT; path=/; domain=.google.co.kr')
('Set-Cookie', 'NID=144=Z7eN91wqCt-97AH64Nf95ksuHou_zUKj6Elx7ZMWFTGL9RBYt-wkGaf6thvS3cZ4NP4e3uV-uHyHp1cfR42sIWf9zEn9xgF7lD2mkAPbMhTP98-o9Vr4d-bHdkWjAfQjxhkBq5KxL89nNxpooffRIrPbTOPeb_1N5WbSxs9sjIo; expires=Fri, 26-Apr-2019 09:42:12 GMT; path=/; domain=.google.co.kr; HttpOnly')
('Alt-Svc', 'quic=":443"; ma=2592000; v="44,43,39,35"')
('Accept-Ranges', 'none')
('Vary', 'Accept-Encoding')
('Connection', 'close')


## urllib 보다는 역시 requests

---------------------

`파이썬에서 HTTP 에 request 를 하기 위한 라이브러리`

`적은 리소스/빠른 처리`

이 라이브러리의 역할은 서버에 request 를 보내고 response 받은 내용을 구문분석(parsing) 해주는 라이브러리이다.

헤더(HTTP 주소)에 요청을 보내면 인코딩 된 데이터를 볼 수 있으며, 인코딩 된 데이터를 기반으로 디코딩까지 할 수 있다.

깃허브에서 requests 를 검색하면 requests 의 Repository 를 확인할 수 있는데, `requests.get` 요청을 하게 되면 이 저장소의 코드를 읽고 get 요청에 대한 처리를 하지 않을까 싶다.

In [2]:
import requests

In [3]:
# GET 요청 즉시 응답받음
response = requests.get('https://askdjango.github.io/lv1/')
html = response.text

In [4]:
print(html)

<!doctype html>
<html lang="ko">
<head>
<meta charset="utf-8" />
<title>[레벨1] 단순 HTML 크롤링</title>
<style>
#logo {
    max-width: 100%;
}
</style>
</head>
<body>
<h1>Ask Company VOD</h1>

<h2>[레벨1] 단순 HTML 크롤링</h2>

<p>본 HTML에 크롤링할 데이터가 있습니다.</p>

<ul id="course_list">
    <li class="course"><a href="https://www.askcompany.kr/vod/setup/">개발환경 구축하기</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/python/">파이썬 차근차근 시작하기</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/crawling/">크롤링 차근차근 시작하기</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/automation/">파이썬으로 업무 자동화</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/django/">장고 - 기본편</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/djangogirls/">장고걸스 튜토리얼</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/form/">장고 - Form/ModelForm 잘 알고 쓰기</a></li>
    <li class="course"><a href="https://www.askcompany.kr/vod/cbv

### get 요청을 하면 무엇을 보내고 무엇을 받게 되는걸까?

#### requests.get 요청을 하면 아래와 같은 패킷이 브라우저로 요청됨

```python
> Header(헤더)

-------------------------
GET /1v1/ HTTP/1.1
Host: askdjango.github.io
Connection: keep-alive
Accept: */*
User-Agent: python-requests/2.14.2
Accept-Encoding: gzip, deflate
(빈줄)
(Body없음) #get 요청에는 Body가 없음
-------------------------
```

```python
> Response Header(응답헤더)

$ response.headers

HTTP/1.1 200 OK
Content-Type: text/html; charset=utf-8
Last-Modified: Thu, 19 Many 2018 14:51:44 GMT
Access-Control-Allow-Origin: *
..
..
```

### 왜 커스텀 헤더를 설정하여 Http 의 get 요청을 하나?

커스텀 헤더를 설정해야 하는 이유는 서버에서 get 요청을 받았을 때 일반 브라우저가 요청하는게 아니라 python 이 요청한다는 것을 인지할 수 있다. 그렇기 때문에 헤더에 user-agent 라는 Dic 타입의 자료구조를 사용하여 크롬, 파이어폭스 등으로 접근한다는 것을 알려주어야 한다.

두번째는 크롤링을 하다보면 Referer 요청 헤더를 사용해야 할 때도 있는데, 요청을 받은 서버에서 `바로 이전의 페이지에서 접근`하지 않으면 응답하지 않을 수 있는 로직을 짰을 경우에는 바로 이전의 http 주소 를 referer header 로 접근하여 크롤링을 하도록 한다.

### referer 헤더를 사용하여 크롤링 해보기

HTTP 리퍼러를 정의한 RFC에서 **'referrer'**를 **'referer'** 이라고 잘못 친 것에서 기인하여 **HTTP referer** 라고 불리운다. - 위키백과

In [5]:
import os
import requests
# URL 소스 : http://comic.naver.com/webtoon/detail.nhn?titleId=119874&no=1015&weekday=tue # - 덴마. 3-12화 1. 다이크(12)
image_urls = [
    'http://imgcomic.naver.net/webtoon/119874/1015/20170528204207_6e9df8e618b97520233bbb35e7d4eaaf_IMAG01_1.jpg',
    'http://imgcomic.naver.net/webtoon/119874/1015/20170528204207_6e9df8e618b97520233bbb35e7d4eaaf_IMAG01_2.jpg',
    'http://imgcomic.naver.net/webtoon/119874/1015/20170528204207_6e9df8e618b97520233bbb35e7d4eaaf_IMAG01_3.jpg',
]
for image_url in image_urls:
    headers = {
        'Referer': 'http://comic.naver.com/webtoon/detail.nhn?titleId=119874&no=1015&weekday=tue',
    }
    response = requests.get(image_url, headers=headers)
    image_data = response.content
    filename = os.path.basename(image_url)
    with open(filename, 'wb') as f:
        print('writing to {} ({} bytes)'.format(filename, len(image_data)))
        f.write(image_data)

writing to 20170528204207_6e9df8e618b97520233bbb35e7d4eaaf_IMAG01_1.jpg (245072 bytes)
writing to 20170528204207_6e9df8e618b97520233bbb35e7d4eaaf_IMAG01_2.jpg (277346 bytes)
writing to 20170528204207_6e9df8e618b97520233bbb35e7d4eaaf_IMAG01_3.jpg (249786 bytes)


### Get 요청 시에 Get 인자 지정하기(dict, tuple, list)

#### params 인자로 dict지정하면 key의 value를 다수로 지정할 수 없다.

In [79]:
params_dict = {'titleId': 434232, 'titleId': 34234,
               'search': 'morning'}

response_check_dict = requests.get('http://httpbin.org/get',
                                   params=params_dict)


In [80]:
params_dict # titleId의 value 가 2개면 후순위의 value가 담긴다

{'titleId': 34234, 'search': 'morning'}

In [92]:
response_check_dict.json() # args에 titleId 가 하나임을 확인

{'args': {'search': 'morning', 'titleId': '34234'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.20.0'},
 'origin': '210.91.43.247',
 'url': 'http://httpbin.org/get?titleId=34234&search=morning'}

In [98]:
import json

#이와같이 json으로 읽어오는 방법도 있지만 번거로우니 .json() 을 이용하자
json.loads(response_check_dict.text)
# json.loads(response_check_dict.text)['args']

{'args': {'search': 'morning', 'titleId': '34234'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.20.0'},
 'origin': '210.91.43.247',
 'url': 'http://httpbin.org/get?titleId=34234&search=morning'}

#### 이러한 경우에 tuple 로 담아 request 를 보낼 수 있다.

In [75]:
params_tuple = (('titleId', 23423), ('titleId', 45452), ('search', 'morning'))

response_check_tuple = requests.get('http://httpbin.org/get', params=params_tuple)

In [71]:
params_tuple #titleId에 2개의 value가 담겨있다

(('titleId', 23423), ('titleId', 45452), ('search', 'morning'))

In [83]:
response_check_tuple.json() # args에 titleId가 2개임을 확인

{'args': {'search': 'morning', 'titleId': ['23423', '45452']},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.20.0'},
 'origin': '210.91.43.247',
 'url': 'http://httpbin.org/get?titleId=23423&titleId=45452&search=morning'}

**또는 list 에 담아 request를 보낼 수 있다.**

In [49]:
params_list = [('titleId', 23423), ('titleId', 45452), ('search', 'morning')]

In [51]:
params_list

[('titleId', 23423), ('titleId', 45452), ('search', 'morning')]

다시 정리하자면,

### dict 타입은 하나의 key 가 여러개의 value 를 가질 수 있지만 http 요청은 다르다

In [6]:
dict_color = {'red': ['빨간색', '뻘건색'], 'yellow': '노란색'}

In [52]:
dict_color

{'red': ['빨간색', '뻘건색'], 'yellow': '노란색'}

### 뉴스 크롤링 맛보기

In [8]:
import requests

In [101]:
response = requests.get('http://news.naver.com/main/home.nhn')
html = response.text

In [103]:
html.encode()

b'\n\n\n\n\n\n\n\n\n\n\n\t\n\t\n\t\t\n\t\n\n\n<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n<meta charset="euc-kr">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="referrer" contents="always">\n<meta http-equiv="refresh" content="600" />\n<meta name="viewport" content="width=1106" />\n\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\x89\xb4\xec\x8a\xa4">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/home.nhn">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<meta property="og:description" content="\xec\xa0\x95\xec\xb9\x98, \xea\xb2\xbd\xec\xa0\x9c, \xec\x82\xac\xed\x9a\x8c, \xec\x83\x9d\xed\x99\x9c/\xeb\xac\xb8\xed\x99\x94, 

In [91]:
bytes_data = response.content #응답 raw 데이터(bytes)
bytes_data

b'\n\n\n\n\n\n\n\n\n\n\n\t\n\t\n\t\t\n\t\n\n\n<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n<meta charset="euc-kr">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="referrer" contents="always">\n<meta http-equiv="refresh" content="600" />\n<meta name="viewport" content="width=1106" />\n\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="\xb3\xd7\xc0\xcc\xb9\xf6 \xb4\xba\xbd\xba">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/home.nhn">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<meta property="og:description" content="\xc1\xa4\xc4\xa1, \xb0\xe6\xc1\xa6, \xbb\xe7\xc8\xb8, \xbb\xfd\xc8\xb0/\xb9\xae\xc8\xad, \xbc\xbc\xb0\xe8, IT/\xb0\xfa\xc7\xd0 \xb5\xee \xbe\xf0\xb7\

In [99]:
# response.encoding으로 디코딩하여 유니코드 변환

str_data = response.text
str_data

'\n\n\n\n\n\n\n\n\n\n\n\t\n\t\n\t\t\n\t\n\n\n<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n<meta charset="euc-kr">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="referrer" contents="always">\n<meta http-equiv="refresh" content="600" />\n<meta name="viewport" content="width=1106" />\n\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="네이버 뉴스">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/home.nhn">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<meta property="og:description" content="정치, 경제, 사회, 생활/문화, 세계, IT/과학 등 언론사별, 분야별 뉴스 기사 제공">\r\n\r\n<meta name="twitter:card"\t\tcontent="summary">\r\n<meta name="twitter:title"\t\tcontent="네이버 뉴스">\r\n<meta name="twitter:site

### Form에 담아 requests.post 하기

In [129]:
data = {'banana': '바나나', 'apple': '사과'}

response = requests.post('http://httpbin.org/post', data=data)

response.json()

{'args': {},
 'data': '',
 'files': {},
 'form': {'apple': '사과', 'banana': '바나나'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Content-Length': '59',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.20.0'},
 'json': None,
 'origin': '210.91.43.247',
 'url': 'http://httpbin.org/post'}

### Json 으로 요청하기

json 으로 인코딩하여 데이터를 보내본다

In [133]:
import json
json_data = {'apple': '사과', 'banana': '바나나',
            'monkey':['원숭이', '엉덩이는', '빨개']}
json_string = json.dumps(json_data)

In [134]:
response = requests.post('http://httpbin.org/post',
                        data=json_string)
response.json()

{'args': {},
 'data': '{"apple": "\\uc0ac\\uacfc", "banana": "\\ubc14\\ub098\\ub098", "monkey": ["\\uc6d0\\uc22d\\uc774", "\\uc5c9\\ub369\\uc774\\ub294", "\\ube68\\uac1c"]}',
 'files': {},
 'form': {},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Content-Length': '135',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.20.0'},
 'json': {'apple': '사과', 'banana': '바나나', 'monkey': ['원숭이', '엉덩이는', '빨개']},
 'origin': '210.91.43.247',
 'url': 'http://httpbin.org/post'}

In [100]:
from bs4 import BeautifulSoup
import lxml

#lxml 모듈로는 빈값이 나오고, html.parser 로 해야 텍스트를 가져올 수 있음
soup = BeautifulSoup(html, 'html.parser')

a_tags = soup.select('a[href*=read.nhn]')

for tag in a_tags:
    print(tag.text.strip())

열정페이 4년, 또 4년 일했지만 잔고 '0'… 가난은 제 탓일까요
"국공립유치원 40% 조기 달성"… 유아교육 주도권 '민간→국가' 포석
외국인 이달만 4조 '셀 코리아'…증시 '패닉' 끝인가 시작인가
'감사 적발' 유치원 2100곳 '실명공개'…비리행태 '천태만상'
내일 전국 흐리고 비…낮부터 기온 '뚝'
회장님의 슬기로운 '보석(保釋)' 생활?
문무일 "수사권 조정안 동의못해…수사통제 강화해야"
남북합의서 국회 비준동의, 과거엔 어땠나
이해찬 "민주노총 총파업 걱정…경사노위 참여 결단해 달라"
동시다발 '폭탄 소포'… 美 중간선거 흔들다
도 넘은 감시·마녀사냥식 폭로… '스몰 브러더' 논란

K-9 폭발사고 ‘전신화상’ 이찬호 예비역 병장 “결혼도 하고 직업도 가져야 하는데···”
JSA서 총 사라진 날, 녹슨 인식표로 돌아온 박 병장
개인보험도 기름값도 다 '유치원 돈'으로…"실명 공개"
“北 국가 규정, 다양한 측면” 청와대의 오락가락 해명
강경화 "교황 방북 긍정 의사…실현 여부는 두고 봐야"
北송일혁 부소장, 제재는 "상호 신뢰 체제 파괴"

외부 악재에 비용부담까지 겹친 현대차…수익성 '비상'(종합)
현대차 영업이익 1/4토막…협력업체까지 도미노 위기
성장엔진 멈춘 설비·건설…찬바람에 산업 현장은 한숨만
휠체어 탄 권오현 회장 "그동안 머리운동만 열심히 해서…"
서울 아파트값, 본격 하락세 시작되나…“그래도 너무 비싸”
김동연 “문재인 정부, 공급 중심으로 경제정책 전환”
동영상 기사
전국 유치원 '비리 리스트'…부정사용 1억 넘는 곳들도
대낮에 행인 2명 흉기로 찌른 50대 체포…"조현병 입원 경력"
"절대주의 국가서나 기분따라 법관 바꿔"... 고법 부장판사, 특별재판부 비판
원비 마음대로 써놓고…"사립 생존 불가능" 적반하장
'감사 적발' 유치원 2100곳 '실명공개'…비리행태 '천태만상'
'성인용품'은 걸러내도 '1천만 원 아들 월급'은 못 잡아

조선시대 신숙주를 도운 귀신? 그가 겪은 기이한 일
"이해찬 우려에도" 민노총, 총파업 돌입