# Phython 크롤링(crawling)

### HTTP 프로토콜: WWW(웹)상에서 문서 전송을 위한 프로토콜

- request(요청) / response(응답) 으로 구성
- browser(클라이언트)가 요청하면 web server(서버)가 HTML 파일이나 다른 자원(이미지, 텍스트, 동영상 등)을 응답으로 전송
- request의 형태에는 대표적으로 GET / POST 가 있음 

#### 1. GET 방식 : 데이터 전달을 URL 내에서 함
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0
네이버 검색, 구글 검색 등 

#### 2. POST 방식 : 데이터 전송을
- 태그를 통해서 함(사용자에게 직접적으로 노출되지 않음)
- 예) ID, 비밀번호 전달의 경우
- 참고 - FORM을 통해 데이터를 전달하는 POST 방식 기본 설명 

### 크롤링(crawling) 이란?

- Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
- HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
- Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법


### BeautifulSoup 라이브러리를 활용한 예제

- HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리
- BeautifulSoup 라이브러리 페이지
- 설치 방법: pip install bs4
- BeautifulSoup 4 API Guide (http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html)

In [1]:
import requests
from bs4 import BeautifulSoup

In [None]:
# help(BeautifulSoup)

In [2]:
# 1) reqeusts 라이브러리를 활용한 HTML 페이지 요청 
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출할 수 있음
res = requests.get('http://media.daum.net/economic/')
type(res), type(res.content), len(res.content), res.content

(requests.models.Response,
 bytes,
 126024,
 b'\n<!DOCTYPE html>\n\n\n\n<html lang="ko" class="os_unknown none unknown version_0 ">\n<head>\n<meta charset="utf-8">\n<meta name="referrer" content="always" />\n\n<meta property="og:author" content="Daum \xeb\x89\xb4\xec\x8a\xa4" />\n<meta property="og:site_name" content="\xeb\x8b\xa4\xec\x9d\x8c\xeb\x89\xb4\xec\x8a\xa4" />\n<meta property="og:title" content="\xea\xb2\xbd\xec\xa0\x9c"/>\n<meta property="og:image" content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" />\n<meta property="og:description" content="\xeb\x8b\xa4\xec\x9d\x8c\xeb\x89\xb4\xec\x8a\xa4" />\n<link rel="shortcut icon" href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico">\n\n<title>\xea\xb2\xbd\xec\xa0\x9c | \xeb\x8b\xa4\xec\x9d\x8c\xeb\x89\xb4\xec\x8a\xa4</title>\n\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/6ee763e/common.css.merged.css" />\n<link r

In [None]:
# print(res.content)
# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')
len(soup)

5

In [None]:
type(soup.h1), soup.h1

(bs4.element.Tag, <h1>
 <a data-tiara-layer="GNB default service_news" href="https://news.daum.net/" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a>
 </h1>)

In [None]:
len(soup)

5

In [None]:
# 3) 필요한 데이터 검색
soup_class = soup.find('class')
soup_class, type(soup_class)

(None, NoneType)

In [None]:
# 3) 필요한 데이터 검색
title = soup.find('title')
# title = soup.select('title')
title, type(title)

(<title>경제 | 다음뉴스</title>, bs4.element.Tag)

In [None]:
# 4) 필요한 데이터 추출
type(title.get_text()), title.get_text()

(str, '경제 | 다음뉴스')

In [None]:
# 3) 필요한 데이터 검색
title = soup.select('title')
type(title), title

(list, [<title>경제 | 다음뉴스</title>])

### BeautifulSoup 라이브러리 활용 다양한 예제

- find() 와 find_all() 메서드 사용법 이해하기
- find() : 가장 먼저 검색되는 태그 반환
- find_all() : 전체 태그 반환

In [None]:
from bs4 import BeautifulSoup

In [None]:
html = "<html> \
            <body> \
                <h1 id='title'>[1]크롤링이란?</h1> \
                <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
                <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
            </body> \
        </html>"

soup = BeautifulSoup(html, "html.parser")
type(soup), soup

(bs4.BeautifulSoup,
 <html> <body> <h1 id="title">[1]크롤링이란?</h1> <p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p> <p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> </body> </html>)

In [None]:
# 태그로 검색 방법
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

[<h1> <a class="link_daum" href="https://www.daum.net/"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a href="https://news.daum.net/" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a> </h1>]


In [None]:
# 가장 먼저 검색되는 태그를 반환
paragraph_data = soup.find('p')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [None]:
# 태그에 있는 id로 검색 (javascript 예를 상기!)
title_data = soup.find(id='title')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [None]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법1
paragraph_data = soup.find('p', class_='cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [None]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법2
paragraph_data = soup.find('p', 'cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

None


AttributeError: ignored

In [None]:
# HTML 태그와 태그에 있는 속성:속성값을 활용해서 필요한 데이터를 추출하는 방법
paragraph_data = soup.find('p', attrs = {'align': 'center'})

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
파이썬을 중심으로 다양한 웹크롤링 기술 발달
파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [None]:
# find_all() 관련된 모든 데이터를 리스트 형태로 추출하는 함수
paragraph_data = soup.find_all('p', attrs = {'align': 'center'})

print(paragraph_data)
print(paragraph_data[0].get_text())
# print(paragraph_data[1].get_text())

[<p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]
파이썬을 중심으로 다양한 웹크롤링 기술 발달


## BeautifulSoup 라이브러리 활용 string 검색 예제

- 태그가 아닌 문자열 자체로 검색
- 문자열, 정규표현식 등등으로 검색 가능
- 문자열 검색의 경우 한 태그내의 문자열과 exact matching인 것만 추출
- 이것이 의도한 경우가 아니라면 정규표현식 사용

In [None]:
res = requests.get('http://v.media.daum.net/v/20170518153405933')
soup = BeautifulSoup(res.content, 'html5lib')

print (soup.find_all(string='오대석'))
print (soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))
print (soup.find_all(string='AI'))
#print (soup.find_all(string=res.compile('AI'))[0])
# print (soup.find_all(string=re.compile('AI')))

['오대석']
['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']
[]


## 3. Open API(Rest API)를 활용한 크롤링

### 3.1. Open API(Rest API)란?

- API: Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
- Open API: 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
- Rest API: Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
- 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)

### 3.2. JSON 이란?

- JavaScript Object Notation 줄임말
- 웹환경에서 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
- Rest API가 주요한 예제
- JSON 포멧 예 <br>
{ "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }

### 3.3. 네이버 검색 Open API를 이용한 크롤링 초간단 실습

- https://developers.naver.com/main/
- 블로그 검색 가이드 문서
- 네이버 Open API 이용신청 참고
- postman 설치
- Sign Up in Postman
- Insert https://openapi.naver.com/v1/search/news.json?query=스마트 into GET
- Add X-Naver-Client-Id(key), CsODwdUTyG9vOI1uIeIf(value) into Headers
- Add X-Naver-Client-Secret(key), YmIx0GW8JG(value) into Headers
- Send 

### 3.4. urllib 라이브러리를 활용한 크롤링 코드

인터넷에 다양한 예제들이 urllib 또는 urllib2를 사용한 예제들이 많으므로, 익혀둘 필요가 있음

### 3.5. requests 라이브러리를 활용한 크롤링 코드 (간결함, 권장)

- 참고: 기본적인 requests 라이브러리 활용 방법

- reqeusts 라이브러리 개발자 Keneeth Reitz 의 커멘트

- 파이썬 표준 urllib2 모듈은 필요한 HTTP 기능을 거의 제공하지만, 이제 너무 뒤떨어져 있습니다. 이 API는 과거에, 과거의 웹을 위해 만들어졌습니다. urllib2를 사용하려면 정말 단순한 일 하나만 하려 해도 할 일이 너무 많고, 심지어 메서드 오버라이드까지 필요할 때도 있습니다.

## 4. CSS Selector를 사용한 크롤링
- CSS 선택 문법을 이용하여 태그 검색
- select 함수 사용
- CSS 선택 문법 참고 (https://saucelabs.com/resources/articles/selenium-tips-css-selectors)

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')
type(soup), soup.

In [None]:
# 태그 검색
bs_find = soup.find('title')
type(bs_find), bs_find

(bs4.element.Tag, <title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>)

In [None]:
# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]
print (title)
print (title.get_text())

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>
잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print (title.get_text())

In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이때 바로 직계의 자식이 아니여도 관계없음
title = soup.select('html title')[0]
print (title.get_text())

In [None]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생
title = soup.select('html > title')[0]
print (title.get_text())

In [None]:
# 바로 아래 자식을 검색
title = soup.select('head > title')[0]
print (title.get_text())

In [None]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text())

In [None]:
# div태그 중 class가 article_view인 태그 탐색
body = soup.select('div.article_view')[0]
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text())

In [None]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
container = soup.select('#harmonyContainer')
print (container)

In [None]:
# div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그
title = soup.select('div#mArticle  div#harmonyContainer')[0]
print (title.get_text())

In [None]:
import re

In [None]:
res = requests.get('http://media.daum.net/economic/')
soup = BeautifulSoup(res.content, 'html.parser')
res.content

In [None]:
# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')
   
for link in links:
    print (link) # <a class="link_services link_services2" href="http://sports.media.daum.net/sports">스포츠</a>
    # print (link['href']) # http://sports.media.daum.net/sports
    if re.search('http://\w+', link['href']):  # http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 
        print (link['href'])

### CSS Selector 활용 팁

- 네이버 부동산 매매 아파트 이름과 가격만 찾아보기
- CSS Selector 를 활용하는 팁: Chrome F12(WINDOW) or Alt + Command + i(MAC) --> Copy Selector 참고
- Copy Selector 시 일부 태그에 붙는 :nth-child(#) 은 동일한 태그로 리스트가 있을 경우, 리스트 중 특정한 값만 가리킴 . 
- 전체 리스트를 가져오는 경우에는 :nth-child(#) 은 삭제할 필요가 있음

In [None]:
import re
import requests
from bs4 import BeautifulSoup

In [None]:
res = requests.get('http://land.naver.com/article/divisionInfo.nhn?rletTypeCd=A01&tradeTypeCd=A1&hscpTypeCd=A01%3AA03%3AA04&cortarNo=1168000000&articleOrderCode=&cpId=&minPrc=&maxPrc=&minWrrnt=&maxWrrnt=&minLease=&maxLease=&minSpc=&maxSpc=&subDist=&mviDate=&hsehCnt=&rltrId=&mnex=&siteOrderCode=&cmplYn=')
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
link_title = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.align_l.name > div > a.sale_title")
link_price = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.num.align_r > div > strong")

for num in range(len(link_price)):
    print(link_title[num].get_text(), link_price[num].get_text())

### 5. 다양한 데이터 읽기 - XML/JSON 파일

#### XML(Extensible Markup Language)
- 특정 목적에 따라 데이터를 태그로 감싸서 마크업하는 범용적인 포멧
- 마크업 언어는 태그 등을 이용하여 데이터의 구조를 기술하는 언어의 한 가지
- 가장 친숙한 마크업 언어가 HTML
- XML은 HTML과 마찬가지로 데이터를 계층 구조로 표현

- XML 기본 구조
- <태그 속성="속성값">내용
- 태그와 속성은 특정 목적에 따라 임의로 이름을 정해서 사용
- 다른 요소와 그룹으로 묶을 수도 있음

#### XML 포멧 데이터 읽고, 파싱하기
- XML 포멧 데이터는 BeautifulSoup으로 HTML과 동일하게 읽고, 파싱할 수 있음

- html.parser 파서 이외에 XML 파싱을 위해 lxml 파서를 사용할 수도 있음
- 파서별 차이점: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers
- 예) 기상청 날씨 정보 XML 포멧 데이터 읽고, 파싱하기
- RSS 정보 링크를 확인해서 직접 크롤링: http://www.kma.go.kr/weather/lifenindustry/sevice_rss.jsp
- 서울, 경기도 날씨 정보: http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109

In [None]:
from bs4 import BeautifulSoup
import requests
import datetime
import json

In [None]:
info_url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109'
response = requests.get(info_url)
soup = BeautifulSoup(response.content, 'html.parser')

In [None]:
locations = soup.find_all('location')

for location in locations:
    print(location.find('city').text, ":", location.find('wf').text)