### 웹스크래핑(Web Scrapping)

#### 1. 개념

* 웹스크래핑(Web Scrapping) : 웹사이트상에서 특정부분에 위치한 정보를 컴퓨터로 하그름 자동 추출하여 수집하는 기술
* 웹크롤링(Web Crawling) : 자동화봇인 Web Crawler가 정해지 규칙에 따라 복수개의 웹페이지를 브라우징하는 작업

#### 2. 웹스크래핑을 위한 라이브러리

* `BeautipleSoup` : HTML과 XML문서를 파싱하기 위한 파이썬 패키지앋.
* scrapy : Python으로 작성된 오픈소스 웹크롤링 프레임워크로서 웹 데이터를 수집하는 것을 목적으로 설계되었다.


#### 3. 파이썬으로 크롤링하기

* 크롤링의 정의는 `크롤링 crawling` or `스크랩핑 scrapping`은 웹페이지를 그대로 가져와서 해당 페이지에서 데이터를 추출해 내는 행위이다.

##### 크롤링 또는 스크래핑 방법
1. 원하는 페이지에 `요청(request)`을 보낸 결과를 html로 받는다.
2. 받은 html을 `파싱(parsing)`을 한다.
3. 필요한 `정보를 추출`한다.

* 파이썬을 이용해서 웹크롤러를 만들기 위해서는 `http request/response`를 다루는 모듈과 `html을 파싱`하는 모듈이 필요하다.
>참고사이트
* https://www.crummy.com/software/BeautifulSoup
* https://docs.python.org/3.0/library/urllib.request.html

In [3]:
# 1. html소스읽기
from urllib.request import urlopen
html = urlopen('http://www.google.com')
print(type(html))
print(html)
html.read()

<class 'http.client.HTTPResponse'>
<http.client.HTTPResponse object at 0x000002984D43B6D0>


b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="soEQ5vP4ILtk0mRHvpwhjg==">(function(){window.google={kEI:\'-K6LYImOHc6voATN84Yo\',kEXPI:\'0,1302536,56873,954,5105,206,4804,2316,383,246,5,1354,5250,16231,10,1106275,1233,1196517,533,42,1,328941,51224,16114,28684,17572,1326,3533,1361,9290,3030,4738,12841,4020,978,13228,2054,1793,4192,6430,7432,7095,4517,2778,919,2277,8,2796,889,704,1279,1042,1170,531,148,1103,841,516,1523,157,4100,108,3406,606,2023,1777,520,4269,328,1284,8789,3227,2845,7,5599,6755,5096,7877,4928,108,2854,553,908,2,941,2614,2397,1027,9718,3,576,1835,4625,148,5990,6324,1661,4,1528,2304,1236,5226,577,1791,2892,2015,4067,12555,1753,2658,872,3371,518,912,564,464,654,32,3854,4275,2880,2619,1593,714,636,1494,5586,10535,665,2145,376,3288,2548,295

In [5]:
# 예외처리
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('http://www.googlexxx.com')
except HTTPError as e:
    print('HTTPError 발생')
except URLError as e:
    print('URLError 발생')   
else:
    print(html.read())

URLError 발생


<img src="https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png" width="180" height="94" id="daum" class="img_thumb" alt="Daum">

In [6]:
# 이미지다운로드(1) - 간편한방법
import urllib.request

# 다음사이트에서 다음로그이미지를 다운
url = "https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png"
savefilename = './data/daum.png'

urllib.request.urlretrieve(url, savefilename)
print('파일이 정상적으로 저장되었습니다!')

파일이 정상적으로 저장되었습니다!


In [9]:
# 이미지다운로드(1) - 바이너리파일
url = "https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png"
savefilename = './data/daum_1.png'
image = urllib.request.urlopen(url).read()
# print(type(image), image)

with open(savefilename, 'wb') as f:
    f.write(image)
    print('파일이 정상적으로 저장되었습니다!')

파일이 정상적으로 저장되었습니다!


#### 2. 웹스크래핑 - BeautifulSoup

* 다운로드 https://www.crummy.com/software/BeautifulSoup
* `pip install beautifulsoup4` or `conda install beautifulsoup4`
 - 4를 생략하면 3.x버전이 설치된다.

In [10]:
!pip install beautifulsoup4
!pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.9.3
Summary: Screen-scraping library
Home-page: http://www.crummy.com/software/BeautifulSoup/bs4/
Author: Leonard Richardson
Author-email: leonardr@segfault.org
License: MIT
Location: c:\anaconda3\lib\site-packages
Requires: soupsieve
Required-by: conda-build


In [11]:
from urllib.request import urlopen
from bs4 import BeautifulSoup as bs


In [22]:
html ='''
<html><body>
    <h1>Hello Web Scraping</h1>
    <p>웹 페이지 분석</p>
    <p>웹 스크래핑</p>
</body></html>
'''

soup = bs(html, 'html.parser')
soup.h1
soup.p

h1 = soup.html.body.h1
p1 = soup.html.body.p
print(h1)
print(p1)

# previous_sibling, next_sibling
p2 = p1.next_sibling # 줄바꿈문자 next_sibling
p2 = p1.next_sibling.next_sibling
print(p2)
print()

# 태그의 문자정보
print('h1=', h1.string)
print('p1=', p1.string)
print('p2=', p1.string)

<h1>Hello Web Scraping</h1>
<p>웹 페이지 분석</p>
<p>웹 스크래핑</p>

h1= Hello Web Scraping
p1= 웹 페이지 분석
p2= 웹 페이지 분석


In [25]:
# 3. find()
html ='''
<html><body>
    <h1 id="title">Hello Web Scraping</h1>
    <p id="body">웹 페이지 분석</p>
    <p>웹 스크래핑</p>
</body></html>
'''

soup = bs(html, 'html.parser')
print(soup.h1.string)
print(soup.find(id='title').string)

Hello Web Scraping
Hello Web Scraping


In [28]:
# 4. find_all() : 특정 속성을 가진 tag전체를 선택
html ='''
<html><body>
    <li><a href="http://daum.net">daum</a></li>
    <li><a href="http://google.com">google</a></li>
    <li><a href="http://yahoo.com">yahoo</a></li>
    <li><a href="http://nate.com">nate</a></li>
    <li><a href="http://naver.com">naver</a></li>
</body></html>
'''
soup = bs(html, 'html.parser')

links = soup.find_all('a')
for link in links:
    text = link.string
    href = link.attrs['href']
    print(href, '=', text)

http://daum.net = daum
http://google.com = google
http://yahoo.com = yahoo
http://nate.com = nate
http://naver.com = naver


In [30]:
# 5. CSS처리 : select_one() / select()
# soup.select?

html ='''
<html><body>
    <div id="main">
        <h1>도서목록</h1>
        <ul class='items'>
            <li>자바프로그램 입문</li>
            <li>파이썬으로 하는 데이터분석</li>
            <li>HTML5/CSS3</li>
        </ul>
    </div>
</body></html>
'''

# html분석
soup = bs(html, 'html.parser')

h1 = soup.select_one('div#main > h1').string
print(h1)


li_list = soup.select('div#main > ul.items > li')
for li in li_list:
    print('li=', li.string)

도서목록
li= 자바프로그램 입문
li= 파이썬으로 하는 데이터분석
li= HTML5/CSS3


##### 실습. 네이버금융에서 환율정보 가져오기

In [33]:
import urllib.request as req
url = 'https://finance.naver.com/marketindex/'
res = req.urlopen(url)
soup = bs(res, 'html.parser')

ex_rate = soup.select_one('div.head_info > span.value').string
print('usd/krw=', ex_rate)

usd/krw= 1,113.50


##### 실습. 기상청의 일기예보

In [36]:
from bs4 import BeautifulSoup as bs
import urllib.request as req

url = 'https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp'
res = req.urlopen(url)
soup = bs(res, 'html.parser')

title = soup.find('title').string
print(title)

wf = soup.find('wf').string
wf = wf.replace('<br />', '\n')
print(wf)

기상청 육상 중기예보
○ (강수) 5월 4일(화) 오후부터 5일(수) 오전 사이 전국에 비가 오겠습니다.
○ (기온) 이번 예보기간 아침 기온은 7~16도로 어제(29일, 아침최저기온 8~15도)와 비슷하겠고, 낮 기온은 17~27도로 어제(29일, 낮최고기온 18~25도)와 비슷하거나 조금 높겠습니다.
