## 웹 스크래핑을 이용한 데이터 수집

* open API를 이용한 데이터 수집이 불가한 경우 해당
* 웹을 요청하여 html을 모두 받아서 DOM으로 올려서 데이터를 추출하는 방식
* DOM을 띄워서 데이터를 추출할 때 사용하는 라이브러리
> beautifulsoup(bs4)를 활용  
> conda install beautifulsoup4

In [1]:
from bs4 import BeautifulSoup

In [2]:
from urllib.request import urlopen

- 콘텐츠가 존재하는 해당 페이지까지 진입
- 진입 중에 로그인, ajax 등 사람의 손을 타지 않는지 체크
- 그냥 url만 넣으면 화면이 구성된다 -> OK
- html 자체에 프레임이 적용된 경우, 실제 주소까지 찾아서 이동
- 통신 시 get, post 등 데이터를 전달해서 획득하는 것도 OK

### 네이버 금융 > 고시환율정보 수집

- 하루에 환율이 수시로 변경된다
- 그 주기를 관찰하여 수집 주기를 결정해야 한다

In [14]:
target_site = 'https://finance.naver.com/marketindex/exchangeList.nhn'
target_site

'https://finance.naver.com/marketindex/exchangeList.nhn'

In [15]:
# 사이트로 진입
page = urlopen( target_site )
page

<http.client.HTTPResponse at 0x1a31d1e2f60>

In [16]:
# DOM 구성
# 'html5lib' 파서는 html 양이 크거나, 정교한 파싱을 할 때
# 즉, 아래 'html.parser' 파서가 정상적으로 결과를 내지 못하면 이 파서로 교체
soup = BeautifulSoup( page, 'html.parser' )
# soup

In [18]:
# soup.find_all('td', 'tit')        # [] : 리스트

In [21]:
# 리스트 -> 반복문으로 데이터 추출
for td in soup.find_all('td', 'tit') :
    print(td.a.string.strip())

미국 USD
유럽연합 EUR
일본 JPY (100엔)
중국 CNY
홍콩 HKD
대만 TWD
영국 GBP
오만 OMR
캐나다 CAD
스위스 CHF
스웨덴 SEK
호주 AUD
뉴질랜드 NZD
체코 CZK
칠레 CLP
터키 TRY
몽골 MNT
이스라엘 ILS
덴마크 DKK
노르웨이 NOK
사우디아라비아 SAR
쿠웨이트 KWD
바레인 BHD
아랍에미리트 AED
요르단 JOD
이집트 EGP
태국 THB
싱가포르 SGD
말레이시아 MYR
인도네시아 IDR 100
카타르 QAR
카자흐스탄 KZT
브루나이 BND
인도 INR
파키스탄 PKR
방글라데시 BDT
필리핀 PHP
멕시코 MXN
브라질 BRL
베트남 VND 100
남아프리카 공화국 ZAR
러시아 RUB
헝가리 HUF
폴란드 PLN


In [22]:
# 리스트 내포로 간단하게 가공
tmp = [td.a.string.strip() for td in soup.find_all('td', 'tit')]

In [23]:
# 슬라이싱
tmp[:3]

['미국 USD', '유럽연합 EUR', '일본 JPY (100엔)']

- 데이터를 추출하여 DB에 적재하기 위해 최종 형태는 다음과 같다  
[
    {
        'name' : '미국 USD',
        'code' : 'USD',
        'buy_std_rate' : 1209.90
        'cash_sell' : 1188.73
    }
]