## 웹스크래핑(Web Scraping)을 이용한 데이터 수집

* open API를 이용한 데이터 수집이 불가한 경우 해당
* 웹을 요청하여 html을 모두 받아서 DOM으로 올려서 데이터를 추출방식
* DOM을 띄워서 데이터를 추출할 때 사용하는 라이브러리
 > beautifulsoup (bs4)를 활용  
 > conda install beautifulsoup4

In [5]:
from bs4 import BeautifulSoup

In [6]:
from urllib.request import urlopen

- 콘텐츠가 존재하는 해당 페이지까지 진입
- 진입 간에 로그인, ajax 등등 사람의 손을 타지 않는지 체크
- 그냥 url만 넣으면 화면이 구성된다 ==> ok
- html 자체에 프레임이 적용된경우 실제 주소까지 찾아서 이동
- 통신시 get,post 등 데이터를 전달해서 획득하는 것도 OK

### 네이버 금융 > 고시환율정보 수집

- 하루에 환율이 수시로 변경된다. 
- 그 주기를 관찰하여 수집 주기를 결정해야 한다.

In [7]:
target_site = 'https://finance.naver.com/marketindex/exchangeList.nhn'

In [8]:
# 요청 및 응답 획득
page = urlopen( target_site )
page

<http.client.HTTPResponse at 0x1728b6a2438>

In [9]:
# DOM 구성
# 'html5lib' 파서는 html 양이 크거나, 정교한 파싱을 할 때 즉, 아래 파서가 정상적으로 결과를 내지 못하면 이 파서로 교체
soup = BeautifulSoup( page, 'html.parser' )
soup


<html lang="ko">
<head>
<title>네이버 금융</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<link href="/css/finance.css?20190730011942" rel="stylesheet" type="text/css"/>
<script language="javascript">document.domain="naver.com";</script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/lcslog.js?20190730011942" type="text/javascript"></script>
</head>
<body>
<div class="tbl_area">
<table border="1" class="tbl_exchange" summary="환전 고시 환율 리스트">
<caption>환전 고시 환율</caption>
<colgroup>
<col width="162"/>
<col width="92"/>
<col width="92"/>
<col width="92"/>
<col width="93"/>
<col width="92"/>
<col width="90"/>
</colgroup>
<thead>
<tr>
<th class="th_ex1" rowspan="2">
<a href="#" onclick="javascript:changeOrder('exchange'); return false;"><span>통화명</span></a></th>
<th class="th_ex2" rowspan="

In [10]:
# 리스트 내포를 통해서 간단하게 가공해 보았다
[ td.a.string.strip() for td in soup.find_all('td','tit') ]


['미국 USD',
 '유럽연합 EUR',
 '일본 JPY (100엔)',
 '중국 CNY',
 '홍콩 HKD',
 '대만 TWD',
 '영국 GBP',
 '오만 OMR',
 '캐나다 CAD',
 '스위스 CHF',
 '스웨덴 SEK',
 '호주 AUD',
 '뉴질랜드 NZD',
 '체코 CZK',
 '칠레 CLP',
 '터키 TRY',
 '몽골 MNT',
 '이스라엘 ILS',
 '덴마크 DKK',
 '노르웨이 NOK',
 '사우디아라비아 SAR',
 '쿠웨이트 KWD',
 '바레인 BHD',
 '아랍에미리트 AED',
 '요르단 JOD',
 '이집트 EGP',
 '태국 THB',
 '싱가포르 SGD',
 '말레이시아 MYR',
 '인도네시아 IDR 100',
 '카타르 QAR',
 '카자흐스탄 KZT',
 '브루나이 BND',
 '인도 INR',
 '파키스탄 PKR',
 '방글라데시 BDT',
 '필리핀 PHP',
 '멕시코 MXN',
 '브라질 BRL',
 '베트남 VND 100',
 '남아프리카 공화국 ZAR',
 '러시아 RUB',
 '헝가리 HUF',
 '폴란드 PLN']

In [11]:
for td in soup.find_all('td','tit'):
    print( td.a.string.strip() )
# td만 찾으면 너무 많다. tit에서의 td

미국 USD
유럽연합 EUR
일본 JPY (100엔)
중국 CNY
홍콩 HKD
대만 TWD
영국 GBP
오만 OMR
캐나다 CAD
스위스 CHF
스웨덴 SEK
호주 AUD
뉴질랜드 NZD
체코 CZK
칠레 CLP
터키 TRY
몽골 MNT
이스라엘 ILS
덴마크 DKK
노르웨이 NOK
사우디아라비아 SAR
쿠웨이트 KWD
바레인 BHD
아랍에미리트 AED
요르단 JOD
이집트 EGP
태국 THB
싱가포르 SGD
말레이시아 MYR
인도네시아 IDR 100
카타르 QAR
카자흐스탄 KZT
브루나이 BND
인도 INR
파키스탄 PKR
방글라데시 BDT
필리핀 PHP
멕시코 MXN
브라질 BRL
베트남 VND 100
남아프리카 공화국 ZAR
러시아 RUB
헝가리 HUF
폴란드 PLN


- 데이터를 추출하여 디비에 적제하기 위해 최종 형태는 다음과 같다.
- [
    {
        'name' : '미국 USD',
        'code' : 'USD',
        'buy_std_rate' : '1209.90'
        'cash_sell' : '1188.73'
    },{}
    
]

In [12]:
'1,234'.replace(',','')

'1234'

In [13]:
name = [ td.a.string.strip() for td in soup.find_all('td','tit') ]
name

['미국 USD',
 '유럽연합 EUR',
 '일본 JPY (100엔)',
 '중국 CNY',
 '홍콩 HKD',
 '대만 TWD',
 '영국 GBP',
 '오만 OMR',
 '캐나다 CAD',
 '스위스 CHF',
 '스웨덴 SEK',
 '호주 AUD',
 '뉴질랜드 NZD',
 '체코 CZK',
 '칠레 CLP',
 '터키 TRY',
 '몽골 MNT',
 '이스라엘 ILS',
 '덴마크 DKK',
 '노르웨이 NOK',
 '사우디아라비아 SAR',
 '쿠웨이트 KWD',
 '바레인 BHD',
 '아랍에미리트 AED',
 '요르단 JOD',
 '이집트 EGP',
 '태국 THB',
 '싱가포르 SGD',
 '말레이시아 MYR',
 '인도네시아 IDR 100',
 '카타르 QAR',
 '카자흐스탄 KZT',
 '브루나이 BND',
 '인도 INR',
 '파키스탄 PKR',
 '방글라데시 BDT',
 '필리핀 PHP',
 '멕시코 MXN',
 '브라질 BRL',
 '베트남 VND 100',
 '남아프리카 공화국 ZAR',
 '러시아 RUB',
 '헝가리 HUF',
 '폴란드 PLN']

In [14]:
code = [ td.a.string.strip().split(' ')[1] for td in soup.find_all('td','tit') ]
code

['USD',
 'EUR',
 'JPY',
 'CNY',
 'HKD',
 'TWD',
 'GBP',
 'OMR',
 'CAD',
 'CHF',
 'SEK',
 'AUD',
 'NZD',
 'CZK',
 'CLP',
 'TRY',
 'MNT',
 'ILS',
 'DKK',
 'NOK',
 'SAR',
 'KWD',
 'BHD',
 'AED',
 'JOD',
 'EGP',
 'THB',
 'SGD',
 'MYR',
 'IDR',
 'QAR',
 'KZT',
 'BND',
 'INR',
 'PKR',
 'BDT',
 'PHP',
 'MXN',
 'BRL',
 'VND',
 '공화국',
 'RUB',
 'HUF',
 'PLN']

In [15]:
buy_std_rate = [ sale.string.replace(',','') for sale in soup.find_all('td','sale') ]
buy_std_rate

['1210.10',
 '1353.92',
 '1142.47',
 '170.93',
 '154.31',
 '38.71',
 '1469.73',
 '3143.04',
 '914.77',
 '1241.89',
 '126.14',
 '824.62',
 '784.81',
 '52.50',
 '1.70',
 '220.81',
 '0.45',
 '347.81',
 '181.45',
 '135.65',
 '322.56',
 '3978.63',
 '3209.81',
 '329.44',
 '1706.77',
 '73.05',
 '39.37',
 '875.46',
 '289.12',
 '8.54',
 '330.64',
 '3.12',
 '875.46',
 '17.17',
 '7.57',
 '14.34',
 '23.31',
 '62.31',
 '308.77',
 '5.21',
 '80.41',
 '18.58',
 '4.18',
 '313.29']

In [16]:
cash_sell = []

In [17]:
[ td.string.replace(',','') for td in soup.find_all(["td"]) ]


['\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t미국 USD\n\t\t\t\t\n\t\t\t\t',
 '1210.10',
 '1231.27',
 '1188.93',
 '1221.90',
 '1198.30',
 '1.000',
 '\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t유럽연합 EUR\n\t\t\t\t\n\t\t\t\t',
 '1353.92',
 '1380.86',
 '1326.98',
 '1367.45',
 '1340.39',
 '1.119',
 '\n\t\t\t\t\n\t\t\t\t\t일본 JPY (100엔)\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\n\t\t\t\t',
 '1142.47',
 '1162.46',
 '1122.48',
 '1153.66',
 '1131.28',
 '0.944',
 '\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t중국 CNY\n\t\t\t\t\n\t\t\t\t',
 '170.93',
 '179.47',
 '162.39',
 '172.63',
 '169.23',
 '0.141',
 '\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t홍콩 HKD\n\t\t\t\t\n\t\t\t\t',
 '154.31',
 '157.34',
 '151.28',
 '155.85',
 '152.77',
 '0.128',
 '\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t대만 TWD\n\t\t\t\t\n\t\t\t\t',
 '38.71',
 '43.78',
 '36.01',
 '0.00',
 '0.00',
 '0.032',
 '\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\

In [18]:
financeLength = len(financelen)
financeLength


NameError: name 'financelen' is not defined

In [None]:
startPos = 3
financelen = [ td.string.replace(',','') for td in soup.find_all(["td"]) ]
financeLength = len(financelen)
j= 3

for i in range(startPos, financeLength):
    if (j < financeLength):
        print( financelen[j])
        j  += 7



## 강사님 방식

In [19]:
# 통화
tmp = [ td.a.string.strip() for td in soup.find_all('td','tit') ]
tmp[:3]

['미국 USD', '유럽연합 EUR', '일본 JPY (100엔)']

In [20]:
# 매매기준율
tmp = [ td.string.strip() for td in soup.find_all('td','sale') ]
tmp[:3]

['1,210.10', '1,353.92', '1,142.47']

In [None]:
body > div > table > tbody > tr:nth-of-type(1) > tr:nth-of-type(4)
# 페이지에서 오른쪽 클릭 > 검사 > 카피 > 카피셀렉터 해서 나온 값

- 만약 대상 페이지에 table이 n개 존재하면 특정해서 찾아야한다
- 대상 데이터가 있는 tr을 모두 찾았다
- table.tbl_exchange > tbody > tr
- 위의 표현을 for문으로 구동하고 하나하나의 tr에서 td:nth-child(4) 를 선택

In [None]:
# 원하는 데이터를 감사는 tr를 찾아서 그밑에서 자식들을 탐색후 거기서 데이터를 추출!!
for tr in soup.select('table.tbl_exchange > tbody > tr'):
    # 데이터 한줄 한줄 뽑아서 ==> tr에서 탐색하여 세부 데이터 추출
    print( tr.select_one('td.tit').a.string.strip() )
    print( tr.select_one('td.sale').string.strip() )
    print( tr.select_one('td:nth-child(4)').string.strip() )

In [73]:
results = []
for tr in soup.select('table.tbl_exchange > tbody > tr'):
    tmp = dict()
    tmp['name']         = tr.select_one('td.tit').a.string.strip() 
    tmp['code']         = tr.select_one('td.tit').a['href'][-6:-3]
    tmp['buy_std_rate'] = tr.select_one('td.sale').string.strip() 
    tmp['cash_sell']    = tr.select_one('td:nth-of-type(4)').string.strip() 
    results.append(tmp)
results

[{'name': '미국 USD',
  'code': 'USD',
  'buy_std_rate': '1,210.10',
  'cash_sell': '1,188.93'},
 {'name': '유럽연합 EUR',
  'code': 'EUR',
  'buy_std_rate': '1,353.92',
  'cash_sell': '1,326.98'},
 {'name': '일본 JPY (100엔)',
  'code': 'JPY',
  'buy_std_rate': '1,142.47',
  'cash_sell': '1,122.48'},
 {'name': '중국 CNY',
  'code': 'CNY',
  'buy_std_rate': '170.93',
  'cash_sell': '162.39'},
 {'name': '홍콩 HKD',
  'code': 'HKD',
  'buy_std_rate': '154.31',
  'cash_sell': '151.28'},
 {'name': '대만 TWD',
  'code': 'TWD',
  'buy_std_rate': '38.71',
  'cash_sell': '36.01'},
 {'name': '영국 GBP',
  'code': 'GBP',
  'buy_std_rate': '1,469.73',
  'cash_sell': '1,440.78'},
 {'name': '오만 OMR',
  'code': 'OMR',
  'buy_std_rate': '3,143.04',
  'cash_sell': '2,954.46'},
 {'name': '캐나다 CAD',
  'code': 'CAD',
  'buy_std_rate': '914.77',
  'cash_sell': '896.75'},
 {'name': '스위스 CHF',
  'code': 'CHF',
  'buy_std_rate': '1,241.89',
  'cash_sell': '1,217.43'},
 {'name': '스웨덴 SEK',
  'code': 'SEK',
  'buy_std_rate': '

In [53]:
# 위에서 오류
# nth-child로 안되는 경우  ==> nth-of-type으로 변경
# https://mjdeeplearning.tistory.com/46

In [68]:
# 리스트 내포 하는 법

results = [ {
        'name'     : tr.select_one('td.tit').a.string.strip(),
        'code'     : tr.select_one('td.tit').a['href'][-6:-3],
    'buy_std_rate' : tr.select_one('td.sale').string.strip(),
    'cash_sell'    : tr.select_one('td:nth-of-type(4)').string.strip() 
    
}for tr in soup.select('table.tbl_exchange > tbody > tr') 
 if tr.select_one('td.tit').a.string.strip().count('JPY') == 0  # 일본 뺴는경우 (count로 인해 JPY가 없는 경우 다 뽑아낸다는 뜻)
]

In [69]:
results

[{'name': '미국 USD',
  'code': 'USD',
  'buy_std_rate': '1,210.10',
  'cash_sell': '1,188.93'},
 {'name': '유럽연합 EUR',
  'code': 'EUR',
  'buy_std_rate': '1,353.92',
  'cash_sell': '1,326.98'},
 {'name': '중국 CNY',
  'code': 'CNY',
  'buy_std_rate': '170.93',
  'cash_sell': '162.39'},
 {'name': '홍콩 HKD',
  'code': 'HKD',
  'buy_std_rate': '154.31',
  'cash_sell': '151.28'},
 {'name': '대만 TWD',
  'code': 'TWD',
  'buy_std_rate': '38.71',
  'cash_sell': '36.01'},
 {'name': '영국 GBP',
  'code': 'GBP',
  'buy_std_rate': '1,469.73',
  'cash_sell': '1,440.78'},
 {'name': '오만 OMR',
  'code': 'OMR',
  'buy_std_rate': '3,143.04',
  'cash_sell': '2,954.46'},
 {'name': '캐나다 CAD',
  'code': 'CAD',
  'buy_std_rate': '914.77',
  'cash_sell': '896.75'},
 {'name': '스위스 CHF',
  'code': 'CHF',
  'buy_std_rate': '1,241.89',
  'cash_sell': '1,217.43'},
 {'name': '스웨덴 SEK',
  'code': 'SEK',
  'buy_std_rate': '126.14',
  'cash_sell': '123.05'},
 {'name': '호주 AUD',
  'code': 'AUD',
  'buy_std_rate': '824.62',
  