### 대상
* 로그인, 첨부 파일 다운로드, ajax 등 사용자의 개입이 안되는 케이스
* 사이트를 긁어서 원하는 데이터를 추출하는 방식

* 목표
> 사이트 긁기  
> html 파싱 처리 (BS4)  
> 데이터 적재  
> 스케줄링(윈도우 스케줄러, 리눅스 cron)  
* 대상 사이트
> 네이버 환율 사이트  
> https://finance.naver.com/marketindex/exchangeList.nhn

In [31]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [32]:
# 요청 => html 획득
url_base = 'https://finance.naver.com/marketindex/exchangeList.nhn'
# 요청
page = urlopen( url_base )

In [33]:
# 응답 객체를 BS에 넣어서 DOM 트리로 올린다(= HTML 객체를 메모리로 로드)
# 1번 인자: html 문자열, html 응답 객체
# 2번 인자: 파싱(html에서 원하는 데이터를 추출) 엔진 종류
# html.parser로 사용 => 만약 안된다면, html5lib 사용
soup = BeautifulSoup(page,'html.parser')
soup


<html lang="ko">
<head>
<title>네이버 금융</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<link href="/css/finance.css?20190130182100" rel="stylesheet" type="text/css"/>
<script language="javascript">document.domain="naver.com";</script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/lcslog.js?20190130182100" type="text/javascript"></script>
</head>
<body>
<div class="tbl_area">
<table border="1" class="tbl_exchange" summary="환전 고시 환율 리스트">
<caption>환전 고시 환율</caption>
<colgroup>
<col width="162"/>
<col width="92"/>
<col width="92"/>
<col width="92"/>
<col width="93"/>
<col width="92"/>
<col width="90"/>
</colgroup>
<thead>
<tr>
<th class="th_ex1" rowspan="2">
<a href="#" onclick="javascript:changeOrder('exchange'); return false;"><span>통화명</span></a></th>
<th class="th_ex2" rowspan="

In [34]:
# 모든 통화명 추출 => 통화명을 찾아서 추출
# body > div > table > tbody > tr:nth-child(1) > td.tit
# td.tit
# 이 문서상에 존재하는 모든 td중에 class가 tit인 요소만 모으기
tits = soup.select('td.tit')

In [35]:
# currency_list = list()
# for tit in tits:
#     currency = tit.a.string.strip()
# # 코드를 개선해서 통화 목록을 리스트로 모아서 출력하시오
#     currency_list.append(currency)
# print(currency_list)

In [36]:
currency_list = [ tit.a.string.strip() for tit in soup.select('td.tit') ]
currency_list

['미국 USD',
 '유럽연합 EUR',
 '일본 JPY (100엔)',
 '중국 CNY',
 '홍콩 HKD',
 '대만 TWD',
 '영국 GBP',
 '오만 OMR',
 '캐나다 CAD',
 '스위스 CHF',
 '스웨덴 SEK',
 '호주 AUD',
 '뉴질랜드 NZD',
 '체코 CZK',
 '칠레 CLP',
 '터키 TRY',
 '몽골 MNT',
 '이스라엘 ILS',
 '덴마크 DKK',
 '노르웨이 NOK',
 '사우디아라비아 SAR',
 '쿠웨이트 KWD',
 '바레인 BHD',
 '아랍에미리트 AED',
 '요르단 JOD',
 '이집트 EGP',
 '태국 THB',
 '싱가포르 SGD',
 '말레이시아 MYR',
 '인도네시아 IDR 100',
 '카타르 QAR',
 '카자흐스탄 KZT',
 '브루나이 BND',
 '인도 INR',
 '파키스탄 PKR',
 '방글라데시 BDT',
 '필리핀 PHP',
 '멕시코 MXN',
 '브라질 BRL',
 '베트남 VND 100',
 '남아프리카 공화국 ZAR',
 '러시아 RUB',
 '헝가리 HUF',
 '폴란드 PLN']

In [37]:
# 통화에 걸려있는 링크 값 획득
# tit => <td class = 'tit'>....</td>
# td>a의 href 속성값
# marketindexCd=FX_USDKRW
# 링크에서 환율별 고유코드 획득
# ~/marketindex/exchangeDegreeCountQuote.nhn?
# marketindexCd=고유코드 => 당일 고시차수별 환율 변동정보
# results = list()
# for tit in tits:
#     b = {'na':tit.a.string.strip().split()[0], 'code':tit.a.string.strip().split()[1], 'ncode':tit.a['href'].split('=')[-1]}
# # 최종 결과물을 리스트 딕셔너리 형태로 출력
#     a.append(b)
# print(results)

results = [{'na':tit.a.string.strip().split()[0], 'code':tit.a.string.strip().split()[1], 'ncode':tit.a['href'].split('=')[-1]} for tit in soup.select('td.tit')]
print(results)

[{'na': '미국', 'code': 'USD', 'ncode': 'FX_USDKRW'}, {'na': '유럽연합', 'code': 'EUR', 'ncode': 'FX_EURKRW'}, {'na': '일본', 'code': 'JPY', 'ncode': 'FX_JPYKRW'}, {'na': '중국', 'code': 'CNY', 'ncode': 'FX_CNYKRW'}, {'na': '홍콩', 'code': 'HKD', 'ncode': 'FX_HKDKRW'}, {'na': '대만', 'code': 'TWD', 'ncode': 'FX_TWDKRW'}, {'na': '영국', 'code': 'GBP', 'ncode': 'FX_GBPKRW'}, {'na': '오만', 'code': 'OMR', 'ncode': 'FX_OMRKRW'}, {'na': '캐나다', 'code': 'CAD', 'ncode': 'FX_CADKRW'}, {'na': '스위스', 'code': 'CHF', 'ncode': 'FX_CHFKRW'}, {'na': '스웨덴', 'code': 'SEK', 'ncode': 'FX_SEKKRW'}, {'na': '호주', 'code': 'AUD', 'ncode': 'FX_AUDKRW'}, {'na': '뉴질랜드', 'code': 'NZD', 'ncode': 'FX_NZDKRW'}, {'na': '체코', 'code': 'CZK', 'ncode': 'FX_CZKKRW'}, {'na': '칠레', 'code': 'CLP', 'ncode': 'FX_CLPKRW'}, {'na': '터키', 'code': 'TRY', 'ncode': 'FX_TRYKRW'}, {'na': '몽골', 'code': 'MNT', 'ncode': 'FX_MNTKRW'}, {'na': '이스라엘', 'code': 'ILS', 'ncode': 'FX_ILSKRW'}, {'na': '덴마크', 'code': 'DKK', 'ncode': 'FX_DKKKRW'}, {'na': '노르웨이', 'code

In [59]:
# 매매 기준율 데이터를 뽑아서 최종적인 데이터 한개의 구조
tds = soup.findAll('td')
print(len(tds))
a = list()
# i: 인덱스, td: 데이터 덩어리
# enumerate()는 데이터의 순서를 같이 리턴해줘서 인덱스를 활용한 연산 처리에 도움
for i,td in enumerate(tds): # 7의 배수로 세트가(환율 정보가 변경된다)
    # print(i, td)
    # 기준 매매가 출력 : 1, 8, 15 , ... 번째 td의 텍스트 값
    position = i%7
    if position == 0: # 통화명 정보
        dic = {'na':td.a.string.strip().split()[0], 'code':td.a.string.strip().split()[1], 'ncode':td.a['href'].split('=')[-1]}
        a.append(dic)
    elif position == 1: # 기준 매매가
        a[-1]['stdSell'] = td.string.strip()
print(a)

308
[{'na': '미국', 'code': 'USD', 'ncode': 'FX_USDKRW', 'stdSell': '1,125.20'}, {'na': '유럽연합', 'code': 'EUR', 'ncode': 'FX_EURKRW', 'stdSell': '1,273.67'}, {'na': '일본', 'code': 'JPY', 'ncode': 'FX_JPYKRW', 'stdSell': '1,023.33'}, {'na': '중국', 'code': 'CNY', 'ncode': 'FX_CNYKRW', 'stdSell': '165.76'}, {'na': '홍콩', 'code': 'HKD', 'ncode': 'FX_HKDKRW', 'stdSell': '143.38'}, {'na': '대만', 'code': 'TWD', 'ncode': 'FX_TWDKRW', 'stdSell': '36.46'}, {'na': '영국', 'code': 'GBP', 'ncode': 'FX_GBPKRW', 'stdSell': '1,454.83'}, {'na': '오만', 'code': 'OMR', 'ncode': 'FX_OMRKRW', 'stdSell': '2,922.60'}, {'na': '캐나다', 'code': 'CAD', 'ncode': 'FX_CADKRW', 'stdSell': '846.30'}, {'na': '스위스', 'code': 'CHF', 'ncode': 'FX_CHFKRW', 'stdSell': '1,125.14'}, {'na': '스웨덴', 'code': 'SEK', 'ncode': 'FX_SEKKRW', 'stdSell': '121.31'}, {'na': '호주', 'code': 'AUD', 'ncode': 'FX_AUDKRW', 'stdSell': '797.77'}, {'na': '뉴질랜드', 'code': 'NZD', 'ncode': 'FX_NZDKRW', 'stdSell': '760.35'}, {'na': '체코', 'code': 'CZK', 'ncode': 'FX_

In [66]:
import pymysql 
from sqlalchemy import create_engine
import pandas as pd
import pandas.io.sql as pSql

In [67]:
df_dict = pd.DataFrame.from_dict(a)
db_url = 'mysql+pymysql://root:1234@127.0.0.1/python_db'
engine = create_engine(db_url, encoding = 'utf8')
conn = engine.connect()
df_dict.to_sql( name = 'currency', con=conn, if_exists='append', index = False )