### 데이터 수집/획득 - Level 3
- Beautiful Soup을 이용한 Web Scrapping

#### 조건
- 수집하고자 하는 데이터가 웹사이트에 게시되어 있음.
- Open Api가 없음.
- 사이트에 접속만 하면 그냥 볼 수 있음.
  - 더보기 x, 로그인 x, 스크롤해야 정보가 추가로 나타나는 증상,..
- 패키지
  - Beautiful Soup(bs4)
- 예시 대상 사이트
  - https://finance.naver.com/marketindex/exchangeList.nhn

In [1]:
# 1. 모듈 가져오기.
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [2]:
# 2. 목표 사이트 접속.
target_site = 'https://finance.naver.com/marketindex/exchangeList.nhn'

# Web Scarpping.
res = urlopen( target_site )

# 오류 발생시 오류 상황 출력.
if res.getcode() != 200:
    print('사이트에 뭔가 문제가 있으니 점검이 필요합니다.')

In [3]:
# 3. 응답받은 데이터 => html 데이터.(반정형 데이터 혹은 비정형 데이터임.)
# html 데이터를 파싱하는 모듈 => 원하는 데이터를 추출 -=> bs4 해결 가능!!
# BeautifulSoup는 ML로 대변되는 데이터 포멧을 파싱하는 대표 모듈.
# 파싱 수행을 하는 S/W => parser
# soup = BeautifulSoup( res, 파서의 종류 )
# DOM tree 구성.
soup = BeautifulSoup( res, 'html5lib' )
soup

<html lang="ko"><head>
<title>네이버 금융</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210311145152/css/finance.css" rel="stylesheet" type="text/css"/>

<script language="javascript">document.domain="naver.com";</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210311145152/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210311145152/js/lcslog.js" type="text/javascript"></script>
</head>
<body>
<div class="tbl_area">
	<table border="1" class="tbl_exchange" summary="환전 고시 환율 리스트">
	<caption>환전 고시 환율</caption>
	<colgroup>
		<col width="162"/>
		<col width="92"/>
		<col width="92"/>
		<col width="92"/>
		<col width="93"/>
		<col width="92"/>
		<col width="90"/>
	</colgroup>
	<thead>
	<tr

In [4]:
# 4. 통화명 추출할 것. : 1). 특정 2). 추출
# F12 or crtl + shift + j 를 통해 html 구성 요소(개발자 도구) 확인.
# 해당 부분을 찾아 copy => Copy.selector
# css selector : .tit
# soup.select() => 모두 다 찾아라 => 복수 => 리스트.
# soup.select_one() => 1개만 찾아라 => 단수 -=> 값.
tmp = soup.select('.tit')

# 파싱한 결과는 DOM tree가 메모리에 올라가게 되고 <td> </td> 태그 등 이런 것들이 전부 다 객체로 표현되므로
# 그 이하를 접근할때는 . 을 통해서 접근하기.
print(len( tmp ))
print(type(tmp))


# text, string 속성 : 태그(tag) 내 값을 반환.
# text 속성 : 하위 태그들 값까지 전부 출력.
# string 속성 : 정확히 태그에 대한 값만 출력.
tmp[0].a.text, tmp[0].a.string

44
<class 'bs4.element.ResultSet'>


('\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t미국 USD\n\t\t\t\t\n\t\t\t\t',
 '\n\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t미국 USD\n\t\t\t\t\n\t\t\t\t')

In [5]:
# 공백 제거.
print( tmp[0].a.string.strip() )

미국 USD


In [6]:
# 전체 통화 추출.
for td in soup.select('.tit') :
    print( td.a.string.strip() )

미국 USD
유럽연합 EUR
일본 JPY (100엔)
중국 CNY
홍콩 HKD
대만 TWD
영국 GBP
오만 OMR
캐나다 CAD
스위스 CHF
스웨덴 SEK
호주 AUD
뉴질랜드 NZD
체코 CZK
칠레 CLP
터키 TRY
몽골 MNT
이스라엘 ILS
덴마크 DKK
노르웨이 NOK
사우디아라비아 SAR
쿠웨이트 KWD
바레인 BHD
아랍에미리트 AED
요르단 JOD
이집트 EGP
태국 THB
싱가포르 SGD
말레이시아 MYR
인도네시아 IDR 100
카타르 QAR
카자흐스탄 KZT
브루나이 BND
인도 INR
파키스탄 PKR
방글라데시 BDT
필리핀 PHP
멕시코 MXN
브라질 BRL
베트남 VND 100
남아프리카 공화국 ZAR
러시아 RUB
헝가리 HUF
폴란드 PLN


In [7]:
# 각 국가별 매매 기준율 추출.
for td in soup.select('.sale') :
    # 매매 기준율 클래스로부터 값을 가져온 뒤 공백을 제거하고 ,를 제거.
    print( td.string.strip().replace(',','') )

1129.50
1345.40
1035.24
173.63
145.43
39.95
1571.42
2933.77
906.32
1218.91
132.76
873.39
811.32
51.50
1.55
150.46
0.40
343.91
180.94
133.16
301.17
3741.55
2995.62
307.50
1593.09
71.78
36.70
839.00
274.05
7.85
310.15
2.70
839.00
15.58
7.28
13.32
23.20
54.60
200.81
4.90
75.78
15.44
3.66
292.04


#### 요구사항

- 통화명, 매매기준율, 살 때, 보내실 때, 통화 코드를 추출.
- 이런 데이터를 추출하기 위해서 사이트의 html의 구조를 꼼꼼하게 확인할 것.
    - 개발자도구 => Elements 파트에서 시뮬레이션을 통해서 특정한 것이 정확한지 확인
    - crtl + shift + c 기능을 이용하면 원하는 부분을 쉽게 찾아갈 수 있음.
- 반복적으로 등장하는 데이터.(rows, 리스트형태(tr, li 태그들로 나열된 형태.)
  - row 데이터 단위로 수집을 수행해야, 문제(누락) 없이 수집이 가능.
  - [ {},{},{},.. ] 구조를 손쉽게 구성이 가능.

In [8]:
# 통화 정보를 가진 태그.
len( soup.select("tbody > tr") )

44

In [9]:
# 통화 정보를 가진 tr 태그 44개를 수집.
# 확인용.
for tr in soup.select("tbody > tr"):
    print( tr.select_one('.tit').a.string.strip() )
    print( tr.select_one('.sale').string.strip().replace(',','') )
    # buy_cash 출력
    # tr 밑에서 엘리먼트들을 찾는데 td -> 이런 td들 중에 세번째
    # nth-child => nth-of-type
    print( tr.select_one('td:nth-of-type(3)').string.strip().replace(',','')  )
    
    # send 출력.
    print( tr.select_one('td:nth-of-type(5)').string.strip().replace(',','')  )
  
    # code
    print( tr.select_one('.tit').a['href'] )
    print( tr.select_one('.tit').a.get('href')[-6:-3] )
    print( tr.select_one('.tit').a.get('href1') )
    break
    
    # dic = {
    #     'name':tr.select_one('.tit').a.string.strip(),
    #     'code':tr.select_one('.tit').a.get('href')[-6:-3],
    #     'buy_std':tr.select_one('.sale').string.strip().replace(',',''),
    #     'buy_cash':tr.select_one('td:nth-of-type(3)').string.strip().replace(',',''),
    #     'send':tr.select_one('td:nth-of-type(5)').string.strip().replace(',','')
    # }
    # results.append( dic )
    # pass

미국 USD
1129.50
1149.26
1140.50
/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW
USD
None


In [10]:
# 결과를 담을 리스트 생성.
results = []

for tr in soup.select("tbody > tr"):
    dic = {
      'name'    :tr.select_one('.tit').a.string.strip(),
      'code'    :tr.select_one('.tit').a.get('href')[-6:-3],
      'buy_std' :tr.select_one('.sale').string.strip().replace(',',''),
      'buy_cash':tr.select_one('td:nth-of-type(3)').string.strip().replace(',',''),
      'send'    :tr.select_one('td:nth-of-type(5)').string.strip().replace(',','')
         }
    results.append( dic )

print(results)

[{'name': '미국 USD', 'code': 'USD', 'buy_std': '1129.50', 'buy_cash': '1149.26', 'send': '1140.50'}, {'name': '유럽연합 EUR', 'code': 'EUR', 'buy_std': '1345.40', 'buy_cash': '1372.17', 'send': '1358.85'}, {'name': '일본 JPY (100엔)', 'code': 'JPY', 'buy_std': '1035.24', 'buy_cash': '1053.35', 'send': '1045.38'}, {'name': '중국 CNY', 'code': 'CNY', 'buy_std': '173.63', 'buy_cash': '182.31', 'send': '175.36'}, {'name': '홍콩 HKD', 'code': 'HKD', 'buy_std': '145.43', 'buy_cash': '148.29', 'send': '146.88'}, {'name': '대만 TWD', 'code': 'TWD', 'buy_std': '39.95', 'buy_cash': '45.18', 'send': '0.00'}, {'name': '영국 GBP', 'code': 'GBP', 'buy_std': '1571.42', 'buy_cash': '1602.37', 'send': '1587.13'}, {'name': '오만 OMR', 'code': 'OMR', 'buy_std': '2933.77', 'buy_cash': '3194.87', 'send': '0.00'}, {'name': '캐나다 CAD', 'code': 'CAD', 'buy_std': '906.32', 'buy_cash': '924.17', 'send': '915.38'}, {'name': '스위스 CHF', 'code': 'CHF', 'buy_std': '1218.91', 'buy_cash': '1242.92', 'send': '1231.09'}, {'name': '스웨덴 SEK

In [11]:
# json 저장. (DB 저장도 가능 : RDBMS, No-SQL)
import json

In [12]:
# 저장.
with open('fx.json', 'w') as fp:  
    json.dump( results, fp  )

In [13]:
# 로드.
with open('fx.json', 'r') as fp:  
    print( json.load( fp ) )

[{'name': '미국 USD', 'code': 'USD', 'buy_std': '1129.50', 'buy_cash': '1149.26', 'send': '1140.50'}, {'name': '유럽연합 EUR', 'code': 'EUR', 'buy_std': '1345.40', 'buy_cash': '1372.17', 'send': '1358.85'}, {'name': '일본 JPY (100엔)', 'code': 'JPY', 'buy_std': '1035.24', 'buy_cash': '1053.35', 'send': '1045.38'}, {'name': '중국 CNY', 'code': 'CNY', 'buy_std': '173.63', 'buy_cash': '182.31', 'send': '175.36'}, {'name': '홍콩 HKD', 'code': 'HKD', 'buy_std': '145.43', 'buy_cash': '148.29', 'send': '146.88'}, {'name': '대만 TWD', 'code': 'TWD', 'buy_std': '39.95', 'buy_cash': '45.18', 'send': '0.00'}, {'name': '영국 GBP', 'code': 'GBP', 'buy_std': '1571.42', 'buy_cash': '1602.37', 'send': '1587.13'}, {'name': '오만 OMR', 'code': 'OMR', 'buy_std': '2933.77', 'buy_cash': '3194.87', 'send': '0.00'}, {'name': '캐나다 CAD', 'code': 'CAD', 'buy_std': '906.32', 'buy_cash': '924.17', 'send': '915.38'}, {'name': '스위스 CHF', 'code': 'CHF', 'buy_std': '1218.91', 'buy_cash': '1242.92', 'send': '1231.09'}, {'name': '스웨덴 SEK

- 회차 정보는 1개가 존재.
- 1개 회차 장 통화정보는 44개가 존재.
- 저장 방식 고민.
  - 44개의 데이터에다가 회차 정보를 다 붙여서 저장할 것인가? (1개 테이블 사용, 중복 데이터가 많아짐.)
  - 회차 정보를 저장하는 테이블에 먼저 저장을 하고, 여기서 나오는 인데스값을 이용하여 개별 44개 데이터에 추가하여 저장 할것인가? join을 통해서 데이터 추출(테이블 2개)

In [14]:
# 2021.03.17 20:01 하나은행 기준 고시회차 288회 정보들 중
# 날짜 + 시간, 기관명, 회차 => 5분
# 웹스크레핑 + HTML 파싱(DOM Tree 생성)
target_site = 'https://finance.naver.com/marketindex/?tabSel=exchange#tab_section'
res         = urlopen( target_site )
soup        = BeautifulSoup( res, 'html5lib' )

In [15]:
# 추출.
d   = soup.select_one('.exchange_info > span.date').text + ":00"
gi  = soup.select_one('.exchange_info > span.standard').text.split()[0]
num = soup.select_one('.exchange_info > span.round').em.text
d, gi, num

('2021.03.17 20:01:00', '하나은행', '288')