# 데이터 수집 레벨 3

- Web Scrapping (웹 스크래핑)
  - 웹에 접속한다
    - urllib.request.urlopen
  - 응답페이지가 뜬다
    - 요청에 대한 응답, response
  - 사이트를 긁는다 -> html
    - 웹 
      - 클라이언트 사이드 (프런트)
        - **html/css/javascript**
          - 웹 페이지 
            - **콘텐츠(데이터)**, 뼈대, 구조 => html5
            - 디자인, **레이아웃**, 애니메이션(키프레임기반), 반응형(모바일<->PC), **css selector** => css3
              - 최근에는 bootstrap, 머터리얼등등 디자인 템플릿들이 제공되어서, 개발자가 디자이너없이 빠르게 사이트 구축 가능
            - 사용자와 웹페이지 간에 인터렉션(상호작용), **이벤트**, ajax(백그라운드 통신, 검색), 화면조작 => javascript
        - SPA(Single Page Application)
          - AngulaJS (google)
          - ReactJS (Facebook->Meta)
          - Vue (커뮤니티)
      - 서버 사이드(백엔드)
        - asp/php/servlet/jsp/ejb
        - spring/node/php/asp.net
        - spring boot/node/asp.net/php/django/flask
      - 데이터베이스 : DBA
  - html에서 필요한 데이터를 추출한다
    - BS4, BeautifulSoup 모듈 사용
    - **html 문자열** => **BeautifulSoup 파싱** => html 구조로 메모리상에 적제(DOM Tree) => 탐색/검색(**css selector** or xPath) => 정보추출
  - 적제한다


# 데이터 수집 

- 타겟 사이트
  - 사이트에 접속하면 끝, 어떠한 사람의 액션도 필요 없다
  - 네이버 고시 환율 정보를 수집
    - 하나은행 제공, 1일간 xxx회 갱신된다
    - 시작시간, 종료시간, 간격을 체크(조사후)
    - https://finance.naver.com/marketindex/exchangeList.naver
      - 네이버는 &lt;iFrame&gt; 통해서 환율 정보 페이지를 삽입했다

In [1]:
# 1. 모듈 가져오기
# 요청후 응답데이터가져오는 모듈
from urllib.request import urlopen
# xml/html => 파싱 => 데이터 추출까지 담당하는 모듈
from bs4 import BeautifulSoup

In [None]:
# 2. 타겟 사이트 설정
target_site = 'https://finance.naver.com/marketindex/exchangeList.naver'
target_site

'https://finance.naver.com/marketindex/exchangeList.naver'

In [None]:
# 3. 사이트 접속 -> 응답데이터 획득
#    경우에 따라서는 user-agent 헤더 조작이 필요하다 => 403 에러 발생했다면 
res = urlopen( target_site )

In [None]:
# 4. 응답 데이터(res)를 BeautifulSoup의 재료로 넣어서 파싱(파싱을 수행하는 주체를 파서) 수행
#    html5lib 파서는 대량의 html 데이터롤 정확하게 파싱처리한다 (상대적으로 느리다)
soup = BeautifulSoup( res , 'html5lib' )
soup

<html lang="ko"><head>
<title>네이버 증권</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20221222161321/css/finance.css" rel="stylesheet" type="text/css"/>

<script language="javascript">document.domain="naver.com";</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20221222161321/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20221222161321/js/lcslog.js" type="text/javascript"></script>
</head>
<body>
<div class="tbl_area">
	<table border="1" class="tbl_exchange" summary="환전 고시 환율 리스트">
	<caption>환전 고시 환율</caption>
	<colgroup>
		<col width="162"/>
		<col width="92"/>
		<col width="92"/>
		<col width="92"/>
		<col width="93"/>
		<col width="92"/>
		<col width="90"/>
	</colgroup>
	<thead>
	<tr

In [None]:
# 5. 데이터 추출 => css selector or xPath를 알아야 함
# 5-1 매매기준율 값 추출
#     사전에 매매기준율값을 특정할수 있어야한다 => css selector or xPath
#     css selector 규칙
#     <a class='ty'>가나다</a> => 클레스를 통해서 특정 => .클레스값 => .ty
#     매매기준율 => .sale
for td in soup.select('.sale'):
  # 1,267.00 1,267.00 <class 'str'> <class 'bs4.element.NavigableString'> <class 'bs4.element.Tag'>
  # print( td.text , td.string, type(td.text), type(td.string), type(td) )
  print( td.text.strip() , end=" , " ) 
  #break

1,267.00 , 1,348.72 , 953.46 , 181.87 , 162.38 , 41.26 , 1,531.30 , 3,290.74 , 934.50 , 1,360.83 , 120.88 , 854.46 , 797.13 , 55.72 , 1.44 , 67.69 , 0.37 , 362.52 , 181.40 , 128.74 , 336.83 , 4,135.79 , 3,360.74 , 344.97 , 1,786.39 , 51.19 , 36.59 , 941.83 , 286.59 , 8.11 , 345.89 , 2.75 , 941.83 , 15.31 , 5.60 , 12.18 , 22.82 , 65.32 , 242.77 , 5.38 , 74.18 , 18.49 , 3.37 , 290.45 , 3.47 , 9.23 , 10.28 , 0.27 , 0.54 , 9.57 , 273.74 , 262.99 , 157.57 , 0.60 , 23.65 , 0.11 , 0.31 , 566.86 , 

In [None]:
# 5-2. 통화명 추출
for td in soup.select('.tit'):
  print( td.text.strip() , end=" , " )

미국 USD , 유럽연합 EUR , 일본 JPY (100엔) , 중국 CNY , 홍콩 HKD , 대만 TWD , 영국 GBP , 오만 OMR , 캐나다 CAD , 스위스 CHF , 스웨덴 SEK , 호주 AUD , 뉴질랜드 NZD , 체코 CZK , 칠레 CLP , 튀르키예 TRY , 몽골 MNT , 이스라엘 ILS , 덴마크 DKK , 노르웨이 NOK , 사우디아라비아 SAR , 쿠웨이트 KWD , 바레인 BHD , 아랍에미리트 AED , 요르단 JOD , 이집트 EGP , 태국 THB , 싱가포르 SGD , 말레이시아 MYR , 인도네시아 IDR 100 , 카타르 QAR , 카자흐스탄 KZT , 브루나이 BND , 인도 INR , 파키스탄 PKR , 방글라데시 BDT , 필리핀 PHP , 멕시코 MXN , 브라질 BRL , 베트남 VND 100 , 남아프리카 공화국 ZAR , 러시아 RUB , 헝가리 HUF , 폴란드 PLN , 스리랑카 LKR , 알제리 DZD , 케냐 KES , 콜롬비아 COP , 탄자니아 TZS , 네팔 NPR , 루마니아 RON , 리비아 LYD , 마카오 MOP , 미얀마 MMK , 에티오피아 ETB , 우즈베키스탄 UZS , 캄보디아 KHR , 피지 FJD , 

In [None]:
# 5-3 통화 데이터 Row 부터(가로줄)부터 추출
#     tbody > tr
for tr in soup.select('tbody > tr'):
  #print( tr )
  # 통화명
  print( tr.select_one('.tit').text.strip() )
  # 매매기준율
  print( tr.select_one('.sale').text.strip() )
  # 현찰 사실때
  print( tr.select_one('td:nth-of-type(3)').text.strip() )
  # 미화 환산율
  print( tr.select_one('td:nth-of-type(7)').text.strip() )
  # 코드
  print( tr.select_one('.tit').a.get('href')[-6:-6+3] )
  break

# 결과
'''
  [
    {
      'name':'미국 USD',
      'std_rate':1267.00,
      'cash_buy':1289.17,
      'rate':1.000,
      'code':'USD'  # 옵션
    },
    {}
  ]
'''

미국 USD
1,267.00
1,289.17
1.000
USD


"\n  [\n    {\n      'name':'미국 USD',\n      'std_rate':1267.00,\n      'cash_buy':1289.17,\n      'rate':1.000,\n      'code':'USD'  # 옵션\n    },\n    {}\n  ]\n"

In [None]:
myData  = lambda tr, x:tr.select_one(x).text.strip()
# N/A가 나오면 0으로 대체, 기존 루틴 => 1줄로 표현
# (참일때값) if (조건식) else (거짓일때값)
# float( tr.select_one(x).text.strip().replace(',','') )
#myData2 = lambda tr, x: float( tr.select_one(x).text.strip().replace(',','') ) if tr.select_one(x).text.strip() != 'N/A' else 0 
myData2 = lambda tr, x: float( tr.select_one(x).text.strip().replace(',','').replace('N/A','0') )

[ {
   'name'     : myData(tr, '.tit'),
   'std_rate' : myData2(tr, '.sale'),
   'cash_buy' : myData2(tr, 'td:nth-of-type(3)'),
   'rate'     : myData2(tr, 'td:nth-of-type(7)'),
   # 옵션 -> 통화코드
   'code'     : tr.select_one('.tit').a.get('href')[-6:-6+3]
   # 은행
   #'bank'     : "하나",
   # 날짜
   #'date'     : '2022.12.27 16:38',
   # 회차
   #'order'    : 631
} for tr in soup.select('tbody > tr') ]

[{'name': '미국 USD',
  'std_rate': 1267.0,
  'cash_buy': 1289.17,
  'rate': 1.0,
  'code': 'USD'},
 {'name': '유럽연합 EUR',
  'std_rate': 1348.72,
  'cash_buy': 1375.55,
  'rate': 1.065,
  'code': 'EUR'},
 {'name': '일본 JPY (100엔)',
  'std_rate': 953.46,
  'cash_buy': 970.14,
  'rate': 0.753,
  'code': 'JPY'},
 {'name': '중국 CNY',
  'std_rate': 181.87,
  'cash_buy': 190.96,
  'rate': 0.144,
  'code': 'CNY'},
 {'name': '홍콩 HKD',
  'std_rate': 162.38,
  'cash_buy': 165.57,
  'rate': 0.128,
  'code': 'HKD'},
 {'name': '대만 TWD',
  'std_rate': 41.26,
  'cash_buy': 46.66,
  'rate': 0.033,
  'code': 'TWD'},
 {'name': '영국 GBP',
  'std_rate': 1531.3,
  'cash_buy': 1561.46,
  'rate': 1.209,
  'code': 'GBP'},
 {'name': '오만 OMR',
  'std_rate': 3290.74,
  'cash_buy': 3583.61,
  'rate': 2.597,
  'code': 'OMR'},
 {'name': '캐나다 CAD',
  'std_rate': 934.5,
  'cash_buy': 952.9,
  'rate': 0.738,
  'code': 'CAD'},
 {'name': '스위스 CHF',
  'std_rate': 1360.83,
  'cash_buy': 1387.63,
  'rate': 1.074,
  'code': 'CHF'

# 날짜, 은행명, 고시회차 수집

- 타겟 사이트
  - https://finance.naver.com/marketindex/?tabSel=exchange
  - #tab_section 이 부분은 페이지 로딩후 해당 위치로 자동 이동하라는 의미(생략가능함)
- 타겟 정보
  - 시간 : .date
  - 은행 : .standard
  - 고시회차 : .round > em

In [6]:
def get_exchange_info():
  '''
    네이버 증권 > 환율 관련 사이트에서 환율 관련 메타 정보 추출하는 함수
    다른 사이트에서 동일하게 적용된다는 법이 없어서 입력을 넣지 않고, 고정했다
  '''
  target_site = 'https://finance.naver.com/marketindex/?tabSel=exchange'
  res = urlopen( target_site )
  soup = BeautifulSoup( res , 'html5lib' )

  exchange_date = soup.select_one('.date').text.strip()
  exchange_bank = soup.select_one('.standard').text.strip().split('은행')[0]
  exchange_round = soup.select_one('.round > em').text.strip()

  return { "exchange_date":exchange_date, 
           "exchange_bank":exchange_bank, 
           "exchange_round":exchange_round }

get_exchange_info()

{'exchange_date': '2022.12.28 13:01',
 'exchange_bank': '하나',
 'exchange_round': '359'}

# 환율 정보 추출 기능 함수화

- 어제 작성한 코드를 함수화 시킨다

In [9]:
def get_exchange_value( infos=None ):
  target_site = 'https://finance.naver.com/marketindex/exchangeList.naver'
  res = urlopen( target_site )
  soup = BeautifulSoup( res , 'html5lib' )
  myData  = lambda tr, x:tr.select_one(x).text.strip()
  myData2 = lambda tr, x: float( tr.select_one(x).text.strip().replace(',','').replace('N/A','0') )
  return [ {
    'name'     : myData(tr, '.tit'),
    'std_rate' : myData2(tr, '.sale'),
    'cash_buy' : myData2(tr, 'td:nth-of-type(3)'),
    'rate'     : myData2(tr, 'td:nth-of-type(7)'),    
    'code'     : tr.select_one('.tit').a.get('href')[-6:-6+3],
    # 은행
    'bank'     : infos.get('exchange_date'),
    # 날짜
    'date'     : infos.get('exchange_bank'),
    # 회차
    'round'    : infos.get('exchange_round')
  } for tr in soup.select('tbody > tr') ]

get_exchange_value( infos=get_exchange_info() )

[{'name': '미국 USD',
  'std_rate': 1267.5,
  'cash_buy': 1289.68,
  'rate': 1.0,
  'code': 'USD',
  'bank': '2022.12.28 13:17',
  'date': '하나',
  'round': '383'},
 {'name': '유럽연합 EUR',
  'std_rate': 1348.62,
  'cash_buy': 1375.45,
  'rate': 1.064,
  'code': 'EUR',
  'bank': '2022.12.28 13:17',
  'date': '하나',
  'round': '383'},
 {'name': '일본 JPY (100엔)',
  'std_rate': 944.8,
  'cash_buy': 961.33,
  'rate': 0.745,
  'code': 'JPY',
  'bank': '2022.12.28 13:17',
  'date': '하나',
  'round': '383'},
 {'name': '중국 CNY',
  'std_rate': 181.83,
  'cash_buy': 190.92,
  'rate': 0.144,
  'code': 'CNY',
  'bank': '2022.12.28 13:17',
  'date': '하나',
  'round': '383'},
 {'name': '홍콩 HKD',
  'std_rate': 162.63,
  'cash_buy': 165.83,
  'rate': 0.128,
  'code': 'HKD',
  'bank': '2022.12.28 13:17',
  'date': '하나',
  'round': '383'},
 {'name': '대만 TWD',
  'std_rate': 41.18,
  'cash_buy': 46.57,
  'rate': 0.033,
  'code': 'TWD',
  'bank': '2022.12.28 13:17',
  'date': '하나',
  'round': '383'},
 {'name': '영국 G

# <font color='red'>Css Selector</font>

<h1>Css Selector</h1>



```
# -> <h1> 대체된다
```



- html 내에서 특정 요소(node or element -> tag)을 찾는 방법(특정하는 방법)
  - 모든요소 : *
  - 요소 : 태그명, a, div, => 모든 div를 다찾아라(복수)
  - **id** : #id값, 문서내에서 고유하다
  - **class** : .클레스값, 문서내에서 여러번 나올수 있다
  - 복합 : 요소.클레스값, 요소#아이디값
  - 나열 : , 구분 : div, a, #kk, .ss 
  - 서열 : 한칸 띠우면 후손까지 탐색, > 넣으면 직계까지 탐색
    - a > div => a요소의 바로 밑에 있는 div를 다 찾아라
    - a div => a요소 밑에 존재하는 모든 div를 다 찾아라
  - 의사결정 : tr:서열 : 서열:first, last, nth-child(1)
  - 속성 : [속성명=속성값]