[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/4.1%20ETF%20%EB%AA%A9%EB%A1%9D%20%EC%88%98%EC%A7%91-input.ipynb)


## ETF란?
* ETF(상장지수펀드)는 기초지수의 성과를 추적하는 것이 목표인 인덱스펀드로, 거래소에 상장되어 있어서 개별주식과 마찬가지로 기존의 주식계좌를 통해 거래를 할 수 있습니다. 그 구성종목과 수량 등 자산구성내역(PDF)이 투명하게 공개되어 있고, 장중에는 실시간으로 순자산가치(NAV)가 제공되어 거래에 참고하실 수 있습니다. ETF는 1좌를 거래할 수 있는 최소한의 금액만으로 분산투자 효과를 누릴 수 있어 효율적인 투자수단이며, 펀드보다 운용보수가 낮고 주식에 적용되는 거래세도 붙지 않습니다. 
    * 출처 : [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn)


## 크롬 브라우저의 네트워크 정보를 통한 데이터 수집
* json 데이터 수집과 파일저장 방법

* [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn)



In [None]:
# 라이브러리를 불러옵니다.
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy, http 요청을 위한 requests를 받아옵니다.
import pandas as pd
import numpy as np
import requests

In [None]:
# 수집할 url을 가져옵니다.
url = "https://finance.naver.com/api/sise/etfItemList.nhn?etfType=0&targetColumn=market_sum&sortOrder=desc"

## Pandas를 통한 요청

In [None]:
pd.read_html(url)

ValueError: ignored

## JSON 

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/c/c9/JSON_vector_logo.svg/300px-JSON_vector_logo.svg.png" width="100">

JSON(제이슨, JavaScript Object Notation)은 속성-값 쌍( attribute–value pairs and array data types (or any other serializable value)) 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷이다. 비동기 브라우저/서버 통신 (AJAX)을 위해, 넓게는 XML(AJAX가 사용)을 대체하는 주요 데이터 포맷이다. 특히, 인터넷에서 자료를 주고 받을 때 그 자료를 표현하는 방법으로 알려져 있다. 자료의 종류에 큰 제한은 없으며, 특히 컴퓨터 프로그램의 변수값을 표현하는 데 적합하다.
본래는 자바스크립트 언어로부터 파생되어 자바스크립트의 구문 형식을 따르지만 언어 독립형 데이터 포맷이다. 즉, 프로그래밍 언어나 플랫폼에 독립적이므로, 구문 분석 및 JSON 데이터 생성을 위한 코드는 C, C++, C#, 자바, 자바스크립트, 펄, 파이썬 등 수많은 프로그래밍 언어에서 쉽게 이용할 수 있다.

* 출처 : [JSON - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/JSON)

## requests를 통한 HTTP 요청
* [Requests: HTTP for Humans™ — Requests documentation](https://requests.readthedocs.io/en/master/)

In [None]:
# requests 라이브러리를 통해 url을 받아옵니다.
response = requests.get(url)
str(response)

'<Response [200]>'

In [None]:
response.json()

{'result': {'etfItemList': [{'amonut': 145311,
    'changeRate': 1.0,
    'changeVal': 345,
    'etfTabCode': 1,
    'itemcode': '069500',
    'itemname': 'KODEX 200',
    'marketSum': 47195,
    'nav': 35084.0,
    'nowVal': 34985,
    'quant': 4180043,
    'risefall': '2',
    'threeMonthEarnRate': -0.4674},
   {'amonut': 107221,
    'changeRate': 0.81,
    'changeVal': 95,
    'etfTabCode': 4,
    'itemcode': '371460',
    'itemname': 'TIGER 차이나전기차SOLACTIVE',
    'marketSum': 29425,
    'nav': 11894.0,
    'nowVal': 11890,
    'quant': 8956866,
    'risefall': '2',
    'threeMonthEarnRate': -25.5132},
   {'amonut': 309205,
    'changeRate': 1.98,
    'changeVal': 360,
    'etfTabCode': 3,
    'itemcode': '122630',
    'itemname': 'KODEX 레버리지',
    'marketSum': 21122,
    'nav': 18679.0,
    'nowVal': 18585,
    'quant': 16856345,
    'risefall': '2',
    'threeMonthEarnRate': -2.6183},
   {'amonut': 8789,
    'changeRate': 1.35,
    'changeVal': 1000,
    'etfTabCode': 4,
    'itemc

### JSON 타입으로 데이터 받기

In [None]:
# requests 의 응답을 json 타입으로 받습니다.
etf_json = response.json()
etf_json

{'result': {'etfItemList': [{'amonut': 145311,
    'changeRate': 1.0,
    'changeVal': 345,
    'etfTabCode': 1,
    'itemcode': '069500',
    'itemname': 'KODEX 200',
    'marketSum': 47195,
    'nav': 35084.0,
    'nowVal': 34985,
    'quant': 4180043,
    'risefall': '2',
    'threeMonthEarnRate': -0.4674},
   {'amonut': 107221,
    'changeRate': 0.81,
    'changeVal': 95,
    'etfTabCode': 4,
    'itemcode': '371460',
    'itemname': 'TIGER 차이나전기차SOLACTIVE',
    'marketSum': 29425,
    'nav': 11894.0,
    'nowVal': 11890,
    'quant': 8956866,
    'risefall': '2',
    'threeMonthEarnRate': -25.5132},
   {'amonut': 309205,
    'changeRate': 1.98,
    'changeVal': 360,
    'etfTabCode': 3,
    'itemcode': '122630',
    'itemname': 'KODEX 레버리지',
    'marketSum': 21122,
    'nav': 18679.0,
    'nowVal': 18585,
    'quant': 16856345,
    'risefall': '2',
    'threeMonthEarnRate': -2.6183},
   {'amonut': 8789,
    'changeRate': 1.35,
    'changeVal': 1000,
    'etfTabCode': 4,
    'itemc

### JSON 에서 원하는 데이터 찾기

In [None]:
# result > etfItemList 의 하위 구조로 목록을 찾고자 하는 데이터를 가져옵니다.
etfItemList = etf_json["result"]['etfItemList']
etfItemList

[{'amonut': 145311,
  'changeRate': 1.0,
  'changeVal': 345,
  'etfTabCode': 1,
  'itemcode': '069500',
  'itemname': 'KODEX 200',
  'marketSum': 47195,
  'nav': 35084.0,
  'nowVal': 34985,
  'quant': 4180043,
  'risefall': '2',
  'threeMonthEarnRate': -0.4674},
 {'amonut': 107221,
  'changeRate': 0.81,
  'changeVal': 95,
  'etfTabCode': 4,
  'itemcode': '371460',
  'itemname': 'TIGER 차이나전기차SOLACTIVE',
  'marketSum': 29425,
  'nav': 11894.0,
  'nowVal': 11890,
  'quant': 8956866,
  'risefall': '2',
  'threeMonthEarnRate': -25.5132},
 {'amonut': 309205,
  'changeRate': 1.98,
  'changeVal': 360,
  'etfTabCode': 3,
  'itemcode': '122630',
  'itemname': 'KODEX 레버리지',
  'marketSum': 21122,
  'nav': 18679.0,
  'nowVal': 18585,
  'quant': 16856345,
  'risefall': '2',
  'threeMonthEarnRate': -2.6183},
 {'amonut': 8789,
  'changeRate': 1.35,
  'changeVal': 1000,
  'etfTabCode': 4,
  'itemcode': '133690',
  'itemname': 'TIGER 미국나스닥100',
  'marketSum': 20964,
  'nav': 74008.0,
  'nowVal': 75220,


## 데이터프레임 변환
### JSON 데이터를 pandas 의 데이터프레임 형태로 만들기

In [None]:
# 키-값 형태의 데이터를 데이터프레임으로 만듭니다.
df = pd.DataFrame(etfItemList)
df

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,069500,1,KODEX 200,34985,2,345,1.00,35084.0,-0.4674,4180043,145311,47195
1,371460,4,TIGER 차이나전기차SOLACTIVE,11890,2,95,0.81,11894.0,-25.5132,8956866,107221,29425
2,122630,3,KODEX 레버리지,18585,2,360,1.98,18679.0,-2.6183,16856345,309205,21122
3,133690,4,TIGER 미국나스닥100,75220,2,1000,1.35,74008.0,-0.9795,117485,8789,20964
4,252670,3,KODEX 200선물인버스2X,2650,5,-50,-1.85,2646.0,-1.0990,141997440,380833,19202
...,...,...,...,...,...,...,...,...,...,...,...,...
550,295000,6,KBSTAR 국채선물10년,51165,5,-10,-0.02,51181.0,-3.7159,39,1,20
551,287330,2,KBSTAR 200생활소비재,7395,2,255,3.57,7392.0,6.9597,485,3,18
552,284990,2,KBSTAR 200에너지화학,11195,2,290,2.66,11214.0,1.1791,316,3,16
553,287310,2,KBSTAR 200경기소비재,10060,2,100,1.00,10079.0,2.7763,380,3,10


### 데이터 확인

In [None]:
# 데이터 프레임으로 잘 만들어 졌는지 상단 데이터의 일부만 미리보기 합니다.
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,34985,2,345,1.0,35084.0,-0.4674,4180043,145311,47195
1,371460,4,TIGER 차이나전기차SOLACTIVE,11890,2,95,0.81,11894.0,-25.5132,8956866,107221,29425
2,122630,3,KODEX 레버리지,18585,2,360,1.98,18679.0,-2.6183,16856345,309205,21122
3,133690,4,TIGER 미국나스닥100,75220,2,1000,1.35,74008.0,-0.9795,117485,8789,20964
4,252670,3,KODEX 200선물인버스2X,2650,5,-50,-1.85,2646.0,-1.099,141997440,380833,19202


In [None]:
# 데이터 프레임으로 잘 만들어 졌는지 하단 데이터의 일부만 미리보기 합니다.
df.tail()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
550,295000,6,KBSTAR 국채선물10년,51165,5,-10,-0.02,51181.0,-3.7159,39,1,20
551,287330,2,KBSTAR 200생활소비재,7395,2,255,3.57,7392.0,6.9597,485,3,18
552,284990,2,KBSTAR 200에너지화학,11195,2,290,2.66,11214.0,1.1791,316,3,16
553,287310,2,KBSTAR 200경기소비재,10060,2,100,1.0,10079.0,2.7763,380,3,10
554,287320,2,KBSTAR 200산업재,11760,2,240,2.08,11784.0,18.425,37,0,7


## 파일 저장
### 파일명 만들기

In [None]:
# 파이썬 표준라이브러리인 datetime을 불러옵니다.
# 날짜를 만들어 저장하기 위해 오늘 날짜를 구합니다.
import datetime
#datetime.datetime.today().strftime??
today = datetime.datetime.today()
today = today.strftime("%Y-%m-%d")

today

Object `strftime` not found.


'2022-04-28'

In [None]:
# f-string 방식으로 파일명을 만들어 줍니다.
# eft_날짜_raw.csv 형태로 만듭니다.
file_name = f"eft_{today}_raw.csv"

### 파일로 저장하고 불러오기

In [None]:
# csv 형태로 저장합니다. index 가 저장되지 않도록 합니다.
df.to_csv(file_name, index=False)

In [None]:
# 저장된 csv 파일을 읽어옵니다.
# itemcode 숫자 앞의 0 이 지워진다면 dtype={"itemcode": np.object} 로 타입을 지정해 주면 문자형태로 읽어옵니다.
pd.read_csv(file_name, dtype={"itemcode": np.object})

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,069500,1,KODEX 200,34985,2,345,1.00,35084.0,-0.4674,4180043,145311,47195
1,371460,4,TIGER 차이나전기차SOLACTIVE,11890,2,95,0.81,11894.0,-25.5132,8956866,107221,29425
2,122630,3,KODEX 레버리지,18585,2,360,1.98,18679.0,-2.6183,16856345,309205,21122
3,133690,4,TIGER 미국나스닥100,75220,2,1000,1.35,74008.0,-0.9795,117485,8789,20964
4,252670,3,KODEX 200선물인버스2X,2650,5,-50,-1.85,2646.0,-1.0990,141997440,380833,19202
...,...,...,...,...,...,...,...,...,...,...,...,...
550,295000,6,KBSTAR 국채선물10년,51165,5,-10,-0.02,51181.0,-3.7159,39,1,20
551,287330,2,KBSTAR 200생활소비재,7395,2,255,3.57,7392.0,6.9597,485,3,18
552,284990,2,KBSTAR 200에너지화학,11195,2,290,2.66,11214.0,1.1791,316,3,16
553,287310,2,KBSTAR 200경기소비재,10060,2,100,1.00,10079.0,2.7763,380,3,10


In [None]:
from google.colab import drive

drive.mount('/content/gdrive')
path = "/content/gdrive/My Drive/Colab Notebooks/IBK투자증권/finance-data-analysis-main"
df.to_csv(f"{path}/{file_name}", index=False)

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [None]:
df.to_csv(f"{path}/file_name", index=False)