# ETF
> ETF(상장지수펀드)는 기초지수의 성과를 추적하는 것이 목표인 인덱스펀드로, 거래소에 상장되어 있어서 개별주식과 마찬가지로 기존의 주식계좌를 통해 거래를 할 수 있습니다. 그 구성종목과 수량 등 자산구성내역(PDF)이 투명하게 공개되어 있고, 장중에는 실시간으로 순자산가치(NAV)가 제공되어 거래에 참고하실 수 있습니다. ETF는 1좌를 거래할 수 있는 최소한의 금액만으로 분산투자 효과를 누릴 수 있어 효율적인 투자수단이며, 펀드보다 운용보수가 낮고 주식에 적용되는 거래세도 붙지 않습니다.

In [1]:
import requests
import pandas as pd
import numpy as np

## 데이터 수집

In [2]:
headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}

In [3]:
url = "https://finance.naver.com/api/sise/etfItemList.nhn?etfType=0&targetColumn=market_sum&sortOrder=desc"

In [4]:
res = requests.get(url, headers=headers)

In [7]:
etfItemList = res.json()['result']['etfItemList']
len(etfItemList)

593

## 데이터프레임 변환

In [8]:
df = pd.DataFrame(etfItemList)
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,31425,5,-155,-0.49,31510.0,-10.6016,2100418,65964,52118
1,371460,4,TIGER 차이나전기차SOLACTIVE,17125,5,-365,-2.09,17176.0,32.8018,6904743,119235,37908
2,122630,3,KODEX 레버리지,14780,5,-150,-1.0,14837.0,-21.4418,20353741,300394,24128
3,133690,4,TIGER 미국나스닥100,69990,5,-1230,-1.73,69796.0,-6.4225,99724,6986,20724
4,102110,1,TIGER 200,31495,5,-150,-0.47,31576.0,-10.5467,820110,25811,20362


## 파일 저장

In [10]:
from datetime import datetime

date = datetime.today().strftime("%Y-%m-%d")

file_name = f"ETF_{date}_raw.csv"
df.to_csv(file_name, index=False, encoding='ms949')

## 데이터 확인

In [15]:
df = pd.read_csv('./ETF_2022-07-19_raw.csv', encoding='ms949', dtype={'itemcode':object})
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,31425,5,-155,-0.49,31510.0,-10.6016,2100418,65964,52118
1,371460,4,TIGER 차이나전기차SOLACTIVE,17125,5,-365,-2.09,17176.0,32.8018,6904743,119235,37908
2,122630,3,KODEX 레버리지,14780,5,-150,-1.0,14837.0,-21.4418,20353741,300394,24128
3,133690,4,TIGER 미국나스닥100,69990,5,-1230,-1.73,69796.0,-6.4225,99724,6986,20724
4,102110,1,TIGER 200,31495,5,-150,-0.47,31576.0,-10.5467,820110,25811,20362


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 593 entries, 0 to 592
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   itemcode            593 non-null    object 
 1   etfTabCode          593 non-null    int64  
 2   itemname            593 non-null    object 
 3   nowVal              593 non-null    int64  
 4   risefall            593 non-null    int64  
 5   changeVal           593 non-null    int64  
 6   changeRate          593 non-null    float64
 7   nav                 593 non-null    float64
 8   threeMonthEarnRate  551 non-null    float64
 9   quant               593 non-null    int64  
 10  amonut              593 non-null    int64  
 11  marketSum           593 non-null    int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 55.7+ KB


#### quant 를 기준으로 내림차순 정렬 후 상위 10개 추출

In [19]:
df.sort_values('quant', ascending=False).head(10)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
5,252670,3,KODEX 200선물인버스2X,3190,2,30,0.95,3192.0,21.5384,138661549,443280,20272
39,251340,3,KODEX 코스닥150선물인버스,5025,5,-15,-0.3,5027.0,9.8039,29203379,147557,4166
22,114800,3,KODEX 인버스,4925,2,25,0.51,4925.0,10.9852,28677568,141280,9264
2,122630,3,KODEX 레버리지,14780,5,-150,-1.0,14837.0,-21.4418,20353741,300394,24128
21,233740,3,KODEX 코스닥150레버리지,8545,2,70,0.83,8646.0,-25.3304,14756284,124973,9374
1,371460,4,TIGER 차이나전기차SOLACTIVE,17125,5,-365,-2.09,17176.0,32.8018,6904743,119235,37908
74,271050,5,KODEX WTI원유선물인버스(H),4305,5,-150,-3.37,4300.0,-0.1122,5453353,23497,1761
65,217770,5,TIGER 원유선물인버스(H),3000,5,-105,-3.38,2991.0,-0.4808,5307544,15918,2219
27,229200,1,KODEX 코스닥150,11060,2,50,0.45,11196.0,-12.0116,3862300,42539,6420
94,252710,3,TIGER 200선물인버스2X,3340,2,30,0.91,3341.0,22.1402,3188865,10673,1313


#### etfTabCode 를 기준으로 빈도수 확인하기

In [21]:
df['etfTabCode'].value_counts().sort_index()

1     66
2    210
3     37
4    149
5     18
6     62
7     51
Name: etfTabCode, dtype: int64

## 데이터 전처리

#### etfTabName 생성

In [22]:
etfcode="""전체
국내 시장지수
국내 업종/테마
국내 파생
해외 주식
원자재
채권
기타"""

In [23]:
etfcode

'전체\n국내 시장지수\n국내 업종/테마\n국내 파생\n해외 주식\n원자재\n채권\n기타'

In [31]:
# etfcode 를 \n 를 기준으로 나누어 etf_tab_name 리스트 생성
etf_tab_name = etfcode.split('\n')

In [32]:
def find_etf_tab_name(no):
    return etf_tab_name[no]

In [33]:
# df['etfTabName'] = df['etfTabCode'].map(lambda no : etf_tab_name[no])
df['etfTabName'] = df['etfTabCode'].map(find_etf_tab_name)

In [35]:
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum,etfTabName
0,69500,1,KODEX 200,31425,5,-155,-0.49,31510.0,-10.6016,2100418,65964,52118,국내 시장지수
1,371460,4,TIGER 차이나전기차SOLACTIVE,17125,5,-365,-2.09,17176.0,32.8018,6904743,119235,37908,해외 주식
2,122630,3,KODEX 레버리지,14780,5,-150,-1.0,14837.0,-21.4418,20353741,300394,24128,국내 파생
3,133690,4,TIGER 미국나스닥100,69990,5,-1230,-1.73,69796.0,-6.4225,99724,6986,20724,해외 주식
4,102110,1,TIGER 200,31495,5,-150,-0.47,31576.0,-10.5467,820110,25811,20362,국내 시장지수


#### 컬럼명 변경

In [38]:
cols = """종목코드
탭코드
종목명
현재가
등락구분
전일비
등락률
순자산가치(NAV)
3개월수익률
거래량
거래대금(백만)
시가총액(억)
유형"""

In [40]:
df.columns = cols.split('\n')

In [41]:
df.head(3)

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형
0,69500,1,KODEX 200,31425,5,-155,-0.49,31510.0,-10.6016,2100418,65964,52118,국내 시장지수
1,371460,4,TIGER 차이나전기차SOLACTIVE,17125,5,-365,-2.09,17176.0,32.8018,6904743,119235,37908,해외 주식
2,122630,3,KODEX 레버리지,14780,5,-150,-1.0,14837.0,-21.4418,20353741,300394,24128,국내 파생


#### 브랜드 칼럼 추가

In [64]:
# 종목명 KODEX 200 일 떄 ==> KODEX
df['브랜드'] = df['종목명'].str.split(" ", expand=True)[0]
df['브랜드'].unique()

array(['KODEX', 'TIGER', 'KBSTAR', 'ARIRANG', 'HANARO', 'KINDEX', 'KOSEF',
       'SOL', '파워', '히어로즈', 'TIMEFOLIO', '에셋플러스', '대신343', 'WOORI',
       'KTOP', 'FOCUS', 'VITA', 'UNICORN', '마이다스', 'TREX', 'MASTER',
       '마이티', 'HK'], dtype=object)

#### 인버스 칼럼 추가

- 인버스는 지수가 하락하면 수익률이오르는 상품

In [67]:
# 종목명에 인버스라는 글자가 들어가면 True
df['인버스'] = df['종목명'].str.contains('인버스')

In [69]:
df['인버스'].value_counts(normalize=True) * 100 # normalize : 비율

False    93.086003
True      6.913997
Name: 인버스, dtype: float64

#### 레버리지 칼럼 추가

- 레버리지는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높임

In [70]:
# 종목명에 레버리지라는 글자가 들어가면 True
df['레버리지'] = df['종목명'].str.contains('레버리지')

In [72]:
df['레버리지'].value_counts(normalize=True) * 100

False    93.591906
True      6.408094
Name: 레버리지, dtype: float64

#### 환헤지(H)

In [85]:
df['환헤지(H)'] = df['종목명'].str.endswith('(H)')

In [86]:
df['등락구분'].value_counts() 

5    379
2    173
3     41
Name: 등락구분, dtype: int64

In [87]:
save_file_name = file_name.replace('_raw', "")
save_file_name

'ETF_2022-07-19.csv'

In [88]:
df.to_csv(save_file_name, index=False)