[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/4.2%20ETF%20%EC%A0%84%EC%B2%98%EB%A6%AC-input.ipynb)

* [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn) 에서 수집한 데이터를 전처리 합니다.
* keyword
    * rename column
    * .map(lambda x : x)
    * text data
        * str.contains()
        * str.replace()
        * str.split("구분자", expand=True)
        * str[:]

## 데이터 로드와 요약

In [1]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy라이브러리를 로드합니다.
import pandas as pd
import numpy as np

In [2]:
# 이전 실습에서 저장한 파일명을 file_name에 적어주세요.
file_name = "eft_2021-01-08_raw.csv"
file_name

'eft_2021-01-08_raw.csv'

In [3]:
# 이전 수업에서 수집해서 저장해둔 csv 파일을 읽어옵니다.
# itemcode 숫자 앞의 0 이 지워진다면 dtype={"itemcode": np.object} 로 타입을 지정해 주면 문자형태로 읽어옵니다.
df = pd.read_csv(file_name, dtype={"itemcode":np.object})
df.shape

(468, 12)

In [4]:
# 인덱스 번호 상단 5개의 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,43535,2,1835,4.4,43514.0,31.3427,10062117,430815,65172
1,102110,1,TIGER 200,43495,2,1855,4.45,43491.0,31.2777,1250320,53479,32230
2,153130,6,KODEX 단기채권,102645,5,-5,0.0,102647.0,0.1463,22326,2291,19934
3,310970,1,TIGER MSCI Korea TR,17600,2,720,4.27,17687.0,32.2884,271086,4704,18850
4,278540,1,KODEX MSCI Korea TR,14010,2,565,4.2,14087.0,32.7245,603229,8319,18675


In [5]:
# 인덱스 하단의 5개 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.tail()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
463,309170,2,ARIRANG KRX300IT,20530,2,805,4.08,20550.0,39.4978,508,10,29
464,285020,2,KBSTAR 200철강소재,7815,2,30,0.39,7854.0,39.7666,13524,106,28
465,334700,5,KBSTAR 팔라듐선물인버스(H),5110,2,40,0.79,,-4.1588,793,4,26
466,284980,2,KBSTAR 200금융,8265,5,-10,-0.12,8310.0,23.2315,4196,34,25
467,267500,4,KBSTAR 미국장기국채선물인버스2X(합성 H),6030,2,75,1.26,,6.912,7617,45,21


In [6]:
# info를 통해서 각 column들의 데이터타입과 결측치, 메모리 사용량 등을 볼 수 있습니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 468 entries, 0 to 467
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   itemcode            468 non-null    object 
 1   etfTabCode          468 non-null    int64  
 2   itemname            468 non-null    object 
 3   nowVal              468 non-null    int64  
 4   risefall            468 non-null    int64  
 5   changeVal           468 non-null    int64  
 6   changeRate          468 non-null    float64
 7   nav                 341 non-null    float64
 8   threeMonthEarnRate  447 non-null    float64
 9   quant               468 non-null    int64  
 10  amonut              468 non-null    int64  
 11  marketSum           468 non-null    int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 44.0+ KB


* 웹사이트의 ETF 정보와 비교하며 어떤 컬럼이 어떤 값인지 확인합니다. 
* https://finance.naver.com/sise/etf.nhn 

In [7]:
# https://finance.naver.com/sise/etf.nhn 에서 값을 비교해보면 quant는 거래량임을 알 수 있습니다.
# 거래량(quant) 기준으로 내림차순으로 정렬하여 상위 10개의 데이터를 봅니다.
df.sort_values("quant", ascending=False).head(10)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
7,252670,3,KODEX 200선물인버스2X,2055,5,-190,-8.46,2052.0,-43.8048,410373699,872450,16806
15,114800,3,KODEX 인버스,3860,5,-170,-4.22,3859.0,-24.6729,104693211,411155,8766
5,122630,3,KODEX 레버리지,28545,2,2280,8.68,28674.0,70.6627,74752179,2063208,16899
24,251340,3,KODEX 코스닥150선물인버스,4370,5,-15,-0.34,4381.0,-15.5106,28336708,124105,4615
11,233740,1,KODEX 코스닥150 레버리지,17060,2,130,0.77,17226.0,30.0307,23003221,392002,12403
79,252710,3,TIGER 200선물인버스2X,2125,5,-200,-8.6,2125.0,-43.6364,16077137,35413,975
0,69500,1,KODEX 200,43535,2,1835,4.4,43514.0,31.3427,10062117,430815,65172
28,305720,2,KODEX 2차전지산업,18865,2,580,3.17,18890.0,50.8041,9611162,181172,4414
64,267770,3,TIGER 200선물레버리지,21435,2,1755,8.92,21350.0,70.1686,5123947,106376,1372
34,364980,2,TIGER KRX2차전지K-뉴딜,17195,2,675,4.09,17186.0,55.5555,4836204,83067,3791


In [8]:
# etfTabCode column의 데이터 구성을 살펴봅니다.
# 추후 알게되겠지만 etfTabCode는 해당 사이트에서 
# 전체(0), 국내 시장지수(1), 국내 업종/테마(2), 국내 파생(3) ~
# 해외 주식(4), 원자재(5), 채권(6), 기타(7)로 자료가 구분되어 있습니다.
df["etfTabCode"].value_counts().sort_index()

1     64
2    174
3     31
4     97
5     14
6     55
7     33
Name: etfTabCode, dtype: int64

In [9]:
# pandas 의 boolean Indexing을 사용해서
# 국내 시장지수(etfTabCode == 1)의 데이터들만 확인하여 봅니다.
# 조건문의 결과가 Index와  True, False 로 나오기 때문에 boolean Indexing 이라 부릅니다.
df[df["etfTabCode"] == 1]

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,069500,1,KODEX 200,43535,2,1835,4.40,43514.0,31.3427,10062117,430815,65172
1,102110,1,TIGER 200,43495,2,1855,4.45,43491.0,31.2777,1250320,53479,32230
3,310970,1,TIGER MSCI Korea TR,17600,2,720,4.27,17687.0,32.2884,271086,4704,18850
4,278540,1,KODEX MSCI Korea TR,14010,2,565,4.20,14087.0,32.7245,603229,8319,18675
8,278530,1,KODEX 200TR,13975,2,575,4.29,13996.0,31.5014,624668,8585,16728
...,...,...,...,...,...,...,...,...,...,...,...,...
397,295820,1,ARIRANG 200동일가중,10735,2,80,0.75,10761.0,23.8233,246,2,64
406,226980,1,KODEX 200 중소형,12390,2,55,0.45,12398.0,28.0228,5234,64,62
435,275750,1,KBSTAR 코스닥150선물인버스,4600,5,-10,-0.22,4604.0,-15.1794,11320,52,48
436,291610,1,KOSEF 코스닥150선물,9980,2,40,0.40,9962.0,15.7159,105,1,48


## 데이터 전처리
### etfTabName 만들기

In [10]:
# etf name을 구분하기 위한 list를 만듭니다.
# """ 를 이용해 \n을 포함하는 string을 만들고 split으로 나누어서 list를 간편히 만들수 있습니다.
eftcode = """전체
국내 시장지수
국내 업종/테마
국내 파생
해외 주식
원자재
채권
기타"""
eftcode

'전체\n국내 시장지수\n국내 업종/테마\n국내 파생\n해외 주식\n원자재\n채권\n기타'

In [11]:
# split으로 나누어 list형 데이터를 만듭니다.
etf_tab_name = eftcode.split("\n")
etf_tab_name

['전체', '국내 시장지수', '국내 업종/테마', '국내 파생', '해외 주식', '원자재', '채권', '기타']

In [12]:
def find_eft_tab_name(no):
    return etf_tab_name[no]

find_eft_tab_name(2)

'국내 업종/테마'

In [13]:
# etfTabName 이름이 직관적이지 않기 때문에 한글로 변경해 줍니다.
# map과 lambda 함수를 이용하여 eftTabCode column들의 각 cell의 내용에 따라
# etf_tab_name list의 원소값에 따라 이름을 만들어 주고 etfTabName 이라는 새로운 컬럼을 생성합니다.
# 즉 etfTabCode 숫자 -> list의 원소 인덱스로 한글 이름을 매핑해 줍니다. -> etfTabName에 한글로 저장
df["etfTabName"] = df["etfTabCode"].map(lambda x : etf_tab_name[x])

In [None]:
# etfTabName column이 제대로 만들어졌는지 확인합니다.
df.loc[df["etfTabCode"] == 3, ["itemname", "etfTabName"]].head()

* map : 
    * Series에서만 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#applying-elementwise-functions)

* apply :
    * Series와 DataFrame 둘 다 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#row-or-column-wise-function-application)

### 컬럼명 변경하기

In [16]:
"""종목명
현재가
전일비
등락률
NAV
3개월수익률
거래량
거래대금(백만)
시가총액(억)
"""

'종목명\n현재가\n전일비\n등락률\nNAV\n3개월수익률\n거래량\n거래대금(백만)\n시가총액(억)\n'

In [19]:
# DataFrame df의 column 이름을 list로 만들어서 cols 라는 변수에 담습니다.
cols = df.columns.tolist()
cols

['itemcode',
 'etfTabCode',
 'itemname',
 'nowVal',
 'risefall',
 'changeVal',
 'changeRate',
 'nav',
 'threeMonthEarnRate',
 'quant',
 'amonut',
 'marketSum',
 'etfTabName']

In [22]:
# 영어로 되어있는 column 이름을 한글로 바꾸기 위한 list를 만듭니다.
# 빠진 column이 있는지 리스트와 길이를 확인합니다.
col_name = """종목코드
탭코드
종목명
현재가
등락구분
전일비
등락률
순자산가치(NAV)
3개월수익률
거래량
거래대금(백만)
시가총액(억)
유형"""
col_name = col_name.split("\n")

In [27]:
# 컬럼 영문명과 한글명을 딕셔너리 형태로 만들어 비교해 볼 수도 있습니다.
# 하지만 좀 더 간단하게 여기에서는 리스트 값을 그대로 컬럼에 넣어주는 방법을 사용할거에요.
# 딕셔너리로 키-값 쌍을 만들어 컬럼의 키와 값이 잘 매치되었는지 확인해 봅니다.
dict(zip(cols, col_name))

{'itemcode': '종목코드',
 'etfTabCode': '탭코드',
 'itemname': '종목명',
 'nowVal': '현재가',
 'risefall': '등락구분',
 'changeVal': '전일비',
 'changeRate': '등락률',
 'nav': '순자산가치(NAV)',
 'threeMonthEarnRate': '3개월수익률',
 'quant': '거래량',
 'amonut': '거래대금(백만)',
 'marketSum': '시가총액(억)',
 'etfTabName': '유형'}

In [32]:
# 기존의 데이터프레임 컬럼명에 위에서 만든 컬럼명을 할당연산자로 대입해 주면 컬럼명이 변경됩니다.
# 컬럼 변경 후 한글로 컬럼명이 잘 변경되었는지 확인해 봅니다.
df.columns = col_name
df.columns

Index(['종목코드', '탭코드', '종목명', '현재가', '등락구분', '전일비', '등락률', '순자산가치(NAV)',
       '3개월수익률', '거래량', '거래대금(백만)', '시가총액(억)', '유형'],
      dtype='object')

### 파생변수 만들기
* 브랜드, 인버스, 레버리지, 환헤지H 변수 만들기
* [Working with text data — pandas documentation](https://pandas.pydata.org/docs/user_guide/text.html)

In [37]:
"KODEX 200".split(" ")[0]

'KODEX'

In [42]:
# 종목명 column의 데이터를 space(" ")를 이용해 나누고 제일 앞부분[0]을 새로운 column을 만들어 저장하고 확인합니다.
# expand = True 옵션을 사용하면 문자열을 나눈 값을 인덱스 순서대로 가져와서 사용할 수 있습니다.
df["브랜드"] = df["종목명"].str.split(" ", expand=True)[0]
df[["종목명", "브랜드"]].head()

Unnamed: 0,종목명,브랜드
0,KODEX 200,KODEX
1,TIGER 200,TIGER
2,KODEX 단기채권,KODEX
3,TIGER MSCI Korea TR,TIGER
4,KODEX MSCI Korea TR,KODEX


In [43]:
df["브랜드"].unique()

array(['KODEX', 'TIGER', 'KBSTAR', 'ARIRANG', 'KINDEX', 'KOSEF', 'HANARO',
       'SMART', 'TREX', '파워', 'FOCUS', 'KTOP', '마이티', '마이다스', '흥국'],
      dtype=object)

* 종목명 column의 내용중이 '인버스'라는 단어가 있으면 새로운 column '인버스'에 True 값이 들어가게 됩니다.
* contains는 bool type을 반환하기 때문에 새로운 column에는 True나 False가 들어가게 됩니다.
* 마찬가지로 '레버리지'와 '환헤지H'에 대해서도 동일하게 만들어 줍니다. 
* H라는 단어가 종목명에 들어갈 수도 있기 때문에 H뒤에 닫는 소괄호")"까지 확인합니다.
* 소괄호는 정규표현식에서 의미를 가지는 문자이기 때문에 문자 그대로 읽어오기 위해서는 "\"로 전처리가 필요합니다.

In [46]:
# 인버스ETF는 지수가 하락하면 오히려 수익률이 오르도록 설계된 상품입니다.
df["인버스"] = df["종목명"].str.contains("인버스")
df["인버스"].value_counts()

False    424
True      44
Name: 인버스, dtype: int64

레버리지(leverage)는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높이는 것이다. 고정비용이 있을 때 매출액의 변화가 기업의 손익에 미치는 영향을 분석하는 데에 쓰인다. 이는 고정영업비용과 고정재무비용의 부담정도에 따라 기업에게 귀속되는 최종적인 주당이익에 어떤 영향을 미치는지 분석할 수 있게 한다.

* 출처 : [레버리지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80)

In [52]:
df["레버리지"] = df["종목명"].str.contains("레버리지")
df["레버리지"].value_counts(normalize=True) * 100

False    92.735043
True      7.264957
Name: 레버리지, dtype: float64

헤지(hedge)란 환율, 금리 또는 다른 자산에 대한 투자등을 통해 보유하고 있는 위험자산의 가격변동을 제거하는 것을 말한다. 즉, 확정되지 않은 자산을 확정된 자산으로 편입하는 과정이라 할 수 있으며, 주로 선물 옵션과 같은 파생상품을 이용한다. 이를 통해 체계적 위험을 제거할 수 있다.

부(wealth)를 결정하는 변수값의 변화와 관계없이 항상 일정한 부를 유지하게 하는 헤지를 완전헤지라고 하고, 그렇지 못한 것을 불완전헤지라고 한다.
* 출처 : [헤지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%ED%97%A4%EC%A7%80)

In [58]:
# (H)의 의미는 환율변동 위험을 막기 위해 Hedge를 한다는 뜻입니다.
df["환헤지H"] = df["종목명"].str.endswith("H)")
df[["종목명", "환헤지H"]].tail(5)

Unnamed: 0,종목명,환헤지H
463,ARIRANG KRX300IT,False
464,KBSTAR 200철강소재,False
465,KBSTAR 팔라듐선물인버스(H),True
466,KBSTAR 200금융,False
467,KBSTAR 미국장기국채선물인버스2X(합성 H),True


### 전처리가 잘 되었는지 확인하기

In [61]:
# 등락구분에 있는 값의 빈도수를 세어봅니다.
df["등락구분"].value_counts()

2    339
5    106
3     23
Name: 등락구분, dtype: int64

In [62]:
# 전체적으로 데이터 전처리가 끝났다면 info를 통해 데이터 요약정보 보기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 468 entries, 0 to 467
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   종목코드        468 non-null    object 
 1   탭코드         468 non-null    int64  
 2   종목명         468 non-null    object 
 3   현재가         468 non-null    int64  
 4   등락구분        468 non-null    int64  
 5   전일비         468 non-null    int64  
 6   등락률         468 non-null    float64
 7   순자산가치(NAV)  341 non-null    float64
 8   3개월수익률      447 non-null    float64
 9   거래량         468 non-null    int64  
 10  거래대금(백만)    468 non-null    int64  
 11  시가총액(억)     468 non-null    int64  
 12  유형          468 non-null    object 
 13  브랜드         468 non-null    object 
 14  인버스         468 non-null    bool   
 15  레버리지        468 non-null    bool   
 16  환헤지H        468 non-null    bool   
dtypes: bool(3), float64(3), int64(7), object(4)
memory usage: 52.7+ KB


## 파일로 저장하기

In [65]:
# 기존에 불러왔던 파일명에서 _raw를 제거하고 새로운 파일명으로 저장합니다.
save_file_name = file_name.replace("_raw", "")
save_file_name

'eft_2021-01-08.csv'

In [73]:
# pandas의 to_csv로 파일을 저장합니다.
# index=False로 인덱스값은 저장하지 않습니다.
df.to_csv(save_file_name, index=False)

In [74]:
# 저장한 파일을 읽어와서 제대로 저장되었는지 확인합니다.
# 또, 종목코드는 그냥 읽어오면 숫자 맨 앞의 0이 생략될 수 있으니 object 타입으로 불러옵니다.
pd.read_csv(save_file_name, dtype={"종목코드":np.object})

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형,브랜드,인버스,레버리지,환헤지H
0,069500,1,KODEX 200,43535,2,1835,4.40,43514.0,31.3427,10062117,430815,65172,국내 시장지수,KODEX,False,False,False
1,102110,1,TIGER 200,43495,2,1855,4.45,43491.0,31.2777,1250320,53479,32230,국내 시장지수,TIGER,False,False,False
2,153130,6,KODEX 단기채권,102645,5,-5,0.00,102647.0,0.1463,22326,2291,19934,채권,KODEX,False,False,False
3,310970,1,TIGER MSCI Korea TR,17600,2,720,4.27,17687.0,32.2884,271086,4704,18850,국내 시장지수,TIGER,False,False,False
4,278540,1,KODEX MSCI Korea TR,14010,2,565,4.20,14087.0,32.7245,603229,8319,18675,국내 시장지수,KODEX,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
463,309170,2,ARIRANG KRX300IT,20530,2,805,4.08,20550.0,39.4978,508,10,29,국내 업종/테마,ARIRANG,False,False,False
464,285020,2,KBSTAR 200철강소재,7815,2,30,0.39,7854.0,39.7666,13524,106,28,국내 업종/테마,KBSTAR,False,False,False
465,334700,5,KBSTAR 팔라듐선물인버스(H),5110,2,40,0.79,,-4.1588,793,4,26,원자재,KBSTAR,True,False,True
466,284980,2,KBSTAR 200금융,8265,5,-10,-0.12,8310.0,23.2315,4196,34,25,국내 업종/테마,KBSTAR,False,False,False
