[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/4.2%20ETF%20%EC%A0%84%EC%B2%98%EB%A6%AC-input.ipynb)

* [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn) 에서 수집한 데이터를 전처리 합니다.
* keyword
    * rename column
    * .map(lambda x : x)
    * text data
        * str.contains()
        * str.replace()
        * str.split("구분자", expand=True)
        * str[:]

## 데이터 로드와 요약

In [1]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy라이브러리를 로드
import pandas as pd
import numpy as np

In [2]:
# 이전 실습에서 저장한 파일명을 file_name에 기재
file_name = "eft_2024-05-08_raw.csv"
file_name

'eft_2024-05-08_raw.csv'

In [3]:
# 저장해둔 csv 파일을 읽어오기
# itemcode 숫자 앞의 0 이 지워진다면 dtype={"itemcode": np.object} 로 타입을 지정해 주면 문자형태로 읽어오기
df = pd.read_csv(file_name, dtype={"itemcode":np.object})
df.shape

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  df = pd.read_csv(file_name, dtype={"itemcode":np.object})


(856, 12)

In [4]:
# 인덱스 번호 상단 5개의 데이터를 가져오기
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,459580,6,KODEX CD금리액티브(합성),1035155,2,100,0.01,1035156.0,0.884,344339,356445,83168
1,357870,6,TIGER CD금리투자KIS(합성),54265,2,5,0.01,54258.0,0.8456,132995,7216,73403
2,69500,1,KODEX 200,37460,2,130,0.35,37556.0,6.584,1895070,70864,63813
3,423160,6,KODEX KOFR금리액티브(합성),106685,3,0,0.0,106678.0,0.8841,609048,64976,52336
4,449170,6,TIGER KOFR금리액티브(합성),105225,2,10,0.01,105221.0,0.8869,42740,4497,37320


In [5]:
# 인덱스 하단의 5개 데이터 읽어오기
df.tail()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
851,412560,2,TIGER BBIG레버리지,2210,2,25,1.14,2226.0,-0.9071,4169,9,19
852,252730,2,KBSTAR 모멘텀로우볼,16285,2,75,0.46,16300.0,6.8204,12,0,16
853,287330,2,KBSTAR 200생활소비재,6415,5,-5,-0.08,6415.0,8.2995,2140,13,14
854,315480,2,KBSTAR 200커뮤니케이션서비스,10965,2,25,0.23,10969.0,-1.9011,119,1,13
855,287320,2,KBSTAR 200산업재,12495,2,125,1.01,12504.0,8.0443,149,1,10


In [6]:
# info를 통해서 각 column들의 데이터타입과 결측치, 메모리 사용량 등을 조회
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 856 entries, 0 to 855
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   itemcode            856 non-null    object 
 1   etfTabCode          856 non-null    int64  
 2   itemname            856 non-null    object 
 3   nowVal              856 non-null    int64  
 4   risefall            856 non-null    int64  
 5   changeVal           856 non-null    int64  
 6   changeRate          856 non-null    float64
 7   nav                 856 non-null    float64
 8   threeMonthEarnRate  822 non-null    float64
 9   quant               856 non-null    int64  
 10  amonut              856 non-null    int64  
 11  marketSum           856 non-null    int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 80.4+ KB


* 웹사이트의 ETF 정보와 비교하며 어떤 컬럼이 어떤 값인지 확인합니다. 
* https://finance.naver.com/sise/etf.nhn 

In [7]:
# https://finance.naver.com/sise/etf.nhn 에서 값을 비교해보면 quant는 거래량임을 알 수 있음
# 거래량(quant) 기준으로 내림차순으로 정렬하여 상위 10개의 데이터 보기
df.sort_values("quant", ascending=False).head(10)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
16,252670,3,KODEX 200선물인버스2X,1991,5,-14,-0.7,1992.0,-12.0615,147938145,295905,13407
52,114800,3,KODEX 인버스,4110,5,-10,-0.24,4106.0,-5.5046,20893689,85987,5766
69,251340,3,KODEX 코스닥150선물인버스,3405,5,-5,-0.15,3422.0,-12.2266,20703658,71040,3943
28,233740,3,KODEX 코스닥150레버리지,11830,2,20,0.17,11925.0,25.1059,16371002,191048,10955
11,122630,3,KODEX 레버리지,19955,2,150,0.76,20174.0,10.9213,10526173,209148,21561
31,229200,1,KODEX 코스닥150,14310,2,20,0.14,14377.0,12.4577,4109473,58396,9022
173,228790,2,TIGER 화장품,2815,5,-15,-0.53,2832.0,19.3086,3298164,9344,1268
147,466920,2,SOL 조선TOP3플러스,10835,2,15,0.14,10827.0,22.8149,2620806,28339,1614
49,371160,4,TIGER 차이나항셍테크,5850,5,-40,-0.68,5844.0,26.803,2169851,12844,6122
2,69500,1,KODEX 200,37460,2,130,0.35,37556.0,6.584,1895070,70864,63813


In [8]:
# etfTabCode column의 데이터 구성을 살펴보기
# 전체(0), 국내 시장지수(1), 국내 업종/테마(2), 국내 파생(3) ~
# 해외 주식(4), 원자재(5), 채권(6), 기타(7)로 자료가 구분
df["etfTabCode"].value_counts().sort_index()

1     77
2    251
3     37
4    244
5     18
6    154
7     75
Name: etfTabCode, dtype: int64

In [9]:
# pandas 의 boolean Indexing을 사용해서 국내 시장지수(etfTabCode == 1)의 데이터들만 확인
# 조건문의 결과가 Index와  True, False 로 나오기 때문에 boolean Indexing
df[df["etfTabCode"] == 1]

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
2,069500,1,KODEX 200,37460,2,130,0.35,37556.0,6.5840,1895070,70864,63813
10,102110,1,TIGER 200,37525,2,130,0.35,37620.0,6.5263,827801,31001,23153
12,278530,1,KODEX 200TR,13030,2,55,0.42,13060.0,6.3960,191363,2486,21519
18,148020,1,KBSTAR 200,37715,2,140,0.37,37802.0,6.5473,162115,6099,12842
26,310970,1,TIGER MSCI Korea TR,16035,2,75,0.47,16064.0,6.6132,5115,81,11401
...,...,...,...,...,...,...,...,...,...,...,...,...
776,292750,1,ARIRANG KRX300,17805,2,30,0.17,17874.0,7.3045,22,0,53
790,391670,1,HK 베스트일레븐액티브,9665,3,0,0.00,9729.0,9.7671,0,0,48
791,433250,1,UNICORN R&D 액티브,12060,2,35,0.29,12066.0,5.7142,7,0,48
795,391680,1,HK 하이볼액티브,8505,3,0,0.00,8577.0,6.0473,0,0,47


## 데이터 전처리
### etfTabName 만들기

In [11]:
# etf name을 구분하기 위한 list를 만들기
# """ 를 이용해 \n을 포함하는 string을 만들고 split으로 나누어서 list를 간편히 만들 수 있음
eftcode = """전체
국내 시장지수
국내 업종/테마
국내 파생
해외 주식
원자재
채권
기타"""
eftcode

'전체\n국내 시장지수\n국내 업종/테마\n국내 파생\n해외 주식\n원자재\n채권\n기타'

In [13]:
# split으로 나누어 list형 데이터를 만들기
etf_tab_name = eftcode.split("\n")
etf_tab_name

['전체', '국내 시장지수', '국내 업종/테마', '국내 파생', '해외 주식', '원자재', '채권', '기타']

In [14]:
def find_eft_tab_name(no):
    return etf_tab_name[no]

find_eft_tab_name(2)

'국내 업종/테마'

In [15]:
# etfTabName 이름이 직관적이지 않기 때문에 한글로 변경
# map과 lambda 함수를 이용하여 eftTabCode column들의 각 cell의 내용에 따라
# etf_tab_name list의 원소값에 따라 이름을 만들어 주고 etfTabName 이라는 새로운 컬럼을 생성
# 즉 etfTabCode 숫자 -> list의 원소 인덱스로 한글 이름을 매핑해 줍니다. -> etfTabName에 한글로 저장
df["etfTabName"] = df["etfTabCode"].map(lambda x : etf_tab_name[x])

In [16]:
df

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum,etfTabName
0,459580,6,KODEX CD금리액티브(합성),1035155,2,100,0.01,1035156.0,0.8840,344339,356445,83168,채권
1,357870,6,TIGER CD금리투자KIS(합성),54265,2,5,0.01,54258.0,0.8456,132995,7216,73403,채권
2,069500,1,KODEX 200,37460,2,130,0.35,37556.0,6.5840,1895070,70864,63813,국내 시장지수
3,423160,6,KODEX KOFR금리액티브(합성),106685,3,0,0.00,106678.0,0.8841,609048,64976,52336,채권
4,449170,6,TIGER KOFR금리액티브(합성),105225,2,10,0.01,105221.0,0.8869,42740,4497,37320,채권
...,...,...,...,...,...,...,...,...,...,...,...,...,...
851,412560,2,TIGER BBIG레버리지,2210,2,25,1.14,2226.0,-0.9071,4169,9,19,국내 업종/테마
852,252730,2,KBSTAR 모멘텀로우볼,16285,2,75,0.46,16300.0,6.8204,12,0,16,국내 업종/테마
853,287330,2,KBSTAR 200생활소비재,6415,5,-5,-0.08,6415.0,8.2995,2140,13,14,국내 업종/테마
854,315480,2,KBSTAR 200커뮤니케이션서비스,10965,2,25,0.23,10969.0,-1.9011,119,1,13,국내 업종/테마


In [17]:
# etfTabName column이 제대로 만들어졌는지 확인
df.loc[df["etfTabCode"] == 3, ["itemname", "etfTabName"]].head()

Unnamed: 0,itemname,etfTabName
11,KODEX 레버리지,국내 파생
16,KODEX 200선물인버스2X,국내 파생
28,KODEX 코스닥150레버리지,국내 파생
52,KODEX 인버스,국내 파생
69,KODEX 코스닥150선물인버스,국내 파생


* map : 
    * Series에서만 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#applying-elementwise-functions)

* apply :
    * Series와 DataFrame 둘 다 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#row-or-column-wise-function-application)

### 컬럼명 변경하기

In [18]:
"""종목명
현재가
전일비
등락률
NAV
3개월수익률
거래량
거래대금(백만)
시가총액(억)
"""

'종목명\n현재가\n전일비\n등락률\nNAV\n3개월수익률\n거래량\n거래대금(백만)\n시가총액(억)\n'

In [19]:
# DataFrame df의 column 이름을 list로 만들어서 cols 라는 변수에 담기
cols = df.columns.tolist()
cols

['itemcode',
 'etfTabCode',
 'itemname',
 'nowVal',
 'risefall',
 'changeVal',
 'changeRate',
 'nav',
 'threeMonthEarnRate',
 'quant',
 'amonut',
 'marketSum',
 'etfTabName']

In [21]:
# 영어로 되어있는 column 이름을 한글로 바꾸기 위한 list
# 빠진 column이 있는지 리스트와 길이를 확인
col_name = """종목코드
탭코드
종목명
현재가
등락구분
전일비
등락률
순자산가치(NAV)
3개월수익률
거래량
거래대금(백만)
시가총액(억)
유형"""
col_name = col_name.split("\n")
col_name

['종목코드',
 '탭코드',
 '종목명',
 '현재가',
 '등락구분',
 '전일비',
 '등락률',
 '순자산가치(NAV)',
 '3개월수익률',
 '거래량',
 '거래대금(백만)',
 '시가총액(억)',
 '유형']

In [22]:
# 컬럼 영문명과 한글명을 딕셔너리 형태로 만들어 비교해 볼 수도 있음
# 딕셔너리로 키-값 쌍을 만들어 컬럼의 키와 값이 잘 매치되었는지 확인
dict(zip(cols, col_name))

{'itemcode': '종목코드',
 'etfTabCode': '탭코드',
 'itemname': '종목명',
 'nowVal': '현재가',
 'risefall': '등락구분',
 'changeVal': '전일비',
 'changeRate': '등락률',
 'nav': '순자산가치(NAV)',
 'threeMonthEarnRate': '3개월수익률',
 'quant': '거래량',
 'amonut': '거래대금(백만)',
 'marketSum': '시가총액(억)',
 'etfTabName': '유형'}

In [23]:
# 기존의 데이터프레임 컬럼명에 위에서 만든 컬럼명을 할당연산자로 대입해 주면 컬럼명이 변경
# 컬럼 변경 후 한글로 컬럼명이 잘 변경되었는지 확인
df.columns = col_name
df.columns

Index(['종목코드', '탭코드', '종목명', '현재가', '등락구분', '전일비', '등락률', '순자산가치(NAV)',
       '3개월수익률', '거래량', '거래대금(백만)', '시가총액(억)', '유형'],
      dtype='object')

### 파생변수 만들기
* 브랜드, 인버스, 레버리지, 환헤지H 변수 만들기
* [Working with text data — pandas documentation](https://pandas.pydata.org/docs/user_guide/text.html)

In [25]:
# 종목명 column의 데이터를 space(" ")를 이용해 나누고 제일 앞부분[0]을 새로운 column을 만들어 저장
# expand = True 옵션을 사용하면 문자열을 나눈 값을 인덱스 순서대로 가져와서 사용할 수 있음
# df["브랜드"]
df["브랜드"] = df["종목명"].str.split(" ", expand=True)[0]
df[["브랜드", "종목명"]].head()

Unnamed: 0,브랜드,종목명
0,KODEX,KODEX CD금리액티브(합성)
1,TIGER,TIGER CD금리투자KIS(합성)
2,KODEX,KODEX 200
3,KODEX,KODEX KOFR금리액티브(합성)
4,TIGER,TIGER KOFR금리액티브(합성)


In [24]:
"KODEX 200".split()[0]

'KODEX'

* 종목명 column의 내용중이 '인버스'라는 단어가 있으면 새로운 column '인버스'에 True 값이 들어가게 됩니다.
* contains는 bool type을 반환하기 때문에 새로운 column에는 True나 False가 들어가게 됩니다.
* 마찬가지로 '레버리지'와 '환헤지H'에 대해서도 동일하게 만들어 줍니다. 
* H라는 단어가 종목명에 들어갈 수도 있기 때문에 H뒤에 닫는 소괄호")"까지 확인합니다.
* 소괄호는 정규표현식에서 의미를 가지는 문자이기 때문에 문자 그대로 읽어오기 위해서는 "\"로 전처리가 필요합니다.

In [26]:
# 인버스ETF는 지수가 하락하면 오히려 수익률이 오르도록 설계된 상품
df["인버스"] = df["종목명"].str.contains("인버스")
df["인버스"].value_counts(normalize=True) * 100

False    94.626168
True      5.373832
Name: 인버스, dtype: float64

레버리지(leverage)는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높이는 것이다. 고정비용이 있을 때 매출액의 변화가 기업의 손익에 미치는 영향을 분석하는 데에 쓰인다. 이는 고정영업비용과 고정재무비용의 부담정도에 따라 기업에게 귀속되는 최종적인 주당이익에 어떤 영향을 미치는지 분석할 수 있게 한다.

* 출처 : [레버리지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80)

In [27]:
df["레버리지"] = df["종목명"].str.contains("레버리지")
df["레버리지"].value_counts(normalize=True) * 100

False    94.742991
True      5.257009
Name: 레버리지, dtype: float64

헤지(hedge)란 환율, 금리 또는 다른 자산에 대한 투자등을 통해 보유하고 있는 위험자산의 가격변동을 제거하는 것을 말한다. 즉, 확정되지 않은 자산을 확정된 자산으로 편입하는 과정이라 할 수 있으며, 주로 선물 옵션과 같은 파생상품을 이용한다. 이를 통해 체계적 위험을 제거할 수 있다.

부(wealth)를 결정하는 변수값의 변화와 관계없이 항상 일정한 부를 유지하게 하는 헤지를 완전헤지라고 하고, 그렇지 못한 것을 불완전헤지라고 한다.
* 출처 : [헤지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%ED%97%A4%EC%A7%80)

In [28]:
# (H)의 의미는 환율변동 위험을 막기 위해 Hedge를 한다는 의미
df["환헤지H"] = df["종목명"].str.endswith("H)")
df.loc[df["환헤지H"] == True, ["종목명", "환헤지H"]].head()

Unnamed: 0,종목명,환헤지H
25,ACE 미국30년국채액티브(H),True
55,KODEX 미국빅테크10(H),True
70,TIGER 미국30년국채스트립액티브(합성 H),True
91,KODEX 미국30년국채울트라선물(H),True
93,TIGER 미국30년국채프리미엄액티브(H),True


### 전처리가 잘 되었는지 확인하기

In [29]:
# 등락구분에 있는 값의 빈도수를 count
df["등락구분"].value_counts()

2    571
5    234
3     51
Name: 등락구분, dtype: int64

In [30]:
# 전체적으로 데이터 전처리가 끝났다면 info를 통해 데이터 요약정보 보기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 856 entries, 0 to 855
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   종목코드        856 non-null    object 
 1   탭코드         856 non-null    int64  
 2   종목명         856 non-null    object 
 3   현재가         856 non-null    int64  
 4   등락구분        856 non-null    int64  
 5   전일비         856 non-null    int64  
 6   등락률         856 non-null    float64
 7   순자산가치(NAV)  856 non-null    float64
 8   3개월수익률      822 non-null    float64
 9   거래량         856 non-null    int64  
 10  거래대금(백만)    856 non-null    int64  
 11  시가총액(억)     856 non-null    int64  
 12  유형          856 non-null    object 
 13  브랜드         856 non-null    object 
 14  인버스         856 non-null    bool   
 15  레버리지        856 non-null    bool   
 16  환헤지H        856 non-null    bool   
dtypes: bool(3), float64(3), int64(7), object(4)
memory usage: 96.3+ KB


## 파일로 저장하기

In [31]:
# 기존에 불러왔던 파일명에서 _raw를 제거하고 새로운 파일명으로 저장
save_file_name = file_name.replace("_raw", "")
save_file_name

'eft_2024-05-08.csv'

In [32]:
# pandas의 to_csv로 파일을 저장
# index=False로 인덱스값은 저장하지 않음
df.to_csv(save_file_name, index=False)

In [33]:
# 저장한 파일을 읽어와서 제대로 저장되었는지 확인
# 또, 종목코드는 그냥 읽어오면 숫자 맨 앞의 0이 생략될 수 있으니 object 타입으로 불러오기
pd.read_csv(save_file_name)

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형,브랜드,인버스,레버리지,환헤지H
0,459580,6,KODEX CD금리액티브(합성),1035155,2,100,0.01,1035156.0,0.8840,344339,356445,83168,채권,KODEX,False,False,False
1,357870,6,TIGER CD금리투자KIS(합성),54265,2,5,0.01,54258.0,0.8456,132995,7216,73403,채권,TIGER,False,False,False
2,69500,1,KODEX 200,37460,2,130,0.35,37556.0,6.5840,1895070,70864,63813,국내 시장지수,KODEX,False,False,False
3,423160,6,KODEX KOFR금리액티브(합성),106685,3,0,0.00,106678.0,0.8841,609048,64976,52336,채권,KODEX,False,False,False
4,449170,6,TIGER KOFR금리액티브(합성),105225,2,10,0.01,105221.0,0.8869,42740,4497,37320,채권,TIGER,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
851,412560,2,TIGER BBIG레버리지,2210,2,25,1.14,2226.0,-0.9071,4169,9,19,국내 업종/테마,TIGER,False,True,False
852,252730,2,KBSTAR 모멘텀로우볼,16285,2,75,0.46,16300.0,6.8204,12,0,16,국내 업종/테마,KBSTAR,False,False,False
853,287330,2,KBSTAR 200생활소비재,6415,5,-5,-0.08,6415.0,8.2995,2140,13,14,국내 업종/테마,KBSTAR,False,False,False
854,315480,2,KBSTAR 200커뮤니케이션서비스,10965,2,25,0.23,10969.0,-1.9011,119,1,13,국내 업종/테마,KBSTAR,False,False,False
