[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/4.2%20ETF%20%EC%A0%84%EC%B2%98%EB%A6%AC-input.ipynb)

* [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn) 에서 수집한 데이터를 전처리 합니다.
* keyword
    * rename column
    * .map(lambda x : x)
    * text data
        * str.contains()
        * str.replace()
        * str.split("구분자", expand=True)
        * str[:]

## 데이터 로드와 요약

In [1]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy라이브러리를 로드합니다.
import pandas as pd 
import numpy as np

In [4]:
# 이전 실습에서 저장한 파일명을 file_name에 적어주세요.
file_name = "eft_2023-08-02_raw.csv"
file_name

'eft_2023-08-02_raw.csv'

In [12]:
# 이전 수업에서 수집해서 저장해둔 csv 파일을 읽어옵니다.
# itemcode 숫자 앞의 0 이 지워진다면 dtype={"itemcode": np.object} 로 타입을 지정해 주면 문자형태로 읽어옵니다.
df = pd.read_csv(file_name, dtype={"itemcode": object})
df.shape

(748, 12)

In [7]:
# 인덱스 번호 상단 5개의 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,34980,5,-225,-0.64,35044.0,8.1433,570258,19934,61897
1,357870,6,TIGER CD금리투자KIS(합성),52765,2,5,0.01,52764.0,0.9084,54963,2900,51735
2,423160,6,KODEX KOFR금리액티브(합성),103780,2,5,0.0,103767.0,0.9189,43208,4484,35411
3,273130,6,KODEX 종합채권(AA-이상)액티브,104720,5,-385,-0.37,104862.0,-0.4971,631,66,28623
4,371460,4,TIGER 차이나전기차SOLACTIVE,10095,2,65,0.65,10134.0,-9.4357,562877,5669,27580


In [8]:
# 인덱스 하단의 5개 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.tail()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
743,433870,7,ARIRANG TDF2050액티브,10810,5,-35,-0.32,10922.0,2.9425,100,1,19
744,315480,2,KBSTAR 200커뮤니케이션서비스,11180,5,-100,-0.89,11109.0,-1.9557,105,1,13
745,287330,2,KBSTAR 200생활소비재,5795,2,65,1.13,5805.0,-9.0477,704,4,13
746,287320,2,KBSTAR 200산업재,12390,5,-60,-0.48,12575.0,5.2409,11,0,12
747,301440,2,ARIRANG 코스피중형주,10685,5,-60,-0.56,10776.0,5.4982,2,0,11


In [10]:
# info를 통해서 각 column들의 데이터타입과 결측치, 메모리 사용량 등을 볼 수 있습니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   itemcode            748 non-null    object 
 1   etfTabCode          748 non-null    int64  
 2   itemname            748 non-null    object 
 3   nowVal              748 non-null    int64  
 4   risefall            748 non-null    int64  
 5   changeVal           748 non-null    int64  
 6   changeRate          748 non-null    float64
 7   nav                 748 non-null    float64
 8   threeMonthEarnRate  701 non-null    float64
 9   quant               748 non-null    int64  
 10  amonut              748 non-null    int64  
 11  marketSum           748 non-null    int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 70.2+ KB


* 웹사이트의 ETF 정보와 비교하며 어떤 컬럼이 어떤 값인지 확인합니다. 
* https://finance.naver.com/sise/etf.nhn 

In [16]:
# https://finance.naver.com/sise/etf.nhn 에서 값을 비교해보면 quant는 거래량임을 알 수 있습니다.
# 거래량(quant) 기준으로 내림차순으로 정렬하여 상위 10개의 데이터를 봅니다.
df.sort_values("quant", ascending=False).head(10)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
11,252670,3,KODEX 200선물인버스2X,2395,2,35,1.48,2396.0,-14.1819,46930103,112418,17179
21,251340,3,KODEX 코스닥150선물인버스,3440,2,50,1.47,3439.0,-17.4178,41248766,141236,11407
27,233740,3,KODEX 코스닥150레버리지,14315,5,-355,-2.42,14448.0,37.5527,8047242,116237,7716
29,114800,3,KODEX 인버스,4390,2,30,0.69,4394.0,-6.8377,7408341,32548,7279
46,462010,2,TIGER 2차전지소재Fn,12135,5,-205,-1.66,12142.0,,5400704,66064,5625
9,122630,3,KODEX 레버리지,17860,5,-225,-1.24,17982.0,15.3012,5002189,89244,19494
49,196230,6,KBSTAR 단기통안채,108520,2,10,0.01,108522.0,0.8129,1566107,169957,5246
45,229200,1,KODEX 코스닥150,15205,5,-210,-1.36,15283.0,18.8053,1542238,23568,5641
93,190620,6,ACE 단기통안채,102180,3,0,0.0,102185.0,0.8189,1225883,125268,2217
20,305720,2,KODEX 2차전지산업,33010,5,-480,-1.43,33013.0,18.3392,1201560,39918,11653


In [18]:
# etfTabCode column의 데이터 구성을 살펴봅니다.
# 추후 알게되겠지만 etfTabCode는 해당 사이트에서 
# 전체(0), 국내 시장지수(1), 국내 업종/테마(2), 국내 파생(3) ~
# 해외 주식(4), 원자재(5), 채권(6), 기타(7)로 자료가 구분되어 있습니다.
df['etfTabCode'].value_counts().sort_index()

1     74
2    229
3     37
4    206
5     18
6    113
7     71
Name: etfTabCode, dtype: int64

In [22]:
# pandas 의 boolean Indexing을 사용해서
# 국내 시장지수(etfTabCode == 1)의 데이터들만 확인하여 봅니다.
# 조건문의 결과가 Index와  True, False 로 나오기 때문에 boolean Indexing 이라 부릅니다.
df[df["etfTabCode"] == 7]

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
10,448320,7,KODEX 23-12 은행채(AA+이상)액티브,10360,3,0,0.00,10364.0,0.7292,2644,27,19112
94,447780,7,TIGER 23-12 국공채액티브,205620,5,-20,-0.01,205644.0,0.7890,56,11,2154
124,329650,7,KODEX TRF3070,11380,5,-30,-0.26,11413.0,0.7060,9095,103,1514
128,182480,7,TIGER 미국MSCI리츠(합성 H),12360,5,-60,-0.48,12398.0,5.5942,4379,54,1440
129,458210,7,히어로즈 CD금리액티브(합성),100725,3,0,0.00,100700.0,,0,0,1427
...,...,...,...,...,...,...,...,...,...,...,...,...
706,429740,7,ARIRANG K리츠Fn,7050,5,-10,-0.14,7056.0,1.3494,479,3,39
735,433880,7,ARIRANG TDF2060액티브,11210,2,10,0.09,11210.0,3.2258,33,0,24
737,433860,7,ARIRANG TDF2040액티브,10545,5,-30,-0.28,10657.0,0.4273,203,2,22
740,433850,7,ARIRANG TDF2030액티브,10550,5,-5,-0.05,10549.0,1.2955,338,3,21


## 데이터 전처리
### etfTabName 만들기

In [32]:
# etf name을 구분하기 위한 list를 만듭니다.
# """ 를 이용해 \n을 포함하는 string을 만들고 split으로 나누어서 list를 간편히 만들수 있습니다.
etfcode = """전체
국내 시장지수
국내 업종/테마
국내 파생
해외 주식
원자재
채권
기타"""
etfcode

'전체\n국내 시장지수\n국내 업종/테마\n국내 파생\n해외 주식\n원자재\n채권\n기타'

In [33]:
# split으로 나누어 list형 데이터를 만듭니다.
etf_tab_name = eftcode.split('\n')
etf_tab_name

['전체', '국내 시장지수', '국내 업종/테마', '국내 파생', '해외 주식', '원자재', '채권', '기타']

In [34]:
def find_etf_tab_name(no):
    return etf_tab_name[no]

find_etf_tab_name(2)

'국내 업종/테마'

In [46]:
# etfTabName 이름이 직관적이지 않기 때문에 한글로 변경해 줍니다.
# map과 lambda 함수를 이용하여 eftTabCode column들의 각 cell의 내용에 따라
# etf_tab_name list의 원소값에 따라 이름을 만들어 주고 etfTabName 이라는 새로운 컬럼을 생성합니다.
# 즉 etfTabCode 숫자 -> list의 원소 인덱스로 한글 이름을 매핑해 줍니다. -> etfTabName에 한글로 저장
df["etfTabName"] = df["etfTabCode"].map(lambda x: etf_tab_name[x])
# .map() # Series만 적용 
# .apply() # Series, DataFrame 둘 다 적용

In [50]:
# etfTabName column이 제대로 만들어졌는지 확인합니다.
df.loc[df['etfTabCode'] == 2, ["itemname","etfTabName"]].head()

Unnamed: 0,itemname,etfTabName
16,TIGER 2차전지테마,국내 업종/테마
19,KODEX 삼성그룹,국내 업종/테마
20,KODEX 2차전지산업,국내 업종/테마
22,TIGER TOP10,국내 업종/테마
25,TIGER 200 IT,국내 업종/테마


* map : 
    * Series에서만 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#applying-elementwise-functions)

* apply :
    * Series와 DataFrame 둘 다 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#row-or-column-wise-function-application)

### 컬럼명 변경하기

In [52]:
"""종목명
현재가
전일비
등락률
NAV
3개월수익률
거래량
거래대금(백만)
시가총액(억)
"""

'종목명\n현재가\n전일비\n등락률\nNAV\n3개월수익률\n거래량\n거래대금(백만)\n시가총액(억)\n'

In [60]:
# DataFrame df의 column 이름을 list로 만들어서 cols 라는 변수에 담습니다.
cols = df.columns.tolist()

In [64]:
# 영어로 되어있는 column 이름을 한글로 바꾸기 위한 list를 만듭니다.
# 빠진 column이 있는지 리스트와 길이를 확인합니다.
col_name = """종목코드
탭코드
종목명
현재가
등락구분
전일비
등락률
순자산가치(NAV)
3개월수익률
거래량
거래대금(백만)
시가총액(억)
유형"""

col_name = col_name.split('\n')
col_name


['종목코드',
 '탭코드',
 '종목명',
 '현재가',
 '등락구분',
 '전일비',
 '등락률',
 '순자산가치(NAV)',
 '3개월수익률',
 '거래량',
 '거래대금(백만)',
 '시가총액(억)',
 '유형']

In [66]:
# 컬럼 영문명과 한글명을 딕셔너리 형태로 만들어 비교해 볼 수도 있습니다.
# 하지만 좀 더 간단하게 여기에서는 리스트 값을 그대로 컬럼에 넣어주는 방법을 사용할거에요.
# 딕셔너리로 키-값 쌍을 만들어 컬럼의 키와 값이 잘 매치되었는지 확인해 봅니다.
dict(zip(cols, col_name))

{'itemcode': '종목코드',
 'etfTabCode': '탭코드',
 'itemname': '종목명',
 'nowVal': '현재가',
 'risefall': '등락구분',
 'changeVal': '전일비',
 'changeRate': '등락률',
 'nav': '순자산가치(NAV)',
 'threeMonthEarnRate': '3개월수익률',
 'quant': '거래량',
 'amonut': '거래대금(백만)',
 'marketSum': '시가총액(억)',
 'etfTabName': '유형'}

In [68]:
# 기존의 데이터프레임 컬럼명에 위에서 만든 컬럼명을 할당연산자로 대입해 주면 컬럼명이 변경됩니다.
# 컬럼 변경 후 한글로 컬럼명이 잘 변경되었는지 확인해 봅니다.
df.columns = col_name 
df

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형
0,069500,1,KODEX 200,34980,5,-225,-0.64,35044.0,8.1433,570258,19934,61897,국내 시장지수
1,357870,6,TIGER CD금리투자KIS(합성),52765,2,5,0.01,52764.0,0.9084,54963,2900,51735,채권
2,423160,6,KODEX KOFR금리액티브(합성),103780,2,5,0.00,103767.0,0.9189,43208,4484,35411,채권
3,273130,6,KODEX 종합채권(AA-이상)액티브,104720,5,-385,-0.37,104862.0,-0.4971,631,66,28623,채권
4,371460,4,TIGER 차이나전기차SOLACTIVE,10095,2,65,0.65,10134.0,-9.4357,562877,5669,27580,해외 주식
...,...,...,...,...,...,...,...,...,...,...,...,...,...
743,433870,7,ARIRANG TDF2050액티브,10810,5,-35,-0.32,10922.0,2.9425,100,1,19,기타
744,315480,2,KBSTAR 200커뮤니케이션서비스,11180,5,-100,-0.89,11109.0,-1.9557,105,1,13,국내 업종/테마
745,287330,2,KBSTAR 200생활소비재,5795,2,65,1.13,5805.0,-9.0477,704,4,13,국내 업종/테마
746,287320,2,KBSTAR 200산업재,12390,5,-60,-0.48,12575.0,5.2409,11,0,12,국내 업종/테마


### 파생변수 만들기
* 브랜드, 인버스, 레버리지, 환헤지H 변수 만들기
* [Working with text data — pandas documentation](https://pandas.pydata.org/docs/user_guide/text.html)

In [73]:
# 종목명 column의 데이터를 space(" ")를 이용해 나누고 제일 앞부분[0]을 새로운 column을 만들어 저장하고 확인합니다.
# expand = True 옵션을 사용하면 문자열을 나눈 값을 인덱스 순서대로 가져와서 사용할 수 있습니다.
df["브랜드"] = df['종목명'].str.split(" ", expand=True)[0]
df[["종목명", "브랜드"]].head()

Unnamed: 0,종목명,브랜드
0,KODEX 200,KODEX
1,TIGER CD금리투자KIS(합성),TIGER
2,KODEX KOFR금리액티브(합성),KODEX
3,KODEX 종합채권(AA-이상)액티브,KODEX
4,TIGER 차이나전기차SOLACTIVE,TIGER


In [74]:
df["브랜드"].unique()

array(['KODEX', 'TIGER', 'KBSTAR', 'ARIRANG', 'KOSEF', 'HANARO', 'ACE',
       'SOL', '히어로즈', 'KTOP', 'TIMEFOLIO', '에셋플러스', '파워', 'WOORI',
       '대신343', 'FOCUS', '마이티', 'BNK', 'VITA', '마이다스', 'TREX', 'UNICORN',
       'HK', 'MASTER'], dtype=object)

* 종목명 column의 내용중이 '인버스'라는 단어가 있으면 새로운 column '인버스'에 True 값이 들어가게 됩니다.
* contains는 bool type을 반환하기 때문에 새로운 column에는 True나 False가 들어가게 됩니다.
* 마찬가지로 '레버리지'와 '환헤지H'에 대해서도 동일하게 만들어 줍니다. 
* H라는 단어가 종목명에 들어갈 수도 있기 때문에 H뒤에 닫는 소괄호")"까지 확인합니다.
* 소괄호는 정규표현식에서 의미를 가지는 문자이기 때문에 문자 그대로 읽어오기 위해서는 "\"로 전처리가 필요합니다.

In [81]:
# 인버스ETF는 지수가 하락하면 오히려 수익률이 오르도록 설계된 상품입니다.
# df["인버스"]
df["인버스"] = df["종목명"].str.contains("인버스")
df["인버스"].value_counts()

False    705
True      43
Name: 인버스, dtype: int64

레버리지(leverage)는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높이는 것이다. 고정비용이 있을 때 매출액의 변화가 기업의 손익에 미치는 영향을 분석하는 데에 쓰인다. 이는 고정영업비용과 고정재무비용의 부담정도에 따라 기업에게 귀속되는 최종적인 주당이익에 어떤 영향을 미치는지 분석할 수 있게 한다.

* 출처 : [레버리지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80)

In [84]:
# df["레버리지"]
df["레버리지"] = df["종목명"].str.contains("레버리지")
df["레버리지"].value_counts()
# df["레버리지"].value_counts(normalize=True) * 100 # 비율로 보려면

False    702
True      46
Name: 레버리지, dtype: int64

헤지(hedge)란 환율, 금리 또는 다른 자산에 대한 투자등을 통해 보유하고 있는 위험자산의 가격변동을 제거하는 것을 말한다. 즉, 확정되지 않은 자산을 확정된 자산으로 편입하는 과정이라 할 수 있으며, 주로 선물 옵션과 같은 파생상품을 이용한다. 이를 통해 체계적 위험을 제거할 수 있다.

부(wealth)를 결정하는 변수값의 변화와 관계없이 항상 일정한 부를 유지하게 하는 헤지를 완전헤지라고 하고, 그렇지 못한 것을 불완전헤지라고 한다.
* 출처 : [헤지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%ED%97%A4%EC%A7%80)

In [85]:
# (H)의 의미는 환율변동 위험을 막기 위해 Hedge를 한다는 뜻입니다.
# df["환헤지H"]
df["환헤지H"] = df["종목명"].str.endswith("H)")
df[["종목명", "환헤지H"]]

Unnamed: 0,종목명,환헤지H
0,KODEX 200,False
1,TIGER CD금리투자KIS(합성),False
2,KODEX KOFR금리액티브(합성),False
3,KODEX 종합채권(AA-이상)액티브,False
4,TIGER 차이나전기차SOLACTIVE,False
...,...,...
743,ARIRANG TDF2050액티브,False
744,KBSTAR 200커뮤니케이션서비스,False
745,KBSTAR 200생활소비재,False
746,KBSTAR 200산업재,False


### 전처리가 잘 되었는지 확인하기

In [86]:
# 등락구분에 있는 값의 빈도수를 세어봅니다.
df["등락구분"].value_counts()

5    487
2    217
3     44
Name: 등락구분, dtype: int64

In [87]:
# 전체적으로 데이터 전처리가 끝났다면 info를 통해 데이터 요약정보 보기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   종목코드        748 non-null    object 
 1   탭코드         748 non-null    int64  
 2   종목명         748 non-null    object 
 3   현재가         748 non-null    int64  
 4   등락구분        748 non-null    int64  
 5   전일비         748 non-null    int64  
 6   등락률         748 non-null    float64
 7   순자산가치(NAV)  748 non-null    float64
 8   3개월수익률      701 non-null    float64
 9   거래량         748 non-null    int64  
 10  거래대금(백만)    748 non-null    int64  
 11  시가총액(억)     748 non-null    int64  
 12  유형          748 non-null    object 
 13  브랜드         748 non-null    object 
 14  인버스         748 non-null    bool   
 15  레버리지        748 non-null    bool   
 16  환헤지H        748 non-null    bool   
dtypes: bool(3), float64(3), int64(7), object(4)
memory usage: 84.1+ KB


## 파일로 저장하기

In [90]:
# 기존에 불러왔던 파일명에서 _raw를 제거하고 새로운 파일명으로 저장합니다.
save_file_name = file_name.replace("_raw","")
save_file_name

'eft_2023-08-02.csv'

In [92]:
# pandas의 to_csv로 파일을 저장합니다.
# index=False로 인덱스값은 저장하지 않습니다.
df.to_csv(save_file_name, index=False)

In [94]:
# 저장한 파일을 읽어와서 제대로 저장되었는지 확인합니다.
# 또, 종목코드는 그냥 읽어오면 숫자 맨 앞의 0이 생략될 수 있으니 object 타입으로 불러옵니다.
pd.read_csv(save_file_name, dtype={"종목코드":object})

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형,브랜드,인버스,레버리지,환헤지H
0,069500,1,KODEX 200,34980,5,-225,-0.64,35044.0,8.1433,570258,19934,61897,국내 시장지수,KODEX,False,False,False
1,357870,6,TIGER CD금리투자KIS(합성),52765,2,5,0.01,52764.0,0.9084,54963,2900,51735,채권,TIGER,False,False,False
2,423160,6,KODEX KOFR금리액티브(합성),103780,2,5,0.00,103767.0,0.9189,43208,4484,35411,채권,KODEX,False,False,False
3,273130,6,KODEX 종합채권(AA-이상)액티브,104720,5,-385,-0.37,104862.0,-0.4971,631,66,28623,채권,KODEX,False,False,False
4,371460,4,TIGER 차이나전기차SOLACTIVE,10095,2,65,0.65,10134.0,-9.4357,562877,5669,27580,해외 주식,TIGER,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
743,433870,7,ARIRANG TDF2050액티브,10810,5,-35,-0.32,10922.0,2.9425,100,1,19,기타,ARIRANG,False,False,False
744,315480,2,KBSTAR 200커뮤니케이션서비스,11180,5,-100,-0.89,11109.0,-1.9557,105,1,13,국내 업종/테마,KBSTAR,False,False,False
745,287330,2,KBSTAR 200생활소비재,5795,2,65,1.13,5805.0,-9.0477,704,4,13,국내 업종/테마,KBSTAR,False,False,False
746,287320,2,KBSTAR 200산업재,12390,5,-60,-0.48,12575.0,5.2409,11,0,12,국내 업종/테마,KBSTAR,False,False,False
