[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/4.2%20ETF%20%EC%A0%84%EC%B2%98%EB%A6%AC-input.ipynb)

* [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn) 에서 수집한 데이터를 전처리 합니다.
* keyword
    * rename column
    * .map(lambda x : x)
    * text data
        * str.contains()
        * str.replace()
        * str.split("구분자", expand=True)
        * str[:]

## 데이터 로드와 요약

In [1]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy라이브러리를 로드합니다.
import pandas as pd
import numpy as np

In [2]:
# 이전 실습에서 저장한 파일명을 file_name에 적어주세요.
file_name = 'etf_2022-06-24_raw.csv'
file_name

'etf_2022-06-24_raw.csv'

In [7]:
# 이전 수업에서 수집해서 저장해둔 csv 파일을 읽어옵니다.
# itemcode 숫자 앞의 0 이 지워진다면 dtype={"itemcode": np.object} 로 타입을 지정해 주면 문자형태로 읽어옵니다.
df = pd.read_csv(file_name, dtype={"itemcode": object})
df.shape

(575, 12)

In [8]:
# 인덱스 번호 상단 5개의 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,30640,5,-250,-0.81,30607.0,-14.4298,9784052,301620,47247
1,371460,4,TIGER 차이나전기차SOLACTIVE,17700,2,700,4.12,17844.0,12.6573,13690582,238235,42388
2,122630,3,KODEX 레버리지,14135,5,-185,-1.29,14147.0,-28.0583,57013787,815169,21909
3,133690,4,TIGER 미국나스닥100,67055,2,955,1.44,67176.0,-15.3487,118882,7959,19929
4,252670,3,KODEX 200선물인버스2X,3385,2,40,1.2,3386.0,34.3373,390559840,1305629,19779


In [9]:
# 인덱스 하단의 5개 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.tail()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
570,252720,2,KBSTAR 모멘텀밸류,11940,5,-220,-1.81,11943.0,-12.1324,51,0,12
571,284990,2,KBSTAR 200에너지화학,10570,5,-230,-2.13,10535.0,-1.1442,1033,11,11
572,287330,2,KBSTAR 200생활소비재,6405,3,0,0.0,6398.0,-9.3675,39,0,9
573,287320,2,KBSTAR 200산업재,10720,5,-280,-2.55,10728.0,-6.5103,244,2,9
574,287310,2,KBSTAR 200경기소비재,9030,5,-65,-0.71,9033.0,-4.7046,510,4,7


In [10]:
# info를 통해서 각 column들의 데이터타입과 결측치, 메모리 사용량 등을 볼 수 있습니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 575 entries, 0 to 574
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   itemcode            575 non-null    object 
 1   etfTabCode          575 non-null    int64  
 2   itemname            575 non-null    object 
 3   nowVal              575 non-null    int64  
 4   risefall            575 non-null    int64  
 5   changeVal           575 non-null    int64  
 6   changeRate          575 non-null    float64
 7   nav                 575 non-null    float64
 8   threeMonthEarnRate  547 non-null    float64
 9   quant               575 non-null    int64  
 10  amonut              575 non-null    int64  
 11  marketSum           575 non-null    int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 54.0+ KB


* 웹사이트의 ETF 정보와 비교하며 어떤 컬럼이 어떤 값인지 확인합니다. 
* https://finance.naver.com/sise/etf.nhn 

In [12]:
# https://finance.naver.com/sise/etf.nhn 에서 값을 비교해보면 quant는 거래량임을 알 수 있습니다.
# 거래량(quant) 기준으로 내림차순으로 정렬하여 상위 10개의 데이터를 봅니다.
df.sort_values("quant", ascending=False).head(10)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
4,252670,3,KODEX 200선물인버스2X,3385,2,40,1.2,3386.0,34.3373,390559840,1305629,19779
46,251340,3,KODEX 코스닥150선물인버스,5480,2,175,3.3,5492.0,18.2831,131286036,703527,3743
21,114800,3,KODEX 인버스,5060,2,35,0.7,5062.0,16.3194,60215412,302568,8840
2,122630,3,KODEX 레버리지,14135,5,-185,-1.29,14147.0,-28.0583,57013787,815169,21909
22,233740,3,KODEX 코스닥150레버리지,7505,5,-475,-5.95,7483.0,-33.1939,47523187,371663,8165
92,252710,3,TIGER 200선물인버스2X,3540,2,45,1.29,3541.0,34.423,15983270,55963,1274
31,229200,1,KODEX 코스닥150,10265,5,-350,-3.3,10347.0,-17.4316,15724946,164848,5343
1,371460,4,TIGER 차이나전기차SOLACTIVE,17700,2,700,4.12,17844.0,12.6573,13690582,238235,42388
0,69500,1,KODEX 200,30640,5,-250,-0.81,30607.0,-14.4298,9784052,301620,47247
60,271050,5,KODEX WTI원유선물인버스(H),4265,2,10,0.24,4263.0,-2.7429,7550148,32475,2469


In [15]:
# etfTabCode column의 데이터 구성을 살펴봅니다.
# 추후 알게되겠지만 etfTabCode는 해당 사이트에서 
# 전체(0), 국내 시장지수(1), 국내 업종/테마(2), 국내 파생(3) ~
# 해외 주식(4), 원자재(5), 채권(6), 기타(7)로 자료가 구분되어 있습니다.
df["etfTabCode"].value_counts().sort_index()

1     64
2    207
3     37
4    147
5     18
6     62
7     40
Name: etfTabCode, dtype: int64

In [16]:
# pandas 의 boolean Indexing을 사용해서
# 국내 시장지수(etfTabCode == 1)의 데이터들만 확인하여 봅니다.
# 조건문의 결과가 Index와  True, False 로 나오기 때문에 boolean Indexing 이라 부릅니다.
df[df["etfTabCode"] == 1]

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,069500,1,KODEX 200,30640,5,-250,-0.81,30607.0,-14.4298,9784052,301620,47247
6,102110,1,TIGER 200,30725,5,-220,-0.71,30666.0,-14.4244,2772518,85635,18481
17,310970,1,TIGER MSCI Korea TR,12495,5,-120,-0.95,12496.0,-14.1253,7088,89,11558
18,278530,1,KODEX 200TR,10215,5,-80,-0.78,10193.0,-14.3511,99373,1022,10634
20,148020,1,KBSTAR 200,30785,5,-150,-0.48,30711.0,-14.8383,835207,25804,10144
...,...,...,...,...,...,...,...,...,...,...,...,...
504,226980,1,KODEX 200 중소형,10835,5,-275,-2.48,10834.0,-14.8268,1627,17,54
511,391670,1,HK 베스트일레븐액티브,7550,5,-35,-0.46,7567.0,-12.9662,27,0,53
523,295820,1,ARIRANG 200동일가중,9065,5,-170,-1.84,9094.0,-12.5971,134,1,50
540,391680,1,HK 하이볼액티브,7180,5,-45,-0.62,7125.0,-14.8999,31,0,43


## 데이터 전처리
### etfTabName 만들기

In [20]:
# etf name을 구분하기 위한 list를 만듭니다.
# """ 를 이용해 \n을 포함하는 string을 만들고 split으로 나누어서 list를 간편히 만들수 있습니다.
etfcode = """전체
국내 시장지수
국내 업종/테마
국내 파생
해외 주식
원자재
채권
기타"""
etfcode

'전체\n국내 시장지수\n국내 업종/테마\n국내 파생\n해외 주식\n원자재\n채권\n기타'

In [21]:
# split으로 나누어 list형 데이터를 만듭니다.
etf_tab_name = etfcode.split('\n')
etf_tab_name

['전체', '국내 시장지수', '국내 업종/테마', '국내 파생', '해외 주식', '원자재', '채권', '기타']

In [23]:
def find_etf_tab_name(no):
        return etf_tab_name[no]
find_etf_tab_name(2)

'국내 업종/테마'

In [27]:
# etfTabName 이름이 직관적이지 않기 때문에 한글로 변경해 줍니다.
# map과 lambda 함수를 이용하여 eftTabCode column들의 각 cell의 내용에 따라
# etf_tab_name list의 원소값에 따라 이름을 만들어 주고 etfTabName 이라는 새로운 컬럼을 생성합니다.
# 즉 etfTabCode 숫자 -> list의 원소 인덱스로 한글 이름을 매핑해 줍니다. -> etfTabName에 한글로 저장

# df['etfTabCode'].map(find_etf_tab_name)
df["etfTabName"] = df['etfTabCode'].map(lambda x: etf_tab_name[x])
df["etfTabName"]

0       국내 시장지수
1         해외 주식
2         국내 파생
3         해외 주식
4         국내 파생
         ...   
570    국내 업종/테마
571    국내 업종/테마
572    국내 업종/테마
573    국내 업종/테마
574    국내 업종/테마
Name: etfTabName, Length: 575, dtype: object

In [30]:
# etfTabName column이 제대로 만들어졌는지 확인합니다.
df.loc[df['etfTabCode'] == 3, ["itemname", "etfTabName"]].head()

Unnamed: 0,itemname,etfTabName
2,KODEX 레버리지,국내 파생
4,KODEX 200선물인버스2X,국내 파생
21,KODEX 인버스,국내 파생
22,KODEX 코스닥150레버리지,국내 파생
46,KODEX 코스닥150선물인버스,국내 파생


* map : 
    * Series에서만 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#applying-elementwise-functions)

* apply :
    * Series와 DataFrame 둘 다 사용가능
    * [Essential basic functionality — pandas documentation](https://pandas.pydata.org/docs/user_guide/basics.html?#row-or-column-wise-function-application)

### 컬럼명 변경하기

In [31]:
"""종목명
현재가
전일비
등락률
NAV
3개월수익률
거래량
거래대금(백만)
시가총액(억)
"""

'종목명\n현재가\n전일비\n등락률\nNAV\n3개월수익률\n거래량\n거래대금(백만)\n시가총액(억)\n'

In [32]:
# DataFrame df의 column 이름을 list로 만들어서 cols 라는 변수에 담습니다.
cols = df.columns.tolist()
cols

['itemcode',
 'etfTabCode',
 'itemname',
 'nowVal',
 'risefall',
 'changeVal',
 'changeRate',
 'nav',
 'threeMonthEarnRate',
 'quant',
 'amonut',
 'marketSum',
 'etfTabName']

In [34]:
# 영어로 되어있는 column 이름을 한글로 바꾸기 위한 list를 만듭니다.
# 빠진 column이 있는지 리스트와 길이를 확인합니다.
col_name = """종목코드
탭코드
종목명
현재가
등락구분
전일비
등락률
순자산가치(NAV)
3개월수익률
거래량
거래대금(백만)
시가총액(억)
유형"""
col_name = col_name.split('\n')

In [36]:
# 컬럼 영문명과 한글명을 딕셔너리 형태로 만들어 비교해 볼 수도 있습니다.
# 하지만 좀 더 간단하게 여기에서는 리스트 값을 그대로 컬럼에 넣어주는 방법을 사용할거에요.
# 딕셔너리로 키-값 쌍을 만들어 컬럼의 키와 값이 잘 매치되었는지 확인해 봅니다.
dict(zip(cols, col_name))

{'itemcode': '종목코드',
 'etfTabCode': '탭코드',
 'itemname': '종목명',
 'nowVal': '현재가',
 'risefall': '등락구분',
 'changeVal': '전일비',
 'changeRate': '등락률',
 'nav': '순자산가치(NAV)',
 'threeMonthEarnRate': '3개월수익률',
 'quant': '거래량',
 'amonut': '거래대금(백만)',
 'marketSum': '시가총액(억)',
 'etfTabName': '유형'}

In [38]:
# 기존의 데이터프레임 컬럼명에 위에서 만든 컬럼명을 할당연산자로 대입해 주면 컬럼명이 변경됩니다.
# 컬럼 변경 후 한글로 컬럼명이 잘 변경되었는지 확인해 봅니다.
df.columns = col_name
df.columns

Index(['종목코드', '탭코드', '종목명', '현재가', '등락구분', '전일비', '등락률', '순자산가치(NAV)',
       '3개월수익률', '거래량', '거래대금(백만)', '시가총액(억)', '유형'],
      dtype='object')

### 파생변수 만들기
* 브랜드, 인버스, 레버리지, 환헤지H 변수 만들기
* [Working with text data — pandas documentation](https://pandas.pydata.org/docs/user_guide/text.html)

In [None]:
# 종목명 column의 데이터를 space(" ")를 이용해 나누고 제일 앞부분[0]을 새로운 column을 만들어 저장하고 확인합니다.
# expand = True 옵션을 사용하면 문자열을 나눈 값을 인덱스 순서대로 가져와서 사용할 수 있습니다.
# df["브랜드"]


* 종목명 column의 내용중이 '인버스'라는 단어가 있으면 새로운 column '인버스'에 True 값이 들어가게 됩니다.
* contains는 bool type을 반환하기 때문에 새로운 column에는 True나 False가 들어가게 됩니다.
* 마찬가지로 '레버리지'와 '환헤지H'에 대해서도 동일하게 만들어 줍니다. 
* H라는 단어가 종목명에 들어갈 수도 있기 때문에 H뒤에 닫는 소괄호")"까지 확인합니다.
* 소괄호는 정규표현식에서 의미를 가지는 문자이기 때문에 문자 그대로 읽어오기 위해서는 "\"로 전처리가 필요합니다.

In [None]:
# 인버스ETF는 지수가 하락하면 오히려 수익률이 오르도록 설계된 상품입니다.
# df["인버스"]


레버리지(leverage)는 타인의 자본을 지렛대처럼 이용하여 자기 자본의 이익률을 높이는 것이다. 고정비용이 있을 때 매출액의 변화가 기업의 손익에 미치는 영향을 분석하는 데에 쓰인다. 이는 고정영업비용과 고정재무비용의 부담정도에 따라 기업에게 귀속되는 최종적인 주당이익에 어떤 영향을 미치는지 분석할 수 있게 한다.

* 출처 : [레버리지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80)

In [None]:
# df["레버리지"]


헤지(hedge)란 환율, 금리 또는 다른 자산에 대한 투자등을 통해 보유하고 있는 위험자산의 가격변동을 제거하는 것을 말한다. 즉, 확정되지 않은 자산을 확정된 자산으로 편입하는 과정이라 할 수 있으며, 주로 선물 옵션과 같은 파생상품을 이용한다. 이를 통해 체계적 위험을 제거할 수 있다.

부(wealth)를 결정하는 변수값의 변화와 관계없이 항상 일정한 부를 유지하게 하는 헤지를 완전헤지라고 하고, 그렇지 못한 것을 불완전헤지라고 한다.
* 출처 : [헤지 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%ED%97%A4%EC%A7%80)

In [None]:
# (H)의 의미는 환율변동 위험을 막기 위해 Hedge를 한다는 뜻입니다.
# df["환헤지H"]


### 전처리가 잘 되었는지 확인하기

In [None]:
# 등락구분에 있는 값의 빈도수를 세어봅니다.


In [None]:
# 전체적으로 데이터 전처리가 끝났다면 info를 통해 데이터 요약정보 보기


## 파일로 저장하기

In [None]:
# 기존에 불러왔던 파일명에서 _raw를 제거하고 새로운 파일명으로 저장합니다.
# save_file_name 


In [None]:
# pandas의 to_csv로 파일을 저장합니다.
# index=False로 인덱스값은 저장하지 않습니다.


In [None]:
# 저장한 파일을 읽어와서 제대로 저장되었는지 확인합니다.
# 또, 종목코드는 그냥 읽어오면 숫자 맨 앞의 0이 생략될 수 있으니 object 타입으로 불러옵니다.
