[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/4.2%20ETF%20%EC%A0%84%EC%B2%98%EB%A6%AC-input.ipynb)

* [ETF : 네이버 금융](https://finance.naver.com/sise/etf.nhn) 에서 수집한 데이터를 전처리 합니다.
* keyword
    * rename column
    * .map(lambda x : x)
    * text data
        * str.contains()
        * str.replace()
        * str.split("구분자", expand=True)
        * str[:]

## 데이터 로드와 요약

In [2]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy라이브러리를 로드합니다.

import pandas as pd
import numpy as np

In [3]:
# 이전 실습에서 저장한 파일명을 file_name에 적어주세요.
file_name = "etf_2021_07_28_raw.csv"
file_name

'etf_2021_07_28_raw.csv'

In [9]:
# 이전 수업에서 수집해서 저장해둔 csv 파일을 읽어옵니다.
# itemcode 숫자 앞의 0 이 지워진다면 dtype={"itemcode": np.object} 로 타입을 지정해 주면 문자형태로 읽어옵니다.
# df

df = pd.read_csv(file_name, dtype = {"itemcode" : np.object})     # dtype = {""itemcode" : "object"} 이렇게 해도 됨
df.shape

(489, 12)

In [10]:
# 인덱스 번호 상단 5개의 데이터를 가져옵니다.
# 데이터를 잘 읽어왔는지 확인합니다.
df.head(5)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,69500,1,KODEX 200,43005,2,130,0.3,43027.0,-0.7363,2409683,103245,41672
1,153130,6,KODEX 단기채권,102845,3,0,0.0,102846.0,0.034,16993,1747,24206
2,252670,3,KODEX 200선물인버스2X,1930,5,-10,-0.52,1930.0,0.0,208047261,403732,22070
3,102110,1,TIGER 200,43020,2,85,0.2,43060.0,-0.7054,917304,39354,21575
4,102780,2,KODEX 삼성그룹,10570,2,35,0.33,10594.0,3.2033,254361,2680,18180


In [11]:
# info를 통해서 각 column들의 데이터타입과 결측치, 메모리 사용량 등을 볼 수 있습니다.

df.info()

# threeMonthEarnRate(3개월 수익률)  467 >> null인 이유: 아직 신규는 3개월이 안되서 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 489 entries, 0 to 488
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   itemcode            489 non-null    object 
 1   etfTabCode          489 non-null    int64  
 2   itemname            489 non-null    object 
 3   nowVal              489 non-null    int64  
 4   risefall            489 non-null    int64  
 5   changeVal           489 non-null    int64  
 6   changeRate          489 non-null    float64
 7   nav                 348 non-null    float64
 8   threeMonthEarnRate  467 non-null    float64
 9   quant               489 non-null    int64  
 10  amonut              489 non-null    int64  
 11  marketSum           489 non-null    int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 46.0+ KB


* 웹사이트의 ETF 정보와 비교하며 어떤 컬럼이 어떤 값인지 확인합니다. 
* https://finance.naver.com/sise/etf.nhn 

In [16]:
# https://finance.naver.com/sise/etf.nhn 에서 값을 비교해보면 quant는 거래량임을 알 수 있습니다.
# 거래량(quant) 기준으로 내림차순으로 정렬하여 상위 10개의 데이터를 봅니다.
df.sort_values("quant", ascending = False).head(10)

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
2,252670,3,KODEX 200선물인버스2X,1930,5,-10,-0.52,1930.0,0.0,208047261,403732,22070
29,251340,3,KODEX 코스닥150선물인버스,4370,2,60,1.39,4369.0,-2.4887,38236111,166267,5012
14,114800,3,KODEX 인버스,3765,5,-5,-0.13,3765.0,0.1328,32299879,121963,10659
6,122630,3,KODEX 레버리지,27990,2,125,0.45,28203.0,-2.2281,13289425,369506,13995
10,371460,4,TIGER 차이나전기차SOLACTIVE,15635,5,-365,-2.28,,48.0795,9662619,150205,11833
18,233740,1,KODEX 코스닥150 레버리지,15430,5,-435,-2.74,15584.0,1.2444,9591156,149120,8749
86,252710,3,TIGER 200선물인버스2X,2005,5,-5,-0.25,2004.0,0.0,4151154,8368,1151
30,229200,1,KODEX 코스닥 150,14585,5,-195,-1.32,14740.0,0.5373,3609424,52677,4988
52,371160,4,TIGER 차이나항셍테크,8270,2,60,0.73,,-22.4741,3585131,29265,2456
0,69500,1,KODEX 200,43005,2,130,0.3,43027.0,-0.7363,2409683,103245,41672


In [17]:
# etfTabCode column의 데이터 구성을 살펴봅니다.
# 추후 알게되겠지만 etfTabCode는 해당 사이트에서 
# 전체(0), 국내 시장지수(1), 국내 업종/테마(2), 국내 파생(3) ~
# 해외 주식(4), 원자재(5), 채권(6), 기타(7)로 자료가 구분되어 있습니다.

df["etfTabCode"].unique()

array([1, 6, 3, 2, 4, 7, 5], dtype=int64)

In [20]:
# pandas 의 boolean Indexing을 사용해서
# 국내 시장지수(etfTabCode == 1)의 데이터들만 확인하여 봅니다.
# 조건문의 결과가 Index와  True, False 로 나오기 때문에 boolean Indexing 이라 부릅니다.

df[df["etfTabCode"] == 1]

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum
0,069500,1,KODEX 200,43005,2,130,0.30,43027.0,-0.7363,2409683,103245,41672
3,102110,1,TIGER 200,43020,2,85,0.20,43060.0,-0.7054,917304,39354,21575
8,278530,1,KODEX 200TR,14065,2,50,0.36,14072.0,-0.8490,24819,347,12743
11,278540,1,KODEX MSCI Korea TR,13735,5,-5,-0.04,13771.0,-1.7168,264815,3627,11469
12,148020,1,KBSTAR 200,43080,2,130,0.30,43100.0,-0.6776,30555,1311,10705
...,...,...,...,...,...,...,...,...,...,...,...,...
386,252650,1,KODEX 200동일가중,13190,5,-60,-0.45,13242.0,3.6046,3,0,79
397,391670,1,HK 베스트일레븐액티브,9795,3,0,0.00,9796.0,,2652,25,73
398,391680,1,HK 하이볼액티브,9760,5,-10,-0.10,9774.0,,3499,34,73
458,295820,1,ARIRANG 200동일가중,12175,5,-10,-0.08,12171.0,3.4555,225,2,49


## 데이터 전처리
### etfTabName 만들기
* etfTabName 이름이 직관적이지 않기 때문에 한글로 변경해 줍니다.

In [21]:
# etf name을 구분하기 위한 list를 만듭니다.
# """ 를 이용해 \n을 포함하는 string을 만들고 split으로 나누어서 list를 간편히 만들수 있습니다.
eftcode = """전체
국내 시장지수
국내 업종/테마
국내 파생
해외 주식
원자재
채권
기타"""
eftcode

'전체\n국내 시장지수\n국내 업종/테마\n국내 파생\n해외 주식\n원자재\n채권\n기타'

In [24]:
# split으로 나누어 list형 데이터를 만듭니다.
etf_tab_name = eftcode. split()
etf_tab_name

['전체', '국내', '시장지수', '국내', '업종/테마', '국내', '파생', '해외', '주식', '원자재', '채권', '기타']

In [28]:
def find_etf_tab_name(no):
    return etf_tab_name[no]

In [30]:
find_etf_tab_name(2)

'시장지수'

In [36]:
# map과 lambda 함수를 이용하여 eftTabCode column들의 각 cell의 내용에 따라
# etf_tab_name list의 원소값에 따라 이름을 만들어 주고 etfTabName 이라는 새로운 컬럼을 생성합니다.
# 즉 etfTabCode 숫자 -> list의 원소 인덱스로 한글 이름을 매핑해 줍니다. -> etfTabName에 한글로 저장
df['etfTabName'] = df['etfTabCode'].map(find_etf_tab_name)

In [37]:
# etfTabName column이 제대로 만들어졌는지 확인합니다.


In [38]:
df.head()

Unnamed: 0,itemcode,etfTabCode,itemname,nowVal,risefall,changeVal,changeRate,nav,threeMonthEarnRate,quant,amonut,marketSum,etfTabName
0,69500,1,KODEX 200,43005,2,130,0.3,43027.0,-0.7363,2409683,103245,41672,국내
1,153130,6,KODEX 단기채권,102845,3,0,0.0,102846.0,0.034,16993,1747,24206,파생
2,252670,3,KODEX 200선물인버스2X,1930,5,-10,-0.52,1930.0,0.0,208047261,403732,22070,국내
3,102110,1,TIGER 200,43020,2,85,0.2,43060.0,-0.7054,917304,39354,21575,국내
4,102780,2,KODEX 삼성그룹,10570,2,35,0.33,10594.0,3.2033,254361,2680,18180,시장지수


map :

Series에서만 사용가능
Essential basic functionality — pandas documentation
apply :

Series와 DataFrame 둘 다 사용가능
Essential basic functionality — pandas documentation

In [44]:
"""종목명
현재가
전일비
등락률
NAV
3개월수익률
거래량
거래대금(백만)
시가총액(억)"""

'종목명\n현재가\n전일비\n등락률\nNAV\n3개월수익률\n거래량\n거래대금(백만)\n시가총액(억)'

In [46]:
# DataFrame df의 column 이름을 list로 만들어서 cols 라는 변수에 담습니다.
cols= df.columns.tolist()
cols

['itemcode',
 'etfTabCode',
 'itemname',
 'nowVal',
 'risefall',
 'changeVal',
 'changeRate',
 'nav',
 'threeMonthEarnRate',
 'quant',
 'amonut',
 'marketSum',
 'etfTabName']

In [60]:
# 영어로 되어있는 column 이름을 한글로 바꾸기 위한 list를 만듭니다.
# 빠진 column이 있는지 리스트와 길이를 확인합니다.
col_name = """종목코드
탭코드
종목명
현재가
등락구분
전일비
등락률
순자산가치(NAV)
3개월수익률
거래량
거래대금(백만)
시가총액(억)
유형"""
col_name_list = col_name .split()
col_name_list

['종목코드',
 '탭코드',
 '종목명',
 '현재가',
 '등락구분',
 '전일비',
 '등락률',
 '순자산가치(NAV)',
 '3개월수익률',
 '거래량',
 '거래대금(백만)',
 '시가총액(억)',
 '유형']

In [61]:
# 컬럼 영문명과 한글명을 딕셔너리 형태로 만들어 비교해 볼 수도 있습니다.
# 하지만 좀 더 간단하게 여기에서는 리스트 값을 그대로 컬럼에 넣어주는 방법을 사용할거에요.
# 딕셔너리로 키-값 쌍을 만들어 컬럼의 키와 값이 잘 매치되었는지 확인해 봅니다.
dict(zip(cols, col_name_list))

{'itemcode': '종목코드',
 'etfTabCode': '탭코드',
 'itemname': '종목명',
 'nowVal': '현재가',
 'risefall': '등락구분',
 'changeVal': '전일비',
 'changeRate': '등락률',
 'nav': '순자산가치(NAV)',
 'threeMonthEarnRate': '3개월수익률',
 'quant': '거래량',
 'amonut': '거래대금(백만)',
 'marketSum': '시가총액(억)',
 'etfTabName': '유형'}

In [67]:
# 기존의 데이터프레임 컬럼명에 위에서 만든 컬럼명을 할당연산자로 대입해 주면 컬럼명이 변경됩니다.
# 컬럼 변경 후 한글로 컬럼명이 잘 변경되었는지 확인해 봅니다.
df.columns = col_name_list
df.head()

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형
0,69500,1,KODEX 200,43005,2,130,0.3,43027.0,-0.7363,2409683,103245,41672,국내
1,153130,6,KODEX 단기채권,102845,3,0,0.0,102846.0,0.034,16993,1747,24206,파생
2,252670,3,KODEX 200선물인버스2X,1930,5,-10,-0.52,1930.0,0.0,208047261,403732,22070,국내
3,102110,1,TIGER 200,43020,2,85,0.2,43060.0,-0.7054,917304,39354,21575,국내
4,102780,2,KODEX 삼성그룹,10570,2,35,0.33,10594.0,3.2033,254361,2680,18180,시장지수


### 파생변수 만들기
* 브랜드, 인버스, 레버리지, 환헤지H 변수 만들기
* [Working with text data — pandas documentation](https://pandas.pydata.org/docs/user_guide/text.html)

In [68]:
# 종목명 column의 데이터를 space(" ")를 이용해 나누고 제일 앞부분[0]을 새로운 column을 만들어 저장하고 확인합니다.
# expand = True 옵션을 사용하면 문자열을 나눈 값을 인덱스 순서대로 가져와서 사용할 수 있습니다.
df["브랜드"]= df['종목명'].str.split(expand = True)[0]

* 종목명 column의 내용중이 '인버스'라는 단어가 있으면 새로운 column '인버스'에 True 값이 들어가게 됩니다.
* contains는 bool type을 반환하기 때문에 새로운 column에는 True나 False가 들어가게 됩니다.
* 마찬가지로 '레버리지'와 '환헤지H'에 대해서도 동일하게 만들어 줍니다. 
* H라는 단어가 종목명에 들어갈 수도 있기 때문에 H뒤에 닫는 소괄호")"까지 확인합니다.
* 소괄호는 정규표현식에서 의미를 가지는 문자이기 때문에 문자 그대로 읽어오기 위해서는 "\"로 전처리가 필요합니다.

In [69]:
# 인버스ETF는 지수가 하락하면 오히려 수익률이 오르도록 설계된 상품입니다.
# df["인버스"]
df["인버스"]= df['종목명'].str.contains("인버스")

In [76]:
df["레버리지"] = df['종목명'].str.contains("레버리지")

In [78]:
# (H)의 의미는 환율변동 위험을 막기 위해 Hedge를 한다는 뜻입니다.
df["환헤지H"] = df['종목명'].str.contains("H\)")

In [80]:
df.loc[df["종목명"].str.contains("H"),['종목명',"환헤지H"]]

Unnamed: 0,종목명,환헤지H
25,HANARO 200,False
27,KODEX 미국FANG플러스(H),True
46,HANARO MSCI Korea TR,False
49,TIGER 글로벌4차산업혁신기술(합성 H),True
54,KODEX WTI원유선물(H),True
...,...,...
470,TIGER 원유선물인버스(H),True
476,KBSTAR 미국장기국채선물인버스(H),True
481,KODEX MSCI EM선물(H),True
484,KBSTAR 미국장기국채선물인버스2X(합성 H),True


### 전처리가 잘 되었는지 확인하기

In [81]:
# 등락구분에 있는 값의 빈도수를 세어봅니다.


In [82]:
# 전체적으로 데이터 전처리가 끝났다면 info를 통해 데이터 요약정보 보기


## 파일로 저장하기

In [87]:
# 기존에 불러왔던 파일명에서 _raw를 제거하고 새로운 파일명으로 저장합니다.
save_file_name =file_name.replace("_raw", "")
save_file_name

'etf_2021_07_28.csv'

In [88]:
df.to_csv(save_file_name, index = False)

In [89]:
pd.read_csv(save_file_name).head()

Unnamed: 0,종목코드,탭코드,종목명,현재가,등락구분,전일비,등락률,순자산가치(NAV),3개월수익률,거래량,거래대금(백만),시가총액(억),유형,브랜드,인버스,레버리지,환헤지H
0,69500,1,KODEX 200,43005,2,130,0.3,43027.0,-0.7363,2409683,103245,41672,국내,KODEX,False,False,False
1,153130,6,KODEX 단기채권,102845,3,0,0.0,102846.0,0.034,16993,1747,24206,파생,KODEX,False,False,False
2,252670,3,KODEX 200선물인버스2X,1930,5,-10,-0.52,1930.0,0.0,208047261,403732,22070,국내,KODEX,True,False,False
3,102110,1,TIGER 200,43020,2,85,0.2,43060.0,-0.7054,917304,39354,21575,국내,TIGER,False,False,False
4,102780,2,KODEX 삼성그룹,10570,2,35,0.33,10594.0,3.2033,254361,2680,18180,시장지수,KODEX,False,False,False
