In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

**Pandas version 0.25.1 (`pip install pandas==0.25.1`)**

# `Series` Data type

-  Numpy's ndarray + 숫자가 아닌 다른 type의 index (E.g. 문자열)

In [3]:
import pandas as pd

In [4]:
a = pd.Series([1,2,3,4]) # 입력한 리스트가 세로로 나오며, 왼쪽에는 index가 위치한다.
a

0    1
1    2
2    3
3    4
dtype: int64

In [5]:
# 첫번째 방법
s2 = pd.Series(
    [1, 2, 3, 4],
    index=['a', 'b', 'c', 'd']
)
s2
# 어떻게 보면 dict인데, numpy 배열의 연산이 가능한.

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
s2.head(2)

a    1
b    2
dtype: int64

In [7]:
# 두번째방법
s2 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5})
s2.head()

a    1
b    2
c    3
d    4
e    5
dtype: int64


- 한가지 data type만 가지고 있을 수 있음 (그래야 병렬 연산 가능)

## `nan`과 관련된 함수

In [8]:
import numpy as np

In [9]:
np.nan

nan

In [10]:
s = pd.Series([10, 0, 1, 1, 2, 3, 4, 5, 6, np.nan])
s
# integer를 전달했지만, NaN이 있으므로 float로 잡힘

0    10.0
1     0.0
2     1.0
3     1.0
4     2.0
5     3.0
6     4.0
7     5.0
8     6.0
9     NaN
dtype: float64

In [11]:
len(s)
s.shape
s.count()    # does not count `nan`, 실제 데이터만 센다.

10

(10,)

9

In [12]:
s.unique()
# 중복 제거하여 numpy 배열로 반환. NaN도 포함한다.
# 수업에서는 다루지 않았지만, nunique()는 unique한 값들의 총 갯수를 알려주는 함수입니다.
s.nunique()

array([10.,  0.,  1.,  2.,  3.,  4.,  5.,  6., nan])

8

In [11]:
s.value_counts()
# 입력한 값의 갯수를 시리즈 형태로 반환한다.

1.0     2
10.0    1
0.0     1
2.0     1
3.0     1
4.0     1
5.0     1
6.0     1
dtype: int64

- 이 외의 함수들에 대해서는 이후 수업에서 하나씩 다룰 예정!

## index label을 기준으로 Series간에 operation이 일어남

- Data의 '순서'가 아니라 index label이 자동으로 정렬되어 연산이 진행됨!

In [12]:
s3 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
s4 = pd.Series([4, 3, 2, 1], index=['d', 'c', 'b', 'a']) 

In [13]:
s3 + s4

a    2
b    4
c    6
d    8
dtype: int64

# `DataFrame` Data type

- 다수의 Series를 하나의 변수로 관리할 수 있도록 만든 자료형
    - Series의 dict 형태라고 보면됨
        - `{'컬럼명1': Series1, '컬럼명2': Series2}`
        - 각 Series는 DataFrame의 column을 이룸
        - 당연히 DataFrame을 이루는 Series간의 index는 서로 다 같음! => 동일 index 사용

## DataFrame을 만드는 다양한 방법들

In [13]:
s1 = np.arange(1, 6, 1) #  1 이상 6 미만, 1 스텝
s2 = np.arange(6, 11, 1)
s1
s2

array([1, 2, 3, 4, 5])

array([ 6,  7,  8,  9, 10])

In [14]:
df = pd.DataFrame(
    {
        'c1': s1,
        'c2': s2
    }
)
df

Unnamed: 0,c1,c2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [15]:
# 1번째 방법  (Default index and columns would be set)
pd.DataFrame(
    [
        [10,11],
        [10,12]
    ]
)
pd.DataFrame(
    np.array(
        [
            [10, 11],
            [20, 21]
        ]
    )
) 

Unnamed: 0,0,1
0,10,11
1,10,12


Unnamed: 0,0,1
0,10,11
1,20,21


In [16]:
# 2번째 방법 (많이 안쓰임)
pd.DataFrame(
    [
        pd.Series(np.arange(10, 15)),   # 굳이 Series가 아니고 list형태이기만 하면 됨(=iterable한 object면 다 가능)
        pd.Series(np.arange(15, 20)),   # 굳이 Series가 아니고 list형태이기만 하면 됨(=iterable한 object면 다 가능)
    ]
)

pd.DataFrame(
    [
        np.arange(10, 15),
        np.arange(15, 20),
    ]
)

Unnamed: 0,0,1,2,3,4
0,10,11,12,13,14
1,15,16,17,18,19


Unnamed: 0,0,1,2,3,4
0,10,11,12,13,14
1,15,16,17,18,19


In [17]:
# 3번째 방법 (with column & index names)
# 주피터 노트북에서는 shift + tab으로 함수의 signature를 살펴볼 수 있다.
pd.DataFrame(
    np.array(
        [
            [10, 11],
            [20, 21]
        ]
    ), 
    columns=['a', 'b'],
    index=['r1', 'r2']
)

    

Unnamed: 0,a,b
r1,10,11
r2,20,21


In [18]:
# 4번째 방법
s1 = pd.Series(np.arange(1, 6, 1))    # 굳이 Series가 아니고 list형태이기만 하면 됨(=iterable한 object면 다 가능)
s2 = pd.Series(np.arange(6, 11, 1))   # 굳이 Series가 아니고 list형태이기만 하면 됨(=iterable한 object면 다 가능)
pd.DataFrame(
    {
        'c1': [1,2,3],    # list, np.array, Series 전부 다 올 수 있음!
        'c2': [4,5,6]
    }
)

Unnamed: 0,c1,c2
0,1,4
1,2,5
2,3,6


In [22]:
# 참고: 1줄짜리 만들 때도 dictionary의 value에 해당하는 값들은 iterable한 data type(e.g. list, np.array, Series 등)으로 설정해줘야함
pd.DataFrame({'c1': [0], 'c2': [1]})

Unnamed: 0,c1,c2
0,0,1


In [24]:
s1 = pd.Series(np.arange(1, 6, 1), index=['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series(np.arange(6, 11, 1), index=['b', 'c', 'd', 'f', 'g'])
df = pd.DataFrame(
    {
        'c1': s1,
        'c2': s2
    }
)
df

Unnamed: 0,c1,c2
a,1.0,
b,2.0,6.0
c,3.0,7.0
d,4.0,8.0
e,5.0,
f,,9.0
g,,10.0


## DataFrame 생성시, Series간에 Index 기준으로 자동정렬!

In [25]:
s1 = pd.Series(np.arange(1, 6, 1))
s2 = pd.Series(np.arange(6, 11, 1))
s3 = pd.Series(np.arange(12, 15), index=[1, 2, 10])  # this one has index values unlike s1, s2
s1
s2
s3

0    1
1    2
2    3
3    4
4    5
dtype: int32

0     6
1     7
2     8
3     9
4    10
dtype: int32

1     12
2     13
10    14
dtype: int32

In [26]:
df = pd.DataFrame({'c1': s1, 'c2': s2, 'c3': s3}) 
df

Unnamed: 0,c1,c2,c3
0,1.0,6.0,
1,2.0,7.0,12.0
2,3.0,8.0,13.0
3,4.0,9.0,
4,5.0,10.0,
10,,,14.0


## DataFrame에 새로운 column 추가하기

In [None]:
my_dict['a'] = 1 # dict에 새로운 키 밸류 값을 추가하는 것과 같다.

In [27]:
df['c4'] = pd.Series([1,2,3,4], index=[0, 1, 2, 10])

In [28]:
df

Unnamed: 0,c1,c2,c3,c4
0,1.0,6.0,,1.0
1,2.0,7.0,12.0,2.0
2,3.0,8.0,13.0,3.0
3,4.0,9.0,,
4,5.0,10.0,,
10,,,14.0,4.0


## Reindexing

- 새로운 index label을 기반으로 기존의 "index-value" mapping은 유지한채 재배열하는 것


### 참고: index 자체를 바꾸는 것("index-value" mapping이 깨짐)

In [29]:
s = pd.Series([1,2,3,4,5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [30]:
s.index = ['a', 'b', 'c', 'd', 'e']
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

### 참고 :  `set_index()` : 특정 column을 index로 만듦

In [31]:
# 위의 'DataFrame 생성시, Series간에 Index 기준으로 자동정렬!' 챕터에서 정의한 dataframe입니다
df

Unnamed: 0,c1,c2,c3,c4
0,1.0,6.0,,1.0
1,2.0,7.0,12.0,2.0
2,3.0,8.0,13.0,3.0
3,4.0,9.0,,
4,5.0,10.0,,
10,,,14.0,4.0


In [34]:
df['c5'] = pd.Series([1,2,3,4,5,6], index=[0,1,2,3,4,10])
df

Unnamed: 0,c1,c2,c3,c4,c5
0,1.0,6.0,,1.0,1
1,2.0,7.0,12.0,2.0,2
2,3.0,8.0,13.0,3.0,3
3,4.0,9.0,,,4
4,5.0,10.0,,,5
10,,,14.0,4.0,6


In [33]:
df.set_index("c5")

Unnamed: 0_level_0,c1,c2,c3,c4
c5,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,6.0,,1.0
2,2.0,7.0,12.0,2.0
3,3.0,8.0,13.0,3.0
4,4.0,9.0,,
5,5.0,10.0,,
6,,,14.0,4.0


### Reindex

In [35]:
s2 = s.reindex(
    ['a', 'c', 'e', 'g']
)
s2 #  입력한 인덱스에 해당하는 값이 기존 시리즈에 있으면 가져오고, 아니면 NaN으로 두고 시리즈를 하나 생성.

a    1.0
c    3.0
e    5.0
g    NaN
dtype: float64

In [36]:
# Copied
s2['a'] = 0
s2

a    0.0
c    3.0
e    5.0
g    NaN
dtype: float64

In [37]:
# s는 s2의 값을 바꿔도 안 건드려짐
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [38]:
# [X] 이렇게 하면 안됨
s1 = pd.Series([0, 1, 2], index=[0, 1, 2])
s2 = pd.Series([3, 4, 5], index=['0', '1', '2'])
s1
s2
# 금융데이터에서는 datetime 자료형과, 날짜가 쓰인 문자열 자료형이
# 서로 달라 문제가 생기는 경우가 많음

0    0
1    1
2    2
dtype: int64

0    3
1    4
2    5
dtype: int64

In [39]:
s1 + s2

0   NaN
1   NaN
2   NaN
0   NaN
1   NaN
2   NaN
dtype: float64

In [40]:
s1.index

Int64Index([0, 1, 2], dtype='int64')

In [41]:
s2 = s2.reindex(s1.index)
s2

0   NaN
1   NaN
2   NaN
dtype: float64

In [42]:
# 첫번째 방법
s1 = pd.Series([0, 1, 2], index=[0, 1, 2])
s2 = pd.Series([3, 4, 5], index=['0', '1', '2'])

In [43]:
s2.index = s2.index.astype(int)

In [44]:
s2

0    3
1    4
2    5
dtype: int64

In [45]:
s2.index

Int64Index([0, 1, 2], dtype='int64')

In [46]:
s1 + s2

0    3
1    5
2    7
dtype: int64

In [47]:
# 두번째 방법
s1 = pd.Series([0, 1, 2], index=[0, 1, 2])
s2 = pd.Series([3, 4, 5], index=['0', '1', '2'])

In [48]:
s1.index = ['a', 'b', 'c']
s2.index = ['a', 'b', 'c']

In [49]:
s1 + s2

a    3
b    5
c    7
dtype: int64

#### `reindex()`의 유용한 Arguments

- `fill_value`

In [50]:
s2 = s.copy()
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [51]:
s2.reindex(['a', 'f'])

a    1.0
f    NaN
dtype: float64

In [52]:
s2.reindex(['a', 'f'], fill_value=0)  # fill 0 insteand of Nan

a    1
f    0
dtype: int64

- `method`

In [53]:
s3 = pd.Series(['red', 'green', 'blue'], index=[0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

In [54]:
s3.reindex(np.arange(0,7)) 
# 대문자 NaN은 보통 데이터타입이 오브젝트인 경우이다.

0      red
1      NaN
2      NaN
3    green
4      NaN
5     blue
6      NaN
dtype: object

In [55]:
s3.reindex(np.arange(0,7), method='ffill') # 비어진 값은 이전 값으로 채우는 방법

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object

#### 예제

In [None]:
# 맨 첫 강의에서 라이브러리를 설치할 때 requirements.txt를 이용해서 설치를 했으면, 건너뛰셔도 됩니다. 
!pip install finance_datareader == 0.9.1

In [56]:
import FinanceDataReader as fdr
# 아래 링크에서 간단한 사용법 참조
# https://github.com/financedata-org/FinanceDataReader

In [None]:
# 삼성전자
df1 = fdr.DataReader("005930", '2018-01-02', '2018-10-30')

# KODEX 200 (ETF)
df2 = fdr.DataReader("069500", '2018-01-03', '2018-10-30')

In [58]:
df1.head(2)
df1.tail(2)

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,51380,51400,50780,51020,169485,0.001177
2018-01-03,52540,52560,51420,51620,200270,0.01176


Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-10-29,40850,41950,40550,41400,14460521,0.009756
2018-10-30,41400,43000,41000,42350,14205190,0.022947


In [59]:
df2.head(2)
df2.tail(2)

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-03,29789,29879,29717,29794,7397158,0.004281
2018-01-04,29960,29974,29547,29558,9094362,-0.007921


Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-10-29,24249,24411,23925,23974,5408544,-0.008068
2018-10-30,23938,24353,23852,24140,8172725,0.006924


In [60]:
# 삼성전자
df1 = fdr.DataReader("005930", '2018-01-02', '2018-10-30')

# KODEX 200 (ETF)
df2 = fdr.DataReader("069500", '2018-01-02', '2018-10-30')

In [61]:
df1.shape
df2.shape

(202, 6)

(202, 6)

In [62]:
df2 = df2.drop(pd.to_datetime("2018-01-03")) 
# 해당 인덱스의 행을 제거하기. 문자열을 datetime 타입으로 바꾸는 것에 주목
df2.head()
# df2에서 1월 3일 데이터가 없는 경우를 만들어보았다.
# 해당 날짜에 거래가 안되었거나, 데이터 제공자가 실수했거나 하는...

# 두 df를 합치기가 어려울 수 있는데, 이때 reindex를 사용해야 한다.

# 이는 특히 백테스팅에 중요하다. 날짜별로 정렬되어있어야 결과가 좋은데
# 특정 종목의 특정 날짜만 데이터가 없어 데이터가 밀리면 결과에 영향을 준다.
# 상장 시기가 늦거나, 상장 폐지되는 경우도 생각해야 한다.

# 지수, 지수추종 ETF는 거래정지의 개념이 없어서
# 모든 거래일을 담고 있다고 보아도 된다.

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,29643,29731,29552,29667,5117685,0.004435
2018-01-04,29960,29974,29547,29558,9094362,-0.007921
2018-01-05,29631,29951,29631,29960,8285760,0.0136
2018-01-08,30078,30202,29910,30161,8185469,0.006709
2018-01-09,30069,30284,29906,30043,8131525,-0.003912


In [63]:
df1.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,51380,51400,50780,51020,169485,0.001177
2018-01-03,52540,52560,51420,51620,200270,0.01176
2018-01-04,52120,52180,50640,51080,233909,-0.010461
2018-01-05,51300,52120,51200,52120,189623,0.02036
2018-01-08,52400,52520,51500,52020,167673,-0.001919


In [64]:
new_df2 = df2.reindex(df1.index)
new_df2.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,29643.0,29731.0,29552.0,29667.0,5117685.0,0.004435
2018-01-03,,,,,,
2018-01-04,29960.0,29974.0,29547.0,29558.0,9094362.0,-0.007921
2018-01-05,29631.0,29951.0,29631.0,29960.0,8285760.0,0.0136
2018-01-08,30078.0,30202.0,29910.0,30161.0,8185469.0,0.006709


In [65]:
df1.shape
new_df2.shape
# 두 df간의 shape이 잘 맞는 것을 확인하자.

(202, 6)

(202, 6)

In [None]:
new_df2.fillna(method="ffill") 
# 전날 데이터를 가져와서 NaN을 채우자
# 다음날 데이터를 앞으로 가져오는 것은 백테스팅의 의미상 말이 안된다.
# 과거의 기준에서는 미래의 데이터가 없기 때문.
# reindex 대신 na를 채우는 fillna 함수를 사용.

# 데이터가 비는 경우가 상당히 많다. 
# 특정 종목의 분봉은 정말 드문드문하게 데이터가 있는 경우가 많음.