# 편한대로 쓰는 10 Minutes to pandas

* 판다스 정식 문서에 있는 10 Minutes to pandas를 내가 보기 편하게 정리하려고 만듦
* 정식 문서 같은 어투로 정리하지 않고, 맞춤법도 딱히 신경쓰지 않을 것임!
* 어차피 볼 사람도 없으니까 걍 대충 깔끔하게 정리하자!
* 혹시나 어딘가의 누군가가 쉬운 한글 문서 찾다가 아주 낮은 확률로 올 수 있으니 아주 조금 친절하게 쓰자
* 쓰다보니까 파이썬 관련 경험이 좀 필요한 거 같아서 완전 초심자가 보는 걸 대비해서 이것저것 추가 설명 썼음

## 0.필수 기능 불러오기

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

- pandas는 데이터분석, numpy는 수학계산, matplotlib.pyplot는 시각화라고 생각하면 간단
- import pandas as pd는 쉽게 이야기 하면 pandas라는 기능을 쓸때 줄임말로 pd라고 쓸 수 있도록 했다고 하자. <br>온라인이나 게임에서 글쓰거나 채팅할때 '수고하셨어요'라고 안하고 'ㅅㄱ'나 'ㅅㄱㅇ' 하는 것과 같다

## 1. 오브젝트 생성(Object Creation)

### 1.1 Series를 생성해보자

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

- pd.Series([1, 3, 5, np.nan, 6, 8])는 말하듯이 풀어쓰면 판다스에서(pd.) Series라는 기능으로 오브젝트를 만들건데(Series) 오브젝트 안에 들어가는 것들은 괄호안에 있는 것과 같아요([1, 3, 5, np.nan, 6, 8])라고 하는 것
- dtype을 보면 float형식으로 들어간 것을 알 수 있다. 그냥 정수로 써도 들어갈때는 소수 형식으로 들어간다고 이해하자.
- 3번 row에 있는 NaN은 값이 없다는 것이다. 값이 0이라는 게 아니라 없다는 거다. 시험을 봐서 0점 받은거랑 시험조차 보지 않아서 점수가 없는 거랑 다른 정도로 생각하자.

### 1.2 이번엔 DataFrame을 만들어보자

In [4]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

- 딱 봐도 알겠지만 20130101을 시작으로 6일의 기간(periods=6)을 dates에 할당시키는 것

In [5]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.188267,0.676206,-1.177354,-1.565533
2013-01-02,-0.83885,-2.582519,-1.986547,1.301385
2013-01-03,1.405503,-0.238376,1.083729,-1.04405
2013-01-04,0.445581,0.144978,-1.316236,-0.131648
2013-01-05,-0.03264,-0.683858,0.547059,-1.872221
2013-01-06,-1.036429,-1.253859,0.952688,-1.017558


- np.random.randn(6,4)는 표준정규분포에서 숫자를 랜덤으로 뽑는다. 6,4 는 데이터프래임 크기로 row가 6개고 column이 4개라는 소리다
- index=dates는 row를 아까 설정한 dates로 한다는 것이다. dates에 있던 6일이 각 행에 색인(index)로 들어간다
- columns=list('ABCD')는 각 column에 문자를 하나씩 header로 준다.

### 1.3 dict를 써서 데이터프래임을 만들어보자

In [6]:
df2 = pd.DataFrame({ 'A' : 1.,
                              'B' : pd.Timestamp('20130102'),
                              'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                              'D' : np.array([3] * 4,dtype='int32'),
                              'E' : pd.Categorical(["test","train","test","train"]),
                              'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


- dict는 'A' : 1 이라고 써있는 것을 그냥 읽어보자면 "A는 1이다"라고 말하는 것 처럼 정리되는 형식이다.
- 따라서 A 항목에는 모두 1이 들어가고
- B에는 20130102라는 숫자가 Timestamp기능으로 날짜 방식으로 변해서 2013-01-02로 들어가고
- C에는 Series 형식으로 1이 들어가는데 index=list(range(4))에 따라 4개가 들어갈거고, dtype='float32'에 따라 데이터는 float32 형식으로 들어간다.
- D에는 np.array기능으로 [3] * 4,dtype='int32'에 따라 3이 4개 들어가 있는 int32 형식의 array를 만듦.
- F에는 foo라는 오브젝트가 들어감

결국 각 column에 다른 자료형이 들어가는 걸 보여주려고 이렇게 만든 듯. 판다스에서 다양한 자료형으로 데이터프레임을 만들 수 있다는 것을 알고 넘어가면 된다!

In [7]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

### 1.4 자동완성 기능에 대해 알아보자

- IPython(주피터 노트북이 IPython기반)을 사용하면 df2. 까지 입력한 상태에서 키보드의 TAB키를 누르면 쓸 수 있는 기능들이 나온다.
- 만약에 df2.mean()으로 평균값을 구하고 싶으면 df2.m 까지 치고 탭누르면 m 으로 시작하는 기능들이 쭉 나온다
- 기능 뒤에 ()가 자동으로 안쳐지니까 직접 쓰도록
- 이건 주피터 노트북에 표현하는 법을 몰라서 그냥 직접 실습해보기!

## 2. 데이터 보는 법(Viewing Data)

### 2.1 처음과 끝을 기준으로 몇 줄의 데이터만 봐보자

홈페이지에는 Basic section 참고 하라는데, 일단 그냥 아래처럼 데이터프레임을 만들자

In [8]:
index = pd.date_range('1/1/2013', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=index, columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-03,0.91225,-1.625752,-0.572556,0.740213
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693
2013-01-05,0.078435,0.291873,1.101588,-0.255944
2013-01-06,-0.565639,-1.290139,1.394723,0.346225


랜덤숫자를 주는 거니까 홈페이지랑 다르다고 겁먹지 말고

In [9]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-03,0.91225,-1.625752,-0.572556,0.740213
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693
2013-01-05,0.078435,0.291873,1.101588,-0.255944


위에서 부터 5개를 보여준다. 그러니까 head임

In [10]:
df.head(2)

Unnamed: 0,A,B,C,D
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326


괄호에 숫자 넣으면 그만큼 보여준다 숫자가 몇이던 데이터프레임 자료 숫자 이내면 괜찮음

In [11]:
df.tail()

Unnamed: 0,A,B,C,D
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-03,0.91225,-1.625752,-0.572556,0.740213
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693
2013-01-05,0.078435,0.291873,1.101588,-0.255944
2013-01-06,-0.565639,-1.290139,1.394723,0.346225


밑에서 부터 5개를 보여준다. 그러니까 tail임

In [12]:
df.tail(2)

Unnamed: 0,A,B,C,D
2013-01-05,0.078435,0.291873,1.101588,-0.255944
2013-01-06,-0.565639,-1.290139,1.394723,0.346225


head()에서 했던 설명과 동일한 원리다

### 2.2 행, 열, 값을 보자

row부터 보자

In [13]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

column을 보자

In [14]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

value를 보자

In [15]:
df.values

array([[ 1.39017855, -1.54728098, -0.29144213, -0.1634782 ],
       [-0.14896087, -0.27779514, -1.55864714, -0.56332582],
       [ 0.91224951, -1.6257518 , -0.57255612,  0.74021333],
       [-1.76772082,  1.58609776, -0.21129726, -1.44069277],
       [ 0.07843491,  0.29187305,  1.10158844, -0.25594358],
       [-0.5656388 , -1.29013903,  1.39472308,  0.34622499]])

이건 정말 쉬우니까 설명 안씀

### 2.3 데이터프레임 행, 열을 서로 바꿔보자

기존 데이터프레임의 row와 column을 바꾸고 싶으면 어떻게 해야할까

In [16]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,1.390179,-0.148961,0.91225,-1.767721,0.078435,-0.565639
B,-1.547281,-0.277795,-1.625752,1.586098,0.291873,-1.290139
C,-0.291442,-1.558647,-0.572556,-0.211297,1.101588,1.394723
D,-0.163478,-0.563326,0.740213,-1.440693,-0.255944,0.346225


- row와 column이 변경되었다
- 매트릭스 연산을 아시는 분은 전치행렬(matrix transpose)라고 이해하시면 된다

### 2.4 데이터프레임의 행과 열의 순서를 각각 역순으로 변경해보자

df의 column의 순서를 역순으로 해보자

In [17]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.163478,-0.291442,-1.547281,1.390179
2013-01-02,-0.563326,-1.558647,-0.277795,-0.148961
2013-01-03,0.740213,-0.572556,-1.625752,0.91225
2013-01-04,-1.440693,-0.211297,1.586098,-1.767721
2013-01-05,-0.255944,1.101588,0.291873,0.078435
2013-01-06,0.346225,1.394723,-1.290139,-0.565639


- axis=1 부분이 column을 뜻 한다

In [18]:
df.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D
2013-01-06,-0.565639,-1.290139,1.394723,0.346225
2013-01-05,0.078435,0.291873,1.101588,-0.255944
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693
2013-01-03,0.91225,-1.625752,-0.572556,0.740213
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478


- axis=0 이면 row의 순서가 바뀌니 참고!

### 2.5 데이터프레임의 값을 기준으로 정렬해보자

특정 column의 값을 순서대로 정렬해보자

In [19]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-03,0.91225,-1.625752,-0.572556,0.740213
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-06,-0.565639,-1.290139,1.394723,0.346225
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-05,0.078435,0.291873,1.101588,-0.255944
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693


- by='B'에 따라 B는 value의 크기가 작은 순서대로 정렬되었다
- 그리고 나머지 column의 값들은 B가 정렬된 순서에 따라 자동으로 정렬되었다(row의 날짜가 변경된걸로 뭐가 변경 됐는지 파악해봐요)

## 3. 선택하기(Selection)

데이터프레임에서 특정 자료를 선택하는 법을 배우자

### 3.1 기본적인 자료 선택법

column 중에서 A의 값을 가져오려면?

In [20]:
df['A']

2013-01-01    1.390179
2013-01-02   -0.148961
2013-01-03    0.912250
2013-01-04   -1.767721
2013-01-05    0.078435
2013-01-06   -0.565639
Freq: D, Name: A, dtype: float64

1~3 row에 해당하는 정보를 가져오려면?(2가지 방법)

In [21]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-03,0.91225,-1.625752,-0.572556,0.740213


In [22]:
df['20130101':'20130103']

Unnamed: 0,A,B,C,D
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-03,0.91225,-1.625752,-0.572556,0.740213


### 3.2 라벨이름 별 선택법

먼저 dates를 상기하고 보자

In [23]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

2013-01-01의 데이터를 보려면?

In [24]:
df.loc[dates[0]]

A    1.390179
B   -1.547281
C   -0.291442
D   -0.163478
Name: 2013-01-01 00:00:00, dtype: float64

- dates의 첫번째 값이 2013-01-01이고, 파이썬에서 첫번째를 나타내는 것은 0 이므로 dates[0]은 2013-01-01을 나타낸다
- df.loc[dates[0]]는 결국 첫번째 row의 값을 보여주세요! 라고 요청하는 것

이번에는 데이터프레임의 일부분을 보는 방법이다

In [25]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,1.390179,-1.547281
2013-01-02,-0.148961,-0.277795
2013-01-03,0.91225,-1.625752
2013-01-04,-1.767721,1.586098
2013-01-05,0.078435,0.291873
2013-01-06,-0.565639,-1.290139


- df.loc[:,['A','B']] 에서 콜론(:)만 써있는 경우에는 모든 값이라고 이해하자. 결국 row의 모든 값을 불러오는 것임
- ['A','B']부분은 column 중에 A와 B만 가져오겠다는 것이다
- 잘 모르겠다고? 그럼 이어서 보자

In [26]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,-0.148961,-0.277795
2013-01-03,0.91225,-1.625752
2013-01-04,-1.767721,1.586098


- df.loc[보고싶은 row, 보고싶은 column]이라고 생각하면 된다.
- 말로 쓰자면 2~3일의 데이터를 조회할건데, 그 중에서 A랑 B 것만 보는 거다

홈페이지 구성 순서에 따라 일단 설명을 적는다

In [27]:
df.loc['20130102',['A','B']]

A   -0.148961
B   -0.277795
Name: 2013-01-02 00:00:00, dtype: float64

- 설명으로는 Reduction in the dimensions of the returned object 라고 적혀있다.
- 호출되는 오브젝트의 차원 감소라고 하는데 비교를 위해 아래를 보자

In [28]:
temp1 = df.loc['20130102':'20130104',['A','B']]
temp2 = df.loc['20130102',['A','B']]
print(type(temp1))
print(type(temp2))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


- temp1과 temp2의 차이는 row의 수가 얼마나 있느냐이다
- 선택한 row가 1개인 temp2의 경우 Series로 나오고 여러개인 temp1은 DataFrame으로 나오는게 차원 차이가 난다는 설명으로 보인다.
- DataFrame이 매트릭스의 성질, Series가 벡터의 성질을 갖고 있는 것을 설명하는 부분인듯

하나의 값만 선택하려면

In [29]:
df.loc[dates[0],'A']

1.3901785503960913

- 이것은 Series보다 한차원이 작으니(벡터보다 작으니까) Scalar 값이다!
- 그리고 이렇게 쓰는 방법이 스칼라에 접근하는 가장 빠른 방법이다(코드 속도가 빠른 것을 말한다)
- 다른 방식으로 접근하면 위의 방법보다 비교적 느린 속도로 스칼라에 접근한다

 ### 3.3 라벨위치 별 선택법

이번에는 행과 열의 이름으로 선택하는게 아니라 위치를 나타내는 숫자로 선택하는 방법이다

4번째 row의 있는 값을 불러와보자

In [30]:
df.iloc[3]

A   -1.767721
B    1.586098
C   -0.211297
D   -1.440693
Name: 2013-01-04 00:00:00, dtype: float64

파이썬에서 사용하는 slice 기능을 써서 해봅시다

In [31]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,-1.767721,1.586098
2013-01-05,0.078435,0.291873


- 3:5면 3~5가 아니라 3~4가 선택된다. 마지막 숫자는 선택이 되는게 아니다.
- 똑같은 원리로 column도 0~1이 선택된다.
- 다시 한 번 말하지만 파이썬은 0부터 시작이다. 이제 다시 말 안해줌

이번에는 보고 싶은 row와 column을 직접 선택해서 보는 방식이다

In [32]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,-0.148961,-1.558647
2013-01-03,0.91225,-0.572556
2013-01-05,0.078435,1.101588


다시 말하지만 콜론(:)이 모든 것을 뜻하는 것과 같다고 했으니 한 번 확인해보자

In [33]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326
2013-01-03,0.91225,-1.625752,-0.572556,0.740213


In [34]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,-1.547281,-0.291442
2013-01-02,-0.277795,-1.558647
2013-01-03,-1.625752,-0.572556
2013-01-04,1.586098,-0.211297
2013-01-05,0.291873,1.101588
2013-01-06,-1.290139,1.394723


하나의 값만 선택하는 방법이다

In [35]:
df.iloc[1,1]

-0.27779513537235745

iat은 하나의 값만 선택하는 기능이여서 위와 똑같은 방식이다

In [36]:
df.iat[1,1]

-0.27779513537235745

 ### 3.4 조건을 설정하여 색인하기

먼저 df의 A colom이 0인 row가 어디인지 확인해보자

In [41]:
df.A > 0

2013-01-01     True
2013-01-02    False
2013-01-03     True
2013-01-04    False
2013-01-05     True
2013-01-06    False
Freq: D, Name: A, dtype: bool

1, 3, 5일 row가 True로 나타난다. 그럼 값이 True인 row의 값만 불러와보자

In [43]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478
2013-01-03,0.91225,-1.625752,-0.572556,0.740213
2013-01-05,0.078435,0.291873,1.101588,-0.255944


- A 중에서 값이 참인 경우의 row만 가져왔으며 다른 column은 0보다 작아도 가져온다.
- 부등식 처럼 순수하게 A에만 참, 거짓을 적용했기 때문에 다른 column은 상관이 없다

이번엔 특정 변수가 있는 row를 가져오는 방법을 알아보자<br>
작업을 위해 df를 하나 복제하고 새로운 E column을 만든다

In [44]:
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,1.390179,-1.547281,-0.291442,-0.163478,one
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326,one
2013-01-03,0.91225,-1.625752,-0.572556,0.740213,two
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693,three
2013-01-05,0.078435,0.291873,1.101588,-0.255944,four
2013-01-06,-0.565639,-1.290139,1.394723,0.346225,three


이제 E column에서 two와 four가 있는 row만 isin 기능을 통해 가져온다

In [46]:
df2[df2['E'].isin(['two', 'four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,0.91225,-1.625752,-0.572556,0.740213,two
2013-01-05,0.078435,0.291873,1.101588,-0.255944,four


 ### 3.5 행렬의 추가 변경 설정

새로운 column을 만들어서 기존 데이터프래임에 추가하기 위해 새로운 Series를 만들자

In [66]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

새로운 Series인 s1을 데이터프래임에 추가하려면

In [67]:
df['F'] = s1
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,-1.547281,-0.291442,-0.163478,
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326,1.0
2013-01-03,0.91225,-1.625752,-0.572556,0.740213,2.0
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693,3.0
2013-01-05,0.078435,0.291873,1.101588,-0.255944,4.0
2013-01-06,-0.565639,-1.290139,1.394723,0.346225,5.0


- s1은 2~7일의 정보를 생성했기 때문에 df에 포함시키는 경우 1일의 데이터는 NaN이고 7일의 데이터는 제외된다
- 새로 추가되는 column은 기존 데이터프래임의 row 모양을 변경시키지는 못한다.
- df['F'] = s1는 풀어쓰자면 F column 자리를 만들었고, 그 자리의 값은 s1 입니다 정도로 이해하자

데이터프래임의 값을 바꿔보자

In [68]:
df.at[dates[0],'A'] = 0
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,-1.547281,-0.291442,-0.163478,
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326,1.0
2013-01-03,0.91225,-1.625752,-0.572556,0.740213,2.0
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693,3.0
2013-01-05,0.078435,0.291873,1.101588,-0.255944,4.0
2013-01-06,-0.565639,-1.290139,1.394723,0.346225,5.0


- dates[0]은 첫번째 row의 값을 나타내고, 'A'는 첫번째 column이다.
- 이 값을 0으로 할당했기 때문에 df의 해당 값이 0으로 변경됐다.

In [70]:
df.iat[0,1] = 0
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.291442,-0.163478,
2013-01-02,-0.148961,-0.277795,-1.558647,-0.563326,1.0
2013-01-03,0.91225,-1.625752,-0.572556,0.740213,2.0
2013-01-04,-1.767721,1.586098,-0.211297,-1.440693,3.0
2013-01-05,0.078435,0.291873,1.101588,-0.255944,4.0
2013-01-06,-0.565639,-1.290139,1.394723,0.346225,5.0


- 값 하나만 선택하는 기능인 iat으로 변경해보았다!

In [73]:
df.loc[:,'D'] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.291442,5,
2013-01-02,-0.148961,-0.277795,-1.558647,5,1.0
2013-01-03,0.91225,-1.625752,-0.572556,5,2.0
2013-01-04,-1.767721,1.586098,-0.211297,5,3.0
2013-01-05,0.078435,0.291873,1.101588,5,4.0
2013-01-06,-0.565639,-1.290139,1.394723,5,5.0


- 이러면 df의 row 길이 만큼 5가 들어간 np.array기 D 컬럼에 적용된다