#Ch. 5 pandas 시작하기

pandas는 고수준의 자료 구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구를 포함함

In [969]:
from pandas import Series, DataFrame
Series          #Series 바로사용

pandas.core.series.Series

Series와 DataFrame은 워낙 많이 사용하기 때문에 위와 같이 직접 네임스페이스로 불러들여 사용함. 

아래와 같이 하는 것보다 조금 덜 타이핑을 할 수있음.

In [970]:
import pandas           #pandas 를 네임 스페이로 읽음
pandas.Series           #pandas 안에  Series 를 사용

pandas.core.series.Series

In [971]:
import pandas as pd
#pd를 코드에서 보면 pandas로 지칭하겠다.

##5.1 pandas 자료 구조 소개

__ pandas의 대표적 자료구조__
 - Series
 - DataFrame

###5.1.1 Series

- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조.
- 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가짐.
- 가장 간단한 Series 객체는 배열 데이터로부터 생성 가능.

In [972]:
obj = Series([4,7,-5,3])

In [973]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에 색인, 오른쪽에 해당 색인의 값을 보여줌

위의 예제에서는 데이터의 색인을 지정하지 않았으므로 기본색인인 정수 0~n-1까지 숫자가 표시됨.

Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있음

In [974]:
obj.values

array([ 4,  7, -5,  3])

In [975]:
obj.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [976]:
obj2 = Series([4,7,-5,3], index=['d', 'b', 'a', 'c'])
#각각의 데이터를 지칭하는 색인을 지정해 Series 객체를 생성할수 있음

In [977]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [978]:
obj2.index

Index([u'd', u'b', u'a', u'c'], dtype='object')

In [979]:
#색인을 이용한  접근
obj2['a']

-5

In [980]:
#색인을 이용한  대입
obj2['d'] = 6

In [981]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [982]:
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64


여러 연산을 구행해도 색인-값 연결은 유지됨!

In [983]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [984]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [985]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [986]:
import numpy as np
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series는 색인 값에 데이터 값을 매핑하고 있으므로 파이썬의 사전형과 비슷함.

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있음.

In [987]:
'b' in obj2

True

In [988]:
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체르 생성할 수 도 있음

In [989]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인은 사전의 키 값이 순서대로 들어감


In [990]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

#  California를 찾을수 없기 때문에 NaN(not a number)로 표시됨.

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

pandas의 **isnull**과 **notnull** 함수는 누락된 데이터를 찾을때 사용됨

In [991]:
pd.isnull(obj4)       

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [992]:
 pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [993]:
obj4.isnull()
#이 메서드는 Series의 인스턴스 메서드이기도 함

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

** 가장 중요한 Series의 기능은 다르게 색인된 데이터에 대한 산술연산**

In [994]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [995]:
obj4

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

In [996]:
obj3 + obj4

California       NaN
Ohio           70000
Oregon         32000
Texas         142000
Utah             NaN
dtype: float64

Series 객체와 Series의 색인은 모두 name 속성이 있는데, 이 속성은 pandas의 기능에서 중요한 부분을 차지함

In [997]:
obj4.name = 'population'
obj4.index.name = 'state'

In [998]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [999]:
#Series의 색인은 대입을 통해 변경 가능
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 5.1.2  DataFrame

- Pandas의 DataFrame은 2차원 형태의 데이터를 효과적으로 표현할 수 있는 데이터 구조

- 고차원의 표 형식 데이터를 계층적 색인을 통해 쉽게 표현 가능

In [1000]:
data = {'state': ['Ohio', 'Ohio','Ohio', 'Nevada', 'Nevada'],
           'year' : [2000, 2001, 2002,2001,2002],
           'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

In [1001]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [1002]:
#원하는 순서대로 colums를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성
DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [1003]:
#Series와 마찬가지로 data에 없는 값을 넘기면 NA 값이 저장
frame2 = DataFrame(data, columns = ['year', 'state', 'pop', 'debt'],
                               index=['one', 'two', 'three', 'four', 'five'])

In [1004]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [1005]:
#DataFrame의 칼럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근 가능
print  frame2['state']; frame2.year

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object


one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [1006]:
#로우로 접근
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [1007]:
#칼럼대입
frame2['debt'] = 16.5

In [1008]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [1009]:
frame2['debt'] = np.arange(5.)

In [1010]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [1011]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [1012]:
#리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야함.
#Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않음.
val = Series([-1.2, -1.5, -1.7], index=['two','four', 'five'])
frame2['debt'] = val
print val;
frame2

two    -1.2
four   -1.5
five   -1.7
dtype: float64


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [1013]:
#없는 칼럼을 대입하면 새로운 칼럼이 생성
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [1014]:
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [1015]:
#중첩된 사전이 있다면, 바깥에 있는 사전의 키 값이 칼럼이 되고 안에 있는 키는 로우가 된다.
pop = {'Nevada' : {2001:2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [1016]:
#NumPy에서와 마찬가지로 결과 값의 순서를 뒤집을 수 있음.
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [1017]:
#색인을 직접 지정한다면 지정된 색인으로 DataFrame을 생성
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [1018]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


 ---------------------------------------------------------------------------------------------------------

In [1019]:
frame3['Ohio']

2000    1.5
2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [1020]:
frame3['Ohio'][:-1]

2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [1021]:
frame3['Nevada'][:2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

In [1022]:
pdata = {'Ohio':frame3['Ohio'][:-1], 'Nevada':frame3['Nevada'][:2]}


In [1023]:
type(pdata)

dict

In [1024]:
type(frame3['Ohio'][:-1])

pandas.core.series.Series

In [1025]:
#Series객체를 담고 있는 사전 데이터도 같은 방식으로 취급됨
DataFrame(pdata)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


In [1026]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [1027]:
#Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

In [1028]:
#DataFrame의 칼럽에 서로 다른 dtype이 있다면 모든 칼럼을 수요오하기 위해 그 칼럼 배열의 dtype이 선택
print frame2;
frame2.values

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7


array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

###5.1.3 색인 객체

- pandas의 색인객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터를 저장하는 객체

- Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 혹은 다른 순차적인 이름은 내부적으로 색인으로 변환

In [1029]:
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index([u'a', u'b', u'c'], dtype='object')

In [1030]:
index[1:]

Index([u'b', u'c'], dtype='object')

In [1031]:
#색인객체는 변경할 수 없음.
#index[1] = 'd'

In [1032]:
type(index)

pandas.core.index.Index

In [1033]:
#색인 객체는 변경할 수 없기에 자료 구조 사이에서 안전하게 공유될 수 있음.
index = pd.Index(np.arange(3))
index


Int64Index([0, 1, 2], dtype='int64')

In [1034]:
obj2 = Series([1.5, -2.5, 0], index=index)
print obj2.index is index;
obj2

True


0    1.5
1   -2.5
2    0.0
dtype: float64

| 클래스  | 설명 |
| :------------ | :-----------: |
| Index |가장 일반적인 Index 객체이며, 파이썬 객체의 NumPy 배열 형식으로 축의 이름을 표현한다.|
|Int62index|정수 값을 위한 특수한 Index|
|MultiIndex|단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체, 튜플의 배열과 유사하다고 볼 수 있다.|
|Datetimeindex|나노초 타임스탬프를 저장한다(NumPy의 datetime64 dtype으로 표현된다.|
|PeriodIndex|기간 데이터를 위한 특수한 Index|



In [1035]:
#배열과 유사하게 Index 객체도 고정 크기로 동작
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [1036]:
'Ohio' in frame3.columns

True

In [1037]:
2003 in frame3.index

False

색인 메서드

In [1038]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [1039]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [1040]:

#append : 추가적인 Index 객체를 덧붙여 새로운 색인 반환
frame3.append(frame2,ignore_index=False)

Unnamed: 0_level_0,Nevada,Ohio,debt,pop,state,year
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000,,1.5,,,,
2001,2.4,1.7,,,,
2002,2.9,3.6,,,,
one,,,,1.5,Ohio,2000.0
two,,,-1.2,1.7,Ohio,2001.0
three,,,,3.6,Ohio,2002.0
four,,,-1.5,2.4,Nevada,2001.0
five,,,-1.7,2.9,Nevada,2002.0


In [1041]:
#diif 색인의 차집합을 반환한다.
frame3.diff(periods=1,axis=0)

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,
2001,,0.2
2002,0.5,1.9


In [1042]:
frame3.isin([2.4])

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,False,False
2001,True,False
2002,False,False


##5.2 핵심 기능

###5.2.1 재색인

reindex는 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [1043]:
obj = Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [1044]:
 obj.reindex(['a', 'b', 'c', 'd', 'e'])

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

method 옵션에 ffill 메서드를 이용하면  시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣을수 잇다.

In [1045]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [1046]:
obj3.reindex(range(6))

0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object

In [1047]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

DataFrame에 대한 reindex는 색인(로우), 칼럼 또는 둘다 변경이 가능(순서만 전달하면 로우가 재색인)

In [1048]:
frame = DataFrame(np.arange(9).reshape((3,3)), index = ['a', 'c' , 'd'], columns=['Ohio', 'Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [1049]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [1050]:
#열은 columns 예약어를 사용해서 재색인 가능
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [1051]:
#로우와 칼럼을 모두 한 번에 재색인할 수  있지만 보간은 로우에 대해서만 이루어진다.
frame.reindex(index=['a', 'b', 'c' , 'd'],method='ffill', columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,1,,2
c,4,,5
d,7,,8


###5.2.2 하나의 로우 또는 칼럼 삭제하기

In [1052]:
obj = Series(np.arange(5.),index=['a', 'b', 'c' , 'd','e'])
new_obj = obj.drop('c')
new_obj

a    0
b    1
d    3
e    4
dtype: float64

In [1053]:
obj.drop(['d','c'])

a    0
b    1
e    4
dtype: float64

In [1054]:
#DataFrame에서는 로우와 칼럼 모두에서 값을 삭제 가능
data = DataFrame(np.arange(16).reshape((4,4)),index=['Ohio','Colorado', 'Utah', 'New York'], columns=['one','two','three','four'] )
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [1055]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [1056]:
data.drop('one',axis=1)

Unnamed: 0,two,three,four
Ohio,1,2,3
Colorado,5,6,7
Utah,9,10,11
New York,13,14,15


In [1057]:
data.drop(['two', 'four'] ,axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [1058]:
data.drop(['Ohio'] ,axis=0)

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


###5.2.3 색인하기, 선택하기, 거르기

Series의 색인은 Numpy 배열의 색인과 유사하게 동작하는데, Series의 색인은 정수가 아니어도 된다는 점이 다르다.

In [1059]:
obj = Series(np.arange(4.), index=['a','b','c','d'])
obj

a    0
b    1
c    2
d    3
dtype: float64

In [1060]:
obj['b']

1.0

In [1061]:
obj[1]

1.0

In [1062]:
obj[2:4]

c    2
d    3
dtype: float64

In [1063]:
obj[['b','a','d']]

b    1
a    0
d    3
dtype: float64

In [1064]:
obj[['b']]

b    1
dtype: float64

In [1065]:
obj[[1,3]]

b    1
d    3
dtype: float64

In [1066]:
obj[obj<2]

a    0
b    1
dtype: float64

In [1067]:
#라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다르다.
obj['b':'c']

b    1
c    2
dtype: float64

In [1068]:
#슬라이싱 문법으로 선택된 영역에 값을 대입
obj['b':'c'] = 5
obj

a    0
b    5
c    5
d    3
dtype: float64

In [1069]:
#색인으로 DataFrame에서 칼럼의 값을 하나 이상 가져올 수 있다.
data = DataFrame(np.arange(16).reshape((4,4)),index=['Ohio','Colorado', 'Utah', 'New York'], columns=['one','two','three','four'] )
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [1070]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [1071]:
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [1072]:
#슬라이싱으로 로우를 선택하거나 부리언 배열로 칼럼을 선택할 수도 있음
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [1073]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [1074]:
data<5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [1075]:
data[data<5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [1076]:
data.ix['Colorado', ['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

In [1077]:
data.ix[['Colorado','Utah'], [3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [1078]:
data.ix[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [1079]:
data.ix[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [1080]:
data.ix[data.three>5,:3]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [1081]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [1082]:
#DataFrame에서 로우의 부부집합을 보여줌
data.ix[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [1083]:
#DataFrame에서 칼럼의 부부집합을 보여줌
data.ix[:,2]

Ohio         0
Colorado     6
Utah        10
New York    14
Name: three, dtype: int64

In [1084]:
#DataFrame에서 로우와 칼럼의 부분집합을 보여줌
data.ix[2,2]

10

In [1085]:
#라벨 이름으로 단일 로우나 칼럼을 Series형식으로 보여줌
data.xs('Utah', axis=0)

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [1086]:
#각각 정수 색인으로 단일 로우나 칼럼을 Series 형식으로 보여줌
data.icol(1)

Ohio         0
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [1087]:
#로우와 칼럼 이름으로 DataFrame의 값을 선택
data.get_value('Ohio','one')

0

In [1088]:
data.set_value('Ohio','one',4)
data.get_value('Ohio','one')

4

### 5.2.4 산술연산과 데이터 정렬

In [1089]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5,4, 3.1], index=['a', 'c',  'e', 'f', 'g'])
print s1
print s2

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [1090]:
#객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합됨
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [1091]:
df1 = DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'),index=['Ohio','Texas','Colorado'])
df2 = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),index=['Utah','Ohio','Texas','Oregon'])

In [1092]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [1093]:
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [1094]:
#서로 겹치는 색인이 없다면 데이터는 NA값이 됨.
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [1095]:
#df1의 add 메서드로 df2와 fill_value 값을 인자로 전달.
df1.add(df2,fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6,7.0,8,
Ohio,3,1.0,6,5.0
Oregon,9,,10,11.0
Texas,9,4.0,12,8.0
Utah,0,,1,2.0


In [1096]:
df1.add(df2,fill_value=1)

Unnamed: 0,b,c,d,e
Colorado,7,8.0,9,
Ohio,3,2.0,6,6.0
Oregon,10,,11,12.0
Texas,9,5.0,12,9.0
Utah,1,,2,3.0


In [1097]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [1098]:
#재색인할때 역시 fill_value를 지정할 수 있음.
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,b,d,e
Ohio,0,2,0
Texas,3,5,0
Colorado,6,8,0


In [1099]:
df1.div(df2,fill_value=2)

Unnamed: 0,b,c,d,e
Colorado,3.0,3.5,4.0,
Ohio,0.0,0.5,0.5,0.4
Oregon,0.222222,,0.2,0.181818
Texas,0.5,2.0,0.714286,0.25
Utah,inf,,2.0,1.0


### Data Frame과  Series 간의 연산

In [1100]:
arr = np.arange(12.).reshape((3,4))

In [1101]:
arr

array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])

In [1102]:
arr[0]

array([ 0.,  1.,  2.,  3.])

In [1103]:
#2차원 배열과 그 배열 중 한 칼럼의 연산
arr - arr[0]

array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

In [1104]:
frame = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'), index=['Utah', 'Ohio','Texas', 'Oregon'])
series = frame.ix[1]

In [1105]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [1106]:
series

b    3
d    4
e    5
Name: Ohio, dtype: float64

In [1107]:
#DataFrame 과 Series 간의 산술연산은 Series의 색인을 DataFrame 의 칼럼에 맞추고 나머지 로우로 전파함.
frame - series

Unnamed: 0,b,d,e
Utah,-3,-3,-3
Ohio,0,0,0
Texas,3,3,3
Oregon,6,6,6


In [1108]:
series2 = Series(range(3), index =['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

In [1109]:
#색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인됨.
frame + series2

Unnamed: 0,b,d,e,f
Utah,0,,3,
Ohio,3,,6,
Texas,6,,9,
Oregon,9,,12,


In [1110]:
series3 = frame['d']

In [1111]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [1112]:
series3

Utah       1
Ohio       4
Texas      7
Oregon    10
Name: d, dtype: float64

In [1113]:
frame.sub(series3,axis=0)

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


### 5.2.5   함수 적용과 매핑

In [1114]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

In [1115]:
frame

Unnamed: 0,b,d,e
Utah,1.250694,1.229527,0.31215
Ohio,-0.392729,1.407063,-0.875299
Texas,-0.479044,0.035995,0.246348
Oregon,-1.042818,0.883935,0.143118


In [1116]:
#pandas 객체에도 NumPy의 유니버셜 함수를 적용할 수 있음.
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.250694,1.229527,0.31215
Ohio,0.392729,1.407063,0.875299
Texas,0.479044,0.035995,0.246348
Oregon,1.042818,0.883935,0.143118


In [1117]:
f =  lambda  x : x.max() - x.min()

In [1118]:
#각 열의 최대값과 최소값의 차 구하기
frame.apply(f)

b    2.293512
d    1.371068
e    1.187449
dtype: float64

In [1119]:
#각 행의 최대값과 최소값의 차 구하기
frame.apply(f,1)

Utah      0.938544
Ohio      2.282362
Texas     0.725392
Oregon    1.926753
dtype: float64

In [1120]:
def f(x) :
    return Series([x.min(), x.max()], index=['min','max'])

In [1121]:
## 각 열의 최대,최소값 구하기
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.042818,0.035995,-0.875299
max,1.250694,1.407063,0.31215


In [1122]:
format = lambda x: '%.2f' %x

In [1123]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,1.25,1.23,0.31
Ohio,-0.39,1.41,-0.88
Texas,-0.48,0.04,0.25
Oregon,-1.04,0.88,0.14


In [1124]:
frame['e'].map(format)

Utah       0.31
Ohio      -0.88
Texas      0.25
Oregon     0.14
Name: e, dtype: object

### 5.2.6 정렬과 순위

정렬

In [1125]:
#색인을 알파벳 순으로 정렬
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [1126]:
frame = DataFrame (np.arange(8).reshape((2,4)), index =['three', 'one'], columns=['d', 'a', 'b', 'c'])

In [1127]:
#로우의 색인 순으로 정렬
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [1128]:
#칼럼의 색인 순으로 정렬
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [1129]:
#내림차순정렬
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [1130]:
#Series 객체를 값에 따라 정렬하고 싶다면 order 메서드를 사용.
obj = Series([4, 7, -3, 2])
obj.order()

2   -3
3    2
0    4
1    7
dtype: int64

In [1131]:
#정렬할 때 비어있는 값은 기본적으로 가장 마지막에 위치
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.order()

4    -3
5     2
0     4
2     7
1   NaN
3   NaN
dtype: float64

In [1132]:
#DataFrame에서 하나이상의 칼럼이 가질경우 by 옵션에 필요한 칼럼의 이름을 넘기면됨
frame = DataFrame({'b': [3, 0, 1, 4], 'a':[4, 0, 0, 4],'c':[1,3,2,0]})
frame

Unnamed: 0,a,b,c
0,4,3,1
1,0,0,3
2,0,1,2
3,4,4,0


In [1133]:
frame.sort_index(by='b')

Unnamed: 0,a,b,c
1,0,0,3
2,0,1,2
0,4,3,1
3,4,4,0


In [1134]:
#여러 개의 칼럼을 정렬하려면 칼럼의 이름이 담긴 리스트를 전달하면 됨.
frame.sort_index(by=['a','b','c'])

Unnamed: 0,a,b,c
1,0,0,3
2,0,1,2
0,4,3,1
3,4,4,0


**순위**

순위는 정렬과 거의 흡사하며, 1부터 배열의 유효한 데이터 개수까지의 수위를 매김

In [1135]:
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [1136]:
obj.rank()

Flushing oldest 200 entries.


0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [1137]:
#데이터 상에서 나타나는 순서에 따라 순위를 매길 수 있음.
obj.rank(method='first')

0    6
1    1
2    7
3    4
4    3
5    2
6    5
dtype: float64

In [1138]:
#내림차순으로 순위를 매길수 있음.
obj.rank(ascending=False, method='max')

0    2
1    7
2    2
3    4
4    5
5    6
6    4
dtype: float64

In [1139]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a' : [0,1,0,1], 'c': [-2,5,8,-2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [1140]:
#DataFrame에서 순위
frame.rank(axis=1)

Unnamed: 0,a,b,c
0,2,3,1
1,1,3,2
2,2,1,3
3,2,3,1


### 5.2.7 중복 색인

In [1141]:
#중복 색인도 가능
obj = Series(range(5), index= ['a', 'a','b','b','c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [1142]:
# is_unique :  색인이 유일한지 아닌지 알려줌.
obj.index.is_unique

False

In [1143]:
#중복된 색인이 있으면 Series 객체 반환
obj['a']   


a    0
a    1
dtype: int64

In [1144]:
#유일한 색인이 있으면 스칼라 값을 반환

obj['c']

4

In [1145]:
#DataFrame에서 로우를 선택하는 것도 동일함.
df = DataFrame(np.random.randn(4,3), index =['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,-0.556901,-1.507124,-0.609366
a,1.086729,-0.459197,-1.27411
b,0.689148,-0.813753,0.246937
b,0.238282,-0.000464,0.652132


In [1146]:
df.ix['a']

Unnamed: 0,0,1,2
a,-0.556901,-1.507124,-0.609366
a,1.086729,-0.459197,-1.27411


##5.3  기술통계 계산과 요약

-  pandas 객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있음.
-  pandas의 메서드는 누락된 데이터를 제외하도록 셀계되었음.

In [1147]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]], index=['a','b','c','d'],columns=['one', 'two'])

In [1148]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [1149]:
#sum 메서드를 호출하면 각 칼럼의 합을 담은 Series를 반환
df.sum() #  df.sum() == df.sum(axis=0)

one    9.25
two   -5.80
dtype: float64

In [1150]:
#axis=1 옵션을 넘기면 각 로우의 합을 반환
df.sum(axis=1)

a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64

In [1151]:
#NA 값은 제외 시키고 평균계산
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [1152]:
#NA 값은 제외 시키지 않고 평균계산
df.mean(axis=1, skipna=True)

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [1156]:
#df.mean?
df.mean(axis=1, skipna=True, level=0)

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [895]:
#최대값을 가지고 있는 색인 반환
df.idxmax()

one    b
two    d
dtype: object

In [896]:
#누산
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,7.1,2.6
c,,
d,0.75,-0.55


In [897]:
#통계결과 출력
df.describe() 

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [898]:
#수치 데이터가 아닌면 다른 요약통계를 생성
obj = Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [899]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 5.3.1 상관관계와 공분산

- 증권사의 API를 이용하면 프로그래밍을 통해서도 주식을 사고 팔고 할 수 있을 뿐만 아니라 각 종목에 대한 최근 몇년치의 가격 정도 등도 얻어올 수 있음.
- 증권사의 API를 사용하기 위해서는 배워야 할 것이 많으며 증권사마다 API가 다르기 때문에 프로그래밍을 하기가 쉽지는 않음.
-  Yahoo (야후)와 Google (구글)을 사용하면 증권사의 API를 사용하지 않고도 주식 데이터를 얻어올 수 있는 방법이 있음.

In [900]:
import pandas.io.data as web

In [901]:
import pandas.io.data as web

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.get_data_yahoo(ticker)

price = DataFrame({tic: data['Adj Close']
                   for tic, data in all_data.iteritems()})
volume = DataFrame({tic: data['Volume']
                    for tic, data in all_data.iteritems()})

In [902]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-07-22,-0.042294,-0.000302,-0.01668,-0.036802
2015-07-23,-0.000479,-0.026914,0.008606,0.012516
2015-07-24,-0.005273,-0.03216,-0.012243,-0.003687
2015-07-27,-0.013896,0.005934,-0.004257,-0.012843
2015-07-28,0.004969,0.00118,0.006161,-0.00022


In [903]:
#corr 메서드는 NA가 아니고 정렬된 색인에서 연속하는 두 Series에 대해 상관관계를 계산함.
returns.MSFT.corr(returns.IBM)

0.49518262675257968

In [904]:
#cov 메서드는 NA가 아니고 정렬된 색인에서 연속하는 두 Series에 대해 공분산을 계산함.
returns.MSFT.cov(returns.IBM)

8.3240782420226586e-05

In [905]:
#DataFrame에서 corr 메서드는 DataFrame 행렬상에서 상관관계를 계산함.
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.277287,0.381394,0.351797
GOOG,0.277287,1.0,0.319138,0.3751
IBM,0.381394,0.319138,1.0,0.495183
MSFT,0.351797,0.3751,0.495183,1.0


In [1174]:
#DataFrame에서 cov 메서드는 DataFrame 행렬상에서 공분산을 계산함.
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000275,6.1e-05,7.4e-05,8.3e-05
GOOG,6.1e-05,0.000252,5.8e-05,8.4e-05
IBM,7.4e-05,5.8e-05,0.000138,8.3e-05
MSFT,8.3e-05,8.4e-05,8.3e-05,0.000204


In [1175]:
#DataFrame의 corrwith 메서드를 사용하면 다른 Series나 DataFrame과의 상관관계를 계산함.
#Series를 넘기면 각 칼럼에 대해 계산한 상관관계를 담고 있는 Series를 반환함.
returns.corrwith(returns.IBM)

AAPL    0.381394
GOOG    0.319138
IBM     1.000000
MSFT    0.495183
dtype: float64

In [908]:
#DataFrame을 넘기면 맞아떨어지는 칼럼의 이름에 대한 상관관계를 계산함.
returns.corrwith(volume)

AAPL   -0.092666
GOOG    0.226701
IBM    -0.183754
MSFT   -0.097645
dtype: float64

### 5.3.2 유일 값, 값 세기, 멤버십

In [1252]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [1253]:
#uniques 함수는 Series에서 중복되는 값을 제거하고 유일 값만 담고 있는 Series를 반환함.
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [1254]:
#value_counts는 Series에서 도수를 계산하여 반환함.
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [1255]:
#obj.values
pd.value_counts(obj.values, sort=False)

a    3
c    3
b    2
d    1
dtype: int64

In [1256]:
pd.value_counts(obj.values, sort=True)

c    3
a    3
b    2
d    1
dtype: int64

In [1313]:
#isin 메서드는 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환함.
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [1314]:
#Series나 DataFrame의 칼럼에서 값을 골라내고 싶을 때 유용하게 사용할 수 있음.
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [1374]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [1375]:
#DataFrame의 apply 함수에 pandas.value_counts를 넘기면 여러 로우에 대해 히스토그램을 구할 수 있음.
#fillna 함수를 이용해서 비어있는 값은 0으로 채워줌
result = data.apply(pd.value_counts).fillna(0)
result


Unnamed: 0,Qu1,Qu2,Qu3
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


## 5.4 누락된 데이터 처리하기

pandas의 설계 목표중 하나는 누락 데이터를 가능한 한 쉽게 처리할 수 있도록 하는 것.


In [1376]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [1377]:
#누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환함.
string_data.isnull()


0    False
1    False
2     True
3    False
dtype: bool

In [1321]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 5.4.1 누락된 데이터 골라내기

In [1378]:
#dropna : 누락된 데이터가 있는 축을 제외시킴.
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [1380]:
#불리언 색인을 이용한 방법.
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [1381]:
#dropna는 기본적으로 NA값이 하나라도 있는 로우는 제외 시킴.
data = DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])
cleaned = data.dropna()
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [1325]:
cleaned


Unnamed: 0,0,1,2
0,1,6.5,3


In [1382]:
#how='all' 옵션을 주면 모든 값이 NA인 로우만 제외시킴.
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [1383]:
#axis = 1을 주면 칼럼을 제외 시킬 수 있음.
data[4] = NA
data


Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [1328]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [1389]:
df = DataFrame(np.random.randn(7, 3))
df.ix[:4, 1] = NA; df.ix[:2, 2] = NA
df


Unnamed: 0,0,1,2
0,-1.893823,,
1,0.823465,,
2,1.368634,,
3,-0.420248,,0.155826
4,0.077379,,-1.151968
5,1.869771,-2.278708,1.939346
6,-1.674227,0.981573,-1.895681


In [1390]:
#몇개 이상의 값이 들어있는 로우만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 됨.
df.dropna(thresh=2)

Unnamed: 0,0,1,2
3,-0.420248,,0.155826
4,0.077379,,-1.151968
5,1.869771,-2.278708,1.939346
6,-1.674227,0.981573,-1.895681


### 5.4.2 누락된 값 채우기

In [1391]:
#fillna메서드에 채워 넣고 싶은 값을 넘겨줄 수 있음.
df.fillna(0)

Unnamed: 0,0,1,2
0,-1.893823,0.0,0.0
1,0.823465,0.0,0.0
2,1.368634,0.0,0.0
3,-0.420248,0.0,0.155826
4,0.077379,0.0,-1.151968
5,1.869771,-2.278708,1.939346
6,-1.674227,0.981573,-1.895681


In [1392]:
#각  칼럼마다 다른 값을 채워 넣을 수도 있음.
df.fillna({1: 0.5, 2: -1})

Unnamed: 0,0,1,2
0,-1.893823,0.5,-1.0
1,0.823465,0.5,-1.0
2,1.368634,0.5,-1.0
3,-0.420248,0.5,0.155826
4,0.077379,0.5,-1.151968
5,1.869771,-2.278708,1.939346
6,-1.674227,0.981573,-1.895681


In [1394]:
# 기존 객체를 변경할 수도 있음.
_ = df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,-1.893823,0.0,0.0
1,0.823465,0.0,0.0
2,1.368634,0.0,0.0
3,-0.420248,0.0,0.155826
4,0.077379,0.0,-1.151968
5,1.869771,-2.278708,1.939346
6,-1.674227,0.981573,-1.895681


재색인에서 사용 가능한 보간 메서드는 fillna 메서드에서도 사용이 가능함.

In [1334]:
df = DataFrame(np.random.randn(6, 3))
df.ix[2:, 1] = NA; df.ix[4:, 2] = NA
df

Unnamed: 0,0,1,2
0,1.886745,1.095917,-0.532233
1,1.005988,0.295246,-0.592489
2,-0.939316,,-1.374094
3,-0.582403,,-0.25329
4,1.067889,,
5,0.70929,,


In [1335]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.886745,1.095917,-0.532233
1,1.005988,0.295246,-0.592489
2,-0.939316,0.295246,-1.374094
3,-0.582403,0.295246,-0.25329
4,1.067889,0.295246,-0.25329
5,0.70929,0.295246,-0.25329


In [1336]:
df.fillna(method='ffill',limit=2)

Unnamed: 0,0,1,2
0,1.886745,1.095917,-0.532233
1,1.005988,0.295246,-0.592489
2,-0.939316,0.295246,-1.374094
3,-0.582403,0.295246,-0.25329
4,1.067889,,-0.25329
5,0.70929,,-0.25329


In [1395]:
#Series의 평균 값이나 중간 값등 다양한 값을 fillna를 이용해서 넣을 수 있음.
data = Series([1., NA, 3.5, NA, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

## 5.5 계층적 색인

In [1397]:
#MultiIndex를 색인으로 하는 Series
data = Series(np.random.randn(10),
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

a  1    0.255515
   2    0.355318
   3   -1.179365
b  1   -0.335316
   2    0.064259
   3    0.059021
c  1    0.233106
   2   -1.047346
d  2   -0.237705
   3   -0.299293
dtype: float64

In [1398]:
data.index

MultiIndex(levels=[[u'a', u'b', u'c', u'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

In [1399]:
data['b']


1   -0.335316
2    0.064259
3    0.059021
dtype: float64

In [1400]:
data['b':'c']

b  1   -0.335316
   2    0.064259
   3    0.059021
c  1    0.233106
   2   -1.047346
dtype: float64

In [1401]:
data.ix[['b', 'd']]

b  1   -0.335316
   2    0.064259
   3    0.059021
d  2   -0.237705
   3   -0.299293
dtype: float64

In [1402]:
data[:, 2]

a    0.355318
b    0.064259
c   -1.047346
d   -0.237705
dtype: float64

In [1404]:
data

a  1    0.255515
   2    0.355318
   3   -1.179365
b  1   -0.335316
   2    0.064259
   3    0.059021
c  1    0.233106
   2   -1.047346
d  2   -0.237705
   3   -0.299293
dtype: float64

In [1405]:
#unstack 메서드를 사용해서 데이터를 새롭게 배열할 수도 있음.
data.unstack()


Unnamed: 0,1,2,3
a,0.255515,0.355318,-1.179365
b,-0.335316,0.064259,0.059021
c,0.233106,-1.047346,
d,,-0.237705,-0.299293


In [1406]:
data.unstack().stack()

a  1    0.255515
   2    0.355318
   3   -1.179365
b  1   -0.335316
   2    0.064259
   3    0.059021
c  1    0.233106
   2   -1.047346
d  2   -0.237705
   3   -0.299293
dtype: float64

In [1409]:
#DataFrame에서는 두 축 모두 계층적 색인을 가질 수 있음.
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [1410]:

frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [1411]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


### 5.5.1 계층 순서 바꾸고 정렬하기

In [1421]:
#swaplevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환함. (데이터 변경 X)
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [1420]:
# sortlevel 메서드는 단일 계층에 속한 데이터를 정렬.
frame.sortlevel(1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [1422]:
#swqplevel을 사용해서 계층을 바꿀 때 대개는  sortlevel 을 사용해서 결과도 사전식으로 정렬함.
frame.swaplevel(0, 1).sortlevel(0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


### 5.5.2 단계별 요약통계

level 옵션은 어떤 한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션임.

In [1352]:

frame.sum(level='key2')


state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [1353]:
frame.sum(level='color', axis=1)


Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### 5.5.3 DataFrame의 칼럼 사용하기

In [1425]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [1426]:
#set_index 함수는 하나 이상의 칼럼을 색인으로 하는 새로운 DataFrame을 생성함.
frame2 = frame.set_index(['c', 'd'])
frame2


Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [1427]:
#drop=False라고 명시적으로 남겨두지 않으면 칼럼을  DataFrame에서 삭제함.
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [1428]:
#reset_index 함수는 set_index와 반대되는 개념으로, 계층적 색인 단계가 칼럼으로 이동.
frame2.reset_index()


Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 5.6 pandas와 관련된 기타 주제

###5.6.1 정수 색인

In [1433]:
ser = Series(np.arange(3.))
ser

0    0
1    1
2    2
dtype: float64

In [1434]:
#정수 색인일때 ser[-1] 은 에러가 남.
#-  -1이 위치 색인인지 이름 색인인지 알아맞히는 것은 어려운 일.
ser.iloc[-1]

2.0

In [1360]:

ser2 = Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

In [1361]:
#일관성을 유쥐하기위해 색인 값을 가진 축 색인이 있을 경우 정수 데이터는 항상 이름을 지향함.
ser.ix[:1]

0    0
1    1
dtype: float64

In [1443]:
ser3 = Series(range(3), index=[-5, 1, 3])
ser3.iget_value(2)

2

In [1444]:
ser3.iloc[2]

2

In [1446]:
frame = DataFrame(np.arange(6).reshape((3, 2)), index=[2, 0, 1])
frame.irow(2)

0    4
1    5
Name: 1, dtype: int64

In [1442]:
frame.iloc[2]

0    4
1    5
Name: 1, dtype: int64

### 5.6.2 Panel 데이터

In [1364]:

import pandas.io.data as web

pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk))
                       for stk in ['AAPL', 'GOOG', 'MSFT', 'DELL']))

In [1365]:
pdata

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 1421 (major_axis) x 6 (minor_axis)
Items axis: AAPL to MSFT
Major_axis axis: 2010-01-04 00:00:00 to 2015-07-28 00:00:00
Minor_axis axis: Open to Adj Close

In [1366]:
pdata = pdata.swapaxes('items', 'minor')
pdata['Adj Close']

Unnamed: 0_level_0,AAPL,DELL,GOOG,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,28.718094,14.06528,,26.769336
2010-01-05,28.767737,14.38450,,26.777984
2010-01-06,28.310151,14.10397,,26.613650
2010-01-07,28.257821,14.23940,,26.336875
2010-01-08,28.445687,14.36516,,26.518508
2010-01-11,28.194745,14.37483,,26.181189
2010-01-12,27.874037,14.56830,,26.008204
2010-01-13,28.267213,14.57797,,26.250383
2010-01-14,28.103497,14.22005,,26.777984
2010-01-15,27.633830,13.92985,,26.691493


In [1367]:
pdata.ix[:, '6/1/2012', :]


Unnamed: 0,Open,High,Low,Close,Volume,Adj Close
AAPL,569.159996,572.649956,560.520012,560.990036,130246900.0,75.279486
DELL,12.15,12.3,12.045,12.07,19397600.0,11.67592
GOOG,,,,,,
MSFT,28.76,28.959999,28.440001,28.450001,56634300.0,26.126961


In [1368]:
pdata.ix['Adj Close', '5/22/2012':, :]

Unnamed: 0_level_0,AAPL,DELL,GOOG,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-05-22,74.740031,14.58765,,27.329995
2012-05-23,76.563680,12.08221,,26.733070
2012-05-24,75.860527,12.04351,,26.696335
2012-05-25,75.453926,12.05319,,26.687151
2012-05-28,,12.05319,,
2012-05-29,76.793152,12.24666,,27.146325
2012-05-30,77.719062,12.14992,,26.944289
2012-05-31,77.525831,11.92743,,26.806537
2012-06-01,75.279486,11.67592,,26.126961
2012-06-04,75.722313,11.60821,,26.218794


In [1369]:
stacked = pdata.ix[:, '5/30/2012':, :].to_frame()
stacked


Unnamed: 0_level_0,Unnamed: 1_level_0,Open,High,Low,Close,Volume,Adj Close
Date,minor,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-05-30,AAPL,569.200050,579.989990,566.559990,579.169998,132357400,77.719062
2012-05-30,DELL,12.590000,12.700000,12.460000,12.560000,19787800,12.149920
2012-05-30,MSFT,29.350000,29.480000,29.120001,29.340000,41585500,26.944289
2012-05-31,AAPL,580.740021,581.499985,571.459969,577.730019,122918600,77.525831
2012-05-31,DELL,12.530000,12.540000,12.330000,12.330000,19955600,11.927430
2012-05-31,MSFT,29.299999,29.420000,28.940001,29.190001,39134000,26.806537
2012-06-01,AAPL,569.159996,572.649956,560.520012,560.990036,130246900,75.279486
2012-06-01,DELL,12.150000,12.300000,12.045000,12.070000,19397600,11.675920
2012-06-01,MSFT,28.760000,28.959999,28.440001,28.450001,56634300,26.126961
2012-06-04,AAPL,561.500008,567.499985,548.499977,564.290031,139248900,75.722313


In [1370]:
stacked.to_panel()

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 808 (major_axis) x 4 (minor_axis)
Items axis: Open to Adj Close
Major_axis axis: 2012-05-30 00:00:00 to 2015-07-28 00:00:00
Minor_axis axis: AAPL to MSFT