# 5. Pandas 시작하기

pandas는 NumPy기반에서 개발되어 NumPy를 사용하는 애플리케이션에서 쉽게 사용할 수 있다. 

- 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료구조. 
- 잘못 정렬된 데이터에 의한 일반적인 오류를 예방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
- 통합된 시계열 기능
- 시계열 데이터와 비시계열데이터를 함께 다룰 수 있는 통합 자료 구조
- 산술 연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야함
- 누락된 데이터를 유연하게 처리할 수 있는 기능
- SQL같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능

## 5.1 Pandas 자료 구조

Series와 DataFrame

### 5.1.1 Series

Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조이다. (어떤 NumPy자료형이라도 담을 수 있다.) 그리고 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다. 가장 간단한 Series객체는 배열 데이터로부터 생성할 수 있다. 

In [1]:
import pandas as pd
import numpy as np
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series객체의 문자열 표현은 왼쪽에 색인을 보여주고 있고 오른쪽에 해당 색인의 값을 보여준다. 데이터 index를 지정하지 않으면 기본 index인 정수 0에서 N-1까지다. 

Series의 배열과 index객체는 각각 values와 index속성을 통해 얻을 수 있다. 

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

각각의 데이터를 지칭하는 index를 지정해 Series객체를 생성해야 할 때는 다음처럼 생성한다. 

In [7]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

배열에서 값을 선택하거나 대입할 때는 색인을 이용해서 접근한다. 

In [9]:
obj2['a']

-5

In [10]:
obj2['d'] = 6

In [11]:
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy배열 연산을 수행해도 색인-값 연결은 유지된다. 

In [14]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [15]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [18]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series를 이해하는 다른 방법은 고정 길이의 정렬된 사전형 이라고 이해하는 것이다. 

Series는 색인 값에 데이터 값을 매핑하고 있으므로 파이썬 사전형과 비슷하다. 

In [19]:
'b' in obj2

True

In [20]:
'e' in obj2

False

파이썬 사전형 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series객체를 생성할 수 도 있다. 

In [22]:
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

사전 객체만 가지고 Series객체를 생성하면 생성된 Series객체의 색인은 사전의 키 값이 순서대로 들어간다. 

In [23]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

이 에제를 보면 sdata에 있는 값 중 3개만 확인할 수 있는데, 이는 'California'에 대한 값을 찾을 수 없기 때문이다. 이 값은 NaN으로 표시되고 Pandas에서는 누락된 값 혹은 NA값으로 취급된다. 

- isnull()
- notnull()

Series의 메서드 이기도 하고, pd의 메서드로 Series를 인자로 받는다. 

In [24]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [25]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [27]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Series의 중요한 기능은 다르게 index된 데이터에 대한 산술연산이다.

In [28]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [29]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [30]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series객체와 Series index는 모두 name속성이 있는데, 이 속성은 pandas의 기능에서 중요한 부분을 차지하고 있다. 

In [31]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [33]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 5.1.2 DataFrame

DataFrame은 표 같은 스프레드시트 형식의 자료 구조로 여러 개의 칼럼이 있다. 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. </br> 또한, 로우와 칼럼에 대한 index가 있는데, 이 DataFrame은 index의 모양이 같은 Series객체를 담고 있는 파이썬 사전으로 생각하면 편하다

DataFrame은 데이터를 내부적으로 2차원 형식으로 저장하므로 고차원 표 데이터를 Hierarchical Indexing을 통해 쉽게 표현이 가능하다.  

DataFrame객체는 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy배열을 이용해서 만든다. 

In [36]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9],
        }
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


columns은 정렬되어 저장되는데 원하는 순서대로 columns을 지정할 수 있다. 

In [37]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


Series와 마찬가지로 data에 없는 값을 넘기면 NA값이 저장된다. 

In [38]:
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'], index=['one','two','three','four','five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [39]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 칼럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다. 

In [40]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [41]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

반환된 Series객체가 DataFrame같은 index를 가지면 알맞은 값으로 name속성이 채워진다. 로우는 위치나 ix같은 몇 가지 메서드를 통해 접근할 수 있다. 

In [42]:
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

칼럼은 대입이 가능하다. 예를 들면 현재 비어있는 'debt'칼럼에 스칼라 값이나 배열의 값을 대입할 수 있다. 

In [43]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [44]:
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다. Series를 대입하면 DataFrame의 index에 따라 값이 대입되며 없는 index에는 값이 대입되지 않는다. 

In [45]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


없는 columns을 대입하면 새로운 columns이 생성된다. 파이썬 사전형에서와 마찬가지로 del 예약어를 사용해서 칼럼을 삭제할 수 있다. 

In [47]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [48]:
frame2.columns

Index(['year', 'state', 'pop', 'debt', 'eastern'], dtype='object')

중첩된 사전을 이용해서 데이터를 생성할 수 있다. 바깥에 있는 사전의 키 값이 칼럼이 되고 안에 있는 키는 로우가 된다. 

In [51]:
pop = {'Nevada':{2001:2.4, 2002:2.9},
       'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


NumPy에서와 마찬가지로 결과 값의 순서를 뒤집을 수 있다. 

In [52]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [53]:
np.transpose(frame3)

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전 값은 키 값별로 조합되어 결과의 index가 되지만 직접 지정하면 지정된 index로 DataFrame을 생성한다. 

In [54]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급된다. 

In [56]:
pdata = {'Ohio':frame3['Ohio'][:-1],
         'Nevada':frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Series와 유사하게 name과 values의 속성이 있다. 

values의 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다. 

In [58]:
frame3.index.name = 'year'
frame3

Unnamed: 0_level_0,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [60]:
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [62]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

DataFrame의 칼럼에 서로 다른 dtype이 있다면 모든 칼럼을 수용하기 위해 그 칼럼 배열의 dtype이 선택된다. 

In [64]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [63]:
frame2.values

array([[2000, 'Ohio', 1.5, nan, True],
       [2001, 'Ohio', 1.7, -1.2, True],
       [2002, 'Ohio', 3.6, nan, True],
       [2001, 'Nevada', 2.4, -1.5, False],
       [2002, 'Nevada', 2.9, -1.7, False]], dtype=object)

### 5.1.3 색인 객체

pandas의 index객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 객체다. 

Series나 DataFrame객체를 생성할 때 사용되는 배열이나 혹은 다른 순차적인 이름은 내부적으로 index로 변환된다. 

In [65]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [66]:
index[1:]

Index(['b', 'c'], dtype='object')

In [67]:
index = pd.Index(np.arange(3))
obj2 = pd.Series([1.5, -2.5, 0], index=index)

In [68]:
obj2.index is index

True

index객체는 변경될 수 없다. 

In [69]:
index[1] = 'd'

TypeError: Index does not support mutable operations

In [70]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [71]:
'Ohio' in frame3.columns

True

Index 객체는 Pandas의 데이터 모델에서 중요한 부분이다. 

Index 객체: 가장 일반적인 index객체로 파이썬 객체의 NumPy배열 형식으로 축의 이름을 표현한다. </br>
Int64Index: 정수 값을 위한 특수한 index
 
- append
- diff
- intersection
- Union
- isin
- delete
- drop
- insert
- unique

## 5.2 핵심 기능

### 5.2.1 재색인

pandas객체는 reindex라는 기능을 제공한다. 새로운 index에 맞도록 객체를 새로 생성하는 기능이다. 

In [73]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

이 Series 객체에 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 없는 색인 값이 있다면 비어있는 값을 새로 추가한다. 

In [74]:
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [75]:
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

reindex할때 값을 보간하거나 채워넣어야 할 경우, method옵션을 이용하여 이를 해결할 수 있다. 

- method = 'bfill' or 'backfill', 뒤에 값으로 채워 넣는다. 
- method = 'ffill' or 'pad' , 앞의 값으로 채워 넣는다. 

In [76]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

DataFrame에 대한 reindex는 row index, columns index 혹은 둘다 변경이 가능하다. 

In [78]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), index=['a','b','c'], columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [79]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


열은 columns옵션을 이용해서 reindex가 가능하다. 

In [81]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


행과 열을 모두 한번에 reindex할 수 있다. 보간은 로우에 대해서만 이루어 지거나 에러가 발생한다. 

In [91]:
frame.reindex(index=['a','b','c','d'], columns=states)

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,4.0,,5.0
c,7.0,,8.0
d,,,


ix를 이용해서 라벨로 indexing하면 더 간결하게 나타날 수 있다. 

### 5.2.2 하나의 로우 또는 칼럼 삭제하기 

색인 배열 또는 삭제하려는 로우나 칼럼이 제외된 리스트를 이미 가지고 있다면 로우나 칼럼을 쉽게 삭제할 수 있다. 

이 방법은 데이터의 모양을 변경하는 작업이 필요한데 drop메서드를 사용하면 선택한 값이 삭제된 새로운 객체를 얻을 수 있다. 

In [111]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [112]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [113]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [117]:
print(obj)

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64


DataFrame에서는 로우와 칼럼 모두에서 값을 삭제할 수 있다. 

In [118]:
data = pd.DataFrame(np.arange(16).reshape((4,4)), index=['Ohio', 'Colorado', 'Utah', 'New Your'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New Your,12,13,14,15


In [119]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New Your,12,13,14,15


In [120]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New Your,12,13,14,15


In [124]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New Your,12,14,15


In [122]:
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New Your,12,14


### 5.2.3 indexing하기, 선택하기, 거르기

Series의 index ```obj[...]```는 NumPy 배열의 색인과 유사하게 동작하는데, Series의 index는 정수가 아니어도 된다는 점이 다르다. 

In [125]:
obj = pd.Series(np.arange(4), index=['a', 'b', 'c', 'd'])
obj['b']

1

In [126]:
obj[1]

1

In [128]:
obj[2:4]

c    2
d    3
dtype: int64

In [132]:
obj[['b','a','d']]

b    1
a    0
d    3
dtype: int64

In [133]:
obj[[1, 3]]

b    1
d    3
dtype: int64

In [134]:
obj[obj<2]

a    0
b    1
dtype: int64

라벨 이름으로 슬라이싱을 할때는 시작점과 끝점 모두 포함한다. (이것이 파이썬과 다른점)

In [136]:
obj['b':'c']

b    1
c    2
dtype: int64

In [137]:
obj['b':'c'] = 5
obj

a    0
b    5
c    5
d    3
dtype: int64

DataFrame에서 칼럼의 값을 하나 이상 가져올 수 있다.!

In [140]:
data = pd.DataFrame(np.arange(16).reshape((4,4)), index=['Ohio', 'Colorado', 'Utah', 'New Your'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New Your,12,13,14,15


In [141]:
data['two']

Ohio         1
Colorado     5
Utah         9
New Your    13
Name: two, dtype: int64

In [143]:
data[['two','three']]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New Your,13,14


### 5.2.4 산술연산과 데이터 정렬

다양한 다른 index간의 산술연산 예제

In [3]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a','c','e','f','g'])

In [5]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

서로 겹치는 index가 없으면 데이터는 NA값이 적용된다. 

산술연산 시 누락된 값은 전파되며, DataFrame에서는 로우와 컬럼 모두에 적용된다. 

In [6]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'), index=['Ohio','Texas','Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [7]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


#### 산술연산 메서드에 채워 넣을 값 지정하기

서로 다른 index를 가지는 객체간의 산술연산에서 존재하지 않는 축의 특수한 값(0같은)으로 지정하고 싶을 때는 다음과 같이 할 수 있다. 

In [8]:
df1 = pd.DataFrame(np.arange(12).reshape((3, 4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20).reshape((4, 5)), columns=list('abcde'))

In [9]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [10]:
df2

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [11]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [12]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


#### DataFrame과 Series 연산

In [14]:
arr = np.arange(12).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [15]:
arr[0]

array([0, 1, 2, 3])

In [16]:
arr - arr[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [17]:
frame = pd.DataFrame(np.arange(12).reshape((4,3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.ix[0]
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [18]:
series

b    0
d    1
e    2
Name: Utah, dtype: int64

In [19]:
frame - series

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


만약 색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인된다. 

In [21]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [22]:
series2

b    0
e    1
f    2
dtype: int64

In [23]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [24]:
series3 = frame['d']
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [25]:
series3

Utah       1
Ohio       4
Texas      7
Oregon    10
Name: d, dtype: int64

In [26]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


### 5.2.5 함수 적용과 매핑

pandas객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다. 

In [27]:
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,1.21555,-0.385105,-1.278732
Ohio,-0.037558,0.686814,-0.372944
Texas,-1.024785,0.502246,1.058616
Oregon,-1.58579,1.791297,-1.233788


In [28]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.21555,0.385105,1.278732
Ohio,0.037558,0.686814,0.372944
Texas,1.024785,0.502246,1.058616
Oregon,1.58579,1.791297,1.233788


자주 사용되는 연산은 각 로우나 칼럼의 1차원 배열에 함수를 적용하는 것이다. 
DataFrame의 apply메서드를 통해 수행할 수 있다. 

In [31]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    2.974589
d    2.426457
e    2.424811
dtype: float64

In [32]:
frame.apply(f, axis=1)

Utah      1.049550
Ohio      0.767130
Texas     3.250641
Oregon    0.706237
dtype: float64

apply메서드에 전달된 함수는 스칼라 값을 반환할 필요가 없으며, Series또는 여러 값을 반환해도 된다. 

In [34]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-2.562941,-1.608162,-1.246034
max,0.411648,0.818295,1.178778


In [39]:
f = lambda x:'%.2f' %x
frame.applymap(f)

Unnamed: 0,b,d,e
Utah,-0.87,0.18,-0.57
Ohio,0.41,0.82,1.18
Texas,-2.56,-1.61,0.69
Oregon,-1.56,-0.86,-1.25


이 메서드의 이름이 applymap인 이뉴는 Series가 각 원소에 적용할 함수를 지정하기 위한 map메서드를 가지고 있기 때문이다. 

In [41]:
frame['e'].map(f)

Utah      -0.57
Ohio       1.18
Texas      0.69
Oregon    -1.25
Name: e, dtype: object

#### 5.2.6 정렬과 순위

어떤 기준에 근거해서 데이터를 정렬하는것. </br>
행과 열의 index를 알파벳순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용하면 된다. 

In [42]:
obj = pd.Series(range(4), index=['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

DataFrame은 로우나 칼럼 중 하나의 축을 기준으로 정렬할 수 있다. 

In [43]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [44]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


데이터는 기본적으로 오름차순으로 정렬되지만 내림차순으로 정렬할 수도 있다. 

In [45]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Series객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용하자. 

In [46]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

NA는 가장 마지막에 위치한다. 

In [48]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

DataFrame에서는 하나 이상의 칼럼에 있는 값으로 정렬이 필요한 경우가 있다. 

by옵션에 필요한 칼럼의 이름을 넘긴다. 

In [49]:
frame = pd.DataFrame({'b':[4,7,-3,2], 'a':[0,1,0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [50]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


여러개의 칼럼을 정렬하려면 칼럼의 이름이 담긴 리스트를 전달한다. 

In [51]:
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


rank는 sort과 거의 흡사하며, 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다. 

rank는 numpy.argsort에서 반환하는 간접 정렬 index와 유사한데, 동률인 순위를 처리하는 방식이 다르다. 
pandas에서는 rank메서드는 동점인 항목에 대해서는 평균 순위를 매긴다. 

In [52]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다. 

In [53]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

내림차순으로 순위를 매길 수도 있다. 

In [54]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [57]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0,1], 'c':[-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [58]:
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 5.2.7 중복 index

pandas객체에서 index가 중복인 경우를 알아본다. 

In [59]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

index의 is_unique 속성은 해당 값이 유일한지 아닌지 알려준다. 

In [60]:
obj.index.is_unique

False

중복된 index가 있으면 Series객체를 반환하고 중복되는 index가 없으면 스칼라 값을 반환한다. 

In [61]:
obj['a']

a    0
a    1
dtype: int64

In [62]:
obj['c']

4

In [63]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a','a','b','b'])
df

Unnamed: 0,0,1,2
a,-2.736527,0.034208,1.572859
a,0.171452,0.581113,0.508075
b,0.393896,1.261349,0.317953
b,-0.112024,0.706997,0.815259


In [65]:
df.ix['b']

Unnamed: 0,0,1,2
b,0.393896,1.261349,0.317953
b,-0.112024,0.706997,0.815259


## 5.3 기술통계 계산과 요약 

pandas객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있다. 이 메서드는 대부분 Series나 DataFrame하나의 칼럼이나 로우에서 단일 값(합, 평균)을 구해주는 간단한 통계기능을 제공한다. 

순수 NumPy배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계 되었다. 

In [66]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
                   index=['a', 'b', 'c', 'd'], columns=['one', 'two'])

In [67]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [68]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [69]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

NA를 제외시키고 싶지 않으면 skipna 옵션을 통해 조정할 수 있다. 

In [72]:
df.sum(skipna=False)

one   NaN
two   NaN
dtype: float64

In [73]:
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

idxmin이나 idxmax같은 메서드는 최소 혹은 최대 값을 가지고 있는 index 값 같은 간접 통계를 반환한다. 

In [74]:
df.idxmax()

one    b
two    d
dtype: object

In [75]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [79]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


수치 데이터가 아니면 다른 요약통계를 생성한다. 

In [80]:
obj = pd.Series(['a', 'a', 'b', 'c'] *4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 5.3.1 상관관계와 공분산

In [93]:
'''
pandas_datareader 패키지는 외부 확장 모듈로, conda install pandas-datareader 명령으로 설치할 수 있다. 
'''
from pandas_datareader import data

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = data.DataReader(ticker, data_source='yahoo')
#    all_d1a, '2016-01-01't

In [94]:
price = pd.DataFrame({tic: data['Close'] for tic, data in all_data.items()})
volume = pd.DataFrame({tic: data['Volume'] for tic, data in all_data.items()})

주식의 퍼센트 변화율 계산

In [95]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-03-19,-0.007662,-0.031,0.016453,0.016858
2020-03-20,-0.063486,-0.049332,-0.037559,-0.038528
2020-03-23,-0.021244,-0.0065,-0.009975,-0.014641
2020-03-24,0.100325,0.113011,0.090896,0.073669
2020-03-25,-0.005509,0.003508,-0.009573,-0.028181


corr메서드는 NA가 아니고 정렬된 index에서 연속하는 두 Series에 대해 상관관계를 계산하고 cov메서드는 공분산을 계산한다. 

In [96]:
returns.MSFT.corr(returns.IBM)

0.5753336893846753

In [97]:
returns.MSFT.cov(returns.IBM)

0.00014599747307501986

DataFrame에서 corr과 cov메서드는 DataFrame행렬상에서 상관관계와 공분산을 계산한다. 

In [98]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.511277,0.682362,0.622189
IBM,0.511277,1.0,0.575334,0.503427
MSFT,0.682362,0.575334,1.0,0.733947
GOOG,0.622189,0.503427,0.733947,1.0


In [99]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000312,0.000136,0.000204,0.000181
IBM,0.000136,0.000226,0.000146,0.000125
MSFT,0.000204,0.000146,0.000285,0.000204
GOOG,0.000181,0.000125,0.000204,0.000271


DataFrame의 corrwith메서드를 사용하면 다른 Series나 DataFrame과의 상관관계를 계산한다. Series를 넘기면 각 칼럼에 대해 계산한 상관관계를 담고 있는 Series를 반환한다. 

In [100]:
returns.corrwith(returns.IBM)

AAPL    0.511277
IBM     1.000000
MSFT    0.575334
GOOG    0.503427
dtype: float64

DataFrame을 넘기면 맞아떨어지는 칼럼의 이름에 대한 상관관계를 계산한다. 

시가총액의 퍼센트 변화율에 대한 상관관계를 계산해본다. 

In [101]:
returns.corrwith(volume)

AAPL   -0.148289
IBM    -0.109844
MSFT   -0.050777
GOOG   -0.050563
dtype: float64

### 5.3.2 유일값, 값세기, 멤버십

또다른 종류의 메서드로 1차원 Series에 담긴 값의 정보를 추출하는 메서드가 있다. 

In [102]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c'])

첫번째로 unique함수는 Series에서 중복되는 값을 제거하고 유일 값만 담고 있는 Series를 반환한다. 

In [103]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [104]:
obj.value_counts()

a    3
b    2
c    2
d    1
dtype: int64

In [105]:
pd.value_counts(obj.values, sort=False)

c    2
a    3
d    1
b    2
dtype: int64

isin메서드는 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환한다. </br>
Series나 DataFrame의 칼럼에서 값을 골라내고 싶을 때 유용하게 사용할 수 있다. 

In [108]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
dtype: bool

In [112]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
dtype: object

In [111]:
obj[mask]

0    c
5    b
6    b
7    c
dtype: object

DataFrame의 여러 행에 대해 히스토그램을 구해야 하는 경우,

- apply함수에 pandas.value_counts를 넘긴다. 
- value_counts메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있으므로 na는 0으로 채워준다. ```fillna(0)```

In [113]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 4, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,4,2,4
4,4,3,4


In [114]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,1.0,2.0,0.0
4,3.0,0.0,2.0
5,0.0,0.0,1.0


## 5.4 누락된 데이터 처리하기

pandas는 기술통계는 누락된 데이터를 배제하고 처리한다. 누락된 데이터는 NaN으로 취급한다. 

In [115]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [116]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

파이썬의 내장 None값 또한 NA값으로 취급된다. 

In [117]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

NA 처리 메서드 

- dropna : 누락된 데이터가 있는 축을 제외 시킨다. (axis=0 행, axis=1, 열)
- fillna : 누락된 데이터를 대신할 값을 채우거나 'ffill'또는 'bfill'같은 보간 메서드를 적용한다. 
- isnull : NA인 값을 불리언 값이 저장된, 같은 형의 객체를 반환한다. 
- notnull : isnull과 반대되는 메서드다.  

### 5.4.1 missing data 골라내기

dropna를 사용한다. 

In [121]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [123]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

DataFrame 객체의 경우는 조금 복잡한데, 모두 NA인 로우나 칼럼을 제외하든가 하나라도 NA인 값을 포함하고 있는 로우나 칼럼을 제외시킬 수도 있다. 

draopna는 기본적으로 NA값이 하나라도 있는 row를 제외 시킨다. 

In [125]:
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan], [], [np.nan, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [126]:
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


how='all'옵션을 주면 모든 값이 NA인 행만 제외시킨다. 

In [127]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


열을 제와시키는 방법은 옵션으로 axis=1을 주면 로우를 제외시키는 것과 동일한 방식으로 동작한다. 

In [129]:
data[4] = np.nan
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [130]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


DataFrame의 열을 제외시키는 방법은 주로 시계열 데이터에 사용되는 경향이 있다. 

몇개 이상의 값이 들어있는 행만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 된다. 

In [189]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,-0.484785,-0.322259,-0.673152
1,-0.496039,-0.400501,-0.979309
2,0.913493,-0.502945,1.04123
3,0.204381,-0.465727,-1.882536
4,-0.253292,-0.851612,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


In [190]:
df.ix[:4, 1]

0   -0.322259
1   -0.400501
2   -0.502945
3   -0.465727
4   -0.851612
Name: 1, dtype: float64

In [191]:
df.ix[:2, 2]

0   -0.673152
1   -0.979309
2    1.041230
Name: 2, dtype: float64

In [192]:
df.ix[:4, 1] = np.nan
df.ix[:2, 2] = np.nan

In [193]:
df

Unnamed: 0,0,1,2
0,-0.484785,,
1,-0.496039,,
2,0.913493,,
3,0.204381,,-1.882536
4,-0.253292,,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


In [194]:
df.dropna()

Unnamed: 0,0,1,2
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


In [195]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
3,0.204381,,-1.882536
4,-0.253292,,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


### 5.4.2 누락된 값 채우기

fillna메서드를 이용한다. 

In [196]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.484785,0.0,0.0
1,-0.496039,0.0,0.0
2,0.913493,0.0,0.0
3,0.204381,0.0,-1.882536
4,-0.253292,0.0,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


In [197]:
df

Unnamed: 0,0,1,2
0,-0.484785,,
1,-0.496039,,
2,0.913493,,
3,0.204381,,-1.882536
4,-0.253292,,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


fillna에 사전 값을 넘겨서 각 칼럼마다 다른 값을 채워 넣고 싶은 값을 넘겨주면 된다. 

In [198]:
df.fillna({1:0.5, 3:-1})

Unnamed: 0,0,1,2
0,-0.484785,0.5,
1,-0.496039,0.5,
2,0.913493,0.5,
3,0.204381,0.5,-1.882536
4,-0.253292,0.5,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


fillna는 새로운 객체를 반환하지만 다음처럼 기존 객체를 변경할 수도 있다. 

In [201]:
df.fillna(0, inplace=True)

In [202]:
df

Unnamed: 0,0,1,2
0,-0.484785,0.0,0.0
1,-0.496039,0.0,0.0
2,0.913493,0.0,0.0
3,0.204381,0.0,-1.882536
4,-0.253292,0.0,-1.152781
5,-1.876552,-0.716328,2.388373
6,-1.473354,-1.085769,0.241092


reindex에서 사용 가능한 보간 메서드는 fillna메서드에서도 사용이 가능하다. 

In [203]:
df = pd.DataFrame(np.random.randn(6, 3))

In [206]:
df.ix[2:, 1] = np.nan
df.ix[4:, 2] = np.nan

In [207]:
df

Unnamed: 0,0,1,2
0,1.109103,1.350892,-2.167346
1,0.703284,0.48679,-0.915577
2,-1.577885,,1.050324
3,-0.262245,,0.7244
4,-0.132008,,
5,0.496588,,


In [208]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.109103,1.350892,-2.167346
1,0.703284,0.48679,-0.915577
2,-1.577885,0.48679,1.050324
3,-0.262245,0.48679,0.7244
4,-0.132008,0.48679,0.7244
5,0.496588,0.48679,0.7244


In [209]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,1.109103,1.350892,-2.167346
1,0.703284,0.48679,-0.915577
2,-1.577885,0.48679,1.050324
3,-0.262245,0.48679,0.7244
4,-0.132008,,0.7244
5,0.496588,,0.7244


조금만 창의적으로 생각하면 fillna를 이용해서 매우 다양한 일을 할 수 있다.!!

예를 들면 Series의 평균값이나 중간값을 전달할 수도 있다. 

In [211]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

## 5.5 Hierarchical Indexing

축에 대해 다중 indexing 단계를 지정할 수 있도록 해준다. </br>
즉, 차원이 높은 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능이다. 

In [212]:
data = pd.Series(np.random.randn(10), index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,2,3]])
data

a  1    0.369537
   2   -1.658282
   3    1.245247
b  1   -0.197759
   2    1.602670
   3    0.813599
c  1   -0.706420
   2    1.016057
d  2   -0.254776
   3    0.253387
dtype: float64

MultiIndex를 색인으로 하는 Series이다. index의 계층이 있음을 알 수 있다. 

In [213]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [215]:
data['b']

1   -0.197759
2    1.602670
3    0.813599
dtype: float64

In [216]:
data['b':'c']

b  1   -0.197759
   2    1.602670
   3    0.813599
c  1   -0.706420
   2    1.016057
dtype: float64

In [217]:
data.ix[['b', 'd']]

b  1   -0.197759
   2    1.602670
   3    0.813599
d  2   -0.254776
   3    0.253387
dtype: float64

In [218]:
data[:, 2]

a   -1.658282
b    1.602670
c    1.016057
d   -0.254776
dtype: float64

In [219]:
data.unstack()

Unnamed: 0,1,2,3
a,0.369537,-1.658282,1.245247
b,-0.197759,1.60267,0.813599
c,-0.70642,1.016057,
d,,-0.254776,0.253387


In [220]:
data.unstack().stack()

a  1    0.369537
   2   -1.658282
   3    1.245247
b  1   -0.197759
   2    1.602670
   3    0.813599
c  1   -0.706420
   2    1.016057
d  2   -0.254776
   3    0.253387
dtype: float64

In [222]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a','a','b','b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


Hierachical Indexing의 각 단계는 이름(문자열이나 어떤 파이썬 객체라도 가능하다.)을 가질 수 있고, 만약 이름이 있다면 콘솔 출력 시에 함께 나타난다. 

In [224]:
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']

In [225]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [226]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


MultiIndex는 따로 생성한 다음에 재사용이 가능하다. 

In [230]:
pd.MultiIndex.from_arrays([['Ohio','Ohio','Colorado'], ['Green','Red', 'Green']], names=['state', 'color'])

MultiIndex([(    'Ohio', 'Green'),
            (    'Ohio',   'Red'),
            ('Colorado', 'Green')],
           names=['state', 'color'])

### 5.5.1 계층 순서 바꾸고 정렬하기

Hierachical Indexing에서 계층 순서를 바꾸거나 지정된 계층에 따라 데이터를 정렬해야 하는 경우도 있다. </br>
swaplevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환한다. 

In [232]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


반면에 sortlevel 메서드는 단일 계층에 속한 데이터를 정렬한다. </br>
swaplevel을 사용해서 계층을 바꿀 때 대개는 sortlevel을 사용해서 결과도 사전식으로 정렬한다. 

In [235]:
frame.swaplevel(0,1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


### 5.5.2 단계별 요약 통계

pandas의 통계는 level옵션을 가지고 있는데, 이는 어떤 한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션이다.  

In [236]:
frame.sum(level='key2')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [237]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### 5.5.3 DataFrame의 칼럼 사용하기

In [238]:
frame = pd.DataFrame({'a': range(7), 'b':range(7, 0, -1),
                      'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                      'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


DataFrame의 set_index함수는 하나 이상의 칼럼을 index로 하는 DataFrame을 생성한다. 

In [239]:
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [240]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


반면에 reset_index함수는 set_index와 반대되는 개념으로, Hierachical Indexing 단계가 칼럼으로 이동한다. 

In [241]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 5.6 pandas와 관련된 기타 주제

### 5.6.1 위치 index, name index

정수로 index되어 있다면 이것이 위치 index인지 이름 index인지 구분하기 어렵다. 

In [243]:
ser = pd.Series(np.arange(3.))

In [247]:
ser[2]

2.0

In [248]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

index의 종류에 상관없이 위치기반 index가 필요하면 Series의 iget_value 메서드와 DataFrame의 irow, icol 메서드를 사용한다. 

In [254]:
ser3 = pd.Series(range(3), index=[-5, 2, 1])
ser3

-5    0
 2    1
 1    2
dtype: int64

In [260]:
ser3.iloc[1]

1

In [262]:
ser3.loc[1]

2