#### 교재 + Flearning 강의(https://www.flearning.net/classes/15)

### Pandas Library

- 복잡한 자료구조와 유용한 데이터 분석 도구를 포함
- 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조.
- 통합된 시계열 기능
- 시계열 데이터 + 비시계열 데이터를 다룰 수 있는 통합 자료 구조
- 누락된 데이터를 유연하게 처리할 수 있는 기능
- DB에서처럼 데이터를 합치고 관계연산을 수행하는 기능

# Introduction to pandas Data Structures

In [1]:
# pandas 모듈과 numpy 모듈을 import한 후, 객체 생성.
import numpy as np
import pandas as pd

In [2]:
# pandas 모듈 내의 Series class, DataFrame class, MultiIndex class를 import.
from pandas import Series, DataFrame, MultiIndex

# 이 작업 안 할꺼면 pd 객체를 통해 필요할 때마다 불러와도 된다.

### Series

- 동일한 데이터형의 복수 개의 성분으로 구성된 자료 구조
- index라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.
- **다른말로 고정 길이의 정렬된 사전형
- 리스트나 numpy array 등이 함수의 인자로 입력

In [3]:
# index는 default로 0부터 N-1
obj=Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
# index 값 지정
obj2=Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.values

array([ 4,  7, -5,  3], dtype=int64)

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
obj2['d'] # index 값을 이용

4

In [9]:
obj2[0] # index 위치를 이용

4

In [10]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

###### Boolean Series

In [11]:
'b' in obj2

True

In [12]:
'e' in obj2

False

In [13]:
obj2>0 # boolean Series 출력. 이를 마스크라고 부른다.

d     True
b     True
a    False
c     True
dtype: bool

In [14]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [15]:
obj2*2

d    12
b    14
a   -10
c     6
dtype: int64

In [16]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [23]:
exp = [2.718281**(6),2.718281**(7),2.718281**(-5),2.718281**(3)]
exp

[403.42805576795286,
 1096.6308188609667,
 0.0067379572668181615,
 20.085518558602185]

###### Series 다루기

In [24]:
# dict's key → index로 들어감(알파벳순 자동정렬)
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [25]:
# index 값 지정 (지정되지 않은 데이터는 잃어버림)
states = ['California','Ohio','Oregon','Texas']
obj4 = Series(sdata, index=states)
obj4 # NaN(not a number = missing values = NA values) 할당

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [26]:
# 결측치 확인
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [27]:
obj4.isnull() # Series의 instance method를 호출하는 방법

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [29]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [30]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [31]:
# Series는 산술연산시, 다르게 인덱싱된 데이터를 자동으로 정렬함
obj3+obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [32]:
# 이름(제목)지정
obj4.name='population'
obj4.index.name='state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

## DataFrame

- 서로 같거나 다른 데이터형의 여러 개의 열에 대하여 복수 개의 성분으로 구성된 '표와 같은 형태'의 자료 구조
- input가능한 자료형
    1. 2차원 ndarray
    2. array,list,tuple의 dictionary
    3. NumPy의 구조화 배열
    4. Series 사전
    5. 사전의 사전
    6. 사전이나 Series의 리스트
    7. 리스트나 튜플의 리스트
    8. 다른 DataFrame
    9. NumPy MaskedArray

#### 1) list로 이루어진 dictionary로 DataFrame 만들기

In [33]:
# column은 알파벳순으로 자동정렬
data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
     'year':[2000,2001,2002,2001,2002],
     'pop':[1.5,1.7,3.6,2.4,2.9]}
df=DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [34]:
# column 순서 임의 지정
df1=DataFrame(data, columns=['year','state','pop'])
df1

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [35]:
# index 값 지정
df2=DataFrame(data, columns=['year','state','pop'],
              index=['one','two','three','four','five'])
df2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


In [36]:
# 새로운 column 입력하면, missing values 자동 할당
df3=DataFrame(data, columns=['year','state','pop','debt'], index=['one','two','three','four','five'])
df3

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [37]:
# column명 확인
df3.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

- 행 또는 열 추출 (ix[], loc[], iloc[] 기능 비교하기)

In [38]:
# column
df3['state']
df3.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [39]:
df3.loc[:,'state'] # label 을 이용 (실제 index의 이름을 사용)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [40]:
df3.iloc[:,1] # position 을 이용 (numpy의 array indexing 방식)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [41]:
df3.ix[:,'state'] # label, position 둘다 이용 (단, label이 우선순위)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [42]:
df3.ix[:,1] 

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [43]:
# row
df3[2] #KeyError

KeyError: 2

In [44]:
df3[:2]
# dataframe[~] 하면 column을 가져오지만, :2 로 표현을 하니 index를 가져온다.
# 개발자 마음인 것 같네요. 따라야지요. 그러니 해보면서 어떤 방법들이 있는지 스스로 공부해 봅시다!

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,


In [45]:
# 함수를 사용하면 index만 표현하는 것이 가능.
df3.loc['two']

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

In [46]:
df3.loc['two',:]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

In [47]:
df3.iloc[1,:] 

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

In [48]:
df3.ix['two',:] 

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

In [49]:
df3.ix[1,:]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

- column에 값 할당하기

In [50]:
# 스칼라 할당
df3['debt']=16.5
df3

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [51]:
# array 할당
df3['debt']=np.arange(5.)
df3

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [52]:
# series 할당 (데이터와 index의 길이는 같아야 한다.)
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
df3['debt'] = val
df3
# DataFrame 보다 val이 크면 데이터를 잃는다.

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [53]:
# new column 생성
df3['eastern'] = (df3.state == 'Ohio')
df3

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [54]:
# column 삭제
del df3['debt']
df3

Unnamed: 0,year,state,pop,eastern
one,2000,Ohio,1.5,True
two,2001,Ohio,1.7,True
three,2002,Ohio,3.6,True
four,2001,Nevada,2.4,False
five,2002,Nevada,2.9,False


#### 2) 중첩된 dictionary로 DataFrame 만들기

In [55]:
# outer keys → column 명
# inner keys → row 명
pop = {'Nevada' : {2001:2.4, 2002:2.9},
       'Ohio' : {2000:1.5, 2001:1.7, 2002:3.6}}
df4 = DataFrame(pop)
df4

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [56]:
# transpose
df4.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [57]:
# index 값 지정 (NaN)
df5 = DataFrame(pop, index=[2001,2002,2003])
df5

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [58]:
# DataFrame indexing
pdata = {'Ohio':df4['Ohio'][:-1],
         'Nevada':df4['Nevada'][:2]}
df6 = DataFrame(pdata)
df6

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


In [59]:
# index와 column 이름 지정
df4.index.name = 'year'
df4.columns.name = 'state'
df4

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [60]:
df4.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

## Index Object

- 색인 객체는 표 형식의 데이터에서 각 row와 column에 대한 값을 저장하는 객체이다.
- 색인 객체는 변경할 수 없어 자료 구조 사이에서 안전하게 공유된다.
- pandas에서 사용되는 내장 색인 클래스가 정의되어 있다.
- 특수한 목적으로 축을 색인하는 기능을 개발하기 위해 Index 클래스의 서브클래스를 만들 수 있다.

In [61]:
obj = Series(range(3), index=['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int32

In [62]:
obj.index[1] = 'c' # index object 는 변경 불가

TypeError: Index does not support mutable operations

#### Index클래스의 서브클래스 생성 가능
- pandas의 주요 index 객체 : Index, Int64Index, MultiIndex, DatetimeIndex, PeriodIndex

In [63]:
index1 = pd.Index(np.arange(3))
index1

Int64Index([0, 1, 2], dtype='int64')

#### 색인 메서드와 속성
- 각각의 색인은 담고있는 데이터에 대한 정보를 취급하는 여러가지 메서드와 속성을 갖고 있음

<ol>
<li>append</li>
<li>diff / intersection / union</li>
<li>isin</li>
<li>delete</li>
<li>drop</li>
<li>insert</li>
<li>is_monotonic</li>
<li>unique</li>
</ol>

#### index 다루기

In [64]:
obj=Series(np.arange(4.), index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [65]:
# 두 결과를 비교하자.
print (obj[2:3]);print()
print (obj["c":"d"])

c    2.0
dtype: float64

c    2.0
d    3.0
dtype: float64


In [66]:
# 띄엄띄엄 있는 index를 가져올 때, [] 를 이용하자.
print (obj[[1,3]]);print()
print (obj[["b","d"]])

b    1.0
d    3.0
dtype: float64

b    1.0
d    3.0
dtype: float64


In [67]:
data=DataFrame(np.arange(16.).reshape((4,4)),
              index=['Ohio','Colorado','Utah','New Yourk'],
              columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,5.0,6.0,7.0
Utah,8.0,9.0,10.0,11.0
New Yourk,12.0,13.0,14.0,15.0


In [68]:
data['two']

Ohio          1.0
Colorado      5.0
Utah          9.0
New Yourk    13.0
Name: two, dtype: float64

In [69]:
# 둘 이상의 column을 불러오고 싶을 때, []를 사용하자.
data[['three','one']]

Unnamed: 0,three,one
Ohio,2.0,0.0
Colorado,6.0,4.0
Utah,10.0,8.0
New Yourk,14.0,12.0


In [70]:
# 둘의 출력값이 같다는 것을 확인할 수 있다.
print (data.ix['Colorado', ['two','three']]);print()
print (data.ix[1, 1:3])

two      5.0
three    6.0
Name: Colorado, dtype: float64

two      5.0
three    6.0
Name: Colorado, dtype: float64


In [71]:
print (data.loc['Colorado', ['two','three']]);print()
print (data.iloc[1, 1:3])

two      5.0
three    6.0
Name: Colorado, dtype: float64

two      5.0
three    6.0
Name: Colorado, dtype: float64


In [72]:
# label과 position 함께 사용 가능하다.
print (data.ix[['Colorado','Utah'],[3,0,1]]);print()
print (data.ix[1:3, ['four','one','two']])

          four  one  two
Colorado   7.0  4.0  5.0
Utah      11.0  8.0  9.0

          four  one  two
Colorado   7.0  4.0  5.0
Utah      11.0  8.0  9.0


In [73]:
# boolean Series(마스크)를 이용한 색인이 가능!
print (data.three > 5);print()
print (data.ix[data.three > 5, :3]);print()
print (data.ix[data.three > 5, 'one':'three'])

Ohio         False
Colorado      True
Utah          True
New Yourk     True
Name: three, dtype: bool

            one   two  three
Colorado    4.0   5.0    6.0
Utah        8.0   9.0   10.0
New Yourk  12.0  13.0   14.0

            one   two  three
Colorado    4.0   5.0    6.0
Utah        8.0   9.0   10.0
New Yourk  12.0  13.0   14.0


#### Table 5-6
- obj[val] : select columns or sequence columns from dataframe
- obj.ix[val] : select single row of subset of rows
- obj.ix[:, val] : select single column of subset of columns
- obj.ix[val1, val2] : select both rows and columns

##### Arithmetic and data alignment
- pandas의 가장 큰 특징은 index가 다른 두 변수의 산술(arithmetic)이 가능하다는 것

In [74]:
s1 = Series([7.3,-2.5,3.4,1.5], index=['a','c','d','e'])
s2 = Series([-2.1,3.6,-1.5,4,3.1], index=['a','c','e','f','g'])
print (s1);print()
print (s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [75]:
s1 + s2 # NaN 할당

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [76]:
df1 = DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'),
                index=["Ohio","Texas","Colorado"])
df2 = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),
                index=["Utah","Ohio","Texas","Oregon"])
print (df1);print()
print (df2)

            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0


In [77]:
df1 + df2 # NaN 할당

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


##### Arithmetic methods with fill vaules

In [78]:
df1 = DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))
print (df1);print()
print (df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [79]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [80]:
# add() 함수, fill_value 인자 사용
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [81]:
df2.add(df1, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
# reindex() 함수, fill_value 인자 사용
df1.reindex(columns=df2.columns, fill_value=0)

# 단, add() 함수와는 다른 결과 출력.

#### cf. 순차적인 데이터(시계열)를 재색인 할 때  method 인자를 이용해 값을 보간하거나 채워 넣기
- ffill or pad : 앞의 값으로 누락된 값을 채워 넣는다.
- bfill or backfill : 뒤의 값으로 채워 넣는다.

In [82]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [83]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

##### Operations between DataFrame and Series

In [84]:
frame = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),
                 index=['Utah','Ohio','Texas','Oregon'])
series=frame.ix[0]

In [85]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [86]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [87]:
frame - series

# frame의 각 index에 Utah 행의 데이터 만큼을 빼준다.

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [88]:
series2 = Series(range(3), index=['b','e','f'])
series2

b    0
e    1
f    2
dtype: int32

In [89]:
frame + series2

# pandas의 경우 index가 맞는 경우에 연산이 잘 나오는 것을 확인할 수 있다.

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [90]:
# 모든 column에 연산을 갖게 해주는 여러 방법중에 한가지를 알아보자. (단, dataframe과 series는 같은 길이) 
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [91]:
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [92]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [93]:
frame.mul(series3, axis=0)

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,12.0,16.0,20.0
Texas,42.0,49.0,56.0
Oregon,90.0,100.0,110.0


##### Function application and mapping
- pandas 객체에도 Numpy의 universal functions(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다.
- 다만 numpy에서와 달리 pandas에서는 정수가 아닌 indexing이 가능하다는 차이가 있음을 기억하자.

In [94]:
frame = DataFrame(np.random.randn(4,3), columns=list('bde'),
                 index=['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.540401,-0.269823,0.525974
Ohio,0.843712,-0.634231,-1.649494
Texas,1.367834,-0.534727,-1.821127
Oregon,-0.636029,-0.21717,-1.233866


In [95]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.540401,0.269823,0.525974
Ohio,0.843712,0.634231,1.649494
Texas,1.367834,0.534727,1.821127
Oregon,0.636029,0.21717,1.233866


In [96]:
# lambda 함수를 정의한 뒤 이를 f 변수에 저장 -> f 함수 생성 (사용자 정의 함수) 
f= lambda x: x.max() - x.min()

In [98]:
frame

Unnamed: 0,b,d,e
Utah,-0.540401,-0.269823,0.525974
Ohio,0.843712,-0.634231,-1.649494
Texas,1.367834,-0.534727,-1.821127
Oregon,-0.636029,-0.21717,-1.233866


In [99]:
#  apply 함수를 이용해 함수 f를 DataFrame에 사용
# R : 1-row, 2-col vs Python : 0-column, 1-index

frame.apply(f) # Column을 기준으로 한다. <default : axis=0>

b    2.003863
d    0.417061
e    2.347101
dtype: float64

In [100]:
frame.apply(f, axis=1)
# axis = 1은 Index를 기준으로 함수 적용 

Utah      1.066375
Ohio      2.493206
Texas     3.188961
Oregon    1.016696
dtype: float64

In [101]:
# axis 추가 예제
frame.drop(['Utah', 'Texas'])

Unnamed: 0,b,d,e
Ohio,0.843712,-0.634231,-1.649494
Oregon,-0.636029,-0.21717,-1.233866


In [102]:
frame.drop('d',axis=1)

Unnamed: 0,b,e
Utah,-0.540401,0.525974
Ohio,0.843712,-1.649494
Texas,1.367834,-1.821127
Oregon,-0.636029,-1.233866


In [103]:
frame.drop('d',1) # 위치에 의한 인수입력 방식도 가능.

Unnamed: 0,b,e
Utah,-0.540401,0.525974
Ohio,0.843712,-1.649494
Texas,1.367834,-1.821127
Oregon,-0.636029,-1.233866


In [104]:
def f(x):
    return Series([x.min(), x.max()], index=['min','max'])

frame.apply(f)
# b/d/e의 최소, 최대값을 갖는 Series 반환

Unnamed: 0,b,d,e
min,-0.636029,-0.634231,-1.821127
max,1.367834,-0.21717,0.525974


In [105]:
frame

Unnamed: 0,b,d,e
Utah,-0.540401,-0.269823,0.525974
Ohio,0.843712,-0.634231,-1.649494
Texas,1.367834,-0.534727,-1.821127
Oregon,-0.636029,-0.21717,-1.233866


In [106]:
# 만약 element-wise 함수를 적용시키려면
# applymap()함수 이용

format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.54,-0.27,0.53
Ohio,0.84,-0.63,-1.65
Texas,1.37,-0.53,-1.82
Oregon,-0.64,-0.22,-1.23


In [107]:
# 하나의 column에만 적용하고 싶을때는 map()함수 이용
frame['b'].map(format)

Utah      -0.54
Ohio       0.84
Texas      1.37
Oregon    -0.64
Name: b, dtype: object

##### Sorting

In [108]:
# sort_index() : index를 정렬(문자인 경우abcde...순)
obj = Series(range(4), index=['d','a','b','c'])
obj

d    0
a    1
b    2
c    3
dtype: int32

In [109]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int32

In [110]:
# DataFrame 에서도 sort_index() 함수 사용
frame = DataFrame(np.arange(8.).reshape((2,4)), index=['three','one'],
                 columns=['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0.0,1.0,2.0,3.0
one,4.0,5.0,6.0,7.0


In [111]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,1.0,2.0,3.0


In [112]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1.0,2.0,3.0,0.0
one,5.0,6.0,7.0,4.0


In [113]:
# 만약 내림차순으로 정렬하고 싶다면, ascending=False 인자 추가
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0.0,3.0,2.0,1.0
one,4.0,7.0,6.0,5.0


In [114]:
# order() 함수 : 값에 따른 정렬
obj = Series([4,7,-3,2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [115]:
obj.order() # index는 섞인다.

  if __name__ == '__main__':


2   -3
3    2
0    4
1    7
dtype: int64

In [116]:
# missing value 는 맨뒤로!
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.order()

  app.launch_new_instance()


4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [117]:
# 내림차순도 마찬가지
obj.order(ascending=False)

  from ipykernel import kernelapp as app


2    7.0
0    4.0
5    2.0
4   -3.0
1    NaN
3    NaN
dtype: float64

In [118]:
frame = DataFrame({'b':[4,7,-3,2], 'a':[0,1,0,1]})
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [119]:
frame.sort_index(by='b') # 기준 지정

  if __name__ == '__main__':


Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


In [120]:
frame.sort_index(by=['a','b']) # a 먼저 정렬

  if __name__ == '__main__':


Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


#### Ranking
- 작은값부터 rank : 1
- sorting과 밀접하게 관련
- numpy.argsort 과 비슷한 형태

In [121]:
obj = Series([7,-5,7,4,2,0,4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [122]:
# 만약 같은 값이 있다면, default는 두 순위의 평균값으로 한다. (여기서는 (6+7)/2=6.5를 사용)
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [123]:
obj.rank(method='average') # default

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [124]:
# 같은 값의 경우 먼저 쓰여진 것(index가 낮은 것)을 작은 값으로 인식
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [125]:
# 같은 값의 경우 큰 값으로 인식
obj.rank(method='max')

0    7.0
1    1.0
2    7.0
3    5.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [126]:
# 같은 값의 경우 작은 값으로 인식
obj.rank(method='min')

0    6.0
1    1.0
2    6.0
3    4.0
4    3.0
5    2.0
6    4.0
dtype: float64

In [127]:
# rank도 내림차순 가능
obj.rank(method='max', ascending=False)

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [128]:
# DataFrame에서도 ranking 가능
frame = DataFrame({'b':[4.3,7,-3,2],'a':[0,1,0,1],
                  'c':[-2,5,8,-2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [129]:
frame.rank() #(default)axis=0, Column을 기준으로 Index 방향으로 진행

Unnamed: 0,a,b,c
0,1.5,3.0,2.0
1,3.5,4.0,3.0
2,1.5,1.0,4.0
3,3.5,2.0,1.0


In [130]:
frame.rank(axis=1) # axis=1

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


##### Axis indexes with duplicate values

In [131]:
# 만약 index값이 중복된다면?
obj = Series(range(5), index=['a','a','b','b','c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int32

In [132]:
obj.index.is_unique

False

In [133]:
obj.index.unique() # 참고

array(['a', 'b', 'c'], dtype=object)

In [134]:
obj['a'] # 모두 출력

a    0
a    1
dtype: int32

In [135]:
# DataFrame의 경우도 같다
df = DataFrame(np.random.randn(4,3),index=['a','a','b','b'])
df

Unnamed: 0,0,1,2
a,0.930328,0.201371,-0.598438
a,-0.300528,0.837309,0.071464
b,-0.520036,0.315675,-1.365491
b,1.273163,-1.618358,-0.862908


In [136]:
df.ix['b'] # 모두 출력

Unnamed: 0,0,1,2
b,-0.520036,0.315675,-1.365491
b,1.273163,-1.618358,-0.862908


##### Summarizing and Computing Descriptive Statistics
- pandas object는 보통 수학계산과 통계계산이 가능하다.
- pandas의 수학, 통계 메서드는 기본적으로 누락된 데이터를 제외하도록 설계되었다.

#### pandas의 DataFrame에 적용되는 통계함수 정리
- count	            : 전체 성분의 (NaN이 아닌) 값의 갯수를 계산
- min, max      	: 전체 성분의 최솟, 최댓값을 계산
- argmin, argmax	: 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
- idxmin, idxmax	: 전체 인덱스 중 최솟값, 최댓값을 반환
- quantile         	: 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
- sum           	: 전체 성분의 합을 계산
- mean          	: 전체 성분의 평균을 계산
- median	        : 전체 성분의 중간값을 반환
- mad	            : 전체 성분의 평균값으로부터의 절대 편차의 평균을 계산
- std, var      	: 전체 성분의 표준편차, 분산을 계산
- cumsum	        : 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐)
- cumprod       	: 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)

In [137]:
df = DataFrame([[1.4,np.nan],[7.1,-4.5],
               [np.nan, np.nan],[0.75,-1.3]],
              index=['a','b','c','d'],
              columns=['one','two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [138]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [139]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [140]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [141]:
# skipna 인자를 이용해 NA를 통제할 수 있다.
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [142]:
df.mean(axis=1, skipna=True)

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [143]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [144]:
df.idxmax() # column 기준으로 가장 큰 값의 index 반환

one    b
two    d
dtype: object

In [145]:
df.idxmax(axis=1) # index 기준으로 가장 큰 값의 column 반환

a    one
b    one
c    NaN
d    one
dtype: object

In [148]:
# 계산이 가능한 컬럼에 한해서 각 컬럼의 평균, 분산, 최솟/최댓값 등 기본 통계량을 산출한 결과 출력
# 데이터셋을 DataFrame 형태로 막 읽어들인 직후, 데이터셋을 전체적으로 살펴보고자 할 때 유용

df.describe()



Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,,
50%,,
75%,,
max,7.1,-1.3


In [150]:
obj = Series(['a','a','b','c']*4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [151]:
obj.describe()
# top : 가장 많은 값
# freq : top의 frequent

count     16
unique     3
top        a
freq       8
dtype: object

#### 상관관계

In [152]:
from pandas_datareader import data
# 외부 확장 모듈 
# cmd 창에서 > pip install pandas_datareader

In [153]:
all_data = {}
for ticker in ['AAPL' , 'IBM' , 'MSFT', 'GOOG']:
    all_data[ticker] = data.DataReader(ticker, 'yahoo' , '2015-01-01' , '2016-01-01')
all_data

{'AAPL':                   Open        High         Low       Close     Volume  \
 Date                                                                    
 2015-01-02  111.389999  111.440002  107.349998  109.330002   53204600   
 2015-01-05  108.290001  108.650002  105.410004  106.250000   64285500   
 2015-01-06  106.540001  107.430000  104.629997  106.260002   65797100   
 2015-01-07  107.199997  108.199997  106.699997  107.750000   40105900   
 2015-01-08  109.230003  112.150002  108.699997  111.889999   59364500   
 2015-01-09  112.669998  113.250000  110.209999  112.010002   53699500   
 2015-01-12  112.599998  112.629997  108.800003  109.250000   49650800   
 2015-01-13  111.430000  112.800003  108.910004  110.220001   67091900   
 2015-01-14  109.040001  110.489998  108.500000  109.800003   48337000   
 2015-01-15  110.000000  110.059998  106.660004  106.820000   60014000   
 2015-01-16  107.029999  107.580002  105.199997  105.989998   78513300   
 2015-01-20  107.839996  108.9

In [154]:
price = DataFrame({tic: data['Adj Close'] for tic , data in all_data.items()})
volume = DataFrame({tic: data['Volume'] for tic , data in all_data.items()})

In [155]:
returns = price.pct_change() # 데이터셋 저장

In [156]:
returns.tail() # 뒷부분만 가져오기

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-12-24,-0.00534,-0.002546,-0.002093,-0.002687
2015-12-28,-0.011201,0.018854,-0.004629,0.00503
2015-12-29,0.017974,0.018478,0.015769,0.010724
2015-12-30,-0.013059,-0.007211,-0.003148,-0.004244
2015-12-31,-0.019195,-0.01572,-0.012344,-0.01474


In [157]:
returns.MSFT.corr(returns.IBM)  # corr 메서드는 NA가 아니고 정렬된 색인에서 연속하는 두 시리즈에 대해 상관관계를 계산

0.54925482075995335

In [158]:
returns.MSFT.cov(returns.IBM) # 공분산을 계산

0.00013047519609578811

In [159]:
# 데이터 프레임 내에서 상관관계 계산
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.379946,0.516671,0.523573
GOOG,0.379946,1.0,0.451687,0.520562
IBM,0.516671,0.451687,1.0,0.549255
MSFT,0.523573,0.520562,0.549255,1.0


In [160]:
# 데이터 프레임 내에서 공분산을 계산 
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000284,0.000119,0.000116,0.000157
GOOG,0.000119,0.000347,0.000112,0.000173
IBM,0.000116,0.000112,0.000178,0.00013
MSFT,0.000157,0.000173,0.00013,0.000317


In [161]:
# corrwith 메서드를 이용하면 다른 Series나 Dataframe과의 상관관계를 계산한다.
returns.corrwith(returns.IBM) 

AAPL    0.516671
GOOG    0.451687
IBM     1.000000
MSFT    0.549255
dtype: float64

In [162]:
# 시가 총액의 퍼센트 변화율에 대한 상관관계 계산 
returns.corrwith(volume) 

AAPL   -0.119290
GOOG    0.405238
IBM    -0.297049
MSFT   -0.003517
dtype: float64

In [163]:
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [164]:
# R 에서의 unique SQL 의 distict 값과 같은 유일값 추출하는것
obj.unique() 

array(['c', 'a', 'd', 'b'], dtype=object)

In [165]:
# 데이터의 개수 카운트. 값에 따라 내림차순 정렬 (동일한 값끼리는 index 오름차순 정렬)
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [166]:
# sort = False 하면 원래 index 순서로 출력
pd.value_counts(obj.values, sort=False)

d    1
c    3
a    3
b    2
dtype: int64

In [167]:
mask =obj.isin(['b','c']) # boolean vector를 반환

In [168]:
mask # indexing에 이용

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [169]:
data = DataFrame({'Qu1' : [1,3,4,3,4],
                  'Qu2' : [2,3,1,2,3],
                  'Qu3' : [1,5,2,4,4]})

In [170]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [171]:
result = data.apply(pd.value_counts) # 값이 index로, counts가 값으로 들어간다. (index=행=특정숫자, cells=특정숫자의 해당 열 출현횟수)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [172]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## 누락된 데이터 처리하기

In [173]:
string_data = Series(['aardvark' , 'artichoke' , np.nan , 'avocado'])

In [174]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [175]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [176]:
string_data[0] = None # ==NaN

In [177]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [178]:
string_data.dropna()  # NaN 값을 제거한 나머지 값들을 return한다.

1    artichoke
3      avocado
dtype: object

In [179]:
string_data.notnull()  # is.null 과 반대되는 개념

0    False
1     True
2    False
3     True
dtype: bool

In [180]:
from numpy import nan as NA # np.nan 써야되는 것들을 NA라고 쓰겠다.

In [181]:
data = Series([1, NA, 3.5 ,NA , 7])

In [182]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [183]:
data[data.notnull()] # Boolean Series(마스크)를 이용해 인덱싱

0    1.0
2    3.5
4    7.0
dtype: float64

In [184]:
data = DataFrame([[1., 6.5,3.] , [1. , NA , NA] , [NA,NA,NA] , [NA,6.5,3.]]) 
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [185]:
data.dropna() # default : how='any'

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [186]:
data.dropna(how = 'any') # 하나라도 NA값이면 제거

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [187]:
data.dropna(how = 'all') # 모든 값이 NA값 일때만 제거

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [188]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [189]:
data.dropna(axis= 1 , how = 'all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [190]:
df = DataFrame(np.random.randn(7,3))  # 데이터 프레임에 7행 3열의 랜덤 난수 형성
df

Unnamed: 0,0,1,2
0,0.985618,0.694824,0.630205
1,-0.858641,0.569128,-0.749336
2,1.745777,0.052133,-1.140702
3,-0.967099,-0.458111,-1.635921
4,-0.25825,0.831682,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [191]:
df.ix[:4, 1] = NA # 여기서 4는 position이 아닌 label. 그래서 0~4까지 NaN 할당되었다.
df

Unnamed: 0,0,1,2
0,0.985618,,0.630205
1,-0.858641,,-0.749336
2,1.745777,,-1.140702
3,-0.967099,,-1.635921
4,-0.25825,,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [192]:
df.ix[:2,2] = NA
df

Unnamed: 0,0,1,2
0,0.985618,,
1,-0.858641,,
2,1.745777,,
3,-0.967099,,-1.635921
4,-0.25825,,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [193]:
df.dropna(thresh= 3) # 3개 이상의 값이 들어있는 index만 살펴보겠다.

Unnamed: 0,0,1,2
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


### 누락된 값 채우기

In [194]:
df

Unnamed: 0,0,1,2
0,0.985618,,
1,-0.858641,,
2,1.745777,,
3,-0.967099,,-1.635921
4,-0.25825,,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [195]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.985618,0.0,0.0
1,-0.858641,0.0,0.0
2,1.745777,0.0,0.0
3,-0.967099,0.0,-1.635921
4,-0.25825,0.0,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [196]:
df.fillna({1:0.5 , 2:-1})  # column마다 다른 값을 채워 넣을 수 있다.

Unnamed: 0,0,1,2
0,0.985618,0.5,-1.0
1,-0.858641,0.5,-1.0
2,1.745777,0.5,-1.0
3,-0.967099,0.5,-1.635921
4,-0.25825,0.5,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [197]:
# fillna()는 기본적으로 새로운 객체를 반환하지만, 기존의 객체를 변경 할 수도 있다.
df.fillna(0,inplace = True)
df

Unnamed: 0,0,1,2
0,0.985618,0.0,0.0
1,-0.858641,0.0,0.0
2,1.745777,0.0,0.0
3,-0.967099,0.0,-1.635921
4,-0.25825,0.0,-0.155711
5,0.430675,-0.05418,0.167904
6,1.887305,-0.281856,1.556681


In [198]:
df = DataFrame(np.random.randn(6,3))
df

Unnamed: 0,0,1,2
0,-1.746863,1.541636,0.493072
1,1.031395,-0.220981,0.344699
2,-0.41085,0.801259,-0.422537
3,0.577414,0.648049,0.060424
4,-0.03591,-0.364458,0.690923
5,-0.421152,0.97622,-0.026237


In [199]:
df.ix[2:,1] = NA
df.ix[4:,2] = NA
df

Unnamed: 0,0,1,2
0,-1.746863,1.541636,0.493072
1,1.031395,-0.220981,0.344699
2,-0.41085,,-0.422537
3,0.577414,,0.060424
4,-0.03591,,
5,-0.421152,,


In [200]:
df.fillna(method = 'ffill')

Unnamed: 0,0,1,2
0,-1.746863,1.541636,0.493072
1,1.031395,-0.220981,0.344699
2,-0.41085,-0.220981,-0.422537
3,0.577414,-0.220981,0.060424
4,-0.03591,-0.220981,0.060424
5,-0.421152,-0.220981,0.060424


In [201]:
df.fillna(method = 'ffill' , limit= 2) # 2개 까지만

Unnamed: 0,0,1,2
0,-1.746863,1.541636,0.493072
1,1.031395,-0.220981,0.344699
2,-0.41085,-0.220981,-0.422537
3,0.577414,-0.220981,0.060424
4,-0.03591,,0.060424
5,-0.421152,,0.060424


In [202]:
data = Series([1., NA, 3.5 , NA , 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [203]:
data.fillna(data.mean()) # NA 값에 data의 평균을 넣은 Series

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

#### fillna 함수 인자  
<ol>
<li>value : 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체</li>
<li>method : 보간 방식 , 기본적으로 'ffill'을 사용한다.</li>
<li>axis :  값을 채워 넣을 축. default는 0</li>
<li>inplace : 복사본을 생성하지 않고 호출한 객체를 변경한다. default는 False</li>
<li>limits : 값을 앞 혹은 뒤에서부터 몇 개 까지 채울지를 지정한다.</li>
</ol>

cf. 앞에서 reindex에서 다룬 보간 방식을 떠올리면 다음과 같았다.(method 옵션 중)
- ffill or pad : 앞의 값으로 누락된 값을 채워 넣는다.
- bfill or backfill : 뒤의 값으로 채워 넣는다.

### 계층적 색인

#### 계층적 색인은 하나의 축에 대해 둘 이상의 색인 단계를 지정할 수 있도록 한다.

#### 실제 데이터를 다룰 때에 유용하게 활용될 때도 있지만 주로 사용하지는 않는다. (복잡해 지니까.)

In [206]:
# concatenating (연결) -> 추후 DataFrame merging 할 때 다시 다룰 내용
s1 = pd.Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([4, 5, 6], index=['c', 'd', 'e'])
s3 = pd.concat([s1, s2], keys=["one", "two"])

In [207]:
s1

a    0
b    1
c    2
d    3
dtype: int64

In [208]:
s2

c    4
d    5
e    6
dtype: int64

In [209]:
s3

one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: int64

In [210]:
data = Series(np.random.randn(10) , index = [['a','a','a','b','b','b','c','c','d','d'],
                                             [1,2,3,1,2,3,1,2,2,3]])
data

a  1    1.989399
   2    0.278652
   3   -1.702824
b  1   -0.348796
   2   -0.229720
   3   -1.489623
c  1   -1.681678
   2    0.176192
d  2   -1.219168
   3   -2.038232
dtype: float64

In [211]:
data['b']

1   -0.348796
2   -0.229720
3   -1.489623
dtype: float64

In [212]:
data['b':'c']

b  1   -0.348796
   2   -0.229720
   3   -1.489623
c  1   -1.681678
   2    0.176192
dtype: float64

In [213]:
data.ix[['b','d']] # 부분적 색인이 가능하다. 

b  1   -0.348796
   2   -0.229720
   3   -1.489623
d  2   -1.219168
   3   -2.038232
dtype: float64

In [214]:
data

a  1    1.989399
   2    0.278652
   3   -1.702824
b  1   -0.348796
   2   -0.229720
   3   -1.489623
c  1   -1.681678
   2    0.176192
d  2   -1.219168
   3   -2.038232
dtype: float64

In [215]:
data[:, 2] # 첫번째 단계의 모든 인덱스 중에서 두번째 단계의 index=='2'인 값들만 가져와라.

a    0.278652
b   -0.229720
c    0.176192
d   -1.219168
dtype: float64

In [216]:
data

a  1    1.989399
   2    0.278652
   3   -1.702824
b  1   -0.348796
   2   -0.229720
   3   -1.489623
c  1   -1.681678
   2    0.176192
d  2   -1.219168
   3   -2.038232
dtype: float64

In [217]:
data.unstack() # 가장 하위 단계의 index들이 column으로 변환된다.

Unnamed: 0,1,2,3
a,1.989399,0.278652,-1.702824
b,-0.348796,-0.22972,-1.489623
c,-1.681678,0.176192,
d,,-1.219168,-2.038232


In [218]:
data.shape

(10,)

In [219]:
data.unstack().shape

(4, 3)

In [220]:
type(data) # 기존에 Series에서

pandas.core.series.Series

In [221]:
type(data.unstack())  # DataFrame으로 변환

pandas.core.frame.DataFrame

In [222]:
data.unstack().stack() # column을 가장 하위 단계의 index들로 변환

a  1    1.989399
   2    0.278652
   3   -1.702824
b  1   -0.348796
   2   -0.229720
   3   -1.489623
c  1   -1.681678
   2    0.176192
d  2   -1.219168
   3   -2.038232
dtype: float64

In [223]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [224]:
frame.index.names = ['key1' ,'key2']
frame.columns.names= ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [225]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [226]:
frame.sort_index(level='key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [227]:
frame.sort_index(axis=1, level='state')

Unnamed: 0_level_0,state,Colorado,Ohio,Ohio
Unnamed: 0_level_1,color,Green,Green,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,2,0,1
a,2,5,3,4
b,1,8,6,7
b,2,11,9,10


In [228]:
frame.index # MultiIndex 구조

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['key1', 'key2'])

In [229]:
frame.columns

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

In [230]:
# DataFrame 컬럼 계층의 이름 생성하기
MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

### 5.5.1 계층 순서 바꾸고 정렬하기

In [231]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [232]:
frame.swaplevel('key1', 'key2')  # key1 의 위치와 key2 의 위치가 바뀐다.

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [233]:
frame.sortlevel(1) # 단일계층에 속한 데이터를 정렬한다. 

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [234]:
frame.sortlevel(level='key2') # column 에는 적용 안

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


### 5.5.2 단계별 요약 통계

In [235]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [236]:
frame.sum(level='key2') # level이 key2 인 index를 기준으로 결과 출력

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [237]:
frame.sum(level = 'color' , axis = 1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


####  set_index() vs stack()

In [238]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [239]:
# stack()과 set_index() 비교해서 알아두기.
frame.stack() # column이 기존 index의 하위 단계로 들어가고.

0  a      0
   b      7
   c    one
   d      0
1  a      1
   b      6
   c    one
   d      1
2  a      2
   b      5
   c    one
   d      2
3  a      3
   b      4
   c    two
   d      0
4  a      4
   b      3
   c    two
   d      1
5  a      5
   b      2
   c    two
   d      2
6  a      6
   b      1
   c    two
   d      3
dtype: object

In [240]:
# 특정 column들이 기존의 index를 대체한다.
# 리스트 원소에서 앞에 있을수록 높은 단계에 위치
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [241]:
frame.set_index(['c', 'd'], drop=False) # c,d column 그대로 유지

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [242]:
frame2.reset_index() # 기존의 데이터와는 column 순서가 다르다.

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 5.6 pandas와 관련된 기타 주제

### 5.6.2 Panel 데이터 구조
#### 이 책에서 중요하게 다룰 주제는 아니지만 pandas에는 Panel 이라는 자료 구조도 있다.
#### 이는 DataFrame의 3차원 버전이라고 이해하면 된다. 

In [243]:
from __future__ import division
from pandas_datareader import data as web

In [244]:
pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk, '1/1/2009', '6/1/2012'))
                      for stk in ['AAPL', 'GOOG', 'MSFT', 'DELL']))

# pandas의 datareader를 통해 2009년부터 2012년 6월 1일까지
# 야후의 데이터를 불러와 3차원 자료 구조를 형성

In [245]:
pdata # 기존 4*868*6 dimensions의 데이터

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 868 (major_axis) x 6 (minor_axis)
Items axis: AAPL to MSFT
Major_axis axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: Open to Adj Close

In [246]:
# item 축과 minor 축을 변경
pdata = pdata.swapaxes('items', 'minor')

In [247]:
pdata

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 868 (major_axis) x 4 (minor_axis)
Items axis: Open to Adj Close
Major_axis axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT

In [248]:
pdata['Adj Close']

Unnamed: 0_level_0,AAPL,DELL,GOOG,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-01-02,11.757529,10.39902,160.499779,16.401867
2009-01-05,12.253743,10.26359,163.861421,16.555156
2009-01-06,12.051629,10.68922,166.863420,16.748784
2009-01-07,11.791215,10.78596,160.844427,15.740307
2009-01-08,12.010170,10.90204,162.432840,16.232444
2009-01-09,11.735504,10.75694,157.377899,15.748375
2009-01-12,11.486750,10.30228,156.189080,15.708035
2009-01-13,11.363668,10.40869,157.003261,15.990409
2009-01-14,11.055316,9.97338,150.334921,15.401458
2009-01-15,10.802675,10.19587,149.345914,15.522475


In [249]:
pdata.ix[: , '6/1/2012', :] 
# z축을 전부 가져오고 x축에서 12년 6월 1일의 데이터만 가져온 경우
# z축의 데이터 인덱스를 기존 데이터 프레임의 x축에 위치하는 것처럼 보여준다. 

Unnamed: 0,Open,High,Low,Close,Volume,Adj Close
AAPL,569.159996,572.650009,560.520012,560.989983,130246900.0,72.68161
DELL,12.15,12.3,12.045,12.07,19397600.0,11.67592
GOOG,571.790972,572.650996,568.350996,570.981,6138700.0,285.205295
MSFT,28.76,28.959999,28.440001,28.450001,56634300.0,24.942239


In [250]:
pdata.ix['Adj Close', '5/22/2012':, :]

Unnamed: 0_level_0,AAPL,DELL,GOOG,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-05-22,72.160786,14.58765,300.100412,26.090721
2012-05-23,73.921494,12.08221,304.426106,25.520864
2012-05-24,73.242607,12.04351,301.528978,25.485795
2012-05-25,72.850038,12.05319,295.47005,25.477028
2012-05-28,,12.05319,,
2012-05-29,74.143041,12.24666,296.873645,25.91538
2012-05-30,75.037005,12.14992,293.821674,25.722505
2012-05-31,74.850442,11.92743,290.140354,25.591
2012-06-01,72.68161,11.67592,285.205295,24.942239


In [253]:
# 계층적 인덱스를 갖는 데이터 프레임 형식으로 변환
stacked = pdata.ix[:, '5/30/2012':, :].to_frame()

In [252]:
stacked

Unnamed: 0_level_0,Unnamed: 1_level_0,Open,High,Low,Close,Volume,Adj Close
Date,minor,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-05-30,AAPL,569.199997,579.98999,566.55999,579.169998,132357400.0,75.037005
2012-05-30,DELL,12.59,12.7,12.46,12.56,19787800.0,12.14992
2012-05-30,GOOG,588.161028,591.901014,583.530999,588.230992,3827600.0,293.821674
2012-05-30,MSFT,29.35,29.48,29.120001,29.34,41585500.0,25.722505
2012-05-31,AAPL,580.740021,581.499985,571.460022,577.730019,122918600.0,74.850442
2012-05-31,DELL,12.53,12.54,12.33,12.33,19955600.0,11.92743
2012-05-31,GOOG,588.720982,590.001032,579.001013,580.86099,5958800.0,290.140354
2012-05-31,MSFT,29.299999,29.42,28.940001,29.190001,39134000.0,25.591
2012-06-01,AAPL,569.159996,572.650009,560.520012,560.989983,130246900.0,72.68161
2012-06-01,DELL,12.15,12.3,12.045,12.07,19397600.0,11.67592


In [254]:
# panel 형식으로 변환
stacked.to_panel()  

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 3 (major_axis) x 4 (minor_axis)
Items axis: Open to Adj Close
Major_axis axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT