#### 교재 + Flearning 강의(https://www.flearning.net/classes/15)

### Pandas Library

- 복잡한 자료구조와 유용한 데이터 분석 도구를 포함
- 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조.
- 통합된 시계열 기능
- 시계열 데이터 + 비시계열 데이터를 다룰 수 있는 통합 자료 구조
- 누락된 데이터를 유연하게 처리할 수 있는 기능
- DB에서처럼 데이터를 합치고 관계연산을 수행하는 기능

# Introduction to pandas Data Structures

In [1]:
# pandas 모듈과 numpy 모듈을 import한 후, 객체 생성.
import numpy as np
import pandas as pd

In [3]:
# pandas 모듈 내의 Series class, DataFrame class, MultiIndex class를 import.
from pandas import Series, DataFrame, MultiIndex

# 이 작업 안 할꺼면 pd 객체를 통해 필요할 때마다 불러와도 된다.

### Series

- 동일한 데이터형의 복수 개의 성분으로 구성된 자료 구조
- index라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.
- **다른말로 고정 길이의 정렬된 사전형
- 리스트나 numpy array 등이 함수의 인자로 입력

In [None]:
# index는 default로 0부터 N-1
obj=Series([4, 7, -5, 3])
obj

In [4]:
# index 값 지정
obj2=Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [5]:
obj2.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [None]:
obj2['d'] # index 값을 이용

In [None]:
obj2[0] # index 위치를 이용

In [None]:
obj2['d'] = 6
obj2

###### Boolean Series

In [None]:
'b' in obj2

In [None]:
'e' in obj2

In [7]:
obj2>0 # boolean Series 출력. 이를 마스크라고 부른다.

d     True
b     True
a    False
c     True
dtype: bool

In [8]:
obj2[obj2>0]

d    4
b    7
c    3
dtype: int64

In [None]:
obj2*2

In [None]:
np.exp(obj2)

###### Series 다루기

In [None]:
# dict's kep → index로 들어감(알파벳순 자동정렬)
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = Series(sdata)
obj3

In [None]:
# index 값 지정 (지정되지 않은 데이터는 잃어버림)
states = ['California','Ohio','Oregon','Texas']
obj4 = Series(sdata, index=states)
obj4 # NaN(not a number = missing values = NA values) 할당

In [None]:
# 결측치 확인
pd.isnull(obj4)

In [None]:
obj4.isnull() # Series의 instance method를 호출하는 방법

In [None]:
obj4.notnull()

In [None]:
obj3

In [None]:
obj4

In [None]:
# Series는 산술연산시, 다르게 인덱싱된 데이터를 자동으로 정렬함
obj3+obj4

In [None]:
# 이름(제목)지정
obj4.name='population'
obj4.index.name='state'
obj4

## DataFrame

- 서로 같거나 다른 데이터형의 여러 개의 열에 대하여 복수 개의 성분으로 구성된 '표와 같은 형태'의 자료 구조
- input가능한 자료형
    1. 2차원 ndarray
    2. array,list,tuple의 dictionary
    3. NumPy의 구조화 배열
    4. Series 사전
    5. 사전의 사전
    6. 사전이나 Series의 리스트
    7. 리스트나 튜플의 리스트
    8. 다른 DataFrame
    9. NumPy MaskedArray

#### 1) list로 이루어진 dictionary로 DataFrame 만들기

In [None]:
# column은 알파벳순으로 자동정렬
data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
     'year':[2000,2001,2002,2001,2002],
     'pop':[1.5,1.7,3.6,2.4,2.9]}
df=DataFrame(data)
df

In [None]:
# column 순서 임의 지정
df1=DataFrame(data, columns=['year','state','pop'])
df1

In [None]:
# index 값 지정
df2=DataFrame(data, columns=['year','state','pop'],
              index=['one','two','three','four','five'])
df2

In [None]:
# 새로운 column 입력하면, missing values 자동 할당
df3=DataFrame(data, columns=['year','state','pop','debt'], index=['one','two','three','four','five'])
df3

In [None]:
# column명 확인
df3.columns

- 행 또는 열 추출 (ix[], loc[], iloc[] 기능 비교하기)

In [None]:
# column
df3['state']
df3.state

In [None]:
df3.loc[:,'state'] # label 을 이용 (실제 index의 이름을 사용)

In [None]:
df3.iloc[:,1] # position 을 이용 (numpy의 array indexing 방식)

In [None]:
df3.ix[:,'state'] # label, position 둘다 이용 (단, label이 우선순위)

In [None]:
df3.ix[:,1] 

In [None]:
# row
df3[2] #KeyError

In [None]:
df3[:2]
# dataframe[~] 하면 column을 가져오지만, :2 로 표현을 하니 index를 가져온다.
# 개발자 마음인 것 같네요. 따라야지요. 그러니 해보면서 어떤 방법들이 있는지 스스로 공부해 봅시다!

In [None]:
# 함수를 사용하면 index만 표현하는 것이 가능.
df3.loc['two']

In [None]:
df3.loc['two',:]

In [None]:
df3.iloc[1,:] 

In [None]:
df3.ix['two',:] 

In [None]:
df3.ix[1,:]

- column에 값 할당하기

In [None]:
# 스칼라 할당
df3['debt']=16.5
df3

In [None]:
# array 할당
df3['debt']=np.arange(5.)
df3

In [None]:
# series 할당 (데이터와 index의 길이는 같아야 한다.)
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
df3['debt'] = val
df3
# DataFrame 보다 val이 크면 데이터를 잃는다.

In [None]:
# new column 생성
df3['eastern'] = (df3.state == 'Ohio')
df3

In [None]:
# column 삭제
del df3['debt']
df3

#### 2) 중첩된 dictionary로 DataFrame 만들기

In [None]:
# outer keys → column 명
# inner keys → row 명
pop = {'Nevada' : {2001:2.4, 2002:2.9},
       'Ohio' : {2000:1.5, 2001:1.7, 2002:3.6}}
df4 = DataFrame(pop)
df4

In [None]:
# transpose
df4.T

In [None]:
# index 값 지정 (NaN)
df5 = DataFrame(pop, index=[2001,2002,2003])
df5

In [None]:
# DataFrame indexing
pdata = {'Ohio':df4['Ohio'][:-1],
         'Nevada':df4['Nevada'][:2]}
df6 = DataFrame(pdata)
df6

In [None]:
# index와 column 이름 지정
df4.index.name = 'year'
df4.columns.name = 'state'
df4

In [None]:
df4.values

## Index Object

- 색인 객체는 표 형식의 데이터에서 각 row와 column에 대한 값을 저장하는 객체이다.
- 색인 객체는 변경할 수 없어 자료 구조 사이에서 안전하게 공유된다.
- pandas에서 사용되는 내장 색인 클래스가 정의되어 있다.
- 특수한 목적으로 축을 색인하는 기능을 개발하기 위해 Index 클래스의 서브클래스를 만들 수 있다.

In [None]:
obj = Series(range(3), index=['a', 'b', 'c'])
obj

In [None]:
obj.index[1] = 'c' # index object 는 변경 불가

#### Index클래스의 서브클래스 생성 가능
- pandas의 주요 index 객체 : Index, Int64Index, MultiIndex, DatetimeIndex, PeriodIndex

In [None]:
index1 = pd.Index(np.arange(3))
index1

#### 색인 메서드와 속성
- 각각의 색인은 담고있는 데이터에 대한 정보를 취급하는 여러가지 메서드와 속성을 갖고 있음

<ol>
<li>append</li>
<li>diff / intersection / union</li>
<li>isin</li>
<li>delete</li>
<li>drop</li>
<li>insert</li>
<li>is_monotonic</li>
<li>unique</li>
</ol>

#### index 다루기

In [None]:
obj=Series(np.arange(4.), index=['a','b','c','d'])
obj

In [None]:
# 두 결과를 비교하자.
print (obj[2:3]);print()
print (obj["c":"d"])

In [None]:
# 띄엄띄엄 있는 index를 가져올 때, [] 를 이용하자.
print (obj[[1,3]]);print()
print (obj[["b","d"]])

In [None]:
data=DataFrame(np.arange(16.).reshape((4,4)),
              index=['Ohio','Colorado','Utah','New Yourk'],
              columns=['one','two','three','four'])
data

In [None]:
data['two']

In [None]:
# 둘 이상의 column을 불러오고 싶을 때, []를 사용하자.
data[['three','one']]

In [None]:
# 둘의 출력값이 같다는 것을 확인할 수 있다.
print (data.ix['Colorado', ['two','three']]);print()
print (data.ix[1, 1:3])

In [None]:
print (data.loc['Colorado', ['two','three']]);print()
print (data.iloc[1, 1:3])

In [None]:
# label과 position 함께 사용 가능하다.
print (data.ix[['Colorado','Utah'],[3,0,1]]);print()
print (data.ix[1:3, ['four','one','two']])

In [None]:
# boolean Series(마스크)를 이용한 색인이 가능!
print (data.three > 5);print()
print (data.ix[data.three > 5, :3]);print()
print (data.ix[data.three > 5, 'one':'three'])

#### Table 5-6
- obj[val] : select columns or sequence columns from dataframe
- obj.ix[val] : select single row of subset of rows
- obj.ix[:, val] : select single column of subset of columns
- obj.ix[val1, val2] : select both rows and columns

##### Arithmetic and data alignment
- pandas의 가장 큰 특징은 index가 다른 두 변수의 산술(arithmetic)이 가능하다는 것

In [None]:
s1 = Series([7.3,-2.5,3.4,1.5], index=['a','c','d','e'])
s2 = Series([-2.1,3.6,-1.5,4,3.1], index=['a','c','e','f','g'])
print (s1);print()
print (s2)

In [None]:
s1 + s2 # NaN 할당

In [None]:
df1 = DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'),
                index=["Ohio","Texas","Colorado"])
df2 = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),
                index=["Utah","Ohio","Texas","Oregon"])
print (df1);print()
print (df2)

In [None]:
df1 + df2 # NaN 할당

##### Arithmetic methods with fill vaules

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))
print (df1);print()
print (df2)

In [None]:
df1+df2

In [None]:
# add() 함수, fill_value 인자 사용
df1.add(df2, fill_value=0)

In [None]:
df2.add(df1, fill_value=0)

In [None]:
# reindex() 함수, fill_value 인자 사용
df1.reindex(columns=df2.columns, fill_value=0)

# 단, add() 함수와는 다른 결과 출력.

#### cf. 순차적인 데이터(시계열)를 재색인 할 때  method 인자를 이용해 값을 보간하거나 채워 넣기
- ffill or pad : 앞의 값으로 누락된 값을 채워 넣는다.
- bfill or backfill : 뒤의 값으로 채워 넣는다.

In [None]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

In [None]:
obj3.reindex(range(6), method='ffill')

##### Operations between DataFrame and Series

In [None]:
frame = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),
                 index=['Utah','Ohio','Texas','Oregon'])
series=frame.ix[0]

In [None]:
frame

In [None]:
series

In [None]:
frame - series

# frame의 각 index에 Utah 행의 데이터 만큼을 빼준다.

In [None]:
series2 = Series(range(3), index=['b','e','f'])
series2

In [None]:
frame + series2

# pandas의 경우 index가 맞는 경우에 연산이 잘 나오는 것을 확인할 수 있다.

In [None]:
# 모든 column에 연산을 갖게 해주는 여러 방법중에 한가지를 알아보자. (단, dataframe과 series는 같은 길이) 
frame

In [None]:
series3 = frame['d']
series3

In [None]:
frame.sub(series3, axis=0)

In [None]:
frame.mul(series3, axis=0)

##### Function application and mapping
- pandas 객체에도 Numpy의 universal functions(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다.
- 다만 numpy에서와 달리 pandas에서는 정수가 아닌 indexing이 가능하다는 차이가 있음을 기억하자.

In [21]:
frame = DataFrame(np.random.randn(4,3), columns=list('bde'),
                 index=['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.178528,-0.024331,0.189738
Ohio,-1.520269,0.730041,1.524955
Texas,-0.572984,-0.940767,-0.126896
Oregon,0.981579,0.830039,-2.789402


In [None]:
np.abs(frame)

In [None]:
# lambda 함수를 정의한 뒤 이를 f 변수에 저장 -> f 함수 생성 (사용자 정의 함수) 
f= lambda x: x.max() - x.min()

In [None]:
#  apply 함수를 이용해 함수 f를 DataFrame에 사용
# R : 1-row, 2-col vs Python : 0-column, 1-index

frame.apply(f) # Column을 기준으로 한다. <default : axis=0>

In [None]:
frame.apply(f, axis=1)
# axis = 1은 Index를 기준으로 함수 적용 

In [None]:
# axis 추가 예제
frame.drop(['Utah', 'Texas'])

In [None]:
frame.drop('d',axis=1)

In [None]:
frame.drop('d',1) # 위치에 의한 인수입력 방식도 가능.

In [22]:
def f(x):
    return Series([x.min(), x.max()], index=['min','max'])

frame.apply(f)
# b/d/e의 최소, 최대값을 갖는 Series 반환

Unnamed: 0,b,d,e
min,-1.520269,-0.940767,-2.789402
max,0.981579,0.830039,1.524955


In [None]:
frame

In [None]:
# 만약 element-wise 함수를 적용시키려면
# applymap()함수 이용

format = lambda x: '%.2f' % x
frame.applymap(format)

In [None]:
# 하나의 column에만 적용하고 싶을때는 map()함수 이용
frame['b'].map(format)

##### Sorting

In [None]:
# sort_index() : index를 정렬(문자인 경우abcde...순)
obj = Series(range(4), index=['d','a','b','c'])
obj

In [None]:
obj.sort_index()

In [None]:
# DataFrame 에서도 sort_index() 함수 사용
frame = DataFrame(np.arange(8.).reshape((2,4)), index=['three','one'],
                 columns=['d','a','b','c'])
frame

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

In [None]:
# 만약 내림차순으로 정렬하고 싶다면, ascending=False 인자 추가
frame.sort_index(axis=1, ascending=False)

In [None]:
# order() 함수 : 값에 따른 정렬
obj = Series([4,7,-3,2])
obj

In [None]:
obj.order() # index는 섞인다.

In [None]:
# missing value 는 맨뒤로!
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.order()

In [None]:
# 내림차순도 마찬가지
obj.order(ascending=False)

In [None]:
frame = DataFrame({'b':[4,7,-3,2], 'a':[0,1,0,1]})
frame

In [None]:
frame.sort_index(by='b') # 기준 지정

In [None]:
frame.sort_index(by=['a','b']) # a 먼저 정렬

#### Ranking
- 작은값부터 rank : 1
- sorting과 밀접하게 관련
- numpy.argsort 과 비슷한 형태

In [None]:
obj = Series([7,-5,7,4,2,0,4])
obj

In [None]:
# 만약 같은 값이 있다면, default는 두 순위의 평균값으로 한다. (여기서는 (6+7)/2=6.5를 사용)
obj.rank()

In [None]:
obj.rank(method='average') # default

In [None]:
# 같은 값의 경우 먼저 쓰여진 것(index가 낮은 것)을 작은 값으로 인식
obj.rank(method='first')

In [None]:
# 같은 값의 경우 큰 값으로 인식
obj.rank(method='max')

In [None]:
# 같은 값의 경우 작은 값으로 인식
obj.rank(method='min')

In [None]:
# rank도 내림차순 가능
obj.rank(method='max', ascending=False)

In [None]:
# DataFrame에서도 ranking 가능
frame = DataFrame({'b':[4.3,7,-3,2],'a':[0,1,0,1],
                  'c':[-2,5,8,-2.5]})
frame

In [None]:
frame.rank() #(default)axis=0, Column을 기준으로 Index 방향으로 진행

In [None]:
frame.rank(axis=1) # axis=1

##### Axis indexes with duplicate values

In [None]:
# 만약 index값이 중복된다면?
obj = Series(range(5), index=['a','a','b','b','c'])
obj

In [None]:
obj.index.is_unique

In [None]:
obj.index.unique() # 참고

In [None]:
obj['a'] # 모두 출력

In [None]:
# DataFrame의 경우도 같다
df = DataFrame(np.random.randn(4,3),index=['a','a','b','b'])
df

In [None]:
df.ix['b'] # 모두 출력

##### Summarizing and Computing Descriptive Statistics
- pandas object는 보통 수학계산과 통계계산이 가능하다.
- pandas의 수학, 통계 메서드는 기본적으로 누락된 데이터를 제외하도록 설계되었다.

#### pandas의 DataFrame에 적용되는 통계함수 정리
- count	            : 전체 성분의 (NaN이 아닌) 값의 갯수를 계산
- min, max      	: 전체 성분의 최솟, 최댓값을 계산
- argmin, argmax	: 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
- idxmin, idxmax	: 전체 인덱스 중 최솟값, 최댓값을 반환
- quantile         	: 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
- sum           	: 전체 성분의 합을 계산
- mean          	: 전체 성분의 평균을 계산
- median	        : 전체 성분의 중간값을 반환
- mad	            : 전체 성분의 평균값으로부터의 절대 편차의 평균을 계산
- std, var      	: 전체 성분의 표준편차, 분산을 계산
- cumsum	        : 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐)
- cumprod       	: 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)

In [None]:
df = DataFrame([[1.4,np.nan],[7.1,-4.5],
               [np.nan, np.nan],[0.75,-1.3]],
              index=['a','b','c','d'],
              columns=['one','two'])
df

In [None]:
df.sum()

In [None]:
df.sum(axis=1)

In [None]:
df

In [None]:
# skipna 인자를 이용해 NA를 통제할 수 있다.
df.mean(axis=1, skipna=False)

In [None]:
df.mean(axis=1, skipna=True)

In [None]:
df

In [None]:
df.idxmax() # column 기준으로 가장 큰 값의 index 반환

In [None]:
df.idxmax(axis=1) # index 기준으로 가장 큰 값의 column 반환

In [None]:
# 계산이 가능한 컬럼에 한해서 각 컬럼의 평균, 분산, 최솟/최댓값 등 기본 통계량을 산출한 결과 출력
# 데이터셋을 DataFrame 형태로 막 읽어들인 직후, 데이터셋을 전체적으로 살펴보고자 할 때 유용

df.describe()

In [None]:
obj = Series(['a','a','b','c']*4)
obj

In [None]:
obj.describe()
# top : 가장 많은 값
# freq : top의 frequent

#### 상관관계

In [None]:
from pandas_datareader import data
# 외부 확장 모듈 
# cmd 창에서 > pip install pandas_datareader

In [None]:
all_data = {}
for ticker in ['AAPL' , 'IBM' , 'MSFT', 'GOOG']:
    all_data[ticker] = data.DataReader(ticker, 'yahoo' , '2015-01-01' , '2016-01-01')
all_data

In [None]:
price = DataFrame({tic: data['Adj Close'] for tic , data in all_data.items()})
volume = DataFrame({tic: data['Volume'] for tic , data in all_data.items()})

In [None]:
returns = price.pct_change() # 데이터셋 저장

In [None]:
returns.tail() # 뒷부분만 가져오기

In [None]:
returns.MSFT.corr(returns.IBM)  # corr 메서드는 NA가 아니고 정렬된 색인에서 연속하는 두 시리즈에 대해 상관관계를 계산

In [None]:
returns.MSFT.cov(returns.IBM) # 공분산을 계산

In [None]:
# 데이터 프레임 내에서 상관관계 계산
returns.corr()

In [None]:
# 데이터 프레임 내에서 공분산을 계산 
returns.cov()

In [None]:
# corrwith 메서드를 이용하면 다른 Series나 Dataframe과의 상관관계를 계산한다.
returns.corrwith(returns.IBM) 

In [None]:
# 시가 총액의 퍼센트 변화율에 대한 상관관계 계산 
returns.corrwith(volume) 

In [None]:
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
obj

In [None]:
# R 에서의 unique SQL 의 distict 값과 같은 유일값 추출하는것
obj.unique() 

In [None]:
# 데이터의 개수 카운트. 값에 따라 내림차순 정렬 (동일한 값끼리는 index 오름차순 정렬)
obj.value_counts()

In [None]:
# sort = False 하면 원래 index 순서로 출력
pd.value_counts(obj.values, sort=False)

In [None]:
mask =obj.isin(['b','c']) # boolean vector를 반환

In [None]:
mask # indexing에 이용

In [None]:
data = DataFrame({'Qu1' : [1,3,4,3,4],
                  'Qu2' : [2,3,1,2,3],
                  'Qu3' : [1,5,2,4,4]})

In [None]:
data

In [None]:
result = data.apply(pd.value_counts) # 값이 index로, counts가 값으로 들어간다.
result

In [None]:
result = data.apply(pd.value_counts).fillna(0)
result

## 누락된 데이터 처리하기

In [9]:
string_data = Series(['aardvark' , 'artichoke' , np.nan , 'avocado'])

In [10]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [11]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [12]:
string_data[0] = None # ==NaN ??

In [13]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [14]:
string_data.dropna()  # NaN 값을 제거한 나머지 값들을 return한다.

1    artichoke
3      avocado
dtype: object

In [15]:
string_data.notnull()  # is.null 과 반대되는 개념

0    False
1     True
2    False
3     True
dtype: bool

In [18]:
from numpy import nan as NA # np.nan 써야되는 것들을 NA라고 쓰겠다.

In [19]:
data = Series([1, NA, 3.5 ,NA , 7])

In [20]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [None]:
data[data.notnull()] # Boolean Series(마스크)를 이용해 인덱싱

In [None]:
data = DataFrame([[1., 6.5,3.] , [1. , NA , NA] , [NA,NA,NA] , [NA,6.5,3.]]) 
data

In [None]:
data.dropna() # default : how='any'

In [None]:
data.dropna(how = 'any') # 하나라도 NA값이면 제거

In [None]:
data.dropna(how = 'all') # 모든 값이 NA값 일때만 제거

In [None]:
data[4] = NA
data

In [None]:
data.dropna(axis= 1 , how = 'all')

In [None]:
df = DataFrame(np.random.randn(7,3))  # 데이터 프레임에 7행 3열의 랜덤 난수 형성
df

In [None]:
df.ix[:4, 1] = NA # 여기서 4는 position이 아닌 label. 그래서 0~4까지 NaN 할당되었다.
df

In [None]:
df.ix[:2,2] = NA
df

In [None]:
df.dropna(thresh= 3) # 3개 이상의 값이 들어있는 index만 살펴보겠다.

### 누락된 값 채우기

In [None]:
df

In [None]:
df.fillna(0)

In [None]:
df.fillna({1:0.5 , 2:-1})  # column마다 다른 값을 채워 넣을 수 있다.

In [None]:
# fillna()는 기본적으로 새로운 객체를 반환하지만, 기존의 객체를 변경 할 수도 있다.
df.fillna(0,inplace = True)
df

In [None]:
df = DataFrame(np.random.randn(6,3))
df

In [None]:
df.ix[2:,1] = NA
df.ix[4:,2] = NA
df

In [None]:
df.fillna(method = 'ffill')

In [None]:
df.fillna(method = 'ffill' , limit= 2) # 2개 까지만

In [None]:
data = Series([1., NA, 3.5 , NA , 7])
data

In [None]:
data.fillna(data.mean()) # NA 값에 data의 평균을 넣은 Series

#### fillna 함수 인자  
<ol>
<li>value : 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체</li>
<li>method : 보간 방식 , 기본적으로 'ffill'을 사용한다.</li>
<li>axis :  값을 채워 넣을 축. default는 0</li>
<li>inplace : 복사본을 생성하지 않고 호출한 객체를 변경한다. default는 False</li>
<li>limits : 값을 앞 혹은 뒤에서부터 몇 개 까지 채울지를 지정한다.</li>
</ol>

cf. 앞에서 reindex에서 다룬 보간 방식을 떠올리면 다음과 같았다.(method 옵션 중)
- ffill or pad : 앞의 값으로 누락된 값을 채워 넣는다.
- bfill or backfill : 뒤의 값으로 채워 넣는다.

### 계층적 색인

#### 계층적 색인은 하나의 축에 대해 둘 이상의 색인 단계를 지정할 수 있도록 한다.

#### 실제 데이터를 다룰 때에 유용하게 활용될 때도 있지만 주로 사용하지는 않는다. (복잡해 지니까.)

In [None]:
# concatenating (연결) -> 추후 DataFrame merging 할 때 다시 다룰 내용
s1 = pd.Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([4, 5, 6], index=['c', 'd', 'e'])
s3 = pd.concat([s1, s2], keys=["one", "two"])

In [None]:
s1

In [None]:
s2

In [None]:
s3

In [None]:
data = Series(np.random.randn(10) , index = [['a','a','a','b','b','b','c','c','d','d'],
                                             [1,2,3,1,2,3,1,2,2,3]])
data

In [None]:
data['b']

In [None]:
data['b':'c']

In [None]:
data.ix[['b','d']] # 부분적 색인이 가능하다. 

In [None]:
data

In [None]:
data[:, 2] # 첫번째 단계의 모든 인덱스 중에서 두번째 단계의 index=='2'인 값들만 가져와라.

In [None]:
data

In [None]:
data.unstack() # 가장 하위 단계의 index들이 column으로 변환된다.

In [None]:
data.shape

In [None]:
data.unstack().shape

In [None]:
type(data) # 기존에 Series에서

In [None]:
type(data.unstack())  # DataFrame으로 변환

In [None]:
data.unstack().stack() # column을 가장 하위 단계의 index들로 변환

In [None]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])
frame

In [None]:
frame.index.names = ['key1' ,'key2']
frame.columns.names= ['state', 'color']
frame

In [None]:
frame['Ohio']

In [None]:
frame.sort_index(level='key2')

In [None]:
frame.sort_index(axis=1, level='state')

In [None]:
frame.index # MultiIndex 구조

In [None]:
frame.columns

In [None]:
# DataFrame 컬럼 계층의 이름 생성하기
MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])

### 5.5.1 계층 순서 바꾸고 정렬하기

In [None]:
frame

In [None]:
frame.swaplevel('key1', 'key2')  # key1 의 위치와 key2 의 위치가 바뀐다.

In [None]:
frame.sortlevel(1) # 단일계층에 속한 데이터를 정렬한다. 

In [None]:
frame.sortlevel(level='key2') # column 에는 적용 안

### 5.5.2 단계별 요약 통계

In [None]:
frame

In [None]:
frame.sum(level='key2') # level이 key2 인 index를 기준으로 결과 출력

In [None]:
frame.sum(level = 'color' , axis = 1)

####  set_index() vs stack()

In [None]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame

In [None]:
# stack()과 set_index() 비교해서 알아두기.
frame.stack() # column이 기존 index의 하위 단계로 들어가고.

In [None]:
# 특정 column들이 기존의 index를 대체한다.
# 리스트 원소에서 앞에 있을수록 높은 단계에 위치
frame2 = frame.set_index(['c', 'd'])
frame2

In [None]:
frame.set_index(['c', 'd'], drop=False) # c,d column 그대로 유지

In [None]:
frame2.reset_index() # 기존의 데이터와는 column 순서가 다르다.

## 5.6 pandas와 관련된 기타 주제

### 5.6.2 Panel 데이터 구조
#### 이 책에서 중요하게 다룰 주제는 아니지만 pandas에는 Panel 이라는 자료 구조도 있다.
#### 이는 DataFrame의 3차원 버전이라고 이해하면 된다. 

In [None]:
from __future__ import division
from pandas_datareader import data as web

In [None]:
pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk, '1/1/2009', '6/1/2012'))
                      for stk in ['AAPL', 'GOOG', 'MSFT', 'DELL']))

# pandas의 datareader를 통해 2009년부터 2012년 6월 1일까지
# 야후의 데이터를 불러와 3차원 자료 구조를 형성

In [None]:
pdata # 기존 4*868*6 dimensions의 데이터

In [None]:
# item 축과 minor 축을 변경
pdata = pdata.swapaxes('items', 'minor')

In [None]:
pdata

In [None]:
pdata['Adj Close']

In [None]:
pdata.ix[: , '6/1/2012', :] 
# z축을 전부 가져오고 x축에서 12년 6월 1일의 데이터만 가져온 경우
# z축의 데이터 인덱스를 기존 데이터 프레임의 x축에 위치하는 것처럼 보여준다. 

In [None]:
pdata.ix['Adj Close', '5/22/2012':, :]

In [None]:
# 계층적 인덱스를 갖는 데이터 프레임 형식으로 변환
stacked = pdata.ix[:, '5/30/2012':, :].to_frame()

In [None]:
stacked

In [None]:
# panel 형식으로 변환
stacked.to_panel()  