# 5. Pandas 시작하기

- 고수준의 빠르고 쉬운 데이터 분석 도구 포함
- NumPy 기반에서 개발


### Pandas import 컨벤션

from pandas import Series, DataFrame

import pandas as pd

- pd. 으로 시작하는게 편리하지만 Series와 DataFrame은 많이 사용하기 때문에 local namespace로 import 하는 것이 편리함

## 5.1 pandas 자료 구조

### 5.1.1. Series

- Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 NumPy 자료형이라도 담을 수 있다)
- 색인을 "자동으로" 제공한다

In [200]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [201]:
obj = Series([4, 7, -5, 3])

In [202]:
obj
# 색인이 자동으로 보인다.

0    4
1    7
2   -5
3    3
dtype: int64

In [203]:
obj.values

array([ 4,  7, -5,  3])

In [204]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [205]:
# 색인을 임의의 이름으로 지정할 수 있다
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'a'])

In [206]:
obj2

d    4
b    7
a   -5
a    3
dtype: int64

In [207]:
obj2.index

Index(['d', 'b', 'a', 'a'], dtype='object')

In [208]:
#색인으로 해당 값을 얻을 수 있다.
obj2['a']

a   -5
a    3
dtype: int64

In [209]:
obj2['d'] = 6
obj2['c'] = 77

In [210]:
obj2[['c', 'a', 'd']]

c    77
a    -5
a     3
d     6
dtype: int64

In [211]:
obj2

d     6
b     7
a    -5
a     3
c    77
dtype: int64

- 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 수학 함수를 적용하는 등 NumPy 배열연산을 수행해도 색인-값 연결은 유지

In [212]:
obj2[obj2 > 0]

d     6
b     7
a     3
c    77
dtype: int64

In [213]:
obj2

d     6
b     7
a    -5
a     3
c    77
dtype: int64

In [214]:
#연산의 벡터화 처리가 됨
obj2 * 2

d     12
b     14
a    -10
a      6
c    154
dtype: int64

In [215]:
#특정값이 데이터에 속해있는지 확인할 수 있다 (in 사용)
'b' in obj2

True

In [216]:
'e' in obj2

False

In [217]:
#파이썬 기본 타입인 사전으로부터 시리즈를 만들 수 있다.
sdata = {'Ohio': 35000,
         'Texas': 71000,
         'Oregon': 16000,
         'Utah': 5000}

In [218]:
obj3 = Series(sdata)

In [219]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [220]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [221]:
obj4 = Series(sdata, index=states)

In [222]:
#인덱스 'California'에 해당하는 값이 없으므로 NaN으로 표시된다.
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### NaN(not a number)

- pandas에서는 누락된 값 혹은 NA 값으로 취급
- pandas의 isnull과 notnull 함수는 누락된 함수를 찾을 때 사용
- 일반적인 프로그래밍 언어에서는 NULL 이라고도 한다

In [223]:
# NaN값이면 True를 반환하고 값이 있을 경우 False를 반환한다
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [224]:
# NaN값이면 False를 반환하고 값이 있을 경우 True를 반환한다
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [225]:
# 같은 동작을 한다
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [226]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

### 5.1.2. DataFrame

- 표 같은 스프레드시트 형식의 자료 구조
- 각 컬럼은 서로 임의의 데이터  형식(숫자, 문자열, 불리언)을 담을 수 있다
- R의 data.frame과 유사
- 고차원의 표 형식 데이터를 나중에 살펴볼 계층적 색인(**Hierachical indexing**)을 통해 쉽게 표현(고급 기능에 필수적인 요소)

#### DataFrame 객체 생성

In [227]:
#사전으로부터 데이터프레임을 만들 수 있다
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [228]:
frame = DataFrame(data)

In [229]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [230]:
# 원하는 순서대로 Column 지정 가능
# SQL에서 SELECT year, state pop FROM data 와 비슷하게 컬럼명 순서를 지정할 수 있다.
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [231]:
# 없는 칼럼 값을 주면 NaN으로 채워서 보여준다.(아래에서 debt)
# 인덱스 값을 새롭게 정의할 수 있다.

frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])

In [232]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [233]:
#데이터프레임의 칼럼값을 보여준다.
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

#### DataFrame 컬럼 접근 방법

1. 사전 형식의 표기법으로 접근(frame2['state'])
1. 속성 형식으로 접근(frame2.state)

In [234]:
# 컬럼(열) 명으로 얻는 방법
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [235]:
# 같은 결과를 얻는다 (속성 값으로 액세스)
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [236]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

#### 로우는 위치나 ix같은 몇 가지 메서드를 통해 접근 가능

In [237]:
# 로(행)을 인덱스로 얻는 법 
frame2.ix['three']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [238]:
frame2.loc["three"]
# 같은 결과

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [239]:
frame2.iloc[2]
# 같은 결과 (위치로 얻음)

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

#### 컬럼 값 지정

- 스칼라 값이나 배열의 값 대입 가능

In [240]:
#벡터화 동작
frame2['debt'] = 16.5

In [241]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [242]:
# 리스트를 사용하여 컬럼 값 입력
d_value = [10,20,300,400,5000]
frame2['debt'] = d_value
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,10
two,2001,Ohio,1.7,20
three,2002,Ohio,3.6,300
four,2001,Nevada,2.4,400
five,2002,Nevada,2.9,5000


In [243]:
# 시리즈를 사용하여 컬럼 값을 입력 (없는 값은 NaN)
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [244]:
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [245]:
type(val)

pandas.core.series.Series

In [246]:
frame2['debt'] = val

In [247]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [248]:
#frame2에 eastern 칼럼을 만들고 frame2.state가 Ohio면 True값을 넣고 아닐경우 False를 넣는다.
frame2['eastern'] = frame2.state == 'Ohio'

In [249]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [250]:
# 컬럼을 삭제하는 명령으로 del이 있다.
# 참고로 복사본을 만들지 않고 원본을 바로 수정하므로 주의해야 한다.
del frame2['eastern']

In [251]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [252]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


- DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 view이며 복사가 이루어지지 않는다.
- 따라서 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영된다.
- 복사본이 필요할 때는 Series의 copy 메서드를 이용하자

#### 중첩된 사전을 이용해서 데이터 생성

In [253]:
# 중첩된 사전으로부터 데이터프레임을 만들 수 있다.
# 바깥의 인덱스 명이 열이 된다.
pop = {'Nevada': {2001: 2.4,
                  2002: 2.9},
       'Ohio': {2000: 1.5,
                2001: 1.7,
                2002: 3.6}}

In [254]:
pop

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [255]:
type(pop)

dict

In [256]:
frame3 = DataFrame(pop)

In [257]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [258]:
type(frame3)

pandas.core.frame.DataFrame

In [259]:
#'Ohio'칼럼에서 0번째 로우부터 마지막(-1)로우전까지(-1은 포함하지 않는다) 나타낸다.
frame3['Ohio'][:-1]

2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [260]:
# 앞의 두 행을 얻는다
frame3['Nevada'][:2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

#### 로우, 컬럼 변경

In [261]:
# 행과 열을 바꿀 수 있다 (transpose)
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


#### index를 직접 지정한다면 지정된 색인으로 DataFrame 생성

In [262]:
# 인덱스를 명시적으로 지정할 수 있다
# 값이 없으면 NaN이 된다
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [263]:
DataFrame(pop)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [264]:
# 인덱스와 열의 이를을 별도로 지정할 수 있다.
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [265]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [266]:
# 내용만 보려면 value를 사용한다
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

#### DataFrame 생성자에서 사용 가능한 입력 데이터

형 | 설명
--- | ---
2차원 ndarray | 데이터를 담고 있는 행렬. 선택적으로 로우와 칼럼의 이름을 전달할 수 있다.
배열, 리스트, 튜플의 사전 | 사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 칼럼이 된다.
NumPy의 구조화 배열 | 배열의 사전과 같은 방식으로 취급된다.
Series 사전 | Series의 각 값이 컬럼이 된다. 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 형의 색인이 된다.
사전의 사전 | 내부에 있는 사전이 칼럼이 된다. 키 값은 'Series의 사전'과 마찬가지로 합쳐져 로우의 색인이 된다.
사전이나 Series의 리스트 | 리스트의 각 항목이 DataFrame의 로우가 된다. 합쳐진 사전의 키 값이나 Series의 색인이 DataFrame 칼럼의 이름이 된다.
리스트나 튜플의 리스트 | '2차원 ndarray'와 같은 방식으로 취급된다.
다른 DataFrame | 색인이 따로 지정되지 않는다면 DataFrame의 색인이 그대로 사용된다.
NumPy MaskedArray | '2차원 ndarray'와 같은 방식으로 취급되지만 마스크 값은 반환되는 DataFrame에서 NA 값이 된다.

### 5.1.3 색인 객체

- pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 객체
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 혹은 다른 순차적인 이름은 내부적으로 색인으로 변환

In [267]:
obj = Series(range(3), index=['a', 'b', 'c'])

In [268]:
# 인덱스 객체를 얻을 수 있다
index = obj.index

In [269]:
index

Index(['a', 'b', 'c'], dtype='object')

In [270]:
index[1:]

Index(['b', 'c'], dtype='object')

In [271]:
# 색인 객체 변경 불가
index[1] = 'd'

TypeError: Index does not support mutable operations

In [None]:
idex = pd.Index(np.arange(3))

In [None]:
idex

In [None]:
# index=는 함수의 키워드, 뒤의 idex는 변수
obj2 = Series([1.5, -2.5, 0], index=index)

In [None]:
obj2

In [None]:
obj2.index is index

In [None]:
obj2.index

In [None]:
index

#### pandas의 주요 Index 객체

클래스 | 설명
--- | ---
Index | 가장 일반적인 Index 객체이며, 파이썬 객체의 NumPy 배열 형식으로 축의 이름을 표현한다.
Int64Index | 정수 값을 위한 특수한 Index
MultiIndex | 단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체. 튜플의 배열과 유사하다고 볼 수 있다.
DatetimeIndex | 나노초 타임스탬프를 저장한다(NumPy의 datetime64 dtype으로 표현된다).
PeriodIndex | 기간 데이터를 위한 특수한 Index

In [None]:
frame3

In [None]:
'Ohio' in frame3.columns

In [None]:
2010 in frame3.index

In [None]:
index

In [None]:
index2 = pd.Index(np.arange(5))

In [None]:
index2

In [None]:
sum_index = index.append(index2)

In [None]:
index

In [None]:
sum_index

#### 인덱스 메서드

메서드 | 설명
--- | ---
append | 추가적인 Index 객체를 덧붙여 새로운 색인을 반환한다.
diff | 색인의 차집합을 반환한다.
intersection | 색인의 교집합을 반환한다.
union | 색인의 합집합을 반환한다.
isin | 넘겨받은 값이 해당 색인 위치에 존재하는지 알려주는 불리언 배열을 반환한다.
delete | i 위치의 색인이 삭제된 새로운 색인을 반환한다.
drop | 넘겨받은 값이 삭제된 새로운 색인을 반환한다.
insert | i 위치에 값이 추가된 새로운 색인을 반환한다.
is_monotonic | 색인이 단조성을 가진다면 True를 반환한다.
is_unique | 중복되는 색인이 없다면 True를 반환한다.
unique | 색인에서 중복되는 요소를 제거하고 유일한 값만을 반환한다.

## 5.2 핵심 기능

### 5.2.1 재색인

- reindex: 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [None]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [None]:
obj

#### Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 없는 색인 값이 있다면 비어있는 값을 새로 추가한다

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
obj2

In [None]:
# fill_value는 빠진 데이터를 채워넣을 수 있다.
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

#### 원래 데이터의뷰에 대한 수정이 이루어지는 것인지
#### 아니면 복사한 객체에 대해 수정이 이루어지는 것인지 분명희 구분해야 한다

In [None]:
obj

#### 시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우

- ffill을 사용하여 앞의 값으로 누락된 값을 채워 넣을 수 있다

In [None]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 3])

In [None]:
obj3

In [None]:
#ffill은 앞의 값을 채워넣는다.
obj3.reindex(range(6), method='ffill')

#### reindex 메서드(보간) 옵션

인자 | 설명
--- | ---
ffill 또는 pad | 앞의 값으로 채워 넣는다.
bfill 또는 backfill | 뒤의 값으로 채워 넣는다.

In [None]:
# reshape함수를 이용하여 배열의 형태를 재설정 할 수있다
# reshape(A, B)는 배열을 AxB로 바꿔준다
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
                  columns=['Ohio', 'Texas', 'California'])

In [None]:
frame

In [None]:
# 기본적으로는 행을 중심으로 재배열을 수행한다
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [None]:
frame2

In [None]:
# 열의 이름을 명시적으로 지정하여 재배열할 수도 있다
states = ['Texas', 'Utah', 'California']

In [None]:
frame.reindex(columns=states)

In [None]:
frame

In [None]:
frame.loc[['a', 'b', 'c', 'd'], states]

#### 재색인 함수 인자

인자 | 설명
--- | ---
index| 색인으로 사용할 새로운 순서. Index 인스턴스나 다른 순차적인 자료 구조를 사용할 수 있다. 색인은 복사가 이루어지지 않고 그대로 사용된다.
method | 보간 메서드
fill_value | 재색인 과정 중에 새롭게 나타나는 비어있는 데이터를 채우기 위한 값
limit | 전/후 보간 시에 사용할 최대 갭 크기
level | MultiIndex 단계(level)에 단순 색인을 맞춘다. 그렇지 않으면 MultiIndex의 하위 부분집합에 맞춘다.
copy | True인 경우 새로운 색인이 이전 색인과 같더라도 데이터를 복사한다. False라면 두 색인이 같은 경우 데이터를 복사하지 않는다.

### 5.2.2 하나의 로우 또는 칼럼 삭제하기

In [None]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [None]:
obj

In [None]:
# drop으로 행 삭제하기
new_obj = obj.drop('c')

In [None]:
new_obj

In [None]:
obj.drop(['d', 'c'])

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [None]:
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
# 컬럼(열) 삭제
data.drop('two', axis=1)

In [None]:
# list로 drop 할 목록 넘길 수도 있다
data.drop(['two', 'four'], axis=1)

### 5.2.3 색인하기, 선택하기, 거르기

#### Series의 색인은 NumPy 배열의 색인과 유사하게 동작하는데, Seriese의 색인은 정수가 아니어도 된다는 점이 다르다.

In [None]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [None]:
#obj = Series([1, 1.1, 2, 3], index=['a', 'b', 'c', 'd'])

In [None]:
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
#2번째 로우부터 3번째 로우를 선택한다.
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

#### 라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다

In [None]:
# 양 끝점을 포함시킨다
obj['b':'c']

In [None]:
obj['b':'c'] = 5

In [None]:
obj

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [None]:
# 2까지 로(행)을 가져온다.
data[:2]

In [None]:
# 칼럼 'three'의 값이 5 초과인 값들을 가져온다.
data[data['three'] > 5]

In [None]:
data

In [None]:
# 실용성에 기인한 문법이다.
data < 5

In [None]:
#5이하의 값을 0으로 대체해준다.
data[data < 5] = 0

In [None]:
data

In [None]:
# Colorado 로(행)의 'two'와 'three'값을 Series 구조로 가져온다
data.loc['Colorado', ['two', 'three']]

In [None]:
data.ix[['Colorado', 'Utah'], ['two', 'three']]

In [None]:
# Colorado와 'Utah'행의 3, 0, 1번째 컬럼(열) 순서로 가져온다
data.ix[['Colorado', 'Utah'], [3, 0, 1]]

In [None]:
# 2번째 로(행)의 값을 가져온다
data.ix[2]

In [None]:
# 0부터 Utah까지 행의 컬럼 'two' 값을 가져온다
data.ix[:'Utah', 'two']

In [None]:
# 컬럼 three의 값이 5 초과인 값의 컬럼 3번째 까지 값을 가져온다
data.ix[data.three > 5, :3]

In [None]:
# ,를 기준으로 앞은 행. 뒤로는 열을 나타낸다.
data.ix[data.three > 5, :2]

#### 빈번하게 일어나는 칼럼 선택 작업을 할 때마다 칼럼을 선택하기 위해 frame[:, col]이라고 입력해야 하는 것이 너무과하다고 생각한다.
#### DataFrame에서는 기본적으로 컬럼을 기준으로 계산한다. 왜냐하면 로우보다 컬럼을 기준으로 데이터를 추출하는게 훨씬 많기 때문이다.
#### 라벨 색인 기능을 모두 ix에 넣었다.

#### DataFrame의 값 선택하기

방식 | 설명
--- | ---
obj[val] | DataFrame에서 하나의 칼럼 또는 여러 칼럼을 선택한다. 편의를 위해 불리언 배열, 슬라이스, 불리언 DataFrame(어떤 기준에 근거해서 값을 대입해야 할 때)을 사용할 수 있다.
obj.ix[val] | DataFrame에서 로우의 부분집합을 선택한다.
obj.ix[:, val] | DataFrame에서 칼럼의 부분집합을 선택한다.
obj.ix[val1, val2] | DataFrame에서 로우와 칼럼의 부분집합을 선택한다.
reindex 메서드 | 하나 이상의 축을 새로운 색인으로 맞춘다.
xs 메서드 | 라벨 이름으로 단일 로우나 칼럼을 Series 형식으로 선택한다.
icol, irow 메서드 | 각각 정수 색인으로 단일 로우나 칼럼을 Series 형식으로 선택한다.
get_value, set_value 메서드 | 로우와 칼럼 이름으로 DataFrame의 값을 선택한다.

### 5.2.4 산술연산과 데이터 정렬

In [None]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [None]:
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [None]:
s1

In [None]:
s2

In [None]:
s1 + s2

#### 서로 겹치는 색인이 없다면 데이터는 NaN이 된다.

- 산술연산 시 누락된 값은 전파
- DataFrame에서는 로우와 칼럼 모두에 적용

### DataFrame과 Series의 차이점은??

In [272]:
list('bcd')

TypeError: 'list' object is not callable

In [273]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])

TypeError: 'list' object is not callable

In [215]:
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [216]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [217]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [218]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


#### 산술연산 메서드에 채워 넣을 값 지정하기

In [219]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))

In [220]:
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [221]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [222]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [223]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [224]:
#e칼럼의 값을 살펴보자 fill_value=0인데 왜 4,9,14,19가 채워지는지 알아보자.
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [225]:
df1.add(df2)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [226]:
# 원래의 df2값에 1을 더하여 나타내준다.
df1.add(df2, fill_value=1)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,5.0
1,9.0,11.0,13.0,15.0,10.0
2,18.0,20.0,22.0,24.0,15.0
3,16.0,17.0,18.0,19.0,20.0


In [227]:
df1.add(df2, fill_value=2)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,6.0
1,9.0,11.0,13.0,15.0,11.0
2,18.0,20.0,22.0,24.0,16.0
3,17.0,18.0,19.0,20.0,21.0


In [228]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


#### 산술연산 메서드

메서드 | 설명
--- | ---
add | 덧셈(+)을 위한 메서드
sub | 뺄셈(-)을 위한 메서드
div | 나눗셈(/)을 위한 메서드
mul | 곱셈(*)을 위한 메서드

#### DataFrame과 Series 간의 연산

In [229]:
arr = np.arange(12.).reshape((3, 4))

In [230]:
arr

array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])

In [231]:
arr[0]

array([ 0.,  1.,  2.,  3.])

In [232]:
arr - arr[0]

array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

In [233]:
arr - arr[1]

array([[-4., -4., -4., -4.],
       [ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.]])

#### 브로드캐스팅

In [234]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [235]:
series = frame.ix[0]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if __name__ == '__main__':


In [236]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [237]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [238]:
#value값이 0이 된것을 확인 할 수 있다.
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


#### 기본적으로 DataFrame 과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래 로우로 전파

#### 만약 색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인한다.

In [239]:
series2 = Series(range(3), index=['b', 'e', 'f']) 

In [240]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [241]:
series2, type(series2)

(b    0
 e    1
 f    2
 dtype: int64, pandas.core.series.Series)

In [242]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


- 각 로우에 대해 연산을 수행하고 싶다면 산술연산 메서드 사용

In [243]:
series3 = frame['d']

In [244]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [245]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [246]:
# 인자로 넘기는 axis 값은 연산을 적용할 축 번호
# axis=0은 DataFrame의 로우를 따라 연산을 수행
# .sub는 뺄셈을 해주는 메서드
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 5.2.5 함수 적용과 매핑

- pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용 가능

In [247]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [248]:
frame

Unnamed: 0,b,d,e
Utah,-2.413498,-0.386989,0.7854
Ohio,1.149556,0.861794,0.870784
Texas,-0.830163,-0.992557,1.453944
Oregon,0.958797,0.519014,-1.404154


In [249]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,2.413498,0.386989,0.7854
Ohio,1.149556,0.861794,0.870784
Texas,0.830163,0.992557,1.453944
Oregon,0.958797,0.519014,1.404154


In [250]:
frame

Unnamed: 0,b,d,e
Utah,-2.413498,-0.386989,0.7854
Ohio,1.149556,0.861794,0.870784
Texas,-0.830163,-0.992557,1.453944
Oregon,0.958797,0.519014,-1.404154


- 자주 사용되는 또 다른 연산은 각 로우나 칼럼의 1차원 배열에 함수를 적용하는 것
- DataFrame의 apply 메서드를 통해 수행

In [251]:
# 최대값-최소값
f = lambda x: x.max() - x.min()

In [252]:
# apply함수의 정보를 알려준다.
frame.apply?

In [253]:
# 1. b 컬럼 기준으로 row 값들을 대상으로
# 2. max값과 min값을 구한다.
# 3. max - min을 한 후 결과값 돌려준다.
# 1.107814 - (-0.026992) = 1.134806
frame.apply(f)

b    3.563054
d    1.854352
e    2.858099
dtype: float64

In [254]:
# 0.328717 - 0.121724 = 0.206992
frame.apply(f, axis=1)

Utah      3.198897
Ohio      0.287762
Texas     2.446502
Oregon    2.362951
dtype: float64

In [255]:
frame

Unnamed: 0,b,d,e
Utah,-2.413498,-0.386989,0.7854
Ohio,1.149556,0.861794,0.870784
Texas,-0.830163,-0.992557,1.453944
Oregon,0.958797,0.519014,-1.404154


### axis의 로우, 컬럼 구분

#### 로우 
- frame.sub(series3, **axis=0**) 
- frame.apply(f, **aixs=1**)
- df.sum(**axis=1**)

#### 컬럼
- frame.sort_index(**axis=1**)


#### DataFrame에서 axis=

- 0: row
- 1: column

- 배열의 합계나 평균같은 일반적인 통계는 DataFrame의 메서드로 있으므로 apply 메서드를 사용해야만 하는 것은 아니다.
- apply 메서드에 전달된 함수는 스칼라 값을 반환할 필요 없으며, Series 또는 여러 값을 반환해도 된다.

In [256]:
#함수의 이름은 f 
# x를 입력받아 함수문 안의 문장을 실행한다.
def f(x):
    # 시리즈를 반환한다.
    return Series([x.min(), x.max()], index=['min', 'max'])

In [257]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-2.413498,-0.992557,-1.404154
max,1.149556,0.861794,1.453944


In [258]:
type(frame.apply(f))

pandas.core.frame.DataFrame

In [259]:
# 짧은 함수.
# %는 모듈러연산.(나머지 연산)
format = lambda x: '%.2f' % x

In [260]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-2.41,-0.39,0.79
Ohio,1.15,0.86,0.87
Texas,-0.83,-0.99,1.45
Oregon,0.96,0.52,-1.4


In [261]:
frame['e'].map(format)

Utah       0.79
Ohio       0.87
Texas      1.45
Oregon    -1.40
Name: e, dtype: object

In [262]:
# 원래 dtype이 object 값인데 위에서 float 형식으로 변경했기 때문에 dtype이 'float64'가 됐다.
frame['e']

Utah      0.785400
Ohio      0.870784
Texas     1.453944
Oregon   -1.404154
Name: e, dtype: float64

### 5.2.6 정렬과 순위

In [263]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])

In [264]:
# index를 정렬한다.
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [265]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [266]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [267]:
# 인덱스정렬(로우기준)
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [268]:
# 칼럼을 기준으로 정렬.
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


#### index, column 모두 만족시키는 정렬은 어떻게 해야돼지???

In [269]:
frame.sort_index(axis=0, ascending=True)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [270]:
obj = Series([4, 7, -3, 2])

In [273]:
# 값에 따라 정렬
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [274]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [277]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

#### 정렬시 NaN은 가장 마지막에 위치
<pre>
4    -3
5     2
0     4
2     7
1   NaN
3   NaN
</pre>

In [278]:
frame = DataFrame({'b': [4, 7, -3, 2],
                   'a': [0, 1, 0, 1]})

In [279]:
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [280]:
# 'b'칼럼의 값을 기준으로 인덱스를 정렬한다.
frame.sort_index(by='b')

  from ipykernel import kernelapp as app


Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


In [281]:
frame.sort_index(by=['a', 'b'])

  if __name__ == '__main__':


Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


### 뭘 기준으로 rank 하는지 도저히 모르겠다..!! -> 스터디 후 알게 됨


In [282]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [283]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [284]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

#### Rank 해석

1. -5가 1.0
2. 0이 2.0
3. 2가 3.0
4. 4가 4.5, 왜냐하면 동률이기 때문에 4.0이 안되고 4.0과 5.0의 중간인 4.5가 됨
5. 7도 중복이기 때문에 6.0과 7.0 중간인 6.5가 됨

In [285]:
# 데이터 상에서 나타나는 순서에 따라 순위
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [286]:
# 내림차순으로 순위
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [287]:
frame = DataFrame({'b': [4.3, 7, -3, 2],
                   'a':[0, 1, 0, 1],
                   'c':[-2, 5, 8, -2.5]})

In [288]:
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [289]:
# 0, 4.3, -2.0 에서 rank 정함
frame.rank(axis=1)

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


In [290]:
# 0, 1, 0, 1 에서 rank 정함
frame.rank()

Unnamed: 0,a,b,c
0,1.5,3.0,2.0
1,3.5,4.0,3.0
2,1.5,1.0,4.0
3,3.5,2.0,1.0


#### 순위의 동률을 처리하는 메서드

메서드 | 설명
--- | ---
'average' | 기본 값: 같은 값을 가지는 항목의 평균 값을 순위로 삼는다.
'min' | 같은 값을 가지는 그룹을 낮은 순위로 매긴다.
'max' | 같은 값을 가지는 그룹을 높은 순위로 매긴다.
'first' | 데이터 내에서 위치에 따라 순위를 매긴다.

### 5.2.7 중복 색인

In [291]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [292]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [293]:
# obj의 index값이 유니크한지 점검.
obj.index.is_unique

False

- 중복되는 색인 값이 있으면 색인을 이용한 데이터 선택은 다르게 동작하고 하나의 Series 객체 반환
- 중복되는 색인 값이 없으면 색인을 이용한 데이터 선택은 스칼라 값을 반환

In [294]:
obj['a']

a    0
a    1
dtype: int64

In [295]:
# 하나의 Series 객체 반환 한다
type(obj['a'])

pandas.core.series.Series

In [296]:
obj['c']

4

In [297]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [298]:
df

Unnamed: 0,0,1,2
a,1.054341,-1.266213,1.101634
a,0.945447,-0.04735,0.450858
b,-0.624129,-0.373469,0.015394
b,-0.359811,-0.729764,0.779851


In [299]:
df.ix['b']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if __name__ == '__main__':


Unnamed: 0,0,1,2
b,-0.624129,-0.373469,0.015394
b,-0.359811,-0.729764,0.779851


<img src='files/images/panda2.jpg' width='300px' />

## 5.3 기술통계 계산과 요약

- pandas 객체는 일반적인 수학 메서드와 통계 메서드 존재
- 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속함
- 처음부터 누락된 데이터를 제외하도록 설계

In [300]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [301]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [302]:
# NaN은 계산 안됨
df.sum()

one    9.25
two   -5.80
dtype: float64

In [303]:
# 각 로우의 합 반환
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [304]:
# 평균을 구해주는데 NaN값을 스킵하지 않는다.
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

#### 축소 메서드 옵션

옵션 | 설명
--- | ---
axis | 연산을 수행할 축. DataFrame에서 0은 로우고 1은 칼럼이다.
skipna | 누락된 값을 제외할 것인지 정하는 옵션. 기본값은 True다.
level | 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.

In [305]:
# NA/null values는 제외된다.
df.idxmax?

In [306]:
df.idxmax()

one    b
two    d
dtype: object

In [307]:
# cumulative. 아래로 갈수록 누산 됨
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [308]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [309]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [310]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [311]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [312]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [313]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

#### 기술통계와 요약통계

메서드 | 설명
--- | ---
count | NA 값을 제외한 값의 수를 반환한다.
describe | Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산한다.
min, max | 최소, 최대값을 계산한다.
argmin, argmax | 각각 최소, 최대값을 갖고 있는 색인의 위치(정수)를 반환한다.
idxmin, idxmax | 각각 최소, 최대 값을 갖고 있는 색인의 값을 반환한다.
quantile | 0부터 1까지의 분위수를 계산한다.
sum | 합을 계산한다.
mean | 평균을 계산한다.
median | 중간 값(50% 분위)을 반환한다.
mad | 평균 값에서 절대 평균편차를 구한다.
var | 표본 분산의 값을 구한다.
std | 표본 정규 분산의 값을 구한다.
skew | 표본 비대칭도(3차 적률)의 값을 구한다.
cumsum | 누적 합을 구한다.
cummin, cummax | 각각 누적 최소 값과 누적 최대 값을 계산한다.
cumprod | 누적 곱을 구한다.
diff | 1차 산술 차를 구한다(시게열 데이터 처리시 유용하다).
pct_change | 퍼센트 변화율을 계산한다.

### 5.3.1 상관관계와 공분산

In [315]:
from pandas_datareader import data as web

all_data = {}

# GOOG -> GOOGL
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOGL']:
    all_data[ticker] = web.get_data_yahoo(ticker)

price = DataFrame({tic: data['Adj Close']
                   for tic, data in all_data.items()})
volume = DataFrame({tic: data['Volume']
                    for tic, data in all_data.items()})

In [316]:
# 각 주식의 퍼센트 변화율을 계산.
returns = price.pct_change()

In [317]:
# 데이터의 끝부분만 확인해본다.
returns.tail()

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-08-18,-0.002281,-0.001595,-0.007107,0.001243
2017-08-21,-0.001841,-0.005733,0.00451,-0.00469
2017-08-22,0.016348,0.021208,0.004846,0.013999
2017-08-23,0.001252,0.002318,0.008014,-0.006014
2017-08-24,-0.004438,-0.006037,0.005628,-0.000413


In [318]:
# price데이터 정보.
price

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,27.505054,313.688690,109.173752,25.275177
2010-01-05,27.552608,312.307312,107.854950,25.283342
2010-01-06,27.114347,304.434448,107.154320,25.128178
2010-01-07,27.064222,297.347351,106.783417,24.866852
2010-01-08,27.244156,301.311310,107.854950,25.038349
2010-01-11,27.003820,300.855865,106.725700,24.719858
2010-01-12,26.696650,295.535522,107.574692,24.556530
2010-01-13,27.073221,293.838837,107.343887,24.785191
2010-01-14,26.916422,295.220215,109.058350,25.283342
2010-01-15,26.466595,290.290283,108.621490,25.201679


In [319]:
# volume데이터 정보.
volume

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,123432400,3908400,6155300,38409100
2010-01-05,150476200,6003300,6841400,49749600
2010-01-06,138040000,7949400,5605300,58182400
2010-01-07,119282800,12815700,5840600,50559700
2010-01-08,111902700,9439100,4197200,51197400
2010-01-11,115557400,14411300,5730400,68754700
2010-01-12,148614900,9696800,8081500,65912100
2010-01-13,151473000,12980200,6455400,51863500
2010-01-14,108223500,8471700,7111800,63228100
2010-01-15,148516900,10858100,8494400,79913200


In [320]:
# 데이터의 윗부분 확인.
returns.head()

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,,,,
2010-01-05,0.001729,-0.004404,-0.01208,0.000323
2010-01-06,-0.015906,-0.025209,-0.006496,-0.006137
2010-01-07,-0.001849,-0.02328,-0.003461,-0.0104
2010-01-08,0.006648,0.013331,0.010035,0.006897


In [321]:
returns.MSFT

Date
2010-01-04         NaN
2010-01-05    0.000323
2010-01-06   -0.006137
2010-01-07   -0.010400
2010-01-08    0.006897
2010-01-11   -0.012720
2010-01-12   -0.006607
2010-01-13    0.009312
2010-01-14    0.020099
2010-01-15   -0.003230
2010-01-19    0.007777
2010-01-20   -0.016399
2010-01-21   -0.018960
2010-01-22   -0.034988
2010-01-25    0.012431
2010-01-26    0.006139
2010-01-27    0.005763
2010-01-28   -0.017189
2010-01-29   -0.033607
2010-02-01    0.008161
2010-02-02    0.001760
2010-02-03    0.005973
2010-02-04   -0.027593
2010-02-05    0.006466
2010-02-08   -0.010707
2010-02-09    0.010462
2010-02-10   -0.000714
2010-02-11    0.004645
2010-02-12   -0.006757
2010-02-16    0.019784
                ...   
2017-07-14    0.014073
2017-07-17    0.007832
2017-07-18   -0.000682
2017-07-19    0.007640
2017-07-20    0.004874
2017-07-21   -0.005794
2017-07-24   -0.002575
2017-07-25    0.008016
2017-07-26   -0.001887
2017-07-27   -0.012019
2017-07-28   -0.001640
2017-07-31   -0.004655
2017-0

#### 상관관계와 공분산 개념 이해

- [상관관계](http://ezstat.snu.ac.kr/textbook_sources/chapter_05.pdf)
- [공분산과 상관계수](http://carstart.tistory.com/132)
- [상관분석](http://carstart.tistory.com/111)
- [공분산(Covariance)이란 무엇인가?](http://blog.naver.com/PostView.nhn?blogId=jindog2929&logNo=10161293384)

In [322]:
# corr메서드는 NA가 아니고 정렬된 색인에서 연속하는 두 Series에 대해 상관관계를 계산한다.
returns.MSFT.corr(returns.IBM)

0.48370805157647512

In [323]:
# 공분산을 계산해주는 메서드.
returns.MSFT.cov(returns.IBM)

8.0814805817142426e-05

In [324]:
returns.corr()

Unnamed: 0,AAPL,GOOGL,IBM,MSFT
AAPL,1.0,0.414848,0.368285,0.39444
GOOGL,0.414848,1.0,0.393429,0.470103
IBM,0.368285,0.393429,1.0,0.483708
MSFT,0.39444,0.470103,0.483708,1.0


In [325]:
returns.cov()

Unnamed: 0,AAPL,GOOGL,IBM,MSFT
AAPL,0.00026,0.000102,7e-05,9e-05
GOOGL,0.000102,0.000233,7.1e-05,0.000102
IBM,7e-05,7.1e-05,0.000139,8.1e-05
MSFT,9e-05,0.000102,8.1e-05,0.000201


In [326]:
returns.corr?

In [327]:
returns.cov?

In [328]:
# 다른 Series나 DataFrame과의 상관관계를 계산해줌.
# Series를 넘기면 각 칼럼에 대해 계산한 상관관계를 담고 있는 Series를 반환해줌.
returns.corrwith(returns.IBM)

AAPL     0.368285
GOOGL    0.393429
IBM      1.000000
MSFT     0.483708
dtype: float64

In [329]:
# DataFrame을 넘기면 맞아 떨어지는 칼럼의 이름에 대한 상관관계를 계산해줌.
# 해당 코드는 시가 총액의 퍼센트 변화율에 대한 상관관계를 계산해보았다.
# axis=1 옵션을 넘기면 각 칼럼에 대한 상관관계와 공분산을 계산한다.
returns.corrwith(volume)

AAPL    -0.072066
GOOGL   -0.007497
IBM     -0.210383
MSFT    -0.090152
dtype: float64

### 5.3.2 유일 값, 값 세기, 멤버십

In [330]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [331]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [332]:
# Series에서 중복되는 값을 제거하고 유일값만 담고 있는 Series를 반환한다.
uniques = obj.unique()

In [333]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [334]:
# Series에서 도수를 계산하여 반환한다.
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [335]:
# 담고 있는 값으로 내림차순 정렬한다.
obj.value_counts(sort=False, ascending=False)

a    3
c    3
d    1
b    2
dtype: int64

In [336]:
obj.values

array(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], dtype=object)

In [337]:
pd.value_counts(obj.values)

c    3
a    3
b    2
d    1
dtype: int64

In [338]:
pd.value_counts(obj.values, sort=False)

a    3
c    3
d    1
b    2
dtype: int64

In [339]:
pd.value_counts(obj.values, sort=True)

c    3
a    3
b    2
d    1
dtype: int64

In [340]:
obj2 = Series(['c', 'c', 'd', 'd', 'c', 'd'])
pd.value_counts(obj2.values, sort=True)

c    3
d    3
dtype: int64

In [341]:
obj2 = Series(['d', 'c', 'c', 'd', 'c', 'd'])
pd.value_counts(obj2.values, sort=False)

d    3
c    3
dtype: int64

In [342]:
# 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환해줌.
mask = obj.isin(['b', 'c'])

In [343]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [344]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

#### 유일 값, 값 세기, 버리기 메서드

메서드 | 설명
--- | ---
isin | Series의 각 원소가 넘겨받은 연속된 값에 속하는지를 나타내는 불리언 배열을 반환한다.
unique | Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환한다. 결과는 Series에서 발견된 순서대로 반환된다.
value_counts | Series에서 유일 값에 대한 색인 값과 도수를 계산한다. 결과는 도수 값의 내림차순으로 정렬된다.

#### DataFrame의 여러 로우에 대해 히스토그램을 구해야 하는 경우

- DataFrame의 apply 함수에 pandas.value_counts를 넘기면 다음과 같은 결과를 얻을 수 있다.
- value_counts 메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있기 때문에 fillna(0) 함수를 이용해서 비어있는 값은 0으로 채워준다.

#### 이게 도저히 이해가 안된다... 뭘 말하는거지..?? 왠 히스토그램을 구하나? -> 이해됐다. counts 세는거니까 히스토그램이지

- Qu1에 1이 1개 있고 2는 없고 3은 2개, 4도 2개
- Qu2에 1은 1개, 2가 2개, 3이 2개, 4가 0개
- Qu3에 1이 1개, 2가 1개, 4가 2개, 5가 1개

In [345]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})

In [346]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [347]:
result = data.apply(pd.value_counts)

In [348]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [349]:
# value_counts 메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있기 때문에
# fillna(0)함수로 비어있는 값은 0으로 채워준다.
result = data.apply(pd.value_counts).fillna(0)

In [350]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## 5.4 누락된 데이터 처리하기

- 누락된 데이터를 처리하는 일은 데이터 분석 애플리케이션에서 흔이 있는 일
- 누락 데이터를 가능한 쉽게 처리
- 모든 기술통계는 누락된 데이터를 배제하고 처리
- 누락된 데이터를 실수든 아니든 모두 NaN(Not a Number)으로 취급
- 누락된 값을 쉽게 찾을 수 있는 파수병 역할

In [351]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [352]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [353]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [354]:
# Python 내장 None 또한 null 취급함.
string_data[0] = None

In [355]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

#### NA 처리 메서드

인자 | 설명
--- | ---
dropna | 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다.
fillna | 누락된 데이터를 대신할 값을 채우거나 'ffill' 또는 'bfill' 같은 보간 메서드를 적용한다.
isnull | 누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환한다.
notnull | isnull과 반대되는 메서드다.

### 5.4.1 누락된 데이터 골라내기

In [356]:
from numpy import nan as NA

In [357]:
data = Series([1, NA, 3.5, NA, 7])

In [358]:
# dropna메서드는 실제 데이터가 들어있는 색인 값과 데이터를 Series값으로 반환한다.
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [359]:
# 불리언 색인을 이용 직접 계산.
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [360]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])

In [361]:
cleaned = data.dropna()

In [362]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [363]:
# NA가 하나라도 있으면 기본적으로 제외해서 보여줌
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [364]:
# how='all'옵션을 주면 모든 값이 NA인 로우만 제외시킴.
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [365]:
data.dropna?

In [366]:
data[4] = NA

In [367]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [368]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [369]:
# axis=0는 로우를 나타낸다
data.dropna(axis=0, how='all')

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
3,,6.5,3.0,


In [370]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [371]:
data.dropna(axis=1)

0
1
2
3


In [372]:
df = DataFrame(np.random.randn(7, 3))

In [373]:
df

Unnamed: 0,0,1,2
0,-2.221472,0.361127,1.167418
1,-0.895816,0.031858,1.770538
2,0.4208,-0.016976,-0.689291
3,-0.395551,0.117468,-1.503259
4,0.98277,0.278556,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [374]:
# ix는 slicing 마지막 문자까지 포함 됨
df.ix[:4, 1] = NA; df.ix[:2, 2] = NA

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  from ipykernel import kernelapp as app


In [375]:
df

Unnamed: 0,0,1,2
0,-2.221472,,
1,-0.895816,,
2,0.4208,,
3,-0.395551,,-1.503259
4,0.98277,,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [376]:
# 몇 개 이상의 값이 들어있는 로우만 살펴보고 싶다면 thresh인자를 설정해주면 된다.
df.dropna(thresh=3)

Unnamed: 0,0,1,2
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [377]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
3,-0.395551,,-1.503259
4,0.98277,,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


### 5.4.2 누락된 값 채우기

- 누락된 값을 제외시키지 않고(잠재적으로 다른 데이터도 함께 버려질 가능성이 있다) 데이터상의 '구멍'을 어떻게든 메우고 싶은 경우 ffillna 메서드 활용

In [378]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-2.221472,0.0,0.0
1,-0.895816,0.0,0.0
2,0.4208,0.0,0.0
3,-0.395551,0.0,-1.503259
4,0.98277,0.0,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [379]:
# dictionary 형식으로 받았는데 앞의 key가 컬럼을 나타냄
df.fillna({1: 0.5, 3: -1})

Unnamed: 0,0,1,2
0,-2.221472,0.5,
1,-0.895816,0.5,
2,0.4208,0.5,
3,-0.395551,0.5,-1.503259
4,0.98277,0.5,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [380]:
df.fillna({2:0.5, 1:-1})

Unnamed: 0,0,1,2
0,-2.221472,-1.0,0.5
1,-0.895816,-1.0,0.5
2,0.4208,-1.0,0.5
3,-0.395551,-1.0,-1.503259
4,0.98277,-1.0,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [381]:
df.fillna?

In [382]:
# fillna는 값을 채워 넣은 객체의 참조를 반환한다.
_ = df.fillna(0, inplace=True)

In [383]:
df

Unnamed: 0,0,1,2
0,-2.221472,0.0,0.0
1,-0.895816,0.0,0.0
2,0.4208,0.0,0.0
3,-0.395551,0.0,-1.503259
4,0.98277,0.0,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [384]:
_ = df.fillna(1, inplace=False)

In [385]:
df

Unnamed: 0,0,1,2
0,-2.221472,0.0,0.0
1,-0.895816,0.0,0.0
2,0.4208,0.0,0.0
3,-0.395551,0.0,-1.503259
4,0.98277,0.0,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [386]:
df.fillna(1, inplace=True)

In [387]:
# 이미 NA값이 0.0 으로 채워져있기 때문에 1로 바뀌지 않는다.
df

Unnamed: 0,0,1,2
0,-2.221472,0.0,0.0
1,-0.895816,0.0,0.0
2,0.4208,0.0,0.0
3,-0.395551,0.0,-1.503259
4,0.98277,0.0,0.252469
5,-0.555421,-1.06811,0.027899
6,0.076126,0.607471,-0.015925


In [388]:
df = DataFrame(np.random.randn(6, 3))

In [389]:
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if __name__ == '__main__':


In [390]:
df

Unnamed: 0,0,1,2
0,-0.948691,0.869587,1.118039
1,0.959465,0.892184,-0.892493
2,-0.056629,,-1.575991
3,0.483485,,0.787289
4,0.05976,,
5,0.427925,,


In [391]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.948691,0.869587,1.118039
1,0.959465,0.892184,-0.892493
2,-0.056629,0.892184,-1.575991
3,0.483485,0.892184,0.787289
4,0.05976,0.892184,0.787289
5,0.427925,0.892184,0.787289


In [392]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-0.948691,0.869587,1.118039
1,0.959465,0.892184,-0.892493
2,-0.056629,0.892184,-1.575991
3,0.483485,0.892184,0.787289
4,0.05976,,0.787289
5,0.427925,,0.787289


In [393]:
data = Series([1., NA, 3.5, NA, 7])

- fillna에 평균값이나 중간값을 전달해서 데이터의 높낮이를 줄일 수 있다.

In [394]:
# Series의 평균 값이나 중간 값으로 전달한다.
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [395]:
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

#### fillna 함수 인자

인자 | 설명
--- | ---
value | 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체
method | 보간 방식. 기본적으로 'ffill'을 사용한다.
axis | 값을 채워 넣을 축. 기본 값은 0
inace | 복사본을 생성하지 않고 호출한 객체를 변경한다. 기본값은 False
limit | 값을 앞 혹은 뒤에서 몇 개까지 채울지를 지정한다.

## 5.5 계층적 색인

- **계층적 색인**은 pandas의 중요한 기능
- 축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다.
- 약간 추상적으로 말하면 차원이 높은(고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [396]:
# MultiIndex를 색인하는 Series로 색인의 계층을 보여주고 있다.
data = Series(np.random.randn(10),
              index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                       [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [397]:
data

a  1    0.746198
   2   -0.619722
   3   -1.595182
b  1    0.305970
   2   -0.036191
   3   -0.576884
c  1   -0.077042
   2   -0.281075
d  2   -0.827923
   3   -0.924301
dtype: float64

In [398]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

In [399]:
# 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인으로 접근하는 것이 가능하다.
data['b']

1    0.305970
2   -0.036191
3   -0.576884
dtype: float64

In [400]:
data['b':'c']

b  1    0.305970
   2   -0.036191
   3   -0.576884
c  1   -0.077042
   2   -0.281075
dtype: float64

In [401]:
data.ix[['b', 'd']]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if __name__ == '__main__':


b  1    0.305970
   2   -0.036191
   3   -0.576884
d  2   -0.827923
   3   -0.924301
dtype: float64

In [402]:
data['b':'d']

b  1    0.305970
   2   -0.036191
   3   -0.576884
c  1   -0.077042
   2   -0.281075
d  2   -0.827923
   3   -0.924301
dtype: float64

In [403]:
# 하위 계층의 객체를 선택하는 것도 가능하다.
data[:, 2]

a   -0.619722
b   -0.036191
c   -0.281075
d   -0.827923
dtype: float64

In [404]:
data['c', 2]

-0.28107517548955746

In [405]:
data

a  1    0.746198
   2   -0.619722
   3   -1.595182
b  1    0.305970
   2   -0.036191
   3   -0.576884
c  1   -0.077042
   2   -0.281075
d  2   -0.827923
   3   -0.924301
dtype: float64

- 계층적 색인은 데이터를 재형성하고 피벗 테이블 생성같은 그룹 기반의 작업을 할 때 중요하게 사용
- unstack 메서드를 사용해서 데이터를 새롭게 배열 가능

#### stack은 쌓는다. unstack은 당연히 쌓여져 있는 것을 푼다 라는 의미로 생각됨

In [406]:
data.unstack()

Unnamed: 0,1,2,3
a,0.746198,-0.619722,-1.595182
b,0.30597,-0.036191,-0.576884
c,-0.077042,-0.281075,
d,,-0.827923,-0.924301


In [407]:
# unstack의 반대 작업은 stack이다.
data.unstack().stack()

a  1    0.746198
   2   -0.619722
   3   -1.595182
b  1    0.305970
   2   -0.036191
   3   -0.576884
c  1   -0.077042
   2   -0.281075
d  2   -0.827923
   3   -0.924301
dtype: float64

In [408]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])

In [409]:
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [410]:
# 계층적 색인의 각 단계는 이름을 가질 수 있다.
# 만약 이름이 있다면 콘솔 출력 시에 함께 나타낸다.
frame.index.names = ['key1', 'key2']

In [411]:
frame.columns.names = ['state', 'color']

In [412]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [413]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


#### MultiIndex는 따로 생성한 다음에 재사용

In [414]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

### 5.5.1 계층 순서 바꾸고 정렬하기

#### swallevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환(하지만 데이터는 변경되지 않는다)

In [415]:
# swaplevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환한다.
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [416]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


#### swaplevel

- 0, 1인 index로도 swap 할 수 있고
- 이름으로도 swap 할 수 있다.

#### sortlevel

- 0: key1
- 1: kye2
- 이름으로도 할 수 있다.
- 를 정렬 기준으로 한다는 것

In [417]:
# sortlevel메서드는 단일 계층에 속한 데이터를 정렬해준다.
frame.sortlevel?

In [418]:
frame.sortlevel(1)

  if __name__ == '__main__':


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [419]:
frame.sortlevel('key2')

  if __name__ == '__main__':


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [420]:
frame.sortlevel(0)

  if __name__ == '__main__':


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [421]:
frame.sortlevel('key1')

  if __name__ == '__main__':


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [422]:
# swaplevel을 사용해서 계층을 바꿀 때 대개는 sortlevel을 사용해서 결과도 사전식으로 정렬한다.
frame.swaplevel(0, 1).sortlevel(0)

  from ipykernel import kernelapp as app


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


In [423]:
frame.swaplevel(0, 1).sortlevel(1)

  if __name__ == '__main__':


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [424]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [425]:
frame.swaplevel(1, 0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [426]:
frame.swaplevel('key2', 'key1')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [427]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [428]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


### 5.5.2 단계별 요약통계

- 기술통계와 요약통계는 level 옵션을 가지고 있다.
- 어떠한 축에 대해 합을 구하고 싶은 단계 지정

In [429]:
# level옵션은 많은 기술통계와 요약통계를 나타내 준다.
# 어떤 한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션이다.
frame.sum(level='key1')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,3,5,7
b,15,17,19


In [430]:
frame.sum(level='key2')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [431]:
#  soqnwjrdmfh  pandas의 groupby 기능 이용해서 구현
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


In [432]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


### 5.5.3 DataFrame의 칼럼 사용하기

In [433]:
frame = DataFrame({'a': range(7),
                   'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})

In [434]:
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [435]:
# set_index함수는 하나 이상의 칼럼을 색인으로 하는 새로은 DataFrame을 생성한다.
frame2 = frame.set_index(['c', 'd'])

In [436]:
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [437]:
# 다음코드처럼 칼럼을 명시적으로 남겨두지 않으면 DataFrame에서 삭제된다.
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [438]:
# 계층적 색인 단계가 칼럼으로 이동한다.
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


In [439]:
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


## 5.6 pandas와 관련된 기타 주제

### 5.6.1 정수 색인

- 여기 ser 객체는 0, 1, 2 색인을 가지고 있지만 사용자가 원하는 것이 위치 색인인지? 이름 색인인지 알아맞히는 것은 어려운 일
- 일관성을 유지하기 위해 색인 값을 가진 축 색인이 있을 경우 정수 데이터는 항상 이름을 지향

In [440]:
ser = Series(np.arange(3.))

In [441]:
# 왼쪽에 있는 것이 이름 색인(0, 1, 2)
# 위치색인은 0, 1, 2 번째 순서대로 있는 것
# 현재는 위치 색인과, 이름 색인이 같기 때문에 프로그램에게는 혼동이 올 수 밖에 없다.
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [442]:
ser[0]

0.0

In [443]:
ser[2]

2.0

In [447]:
# -1이 0,1,2,...,-2,-1 의 정수
# pandas객체를 정수로 색인해서 사용하는 일은 파이썬에서 리스트나 튜플같은 
# 기본 자료구조에서 사용되는 색인의 의미와 약간 다르다.
# 사용자가 원하는 것이 위치 색인인지 이름 색인인지 모른다.
ser[-1]

KeyError: -1

In [445]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

- 정수 색인이 아닐때

In [448]:
ser5 = Series([0, 0, 1], index=[5, 6, 7])

In [449]:
ser5

5    0
6    0
7    1
dtype: int64

In [450]:
# 이걸 보면 이름 색인으로 접근하는 것을 알 수 있다.
ser5[6]

0

In [451]:
# 이름 색인이 정수라면 위치 색인을 사용할 수 없다.
ser5[-1]

KeyError: -1

In [452]:
ser2 = Series(np.arange(3.), index=['a', 'b', 'c'])

In [453]:
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

In [454]:
ser2[0]

0.0

In [455]:
ser2[1]

1.0

In [456]:
ser2[-1]

2.0

In [457]:
# ix는 끝 인덱스인 1까지 포함한다.
ser.ix[:1]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  from ipykernel import kernelapp as app


0    0.0
1    1.0
dtype: float64

#### 만일 색인의 종류에 상관없이 위치 기반의 색인이 필요하다면 Series의 iget_value 메서드와 DataFrame의 irow, icol 메서드를 사용하면 된다

In [458]:
ser3 = Series(range(3), index=[-5, 1, 3])

In [459]:
ser3

-5    0
 1    1
 3    2
dtype: int64

In [478]:
# 0,1의 1번째에 있는 값을 보여준다.
ser3.iat[1]

1

In [480]:
ser3.iat[2]

2

In [481]:
frame = DataFrame(np.arange(6).reshape((3, 2)), index=[2, 0, 1])

In [482]:
frame.iloc[0]

0    0
1    1
Name: 2, dtype: int64

In [483]:
frame

Unnamed: 0,0,1
2,0,1
0,2,3
1,4,5


In [484]:
frame.iloc[1]

0    2
1    3
Name: 0, dtype: int64

### 5.6.2 Panel 데이터

- Panel은 DataFrame의 3차원 버전
- pandas 개발은 스프레드시트 형식의 데이터를 다루는 데 초점
- 계층적 색인을 이용하면 대개의 경우 N차원의 배열은 불필요

In [None]:
from pandas_datareader import data as web

all_data = {}

# GOOG -> GOOGL
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOGL']:
    all_data[ticker] = web.get_data_yahoo(ticker)

price = DataFrame({tic: data['Adj Close']
                   for tic, data in all_data.items()})
volume = DataFrame({tic: data['Volume']
                    for tic, data in all_data.items()})

In [525]:
# GOOG -> GOOGL
import pandas_datareader.data as web
pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk, '1/1/2009', '6/1/2012'))
                      for stk in ['AAPL', 'GOOGL', 'MSFT', 'IBM']))

In [526]:
pdata

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 861 (major_axis) x 6 (minor_axis)
Items axis: AAPL to MSFT
Major_axis axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: Open to Volume

In [527]:
# swapaxes메서드는 첫번째인자인 1번 축과 두번째 인자인 2번 축을 교환해주는 메서드이다.
pdata = pdata.swapaxes('items', 'minor')

Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  from ipykernel import kernelapp as app


In [528]:
pdata

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 861 (major_axis) x 4 (minor_axis)
Items axis: Open to Volume
Major_axis axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT

In [529]:
pdata['Adj Close']

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-01-02,11.663397,160.820816,70.606422,16.221966
2009-01-05,12.155637,164.189194,70.161949,16.373566
2009-01-06,11.955145,167.197205,72.109543,16.565073
2009-01-07,11.696815,161.166168,70.945831,15.567659
2009-01-08,11.914015,162.757751,70.452896,16.054396
2009-01-09,11.641547,157.692688,68.448715,15.575633
2009-01-12,11.394788,156.501495,69.264938,15.535741
2009-01-13,11.272690,157.317322,68.965927,15.815017
2009-01-14,10.966806,150.635635,67.228455,15.232523
2009-01-15,10.716188,149.644638,67.980003,15.352218


#### ix를 이용한 라벨 색인을 통한 접근은 3차원에도 일반화되어 특정 날짜나 어떤 기간 동안의 모든 데이터를 다음처럼 선택할 수 있다

In [530]:
# 1번째 인자: Open, High, Low, Close, Volume, Adj Close
# 2번째 인자: 날짜
# 3번째 인자: 회사
pdata.ix[:, '6/1/2012', :]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix


Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
AAPL,81.308571,81.807144,80.074287,80.141426,72.099739,130246900.0
GOOGL,286.181183,286.611603,284.459473,285.775787,285.775787,6109600.0
IBM,190.119995,191.720001,188.600006,189.080002,162.828171,5206400.0
MSFT,28.76,28.959999,28.440001,28.450001,24.668653,56634300.0


In [531]:
pdata.ix['High', '5/22/2012':, :]

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-05-22,81.982857,307.212219,198.259995,29.879999
2012-05-23,81.828575,305.105103,196.490005,29.4
2012-05-24,82.35714,306.266266,196.279999,29.299999
2012-05-25,80.835716,301.166168,196.0,29.360001
2012-05-29,82.0,299.864868,198.080002,29.719999
2012-05-30,82.855713,296.246246,195.470001,29.48
2012-05-31,83.071426,295.295288,194.929993,29.42
2012-06-01,81.807144,286.611603,191.720001,28.959999


In [532]:
pdata.ix['High', '5/22/2012', :]

AAPL      81.982857
GOOGL    307.212219
IBM      198.259995
MSFT      29.879999
Name: 2012-05-22 00:00:00, dtype: float64

In [533]:
pdata.ix['Open', '5/22/2012', 'AAPL']

81.364288000000002

In [534]:
pdata.ix['High', '5/22/2012':, 'AAPL']

Date
2012-05-22    81.982857
2012-05-23    81.828575
2012-05-24    82.357140
2012-05-25    80.835716
2012-05-29    82.000000
2012-05-30    82.855713
2012-05-31    83.071426
2012-06-01    81.807144
Name: AAPL, dtype: float64

In [535]:
pdata.ix['Adj Close', '5/22/2012':, :]

Unnamed: 0_level_0,AAPL,GOOGL,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-05-22,71.583061,300.700714,169.493561,25.804539
2012-05-23,73.329674,305.035034,168.890732,25.240936
2012-05-24,72.656212,302.132141,168.864868,25.206251
2012-05-25,72.2668,296.061066,167.323425,25.197577
2012-05-29,73.549454,297.467468,169.183533,25.631123
2012-05-30,74.436249,294.409424,167.521484,25.440367
2012-05-31,74.251175,290.720734,166.117752,25.310303
2012-06-01,72.099739,285.775787,162.828171,24.668653


#### 통계 모델에 맞게 Panel 데이터를 출력하는 다른 방법은 DataFrame을 쌓아 놓는 것

In [536]:
# Dimensions: 6, 3, 4 라는걸 확인할 수 있다.
pdata.ix[:, '5/30/2012':, :]

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 3 (major_axis) x 4 (minor_axis)
Items axis: Open to Volume
Major_axis axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT

In [537]:
stacked = pdata.ix[:, '5/30/2012':, :].to_frame()

In [538]:
stacked

Unnamed: 0_level_0,Unnamed: 1_level_0,Open,High,Low,Close,Adj Close,Volume
Date,minor,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-05-30,AAPL,81.314285,82.855713,80.937141,82.738571,74.436249,132357400.0
2012-05-30,GOOGL,294.374359,296.246246,292.057068,294.409424,294.409424,3809500.0
2012-05-30,IBM,194.800003,195.470001,193.770004,194.529999,167.521484,3602500.0
2012-05-30,MSFT,29.35,29.48,29.120001,29.34,25.440367,41585500.0
2012-05-31,AAPL,82.96286,83.071426,81.637146,82.53286,74.251175,122918600.0
2012-05-31,GOOGL,294.654663,295.295288,289.789795,290.720734,290.720734,5930600.0
2012-05-31,IBM,194.100006,194.929993,192.0,192.899994,166.117752,9287500.0
2012-05-31,MSFT,29.299999,29.42,28.940001,29.190001,25.310303,39134000.0
2012-06-01,AAPL,81.308571,81.807144,80.074287,80.141426,72.099739,130246900.0
2012-06-01,GOOGL,286.181183,286.611603,284.459473,285.775787,285.775787,6109600.0


In [539]:
type(stacked), type(pdata)

(pandas.core.frame.DataFrame, pandas.core.panel.Panel)

#### DataFrame에는 to_panel 메서드와 그 반대인 to_frame 메서드가 있다

In [540]:
stacked.to_panel()

Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  if __name__ == '__main__':


<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 3 (major_axis) x 4 (minor_axis)
Items axis: Open to Volume
Major_axis axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT

## [About my IPython in github](https://github.com/re4lfl0w/ipython)