# 5. Pandas 시작하기

<img src='files/images/panda.jpeg' width="300px" />

- 가장 자주 살펴볼 라이브러리
- 고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구 포함
- NumPy 기반에서 개발되어 NumPy를 사용하는 애플리케이션에서 쉽게 사용

## Pandas 개발 동기

- 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조. 잘못 정렬된 데이터에 의한 일반적인 오류를 에방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
- 통합된 시계열 기능
- 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
- 산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함
- 누락된 데이터를 유연하게 처리할 수 있는 기능
- SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능
- 간편함, 단숨함에 대한 기본 방침

###Pandas import 컨벤션

from pandas import Series, DataFrame

import pandas as pd

- pd. 으로 시작하는게 좋지만 Series와 DataFrame은 많이 사용하기 때문에 local namespace로 import 하는 것이 훨씬 편함

## 5.1 pandas 자료 구조 소개

### 5.1.1. Series

- Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 NumPy 자료형이라도 담을 수 있다)
- 색인이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.

In [None]:
from pandas import Series, DataFrame
import pandas as pd

In [None]:
obj = Series([4, 7, -5, 3])

In [None]:
# Error! 배열이나 사전형으로 넘겨야 됨
obj2 = Series(4,7)

In [None]:
obj

- 왼쪽에 색인
- 오른쪽에 색인의 값

In [None]:
obj.values

In [None]:
obj.index

In [None]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [None]:
obj2

In [None]:
obj2.index

In [None]:
obj2['a']

In [None]:
obj2['d'] = 6

In [None]:
obj2[['c', 'a', 'd']]

In [None]:
obj2

- 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열연산을 수행해도 색인-값 연결은 유지

In [None]:
obj2[obj2 > 0]

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

####Series == 고정 길이의 정렬된 사전형

In [None]:
'b' in obj2

In [None]:
'e' in obj2

In [None]:
sdata = {'Ohio': 35000,
         'Texas': 71000,
         'Oregon': 16000,
         'Utah': 5000}

In [None]:
obj3 = Series(sdata)

In [None]:
obj3

In [None]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [None]:
obj4 = Series(sdata, index=states)

In [None]:
obj4

####NaN(not a number)

- pandas에서는 누락된 값 혹은 NA 값으로 취급
- '누락된'과 'NA'를 누락된 데이터로 지칭
- pandas의 isnull과 notnull 함수는 누락된 함수를 찾을 때 사용
- 일반적인 프로그래밍 언어에서는 NULL 이라고도 한다.
- 각 프로그래밍 언어마다 다르지만 거의 비슷한 개념이 존재한다.

In [None]:
pd.isnull(obj4)

In [None]:
pd.notnull(obj4)

####Series의 인스턴스 메서드

- 'hi'.isalpha()와 같이 인스턴스에서 바로 사용할 수 있는 편리함

In [None]:
obj4.isnull()

In [None]:
obj4.notnull()

####Seriese의 가장 중요한 기능 - 다르게 색인된 데이터에 대한 산술연산

1. 다르게 색인된 데이터에 각각 값이 있어야 하며
2. intersection이 되지 않는다면 NaN 표시
3. intersecion이 된다면 해당 operator 연산

In [None]:
obj3

In [None]:
obj4

In [None]:
obj3 + obj4

####Series 객체와 Series의 색인은 모두 name 속성 존재

In [None]:
obj4.name = 'population'

In [None]:
obj4.index.name = 'state'

In [None]:
obj4

In [None]:
obj

In [None]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [None]:
obj

In [None]:
# 색인의 갯수를 맞춰줘야 한다. 당연하지.
obj.index = ['Bob', 'Steve', 'Jeff']

### 5.1.2. DataFrame

- 표 같은 스프레드시트 형식의 자료 구조로 여러 개의 컬럼
- 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언) 담을 수 있다
- DataFrame은 로우와 컬럼에 대한 색인 존재.
- 이 DataFrame은 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.
- R의 data.frame 같은 다른 DataFrame과 비슷한 자료 구조와 비교했을 때, DataFrame에서의 로우 연산과 컬럼 연산은 거의 대칭적으로 취급
- 내부적으로 데이터는 하나 이상의 2차원 배열에 저장
- 고차원의 표 형식 데이터를 나중에 살펴볼 계층적 색인(**Hierachical indexing**)을 통해 쉽게 표현(고급 기능에 필수적인 요소)

####DataFrame 객체 생성

1. 같은 길이의 리스트에 담긴 사전 이용
1. NumPy 배열 이용

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [None]:
frame = DataFrame(data)

In [None]:
frame

In [None]:
# 원하는 순서대로 Column 지정 가능
# SQL에서 SELECT year, state pop FROM data 와 비슷하게 컬럼명 순서를 지정할 수 있다.
DataFrame(data, columns=['year', 'state', 'pop'])

In [None]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])

In [None]:
frame2

In [None]:
frame2.columns

In [None]:
type(frame2)

####DataFrame 컬럼 접근 방법

1. 사전 형식의 표기법으로 접근(frame2['state'])
1. 속성 형식으로 접근(frame2.state)

In [None]:
frame2['state']

In [None]:
frame2.state

In [None]:
frame2.year

####로우는 위치나 ix같은 몇 가지 메서드를 통해 접근 가능

In [None]:
frame2.ix['three']

In [None]:
# error 컬럼값인 year를 넣었을 시
frame2.ix['year']

In [None]:
# row name으로는 사전형식으로 접근 불가
frame2['three']

In [None]:
frame2[0]

####컬럼 대입 가능

- 스칼라 값이나 배열의 값 대입 가능

In [None]:
frame2['debt'] = 16.5

In [None]:
frame2

In [None]:
frame2['debt'] = np.arange(5.)

In [None]:
frame2

In [None]:
# Length of values does not match length of index
frame2['debt'] = np.arange(10)

- 리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다.
- Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않는다.

In [None]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [None]:
val

In [None]:
type(val)

In [None]:
frame2['debt'] = val

In [None]:
frame2

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'

In [None]:
frame2

In [None]:
del frame2['eastern']

In [None]:
frame2.columns

In [None]:
frame2

- DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 view이며 복사가 이루어지지 않는다.
- 따라서 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영된다.
- 복사본이 필요할 때는 Series의 copy 메서드를 이용하자

####중첩된 사전을 이용해서 데이터 생성

In [None]:
pop = {'Nevada': {2001: 2.4,
                  2002: 2.9},
       'Ohio': {2000: 1.5,
                2001: 1.7,
                2002: 3.6}}

In [None]:
pop

In [None]:
type(pop)

In [None]:
frame3 = DataFrame(pop)

In [None]:
frame3

In [None]:
type(frame3)

In [None]:
frame3['Ohio'][:-1]

In [None]:
frame3['Nevada'][:2]

####로우, 컬럼 변경

In [None]:
frame3.T

####index를 직접 지정한다면 지정된 색인으로 DataFrame 생성

In [None]:
DataFrame(pop, index=[2001, 2002, 2003])

In [None]:
DataFrame(pop)

####Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

In [None]:
pdata

In [None]:
type(pdata)

In [None]:
DataFrame(pdata)

In [None]:
frame3

In [None]:
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [None]:
frame3

####새로운 index를 생성하려고 했는데 계속 바뀌기만 하네..?

In [None]:
frame3.index.name = 'year3';

In [None]:
frame3

In [None]:
 frame3.columns.name = 'state3'

In [None]:
frame3

In [None]:
frame3.values

####DataFrame의 칼럼에 서로 다른 dtype이 있다면 모든 칼럼을 수용하기 위해 그 칼럼 배열의 dtype이 선택된다.

In [None]:
frame2.values

#### DataFrame 생성자에서 사용 가능한 입력 데이터

형 | 설명
--- | ---
2차원 ndarray | 데이터를 담고 있는 행렬. 선택적으로 로우와 칼럼의 이름을 전달할 수 있다.
배열, 리스트, 튜플의 사전 | 사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 칼럼이 된다.
NumPy의 구조화 배열 | 배열의 사전과 같은 방식으로 취급된다.
Series 사전 | Series의 각 값이 컬럼이 된다. 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 형의 색인이 된다.
사전의 사전 | 내부에 있는 사전이 칼럼이 된다. 키 값은 'Series의 사전'과 마찬가지로 합쳐져 로우의 색인이 된다.
사전이나 Series의 리스트 | 리스트의 각 항목이 DataFrame의 로우가 된다. 합쳐진 사전의 키 값이나 Series의 색인이 DataFrame 칼럼의 이름이 된다.
리스트나 튜플의 리스트 | '2차원 ndarray'와 같은 방식으로 취급된다.
다른 DataFrame | 색인이 따로 지정되지 않는다면 DataFrame의 색인이 그대로 사용된다.
NumPy MaskedArray | '2차원 ndarray'와 같은 방식으로 취급되지만 마스크 값은 반환되는 DataFrame에서 NA 값이 된다.

### 5.1.3 색인 객체

- pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 객체
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 혹은 다른 순차적인 이름은 내부적으로 색인으로 변환

In [None]:
obj = Series(range(3), index=['a', 'b', 'c'])

In [None]:
index = obj.index

In [None]:
index

In [None]:
index[1:]

In [None]:
# 색인 객체 변경 불가
index[1] = 'd'

In [None]:
index = pd.Index(np.arange(3))

In [None]:
index

In [None]:
# index=는 함수의 키워드, 뒤의 index는 변수
obj2 = Series([1.5, -2.5, 0], index=index)

In [None]:
obj2

In [None]:
obj2.index is index

In [None]:
obj2.index

In [None]:
index

#### pandas의 주요 Index 객체

클래스 | 설명
--- | ---
Index | 가장 일반적인 Index 객체이며, 파이썬 객체의 NumPy 배열 형식으로 축의 이름을 표현한다.
Int64Index | 정수 값을 위한 특수한 Index
MultiIndex | 단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체. 튜플의 배열과 유사하다고 볼 수 있다.
DatetimeIndex | 나노초 타임스탬프를 저장한다(NumPy의 datetime64 dtype으로 표현된다).
PeriodIndex | 기간 데이터를 위한 특수한 Index

In [None]:
frame3

In [None]:
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

--------

#### 색인 메서드 append 연습

- 연습해보고 싶으신 분들은 index.tab 눌러서 어떤 메소드가 있는지 확인하고 테스트 해보면 좋겠습니다.
- 대부분 상식적으로 있을법한 메소드들이 있네요.
- 그냥 이런 것들이 있구나 하고 머리속에 Indexing만 하고 나중에 필요할 때 직접 써보는 것을 추천합니다.
- 모든 메소드들을 테스트 해보고 익히는게 가장 좋겠지만 시간이 부족하니까요.

-------

In [None]:
index

In [None]:
index2 = pd.Index(np.arange(5))

In [None]:
index2

In [None]:
sum_index = index.append(index2)

In [None]:
index

In [None]:
sum_index

#### 색인 메서드와 속성

메서드 | 설명
--- | ---
append | 추가적인 Index 객체를 덧붙여 새로운 색인을 반환한다.
diff | 색인의 차집합을 반환한다.
intersection | 색인의 교집합을 반환한다.
union | 색인의 합집합을 반환한다.
isin | 넘겨받은 값이 해당 색인 위치에 존재하는지 알려주는 불리언 배열을 반환한다.
delete | i 위치의 색인이 삭제된 새로운 색인을 반환한다.
drop | 넘겨받은 값이 삭제된 새로운 색인을 반환한다.
insert | i 위치에 값이 추가된 새로운 색인을 반환한다.
is_monotonic | 색인이 단조성을 가진다면 True를 반환한다.
is_unique | 중복되는 색인이 없다면 True를 반환한다.
unique | 색인에서 중복되는 요소를 제거하고 유일한 값만을 반환한다.

## 5.2 핵심 기능

- Series나 DataFrame에 저장된 데이터를 다루는 기본 방법 설명
- 중요한 기능에만 초점

### 5.2.1 재색인

- 저자 말로는 기막힌 기능중 하나가 reindex 라고 하는데 왜 중요한지 모르겠다. 당연한거 아닌가? 아직 실제적으로 데이터를 분석해 보는 일을 안해서 못 느끼는 걸 수도 있다.
- reindex: 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [None]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [None]:
obj

#### Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 없는 색인 값이 있다면 비어있는 값을 새로 추가

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
obj2

In [None]:
# fill_value는 데이터 이가 빠진걸 채워넣을 수 있기 때문에 매우 좋은 기능이다.
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

####객체가 원래 뷰에 대한 수정이 이루어지는 것인지? 아니면 복사한 객체에 대해 수정이 이루어지는 것인지? 명확하지 않다..

In [None]:
obj

####시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우

- ffill을 사용하여 앞의 값으로 누락된 값을 채워 넣을 수 있다

In [None]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 3])

In [None]:
obj3

In [None]:
obj3.reindex(range(6), method='ffill')

#### reindex 메서드(보간) 옵션

인자 | 설명
--- | ---
ffill 또는 pad | 앞의 값으로 채워 넣는다.
bfill 또는 backfill | 뒤의 값으로 채워 넣는다.

In [None]:
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
                  columns=['Ohio', 'Texas', 'California'])

In [None]:
frame

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [None]:
frame2

In [None]:
states = ['Texas', 'Utah', 'California']

In [None]:
frame.reindex(columns=states)

####로우와 칼럼을 모두 한 번에 재색인할 수 있지만 보간은 로우에 대해서만 이루어진다(axis 0)

In [None]:
frame

In [None]:
# 1. 로우를 a,b,c,d로 재색인
# 2. 컬럼을 states로 재색인
# 3. 로우를 ffill로 보간 적용
frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill',
              columns=states)

In [None]:
frame.ix[['a', 'b', 'c', 'd'], states]

In [None]:
frame.reindex?

#### 재색인 함수 인자

인자 | 설명
--- | ---
index| 색인으로 사용할 새로운 순서. Index 인스턴스나 다른 순차적인 자료 구조를 사용할 수 있다. 색인은 복사가 이루어지지 않고 그대로 사용된다.
method | 보간 메서드
fill_value | 재색인 과정 중에 새롭게 나타나는 비어있는 데이터를 채우기 위한 값
limit | 전/후 보간 시에 사용할 최대 갭 크기
level | MultiIndex 단계(level)에 단순 색인을 맞춘다. 그렇지 않으면 MultiIndex의 하위 부분집합에 맞춘다.
copy | True인 경우 새로운 색인이 이전 색인과 같더라도 데이터를 복사한다. False라면 두 색인이 같은 경우 데이터를 복사하지 않는다.

### 5.2.2 하나의 로우 또는 칼럼 삭제하기

In [None]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [None]:
obj

In [None]:
new_obj = obj.drop('c')

In [None]:
new_obj

In [None]:
obj.drop(['d', 'c'])

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [None]:
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
data.drop('two', axis=1)

In [None]:
# list로 drop 할 목록 넘길 수도 있고
# 컬럼인지 로우인지 선택 가능
data.drop(['two', 'four'], axis=1)

### 5.2.3 색인하기, 선택하기, 거르기

####Series의 색인은 NumPy 배열의 색인과 유사하게 동작하는데, Seriese의 색인은 정수가 아니어도 된다는 점이 다르다.

In [None]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [None]:
#obj = Series([1, 1.1, 2, 3], index=['a', 'b', 'c', 'd'])

In [None]:
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj[obj < 2]

####라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [None]:
obj['b':'c']

In [None]:
obj['b':'c'] = 5

In [None]:
obj

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [None]:
data

In [None]:
data['two']

In [None]:
data[['three', 'one']]

#### 슬라이싱으로 로우 선택
#### 불리언 배열로 컬럼 선택

In [None]:
data[:2]

In [None]:
data[data['three'] > 5]

In [None]:
data

In [None]:
# 실용성에 기인한 문법
data < 5

In [None]:
data[data < 5] = 0

In [None]:
data

#### ix 메소드에 대한 개인적인 생각

- ix가 좋은 것 같다. 왜냐하면 앞은 행, 뒤는 열로 딱 형식이 정해져 있기 때문이다.
- 다른 메소드들 같은 경우 axis가 0일때 행일때도 있고 열일 때도 있다. 어떤 기준을 가지고 행이 되고, 열이 되는지 불명확하다.
- 즉, 쓸려면 한 번 검증이 필요하기 때문에 귀찮다.
- 그냥 ix 메소드를 사용해서 앞은 행, 뒤는 열로 생각할 필요없이 바로 사용하는게 훨씬 나에게 맞는 방법 같다.

In [None]:
data.ix['Colorado', ['two', 'three']]

In [None]:
data.ix[['Colorado', 'Utah'], ['two', 'three']]

In [None]:
data.ix[['Colorado', 'Utah'], [3, 0, 1]]

In [None]:
data.ix[2]

In [None]:
data.ix[:'Utah', 'two']

In [None]:
data.ix[data.three > 5, :3]

In [None]:
# ,를 기준으로 앞은 행. 뒤로는 열을 나타낸다.
data.ix[data.three > 5, :2]

####빈번하게 일어나는 칼럼 선택 작업을 할 때마다 칼럼을 선택하기 위해 frame[:, col]이라고 입력해야 하는 것이 너무과하다고 생각
####[김정주] - DataFrame에서는 기본적으로 컬럼을 기준으로 계산한다. 왜냐하면 로우보다 컬럼을 기준으로 데이터를 추출하는게 훨씬 많기 때문이다.
- 라벨 색인 기능을 모두 ix에 넣었다.

#### DataFrame의 값 선택하기

방식 | 설명
--- | ---
obj[val] | DataFrame에서 하나의 칼럼 또는 여러 칼럼을 선택한다. 편의를 위해 불리언 배열, 슬라이스, 불리언 DataFrame(어떤 기준에 근거해서 값을 대입해야 할 때)을 사용할 수 있다.
obj.ix[val] | DataFrame에서 로우의 부분집합을 선택한다.
obj.ix[:, val] | DataFrame에서 칼럼의 부분집합을 선택한다.
obj.ix[val1, val2] | DataFrame에서 로우와 칼럼의 부분집합을 선택한다.
reindex 메서드 | 하나 이상의 축을 새로운 색인으로 맞춘다.
xs 메서드 | 라벨 이름으로 단일 로우나 칼럼을 Series 형식으로 선택한다.
icol, irow 메서드 | 각각 정수 색인으로 단일 로우나 칼럼을 Series 형식으로 선택한다.
get_value, set_value 메서드 | 로우와 칼럼 이름으로 DataFrame의 값을 선택한다.

### 5.2.4 산술연산과 데이터 정렬

In [None]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [None]:
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [None]:
s1

In [None]:
s2

In [None]:
s1 + s2

####서로 겹치는 색인이 없다면 데이터는 NA 값이 된다.

- 산술연산 시 누락된 값은 전파
- DataFrame에서는 로우와 칼럼 모두에 적용

### DataFrame과 Series의 차이점은??

In [None]:
list('bcd')

In [None]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])

In [None]:
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

####산술연산 메서드에 채워 넣을 값 지정하기

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))

In [None]:
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

In [None]:
# fill value=0인데 왜 4,9,14,19로 채워지지??
df1.add(df2, fill_value=0)

In [None]:
df1.add(df2)

In [None]:
# 아하! 원래의 df2 값에 fill_value의 값을 더하는군!!
df1.add(df2, fill_value=1)

In [None]:
df1.add(df2, fill_value=2)

In [None]:
# 원래 내가 생각했던 함수의 역할이었지만 잘못된 생각인듯.
df1.reindex(columns=df2.columns, fill_value=0)

#### 산술연산 메서드

메서드 | 설명
--- | ---
add | 덧셈(+)을 위한 메서드
sub | 뺄셈(-)을 위한 메서드
div | 나눗셈(/)을 위한 메서드
mul | 곱셈(*)을 위한 메서드

####DataFrame과 Series 간의 연산

In [None]:
arr = np.arange(12.).reshape((3, 4))

In [None]:
arr

In [None]:
arr[0]

In [None]:
arr - arr[0]

In [None]:
arr - arr[1]

####브로드캐스팅

In [None]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
series = frame.ix[0]

In [None]:
frame

In [None]:
series

In [None]:
frame - series

####기본적으로 DataFrame 과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래 로우로 전파

####만약 색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인

In [None]:
series2 = Series(range(3), index=['b', 'e', 'f']) 

In [None]:
frame + series2

In [None]:
series2, type(series2)

In [None]:
frame

- 각 로우에 대해 연산을 수행하고 싶다면 산술연산 메서드 사용

In [None]:
series3 = frame['d']

In [None]:
frame

In [None]:
series3

In [None]:
# 인자로 넘기는 axis 값은 연산을 적용할 축 번호
# axis=0은 DataFrame의 로우를 따라 연산을 수행
frame.sub(series3, axis=0)

### 5.2.5 함수 적용과 매핑

- pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용 가능

In [None]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
np.abs(frame)

In [None]:
frame

- 자주 사용되는 또 다른 연산은 각 로우나 칼럼의 1차원 배열에 함수를 적용하는 것
- DataFrame의 apply 메서드를 통해 수행

In [None]:
f = lambda x: x.max() - x.min()

In [None]:
# Applies function along input axis of DataFrame. 
# Objects passed to functions are Series objects having index either the DataFrame's index(axis=0)
# or the columns (axis=1).
# Return type depends on whether passed function aggregates

frame.apply?

In [None]:
# 1. b 컬럼 기준으로 row 값들을 대상으로
# 2. max값과 min값을 구한다.
# 3. max - min을 한 후 결과값 돌려준다.
# 1.107814 - (-0.026992) = 1.134806
frame.apply(f)

In [None]:
# 0.328717 - 0.121724 = 0.206992
frame.apply(f, axis=1)

In [None]:
frame

###axis의 로우, 컬럼 구분

####로우 
- frame.sub(series3, **axis=0**) 
- frame.apply(f, **aixs=1**)
- df.sum(**axis=1**)

####컬럼
- frame.sort_index(**axis=1**)


#### DataFrame에서 axis=

- 0: row
- 1: column

- 배열의 합계나 평균같은 일반적인 통계는 DataFrame의 메서드로 있으므로 apply 메서드를 사용해야만 하는 것은 아니다.
- apply 메서드에 전달된 함수는 스칼라 값을 반환할 필요 없으며, Series 또는 여러 값을 반환해도 된다.

In [None]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])

In [None]:
frame.apply(f)

In [None]:
type(frame.apply(f))

In [None]:
format = lambda x: '%.2f' % x

In [None]:
frame.applymap(format)

In [None]:
frame['e'].map(format)

In [None]:
# 원래 float값인데 위에서 string 형식으로 변경했기 때문에 dtype이 object가 됐다.
frame['e']

### 5.2.6 정렬과 순위

In [None]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])

In [None]:
obj.sort_index()

In [None]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [None]:
frame

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

#### index, column 모두 만족시키는 정렬은 어떻게 해야돼지???

In [None]:
frame.sort_index(axis=1, ascending=False)

In [None]:
obj = Series([4, 7, -3, 2])

In [None]:
# 값에 따라 정렬
obj.order()

In [None]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [None]:
obj.order()

####정렬시 NaN은 가장 마지막에 위치
<pre>
4    -3
5     2
0     4
2     7
1   NaN
3   NaN
</pre>

In [None]:
frame = DataFrame({'b': [4, 7, -3, 2],
                   'a': [0, 1, 0, 1]})

In [None]:
frame

In [None]:
frame.sort_index(by='b')

In [None]:
frame.sort_index(by=['a', 'b'])

### 뭘 기준으로 rank 하는지 도저히 모르겠다..!! -> 스터디 후 알게 됨


In [None]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [None]:
obj.rank()

#### Rank 해석

1. -5가 1.0
2. 0이 2.0
3. 2가 3.0
4. 4가 4.5, 왜냐하면 동률이기 때문에 4.0이 안되고 4.0과 5.0의 중간인 4.5가 됨
5. 7도 중복이기 때문에 6.0과 7.0 중간인 6.5가 됨

In [None]:
# 데이터 상에서 나타나는 순서에 따라 순위
obj.rank(method='first')

In [None]:
# 내림차순으로 순위
obj.rank(ascending=False, method='max')

In [None]:
frame = DataFrame({'b': [4.3, 7, -3, 2],
                   'a':[0, 1, 0, 1],
                   'c':[-2, 5, 8, -2.5]})

In [None]:
frame

In [None]:
# 0, 4.3, -2.0 에서 rank 정함
frame.rank(axis=1)

In [None]:
# 0, 1, 0, 1 에서 rank 정함
frame.rank()

#### 순위의 동률을 처리하는 메서드

메서드 | 설명
--- | ---
'average' | 기본 값: 같은 값을 가지는 항목의 평균 값을 순위로 삼는다.
'min' | 같은 값을 가지는 그룹을 낮은 순위로 매긴다.
'max' | 같은 값을 가지는 그룹을 높은 순위로 매긴다.
'first' | 데이터 내에서 위치에 따라 순위를 매긴다.

### 5.2.7 중복 색인

In [None]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [None]:
obj

In [None]:
obj.index.is_unique

- 중복되는 색인 값이 있으면 색인을 이용한 데이터 선택은 다르게 동작하고 하나의 Series 객체 반환
- 중복되는 색인 값이 없으면 색인을 이용한 데이터 선택은 스칼라 값을 반환

In [None]:
obj['a']

In [None]:
# 책에서는 하나의 Series 객체 반환 한다고 했느데 numpy.ndarray네?!
type(obj['a'])

In [None]:
obj['c']

In [None]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [None]:
df

In [None]:
df.ix['b']

<img src='files/images/panda2.jpg' width='300px' />

## 5.3 기술통계 계산과 요약

- pandas 객체는 일반적인 수학 메서드와 통계 메서드 존재
- 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속함
- 처음부터 누락된 데이터를 제외하도록 설계

In [None]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [None]:
df

In [None]:
# NaN은 계산 안됨
df.sum()

In [None]:
# 각 로우의 합 반환
df.sum(axis=1)

In [None]:
df.mean(axis=1, skipna=False)

#### 축소 메서드 옵션

옵션 | 설명
--- | ---
axis | 연산을 수행할 축. DataFrame에서 0은 로우고 1은 칼럼이다.
skipna | 누락된 값을 제외할 것인지 정하는 옵션. 기본값은 True다.
level | 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.

In [None]:
# Return index of first occurrence of maximum over requested axis.
# NA/null values are excluded.
df.idxmax?

In [None]:
df.idxmax()

In [None]:
# cumulative. 아래로 갈수록 누산 됨
df.cumsum()

In [None]:
df

In [None]:
df.describe()

In [None]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [None]:
obj.describe()

In [None]:
obj

#### 기술통계와 요약통계

메서드 | 설명
--- | ---
count | NA 값을 제외한 값의 수를 반환한다.
describe | Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산한다.
min, max | 최소, 최대값을 계산한다.
argmin, argmax | 각각 최소, 최대값을 갖고 있는 색인의 위치(정수)를 반환한다.
idxmin, idxmax | 각각 최소, 최대 값을 갖고 있는 색인의 값을 반환한다.
quantile | 0부터 1까지의 분위수를 계산한다.
sum | 합을 계산한다.
mean | 평균을 계산한다.
median | 중간 값(50% 분위)을 반환한다.
mad | 평균 값에서 절대 평균편차를 구한다.
var | 표본 분산의 값을 구한다.
std | 표본 정규 분산의 값을 구한다.
skew | 표본 비대칭도(3차 적률)의 값을 구한다.
cumsum | 누적 합을 구한다.
cummin, cummax | 각각 누적 최소 값과 누적 최대 값을 계산한다.
cumprod | 누적 곱을 구한다.
diff | 1차 산술 차를 구한다(시게열 데이터 처리시 유용하다).
pct_change | 퍼센트 변화율을 계산한다.

#### 확률, 통계 모르면 힘들어진다.. 용어부터 이해가 가지 않기 때문에...

### 5.3.1 상관관계와 공분산

In [None]:
import pandas.io.data as web

all_data = {}

# GOOG -> GOOGL
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOGL']:
    all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2000', '5/12/2014')

price = DataFrame({tic: data['Adj Close']
                   for tic, data in all_data.iteritems()})
volume = DataFrame({tic: data['Volume']
                    for tic, data in all_data.iteritems()})

In [None]:
# Percent change over given number of periods
returns = price.pct_change()

In [None]:
returns.tail()

In [None]:
price

In [None]:
volume

In [None]:
returns.head()

In [None]:
returns.MSFT

#### 상관관계와 공분산 개념 이해

- [상관관계](http://ezstat.snu.ac.kr/textbook_sources/chapter_05.pdf)
- [공분산과 상관계수](http://carstart.tistory.com/132)
- [상관분석](http://carstart.tistory.com/111)
- [공분산(Covariance)이란 무엇인가?](http://blog.naver.com/PostView.nhn?blogId=jindog2929&logNo=10161293384)

In [None]:
returns.MSFT.corr(returns.IBM)

In [None]:
returns.MSFT.cov(returns.IBM)

In [None]:
returns.corr()

In [None]:
returns.cov()

In [None]:
#Compute pairwise correlation of columns, excluding NA/null values
returns.corr?

In [None]:
# Compute pairwise covariance of columns, excluding NA/null values
returns.cov?

In [None]:
returns.corrwith(returns.IBM)

In [None]:
returns.corrwith(volume)

### 5.3.2 유일 값, 값 세기, 멤버십

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
obj

In [None]:
uniques = obj.unique()

In [None]:
uniques

In [None]:
obj.value_counts()

In [None]:
obj.value_counts(sort=False, ascending=False)

In [None]:
obj.values

In [None]:
pd.value_counts(obj.values)

In [None]:
pd.value_counts(obj.values, sort=False)

In [None]:
# sort가 True인데 왜 c, a 순으로 나오지..? 이해 불가..
# 책이랑 반대라서 개념 혼란
pd.value_counts(obj.values, sort=True)

In [None]:
obj2 = Series(['c', 'c', 'd', 'd', 'c', 'd'])
pd.value_counts(obj2.values, sort=True)

In [None]:
obj2 = Series(['d', 'c', 'c', 'd', 'c', 'd'])
pd.value_counts(obj2.values, sort=False)

In [None]:
mask = obj.isin(['b', 'c'])

In [None]:
mask

In [None]:
obj[mask]

In [None]:
obj[True]

#### 유일 값, 값 세기, 버리기 메서드

메서드 | 설명
--- | ---
isin | Series의 각 원소가 넘겨받은 연속된 값에 속하는지를 나타내는 불리언 배열을 반환한다.
unique | Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환한다. 결과는 Series에서 발견된 순서대로 반환된다.
value_counts | Series에서 유일 값에 대한 색인 값과 도수를 계산한다. 결과는 도수 값의 내림차순으로 정렬된다.

#### DataFrame의 여러 로우에 대해 히스토그램을 구해야 하는 경우

- DataFrame의 apply 함수에 pandas.value_counts를 넘기면 다음과 같은 결과를 얻을 수 있다.
- value_counts 메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있기 때문에 fillna(0) 함수를 이용해서 비어있는 값은 0으로 채워준다.

#### 이게 도저히 이해가 안된다... 뭘 말하는거지..?? 왠 히스토그램을 구하나? -> 이해됐다. counts 세는거니까 히스토그램이지

- Qu1에 1이 1개 있고 2는 없고 3은 2개, 4도 2개
- Qu2에 1은 1개, 2가 2개, 3이 2개, 4가 0개
- Qu3에 1이 1개, 2가 1개, 4가 2개, 5가 1개

In [None]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})

In [None]:
data

In [None]:
result = data.apply(pd.value_counts)

In [None]:
result

In [None]:
result = data.apply(pd.value_counts).fillna(0)

In [None]:
result

## 5.4 누락된 데이터 처리하기

- 누락된 데이터를 처리하는 일은 데이터 분석 애플리케이션에서 흔이 있는 일
- 누락 데이터를 가능한 쉽게 처리
- 모든 기술통계는 누락된 데이터를 배제하고 처리
- 누락된 데이터를 실수든 아니든 모두 NaN(Not a Number)으로 취급
- 누락된 값을 쉽게 찾을 수 있는 파수병 역할

In [None]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [None]:
string_data

In [None]:
string_data.isnull()

In [None]:
# Python 내장 None 또한 null 취급
string_data[0] = None

In [None]:
string_data.isnull()

#### NA 처리 메서드

인자 | 설명
--- | ---
dropna | 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다.
fillna | 누락된 데이터를 대신할 값을 채우거나 'ffill' 또는 'bfill' 같은 보간 메서드를 적용한다.
isnull | 누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환한다.
notnull | isnull과 반대되는 메서드다.

--------

####자꾸 드는 의문점

1. 이걸 배워서 어디에 써먹을 수 있을까?
1. 지금 내게 당장 필요한 것인가? 현업에서 이 기술을 사용하지 않으면 진행할 수 없는가?
1. 미래를 위한 투자로 봐야 되나?
1. 직접 적용해 볼 예제들이 없으니 심심하다. 예제라도 있으면 실험해 보면서 할 수 있을텐데. 책이 너무 단조롭다. 그냥 문법 공부하는 느낌?

--------

### 5.4.1 누락된 데이터 골라내기

In [None]:
from numpy import nan as NA

In [None]:
data = Series([1, NA, 3.5, NA, 7])

In [None]:
data.dropna()

In [None]:
data[data.notnull()]

###Series와 DataFrame의 차이점은??

- 이걸 이해해야지 진도를 나갈 수 있을 것 같다.
- 그냥 파이썬 문법이고 약간 어려운 정도라 따라치기는 하지만 아직 어떤 점이 차이가 나는지 모르겠다.
- 이걸 어떻게 하면 쉽게 이해할 수 있을까?

### 2번째 보니 이해가 된다.

- Series는 그냥 1차원 배열로 생각하면 되고
- DataFrame은 엑셀 같이 스프레드시트라고 생각하면 될듯하다.
- 세세하게 차이점을 확인하고 싶다면 책을 참고

In [None]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])

In [None]:
cleaned = data.dropna()

In [None]:
data

In [None]:
# NA가 하나라도 있으면 기본적으로 제외해서 보여줌
cleaned

In [None]:
data.dropna(how='all')

In [None]:
data.dropna?

In [None]:
# Failed. how에 들어가는 인자값이 어떤 것들이 있는지 어떻게 알지? -> any, all 2개만 있네. 
# 명령어 뒤에 ? 붙이면 설명 나옴
data.dropna(how='one')

In [None]:
data[4] = NA

In [None]:
data

In [None]:
data

In [None]:
# axis=0 is row.
data.dropna(axis=0, how='all')

In [None]:
data.dropna(axis=1, how='all')

In [None]:
data.dropna(axis=1)

In [None]:
df = DataFrame(np.random.randn(7, 3))

In [None]:
df

In [None]:
# 여기에서는 :4라고 했으면 정상적으로는 0,1,2,3만 해당이 되야 되는데 4까지 적용이 되네???
# ix는 slicing 마지막 문자까지 포함 됨
df.ix[:4, 1] = NA; df.ix[:2, 2] = NA

In [None]:
df

####thresh

- 몇 개 이상의 값이 들어있는 로우만 살펴보고 싶을 때

In [None]:
df.dropna(thresh=3)

In [None]:
df.dropna(thresh=2)

### 5.4.2 누락된 값 채우기

- 누락된 값을 제외시키지 않고(잠재적으로 다른 데이터도 함께 버려질 가능성이 있다) 데이터상의 '구멍'을 어떻게든 메우고 싶은 경우 ffillna 메서드 활용

In [None]:
df.fillna(0)

In [None]:
# dictionary 형식으로 받았는데 앞의 key가 컬럼을 나타냄
df.fillna({1: 0.5, 3: -1})

In [None]:
df.fillna({2:0.5, 1:-1})

In [None]:
df.fillna?

In [None]:
# fillna는 값을 채워 넣은 객체의 참조를 반환
_ = df.fillna(0, inplace=True)

In [None]:
df

In [None]:
_ = df.fillna(1, inplace=False)

In [None]:
df

In [None]:
df.fillna(1, inplace=True)

In [None]:
# 이미 NA값이 0.0 으로 채워져있기 때문에 1로 바뀌지 않는다.
df

In [None]:
df = DataFrame(np.random.randn(6, 3))

In [None]:
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA

In [None]:
df

In [None]:
df.fillna(method='ffill')

In [None]:
df.fillna(method='ffill', limit=2)

In [None]:
data = Series([1., NA, 3.5, NA, 7])

- fillna에 평균값이나 중간값을 전달해서 데이터의 높낮이를 줄일 수 있다.

In [None]:
data.fillna(data.mean())

In [None]:
data

#### fillna 함수 인자

인자 | 설명
--- | ---
value | 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체
method | 보간 방식. 기본적으로 'ffill'을 사용한다.
axis | 값을 채워 넣을 축. 기본 값은 0
inace | 복사본을 생성하지 않고 호출한 객체를 변경한다. 기본값은 False
limit | 값을 앞 혹은 뒤에서 몇 개까지 채울지를 지정한다.

## 5.5 계층적 색인

- **계층적 색인**은 pandas의 중요한 기능
- 축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다.
- 약간 추상적으로 말하면 차원이 높은(고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [None]:
data = Series(np.random.randn(10),
              index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                       [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [None]:
data

In [None]:
data.index

In [None]:
data['b']

In [None]:
data['b':'c']

In [None]:
data.ix[['b', 'd']]

In [None]:
data['b':'d']

In [None]:
# Failed!
data['b', 'c']

In [None]:
data[:, 2]

In [None]:
# 현재 index가 multi index니까
# 앞은 a,b,c,d 중에 하나
# 뒤는 1,2,3 중에 하나
data['a',2]

In [None]:
# 없는 키니까 당연히 에러. c는 2번째 index가 1,2 밖에 없음
data['c',3]

In [None]:
data['c', 2]

In [None]:
data

- 계층적 색인은 데이터를 재형성하고 피벗 테이블 생성같은 그룹 기반의 작업을 할 때 중요하게 사용
- unstack 메서드를 사용해서 데이터를 새롭게 배열 가능

#### stack은 쌓는다. unstack은 당연히 쌓여져 있는 것을 푼다 라는 의미로 생각됨

In [None]:
data.unstack()

In [None]:
# 당연히 unstack 후에 다시 stack 하니 다시 돌아가겠지
data.unstack().stack()

In [None]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])

In [None]:
frame

In [None]:
frame.index.names = ['key1', 'key2']

In [None]:
frame.columns.names = ['state', 'color']

In [None]:
frame

In [None]:
frame['Ohio']

#### MultiIndex는 따로 생성한 다음에 재사용

In [None]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])

### 5.5.1 계층 순서 바꾸고 정렬하기

####swallevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환(하지만 데이터는 변경되지 않는다)

In [None]:
frame.swaplevel('key1', 'key2')

In [None]:
frame

#### swaplevel

- 0, 1인 index로도 swap 할 수 있고
- 이름으로도 swap 할 수 있다.

#### sortlevel

- 0: key1
- 1: kye2
- 이름으로도 할 수 있다.
- 를 정렬 기준으로 한다는 것

In [None]:
frame.sortlevel?

In [None]:
frame.sortlevel(1)

In [None]:
frame.sortlevel('key2')

In [None]:
frame.sortlevel(0)

In [None]:
frame.sortlevel('key1')

In [None]:
frame.swaplevel(0, 1).sortlevel(0)

In [None]:
frame.swaplevel(0, 1).sortlevel(1)

In [None]:
frame

In [None]:
frame.swaplevel(1, 0)

In [None]:
frame.swaplevel('key2', 'key1')

In [None]:
frame.swaplevel('key1', 'key2')

In [None]:
frame

### 5.5.2 단계별 요약통계

- 기술통계와 요약통계는 level 옵션을 가지고 있다.
- 어떠한 축에 대해 합을 구하고 싶은 단계 지정

-----

#### 개인적인 생각으로 프로그래밍 잘 배우는 방법

- 책에 있는대로 먼저 쳐본다.
- 책에 있는 예제를 변수나 상수들만 살짝 바꿔서 테스트 해본다.
- 책에 있는 소스들을 나만의 방법으로 다시 재창조 해본다.
-----

In [None]:
frame.sum(level='key1')

In [None]:
frame.sum(level='key2')

In [None]:
#  soqnwjrdmfh  pandas의 groupby 기능 이용해서 구현
frame.sum(level='color', axis=1)

In [None]:
frame

### 5.5.3 DataFrame의 칼럼 사용하기

In [None]:
frame = DataFrame({'a': range(7),
                   'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})

In [None]:
frame

In [None]:
frame2 = frame.set_index(['c', 'd'])

In [None]:
frame2

In [None]:
frame.set_index(['c', 'd'], drop=False)

In [None]:
# 계층적 색인 단계 -> 컬럼
frame2.reset_index()

In [None]:
frame2

## 5.6 pandas와 관련된 기타 주제

### 5.6.1 정수 색인

- 여기 ser 객체는 0, 1, 2 색인을 가지고 있지만 사용자가 원하는 것이 위치 색인인지? 이름 색인인지 알아맞히는 것은 어려운 일
- 일관성을 유지하기 위해 색인 값을 가진 축 색인이 있을 경우 정수 데이터는 항상 이름을 지향

In [None]:
ser = Series(np.arange(3.))

In [None]:
# 왼쪽에 있는 것이 이름 색인(0, 1, 2)
# 위치색인은 0, 1, 2 번째 순서대로 있는 것
# 현재는 위치 색인과, 이름 색인이 같기 때문에 프로그램에게는 혼동이 올 수 밖에
ser

In [None]:
ser[0]

In [None]:
ser[2]

In [None]:
# -1이 0,1,2,...,-2,-1 의 정수
ser[-1]

In [None]:
ser

- 정수 색인이 아닐때

In [None]:
ser5 = Series([0, 0, 1], index=[5, 6, 7])

In [None]:
ser5

In [None]:
# 이걸 보면 이름 색인으로 접근하는 것을 알 수 있다.
ser5[6]

In [None]:
# 이름 색인이 정수라면 위치 색인을 사용할 수 없다.
ser5[-1]

In [None]:
ser2 = Series(np.arange(3.), index=['a', 'b', 'c'])

In [None]:
ser2

In [None]:
ser2[0]

In [None]:
ser2[1]

In [None]:
ser2[-1]

In [None]:
# ix는 끝 인덱스인 1까지 포함한다.
ser.ix[:1]

####만일 색인의 종류에 상관없이 위치 기반의 색인이 필요하다면 Series의 iget_value 메서드와 DataFrame의 irow, icol 메서드를 사용하면 된다

In [None]:
ser3 = Series(range(3), index=[-5, 1, 3])

In [None]:
ser3

In [None]:
# 0,1의 1번째에 있는 값을 보여준다.
ser3.iget_value(1)

In [None]:
ser3.iget_value(2)

In [None]:
ser4 = Series([5,6,7], index=[-5, 1, 3])

In [None]:
# 위치인지 다시 한 번 확인했다.
# 위 예제에서는 이름 색인을 지정해주었지만(-5, 1, 3) 아무래도 혼란스러워서 다시 한 번 테스트 해봤다.
ser4.iget_value(0)

In [None]:
frame = DataFrame(np.arange(6).reshape((3, 2)), index=[2, 0, 1])

In [None]:
frame.irow(0)

In [None]:
frame

In [None]:
frame.irow(1)

### 5.6.2 Panel 데이터

- Panel은 DataFrame의 3차원 버전
- pandas 개발은 스프레드시트 형식의 데이터를 다루는 데 초점
- 계층적 색인을 이용하면 대개의 경우 N차원의 배열은 불필요

In [None]:
# GOOG -> GOOGL
import pandas.io.data as web
pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk, '1/1/2009', '6/1/2012'))
                      for stk in ['AAPL', 'GOOGL', 'MSFT', 'DELL']))

In [None]:
pdata

In [None]:
pdata = pdata.swapaxes('items', 'minor')

In [None]:
pdata

In [None]:
pdata['Adj Close']

####ix를 이용한 라벨 색인을 통한 접근은 3차원에도 일반화되어 특정 날짜나 어떤 기간 동안의 모든 데이터를 다음처럼 선택할 수 있다

In [None]:
# 1번째 인자: Open, High, Low, Close, Volume, Adj Close
# 2번째 인자: 날짜
# 3번째 인자: 회사
pdata.ix[:, '6/1/2012', :]

In [None]:
pdata.ix['High', '5/22/2012':, :]

In [None]:
pdata.ix['High', '5/22/2012', :]

In [None]:
pdata.ix['Open', '5/22/2012', 'AAPL']

In [None]:
pdata.ix['High', '5/22/2012':, 'AAPL']

In [None]:
pdata.ix['Adj Close', '5/22/2012':, :]

####통계 모델에 맞게 Panel 데이터를 출력하는 다른 방법은 DataFrame을 쌓아 놓는 것

In [None]:
# Dimensions: 6, 3, 4 라는걸 확인할 수 있다.
pdata.ix[:, '5/30/2012':, :]

In [None]:
stacked = pdata.ix[:, '5/30/2012':, :].to_frame()

In [None]:
stacked

In [None]:
type(stacked), type(pdata)

####DataFrame에는 to_panel 메서드와 그 반대인 to_frame 메서드가 있다

In [None]:
stacked.to_panel()

<img src="files/images/level.jpg" width="300px" />

## [About my IPython in github](https://github.com/re4lfl0w/ipython)