# Pandas Basic Tutorial
튜토리얼은 아래의 목차로 구성되어있다.<br>
(본 튜토리얼은 "파이썬 라이브러리를 활용한 데이터 분석"을 기초로 만들어졌다.)

---

* **1. pandas 자료 구조 소개**
 * 1.1 Series
 * 1.2 DataFrame
 * 1.3 색인 객체
* **2. 핵심 기능**
 * 2.1 재색인
 * 2.2 하나의 로우 또는 칼럼 삭제하기
 * 2.3 색인하기, 선택하기, 거르기
 * 2.4 산술연산과 데이터 정렬
 * 2.5 함수 적용과 매핑
 * 2.6 정렬과 순위
 * 2.7 중복 색인
* **3. 기술통계 계산과 요약**
 * 3.1 상관관계와 공분산
 * 3.2 유일 값, 값 세기, 멤버십
* **4. 누락된 데이터 처리하기**
 * 4.1 누락된 데이터 골라내기
 * 4.2 누락된 값 채우기
* **5. 계층적 색인**
 * 5.1 계층 순서 바꾸고 정렬하기
 * 5.2 단계 별 요약통계
 * 5.3 DataFrame의 칼럼 사용하기
* **6. pandas와 관련된 기타주제**
 * 6.1 정수 색인
 * 6.2 Panel 데이터

## 1. pandas의 자료 구조 소개
### 1.1 Series
Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조다.(어떤 numpy 자료형이라도 담을 수 있다.) 그리고 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다. 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.
* python 기본의 dictionary 클래스와 비슷한 면이 있다. 즉 파이썬의 dictionary를 인자로 받아야하는 많은 함수에서 dictionary를 대체하여 사용가능하다.
* ndarray 클래스에 해당하는 연산이 그대로 적용된다.(Series의 색인을 기준으로 같은 색인의 원소가 산술연산됨)
* Series 객체와 Series의 색인은 모두 name 속성이 있고, series의 색인은 대입을 통해 변경할 수 있다.
* pd.Series(list or ndarray, index = list형태) index를 지정해주지않으면 배열,리스트와 같은 기본 정수형 index,<br> index를 지정해줘도 정수형 index는 제대로 동작
* pd.Series(dictionary)

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Series 클래스에 색인을 따로 지정하지 않았을 경우 배열의 색인과 같다.
obj = pd.Series([4, 7, -5, 3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
print(obj.values, obj.index)

[ 4  7 -5  3] RangeIndex(start=0, stop=4, step=1)


In [5]:
# Series 클래스에 색인을 지정하여 생성하는 경우
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a',' c'])

In [6]:
obj2

d     4
b     7
a    -5
 c    3
dtype: int64

In [7]:
print(obj2.values, obj2.index)

[ 4  7 -5  3] Index(['d', 'b', 'a', ' c'], dtype='object')


In [8]:
# Series에서 값을 선택하거나 대입할 때는 ndarray(배열)과 마찬가지로 색인을 이용해서 접근한다.
print(obj2['d'], obj2[0])

4 4


In [9]:
print(obj2[['d','b']])
print(obj2[[0,1]])

d    4
b    7
dtype: int64
d    4
b    7
dtype: int64


In [10]:
# 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셉을 수행하거나 또는 수학 함수를 적용하는 numpy 배열연산을 수행해도 색인-값 연결은 유지된다.
print(obj2[obj2 > 0])
print(obj2 * 2)
print(np.exp(obj2))

d     4
b     7
 c    3
dtype: int64
d      8
b     14
a    -10
 c     6
dtype: int64
d       54.598150
b     1096.633158
a        0.006738
 c      20.085537
dtype: float64


In [11]:
# dictionary 객체로 Series 객체를 생성하는 경우
# dictionary 객체를 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인은 사전의 키 값이 순서대로 들어간다.
sdata = {'Ohio': 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)

In [12]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [13]:
# dictionary 객체를 Series 객체로 생성할 때, index의 지정한 리스트의 문자열 순서대로 원소값이 정렬됨, dictionary 객체에 list 객체로 준
# 인덱스 값이 없을 경우 해당 위치의 원소의 값은 NaN(not a number)로 표시된다.
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [14]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [15]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [16]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [17]:
# Series 객체의 산술연산은 동일 index를 가진 원소끼리 산술연산이 이루어진다.
print(obj3)
print(obj4)

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [18]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [19]:
# Series 객체와 Series의 색인의 name 속성 설정 및 변경
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [20]:
print(obj4.name, obj4.index.name, obj4.index)

None None Index(['California', 'Ohio', 'Oregon', 'Texas'], dtype='object')


In [21]:
obj4.name = 'population'
obj4.index.name = 'state'
print(obj4.name, obj4.index.name, obj4.index)

population state Index(['California', 'Ohio', 'Oregon', 'Texas'], dtype='object', name='state')


In [22]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [23]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [24]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 1.2 DataFrame
DataFrame은 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각할 수 있으며, R의 data.frame 객체와 매우 흡사하다. ndarray(배열)과 마찬가지로 DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 뷰이며 복사가 이루어지지 않는다. 따라서 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영된다. 복사본이 필요할 때는 Series의 copy 메서드를 이용하자.

**<표> DataFrame 생성자에서 사용 가능한 입력데이터**

|             형            |                                                          설명                                                          |
|:-------------------------:|:----------------------------------------------------------------------------------------------------------------------:|
|       2차원 ndarray       |                        데이터를 담고 있는 행렬, 선택적으로 로우와 칼럼의 이름을 전달할 수 있다.                        |
| 배열, 리스트, 튜플의 사전 |                  사전의 모든 항목은 같은 길이를 가져야하며, 각 항목의 내용이 DataFrame의 칼럼이 된다.                  |
|    numpy의 구조화 배열    |                                          배열의 사전과 같은 방식으로 취급된다.                                         |
|        Series 사전        | Series의 각 값이 칼럼이 된다. 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 로우의 색인이 된다. |
|        사전의 사전        |             내부에 있는 사전이 칼럼이 된다. 키 값은 'Series의 사전'과 마찬가지로 합쳐져 로우의 색인이 된다.            |
|  사전이나 Series의 리스트 |    리스트의 각 항목이 DataFrame의 로우가 된다. 합쳐진 사전의 키 값이나 Series의 색인이 DataFrame 칼럼의 이름이 된다.   |
|   리스트나 튜플의 리스트  |                                         '2차원 ndarray'와 같은 방식을 취급된다.                                        |
|       다른 DataFrame      |                            색인이 따로 지정되지 않는다면 DataFrame의 색인이 그대로 사용된다.                           |
|     numpy MaskedArray     |               '2차원 ndarray'와 같은 방식으로 취급되지만 마스크 값은 반환되는 DataFrame에서 NA 값이 된다.              |

In [25]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2001],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [26]:
type(data)

dict

In [27]:
# dictionary 객체를 이용한 DataFrame 객체 생성, DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 칼럼은 정렬되어 저장된다.
frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2001


In [28]:
# 원하는 순서대로 칼럼을 지정하면 원하는 칼럼 순서를 가진 DataFrame 객체가 생성된다.
pd.DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2001,Nevada,2.9


In [29]:
# Series와 마찬가지로 data에 없는 값을 넘기면 NAN 값이 저장된다.
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'], # dictionary 객체에 없는 리스트인 debt가 인자로 주어졌음을 확인가능
                      index = ['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2001,Nevada,2.9,


In [30]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [31]:
# DataFrame의 칼럼은 Series 처럼 사전 형식의 표기법으로 접근하거나 속성 형식을 접근할 수 있다.
# 반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [32]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [33]:
# DataFrame의 행은 위치나 ix 같은 메서드를 통해 접근 가능하다.
print(frame2.ix['one'])
print(frame2.ix[0])

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object
year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object


In [34]:
# DataFrame의 칼럼은 대입이 가능하다. DataFrame의 행의 길이와 같은 길이의 배열, 리스트를 대입 할 수 있으며 스칼라값을 대입할 경우
# 재사용규칙에의해 길이만큼 복사되어 대입되는 듯 하다.(R처럼)
frame2['debt'] =16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2001,Nevada,2.9,16.5


In [35]:
frame2['debt'] = np.arange(5)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2001,Nevada,2.9,4


In [36]:
# Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않는다.
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2001,Nevada,2.9,-1.7


In [37]:
# 없는 칼럼을 대입하면 새로운 칼럼이 생성된다. 파이썬 dictionary 클래스와 마찬가지로 del 예약어를 사용해서 칼럼을 삭제할 수 있다.
frame2['eastern'] = (frame2.state == 'Ohio')
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2001,Nevada,2.9,-1.7,False


In [38]:
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2001,Nevada,2.9,-1.7


In [39]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [40]:
# 중첩된 dictionary 객체를 이용해서 DataFrame을 생성할 때, 바깥에 있는 dictionary 객체의 키 값이 칼럼이되고 안에 있는 키는 로우가 된다.
pop = {'Nevada' : {2001 : 2.4, 2002 : 2.9},
       'Ohio' : {2000 : 1.5, 2001 : 1.7, 2002 : 3.6}}
pop

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [41]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [42]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [43]:
# 중첩된 사전을 이용해서 DataFrame을 생성할 때, 안쪽에 있는 사전 값은 키 값별로 조합되어 결과의 색인이 되지만 색인을 직접 지정한다면 지정된
# 색인으로 DataFrame을 생성한다.
pd.DataFrame(pop, index = [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [44]:
pdata = {'Ohio' : frame3['Ohio'][:-1],
         'Nevada' : frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


In [45]:
frame3.index.name = 'year' ; frame3.columns.name = 'state'

In [46]:
# Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

In [47]:
# DataFrame의 칼럼에 서로 다른 dtype이 있다면 모든 칼럼을 수용하기 위해 그 칼럼 배열의 dtype이 선택된다.
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2001, 'Nevada', 2.9, -1.7]], dtype=object)

###  1.3 색인 객체
pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터(축과 이름 등)를 저장하는 객체다. Series나 DataFrame
객체를 생성할 때 사용되는 배열이나 혹은 다른 순차적인 이름은 내부적으로 내부적으로 색인으로 변환된다.

**<표> pandas의 주요 Index 객체**

|     클래스    |                                             설명                                             |
|:-------------:|:--------------------------------------------------------------------------------------------:|
|     Index     |     가장 일반적인 Index 객체이며, 파이썬 객체의 numpy 배열 형식으로 축의 이름을 표현한다.    |
|   Int64Index  |                                  정수 값을 위한 특수한 Index                                 |
|   MultiIndex  | 단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체, 튜플의 배열과 유사하다고 볼 수 있다. |
| DatetimeIndex |                    나노초 타임스탬프를 저장한다(numpy의 datetime64 dtype)                    |
|  PeriodIndex  |                                기간 데이터를 위한 특수한 Index                               |

**<표> Index 객체의 메서드와 속성**

|    메서드    |                                     설명                                    |
|:------------:|:---------------------------------------------------------------------------:|
|    append    |             추가적인 Index 객체를 덧붙여 새로운 색인을 반환한다.            |
|     diff     |                          색인의 차집합을 반환한다.                          |
| intersection |                          색인의 교집합을 반환한다.                          |
|     union    |                          색인의 합집합을 반환한다.                          |
|     isin     | 넘겨받은 값이 해당 색인 위치에 존재하는 지 알려주는 불리언 배열을 반환한다. |
|    delete    |                i 위치의 색인이 삭제된 새로운 색인을 반환한다.               |
|     drop     |                 넘겨받은 값이 삭제된 새로운 색인을 반환한다.                |
|    insert    |                 i 위치에 값이 추가된 새로운 색인을 반환한다.                |
| is_monotonic |                  색인이 단조성을 가진다면 True를 반환한다.                  |
|   is_unique  |                   중복되는 색인이 없다면 True를 반환한다.                   |
|    unique    |          색인에서 중복되는 요소를 제거하고 유일한 값만을 반환한다.          |

In [48]:
obj = pd.Series(range(3), index = ['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int32

In [49]:
index = obj.index
print(index, type(index))

Index(['a', 'b', 'c'], dtype='object') <class 'pandas.indexes.base.Index'>


In [50]:
index

Index(['a', 'b', 'c'], dtype='object')

In [51]:
# 색인 객체는 대입으로 변경할 수 없다. 그렇기 때문에 자료 구조 사이에서 안전하게 공유될 수 있다.
index[1] = 'd'

TypeError: Index does not support mutable operations

In [52]:
# 색인 객체는 변경할 수 없기에 자료 구조사이에서 안전하게 공유될 수 있다.
index = pd.Index(np.arange(3))

In [53]:
index

Int64Index([0, 1, 2], dtype='int64')

In [54]:
obj2 = pd.Series([1.5, -2.5, 0], index = index)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [55]:
obj2.index is index

True

In [56]:
# 배열과 유사하게 Index 객체도 고정 크기로 동작한다.
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [57]:
'Ohio' in frame3.columns

True

In [58]:
np.in1d(frame3.columns, 'Ohio')

array([False,  True], dtype=bool)

In [59]:
2003 in frame3.index

False

## 2. 핵심 기능
### 2.1 재색인
pandas 객체의 기능 중 하나인 reindex는 새로운 색인에 맞도록 객체를 새로 생성하는 기능이다.

**<표> 재색인(reindex) 메서드의 인자**

|    인자    |                                                                  설명                                                                  |
|:----------:|:--------------------------------------------------------------------------------------------------------------------------------------:|
|    index   | 색인으로 사용할 새로운 순서, index 인스턴스나 다른 순차적인 자료 구조를 사용할 수 있다. 색인은 복사가 이루어지지 않고 그대로 사용된다. |
|   method   |                                        보간 메서드, Series의 경우에 잘 설명해놨으니 거기를 보자                                        |
| fill_value |                                    재색인 과정 중에 새롭게 나타나는 비어있는 데이터를 채우기 위한 값                                   |
|    limit   |                                                   전/후 보간 시에 사용할 최대 갭 크기                                                  |
|    level   |                     MultiIndex 단계(level)에 단순 색인을 맞춘다. 그렇지 않으면 MultiIndex의 하위 부분집합에 맞춘다.                    |
|    copy    |        True인 경우 새로운 색인이 이전 색인과 같더라도 데이터를 복사한다. False라면 두 색인이 같을 경우 데이터를 복사하지 않는다.       |

#### 2.1.1 Series의 경우

In [60]:
# Series의 경우
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [61]:
# Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열 하고, 없는 색인 값이 있다면 비어있는 값을 새로 추가한다.
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [62]:
# reindex를 호출할 때, 'fill_value = 값'으로 옵션을 주어 없는 색인 값이 있을 때, 임의의 값을 넣어주는 것도 가능하다.
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value = 0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우가 있다. 이럴 경우 아래와 같은 reindex 메서드의 옵션으로 보간할 수도 있다.

**<표> reindex 메서드(보간) 옵션**

|         인자        |           설명           |
|:-------------------:|:------------------------:|
|    ffill 또는 pad   | 앞의 값으로 채워 넣는다. |
| bfill 또는 backfill |  뒤의 값을 채워 넣는다.  |

In [63]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index = [0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [64]:
obj3.reindex(range(6), method = 'ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

#### 2.1.2 DataFrame의 경우
DataFrame에 대한 reindex는 (로우) 색인, 칼럼 또는 둘 다 변경이 가능하다. 그냥 순서만 전달하면 로우가 재색인된다.<br>
밑의 코드들은 기본적으로 어떤 방식으로 할 수 있느냐를 보여주는 것이고 보간을 고려하지않고 재색인만 하는 경우는 사실상 ix 메서드를 활용하는 것이 가장 간결하다.

In [65]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), index = ['a', 'c', 'd'], columns = ['Ohio', 'Texas', 'California'])

In [66]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [67]:
# 순서만 전달하면 로우가 재색인된다.
frame2 = frame.reindex(['a', 'b', 'c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [68]:
# 열은 reindex에 columns 인자에 리스트 또는 튜플 형태로 칼럼의 이름의 조합을 전달함으로써 재색인할 수 있다.
frame.reindex(['a', 'b', 'c', 'd'])

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [69]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns = states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [70]:
# 로우와 칼럼을 모두 한 번에 재색인할 수 있지만 보간은 로우에 대해서만 이루어진다.(axis 0)
frame.reindex(index = ['a', 'b', 'c', 'd'], columns = states,method = 'ffill')

Unnamed: 0,Texas,Utah,California
a,1,,2
b,1,,2
c,4,,5
d,7,,8


In [71]:
print(frame)
print(frame.ix[['a','b','c','d'],states])

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
   Texas  Utah  California
a    1.0   NaN         2.0
b    NaN   NaN         NaN
c    4.0   NaN         5.0
d    7.0   NaN         8.0


### 2.2 하나의 로우 또는 칼럼 삭제하기
색인 배열 또는 삭제하려는 로우나 칼럼이 제외된 리스트를 이미 가지고 있따면 로우나 칼럼을 쉽게 삭제할 수 있는데, 이 방법은 데이터의 모양을 변경하는 작업이 필요하다. drop 메서드를 사용하면 선택한 값이 삭제된 새로운 객체를 얻을 수 있다.

In [72]:
obj = pd.Series(np.arange(5), index = ['a', 'b', 'c', 'd','e'])
obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [73]:
print(obj.drop('c'))
print(obj) # 색인한 것이 아니므로 Series 객체에 drop 메서드를 사용한 것은 원 Series 객체의 뷰가아니라 복사본이다. 

a    0
b    1
d    3
e    4
dtype: int32
a    0
b    1
c    2
d    3
e    4
dtype: int32


In [74]:
obj.drop(['b', 'c'])

a    0
d    3
e    4
dtype: int32

In [75]:
data = pd.DataFrame(np.arange(16).reshape((4,4)), index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns = ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [76]:
data.drop(['Colorado','Ohio'])
# data.drop(['Colorado','Ohio'], axis = 0)

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [77]:
data.drop('two', axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [78]:
data.drop(['two','four'], axis = 1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 2.3 색인하기, 선택하기, 거르기
Series의 색인(obj[...])은 numpy 배열의 색인과 유사하게 동작하는데, Series의 색인은 정수가 아니어도 된다는 점이 다르다.
#### 2.3.1 Series의 경우

In [79]:
obj = pd.Series(np.arange(4), index = ['a', 'b', 'c', 'd'])
obj

a    0
b    1
c    2
d    3
dtype: int32

In [80]:
print(obj['b'], obj[1])

1 1


In [81]:
# 라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다른 점이다.
print(obj[0:2])
print(obj[['a','b']])
print(obj['a':'b'])

a    0
b    1
dtype: int32
a    0
b    1
dtype: int32
a    0
b    1
dtype: int32


In [82]:
# 불리언 색인도 마찬가지로 ndarray(배열)과 마찬가지로 동작한다.
obj[obj < 2]

a    0
b    1
dtype: int32

In [83]:
# 슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 예상한 대로 동작한다.
obj['b':'c']= 5
obj

a    0
b    5
c    5
d    3
dtype: int32

#### 2.3.2 DataFrame의 경우
사실상 ix 메서드를 사용하는 것이 가장 좋은 방법이다. ix 메서드는 numpy와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 칼럼을 선택할 수 있게한다.

**<표> DataFrame의 값 선택하기**

|             방식            |                                                                                 설명                                                                                 |
|:---------------------------:|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------:|
|           obj[val]          | DataFrame에서 하나의 칼럼 또는 여러 칼럼을 선택한다. 편의를 위해 불리언 배열, 슬라이스, 불리언 DataFrame(어떤 기준에 근거해서 값을 대입해야 할 때)을 사용할 수 있다. |
|         obj.ix[val]         |                                                               DataFrame에서 로우의 부분집합을 선택한다.                                                              |
|        obj.ix[:,val]        |                                                               DataFrame에서 칼럼의 부분집합을 선택한다.                                                              |
|      obj.ix[val1, val2]     |                                                           DataFrame에서 로우와 칼럼의 부분집합을 선택한다.                                                           |
|        reindex 메서드       |                                                               하나 이상의 축을 새로운 색인으로 맞춘다.                                                               |
|          xs 메서드          |                                                      라벨 이름으로 단일 로우나 칼럼을 Series 형식으로 선택한다.                                                      |
|      icol, irow 메서드      |                                                    각각 정수 색인으로 단일로우나 칼럼을 Series 형식으로 선택한다.                                                    |
| get_value, set_value 메서드 |                                                            로우와 칼럼 이름으로 DataFrame의 값을 선택한다.                                                           |

In [84]:
data = pd.DataFrame(np.arange(16).reshape(4,4), index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                       columns = ['one', 'two', 'three', 'four'])
data


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [85]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [86]:
data[['three', 'two']]

Unnamed: 0,three,two
Ohio,2,1
Colorado,6,5
Utah,10,9
New York,14,13


In [87]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [88]:
# 슬라이싱으로 로우를 선택하거나 불리언 배열로 칼럼을 선택할 수 있다.
print(data[:2])
print(data[data['three'] > 5]) # three 칼럼의 값이 5를 초과하는 데이터만 선택
# 이건또 ndarray의 슬라이싱과 일치함....

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


In [89]:
# 스칼라 비교를 통해 생성된 불리언 DataFrame을 사용해서 값을 선택하는 경우
data[data < 5]

Unnamed: 0,one,two,three,four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,,,
Utah,,,,
New York,,,,


In [90]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [91]:
# ix 메서드 활용
data.ix['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int32

In [92]:
data.ix['Colorado', [3,0,1]]

four    7
one     0
two     5
Name: Colorado, dtype: int32

In [93]:
data.ix[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [94]:
data.ix[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [95]:
data.ix[data.three > 5, :3]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


### 2.4 산술연산과 데이터 정렬

pandas에서 중요한 기능은 색인이 다른 객체 간의 산술 연산이다. 객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합된다.

In [96]:
s1 = pd.Series([7.3 ,-2.5, 3.4, 1.5], index = ['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a', 'c', 'e', 'f', 'g']) 

In [97]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [98]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [99]:
# 서로 겹치는 색인이 없다면 데이터는 NA 값이 된다. 산술연산 시 누락된 값은 전파된다.
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [100]:
# DataFrame에서는 위의 사항이 로우와 칼럼 모두에 적용된다
df1 = pd.DataFrame(np.arange(9).reshape((3,3)), columns = list('bcd'), index = ['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12).reshape((4,3)), columns = list('bcd'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

In [101]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [102]:
df2

Unnamed: 0,b,c,d
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [103]:
df1 + df2

Unnamed: 0,b,c,d
Colorado,,,
Ohio,3.0,5.0,7.0
Oregon,,,
Texas,9.0,11.0,13.0
Utah,,,


#### 2.4.1 산술연산 메서드에 채워 넣을 값 지정하기
서로 다른 색인을 가지는 객체 간의 산술연산에서 존재하지 않는 축의 값을 특수한 값으로 지정하고 싶을 때는 다음과 같이 할 수 있다.
add 메서드로 객체와 fill_value값을 인자로 전달한다.

**<표> 산술연산 메서드**

| 메서드 |         설명         |
|:------:|:--------------------:|
|   add  |  덧셈을 위한 메서드  |
|   sub  |  뺄셈을 위한 메서드  |
|   div  | 나눗셈을 위한 메서드 |
|   mul  |  곱셈을 위한 메서드  |

In [104]:
df1 = pd.DataFrame(np.arange(12).reshape((3,4)), columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20).reshape((4,5)), columns = list('abcde'))

In [105]:
print(df1)
print(df2)

   a  b   c   d
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
    a   b   c   d   e
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19


In [106]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [107]:
# df1의 메서드로 df2와 fill_value 값을 인자로 전달한다.
df1.add(df2, fill_value = 0) # df1에서 df2에 없는 색인과 칼럼에 값을 0으로 채워넣고 같은 크기의 차원의 DataFrame을 더한다.

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [108]:
# Series와 DafaRame을 재색인할 때 역시 fill_value를 지정할 수 있다.
df1.reindex(columns = df2.columns, index = df2.index, fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,0
1,4,5,6,7,0
2,8,9,10,11,0
3,0,0,0,0,0


#### 2.4.2 DataFrame과 Series간의 연산
DataFrame과 Series간의 연산은 numpy의 것과 유사하다. 기본적으로는 DataFrame과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래 로우로 전파한다. 만약 색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인된다.

In [109]:
# example of broadcasting (ndarray) (R과는 다른 점! 이런 경우 R은 칼럼단위로 뺌)
arr = np.arange(12).reshape((3, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [110]:
arr - arr[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [111]:
# DataFrame과 Series의 연산
frame = pd.DataFrame(np.arange(12).reshape((4,3)), columns = list('bde'),
                  index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.ix[0]

In [112]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [113]:
series

b    0
d    1
e    2
Name: Utah, dtype: int32

In [114]:
frame - series

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


In [115]:
series2 = pd.Series(range(3), index = ['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int32

In [116]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [117]:
# 각 로우 대해 연산을 수행하고 싶다면 산술연산 메서드를 사용하면 된다.
series3 = frame['d']
print(frame)
print(series3)

        b   d   e
Utah    0   1   2
Ohio    3   4   5
Texas   6   7   8
Oregon  9  10  11
Utah       1
Ohio       4
Texas      7
Oregon    10
Name: d, dtype: int32


In [118]:
frame.sub(series3, axis = 0) 
# 칼럼 끼리 더하라는 의미 python에서 0번째 축은 행의축(세로)를 가리키기 때문에 0번 축을 기준으로 Series와 DataFrame의 연산을 하면
# R에서의 기본 방식과 같아지게됨

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


### 2.5 함수 적용과 매핑 
pandas 객체에도 numpy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다. 자주 사용되는 또 다른 연산인 각 로우나 칼럼의 1차원 배열에 함수를 적용하는 방법은 DataFrame의 apply 메서드를 활용한다(R의 apply를 생각하면 될 듯!)
* DataFrame.apply(f, axis) : 축 별로 함수를 적용하고 싶을 때
* DataFrame.applymap(f) : DataFrame의 모든 원소에 함수를 적용
* DataFrame[val].map(f) : DataFrame의 val에 해당하는 칼럼을 불러와 그 Series의 원소마다 함수 적용

In [119]:
frame = pd.DataFrame(np.random.randn(4,3), columns = list('bde'),
                     index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.839652,-0.559428,0.300853
Ohio,0.633319,-0.10679,0.374055
Texas,-2.068151,0.59484,-0.384327
Oregon,0.460287,0.179324,0.273215


In [120]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.839652,0.559428,0.300853
Ohio,0.633319,0.10679,0.374055
Texas,2.068151,0.59484,0.384327
Oregon,0.460287,0.179324,0.273215


In [121]:
# DataFrame의 apply 메서드 활용 (R의 apply를 생각하면 된다!)
frame = pd.DataFrame(np.arange(12).reshape(4,3))
frame

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [122]:
# column sum과 row sum을 계산하는 예제
def f(x):
    return x.sum()

In [123]:
frame.apply(f, axis = 0) # Columnsum

0    18
1    22
2    26
dtype: int64

In [124]:
frame.apply(f, axis = 1) # rowSums

0     3
1    12
2    21
3    30
dtype: int64

In [125]:
# apply 메서드에 전달된 함수는 스칼라 값을 반환할 필요가 없으며, Series 또는 여러 값을 반환해도 된다.
# 각 column 별로 max 값과 min 값을 산출하는 예제
def f(x):
    return pd.Series([x.min(), x.max()], index = ['min', 'max'])

In [126]:
frame.apply(f, axis = 0)

Unnamed: 0,0,1,2
min,0,1,2
max,9,10,11


In [127]:
# 배열의 각 원소에 적용되는 파이썬의 함수를 사용하는 예제
# 실수 값을 문자열 포맷으로 변환하기
format = lambda x: '%.2f' % x # 축약함수를 이용한 함수 정의

In [128]:
frame.applymap(format)

Unnamed: 0,0,1,2
0,0.0,1.0,2.0
1,3.0,4.0,5.0
2,6.0,7.0,8.0
3,9.0,10.0,11.0


In [129]:
frame[0].map(format)

0    0.00
1    3.00
2    6.00
3    9.00
Name: 0, dtype: object

###  2.6 정렬과 순위
로우나 칼럼의 색인을 알파벳 순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용하면 된다. DataFrame은 로우나 칼럼 중 하나의 축을 기준으로 정렬할 수 있다. 물론 값에 따라 정렬할 수도 있다.(사실상 훨씬 많이 쓰일 것이다.) 졍렬된 결과는 원본의 뷰가 아니라 복사본임을 명심하자.

#### 2.6.1 Series를 index 또는 DataFrame을 index나 column의 name에 따라 정렬할 때
sort_index 메서드를 활용한다.
* Series.sort_index(ascending = False or True)
* DataFrame.sort_index(axis = 0 or 1, ascending = False or True)

In [130]:
obj = pd.Series(range(4), index = ['d', 'a', 'b', 'c'])

In [131]:
obj

d    0
a    1
b    2
c    3
dtype: int32

In [132]:
obj.sort_index() # index 기준으로 정렬된 복사본이다.

a    1
b    2
c    3
d    0
dtype: int32

In [133]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index = ['three', 'one'],
                     columns = ['d', 'a', 'b', 'c'])

In [134]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [135]:
# 행의 index를 기준으로 정렬, ascending이 True이냐 False냐에 따라 오름차순, 내림차순 결정
frame.sort_index(axis = 0, ascending = False) 

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [136]:
# 열의 name을 기준으로 정렬, ascending이 True이냐 False 냐에 따라 오름차순, 내림차순 결정
frame.sort_index(axis = 1) 

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


#### 2.6.2 Series와 DataFrame을 값에 따라 정렬할 때 (사실상 더 중요)
sort_values 메서드를 활용한다. 기억할 것은 정렬할 때 비어있는 값(NaN)은 가장 큰 값으로 된다는 점이다.<br>
DataFrame 에서는 하나 이상의 칼럼에 있는 값으로 정렬이 필요할 수 있다. 이럴 때는 by 옵션에 필요한 칼럼의 이름을 넘긴다.<br>
여러개의 칼럼을 정렬하려면 칼럼의 이름이 담긴 리스트를 전달하면된다. 여러개의 칼럼을 정렬할 때, 각 칼럼마다 오름차순, 내림차순을 설정하려면
역시 True와 False로 이루어진 불리언 리스트를 전달하면된다.

In [137]:
obj = pd.Series([4, 7, -3, 2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [138]:
obj.sort_values(ascending = True)

2   -3
3    2
0    4
1    7
dtype: int64

In [139]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [140]:
obj.sort_values(ascending = True)

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [141]:
frame = pd.DataFrame({'b' : [4,7,-3,2], 'a' : [0, 1, 0, 1]})
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [142]:
frame.sort_values(by = 'a', ascending = True)

Unnamed: 0,a,b
0,0,4
2,0,-3
1,1,7
3,1,2


In [143]:
# 칼럼 a의 값을 기준으로 오름차순으로 정렬한 뒤, 칼럼 b의 값을 기준으로 내림차순으로 정렬하는 예제
frame.sort_values(by = ['a', 'b'], ascending = [True, False])

Unnamed: 0,a,b
0,0,4
2,0,-3
1,1,7
3,1,2


#### 2.6.3 순위 매기기
순위는 정렬과 거의 흡사하며, 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다. 또한 순위는 numpy.argsort에서 반환하는 간접 정렬 색인과 유사한데, 동률인 순위를 처리하는 방식이 다르다. 기본적으로 Series와 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.
* Series.rank(method = 'average' or 'min' or 'max' or 'first', ascending = True or False)
* DataFrame.rank(method = 'average' or 'min' or 'max' or 'first', axis = 0 or 1, ascending = True or False)

**<표> 순위의 동률을 처리하는 방법 (rank 메서드를 이용하여)**

|  rank 메서드의 인자 method에 넣을 수 있는 값 종류  |                            설명                           |
|:-------:|:---------------------------------------------------------:|
| 'average' | 기본 값: 같은 값을 가지는 항목의 평균 값을 쉰우로 삼는다. |
|   'min'   |        같은 값을 가지는 그룹을 낮은 순위로 매긴다.        |
|   'max'   |        같은 값을 가지는 그룹을 높은 순위로 매긴다.        |
|  'first'  |          데이터 내에서 위치에 따라 순위를 매긴다.         |

In [144]:
# Series example
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [145]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [146]:
obj.rank(method = 'first', ascending = True)

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [147]:
# DataFrame example
frame = pd.DataFrame({'b' : [4.3, 7, -3, 2], 'a' : [0, 1, 0, 1], 'c' : [-2, 5, 8, -2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [148]:
frame.rank(axis = 1, ascending = True)

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


### 2.7 중복 색인
pandas의 많은 함수(ex. reindex)에서 색인 값은 유일해야하지만 강제사항은 아니다. 색인값이 중복된 Series, DataFrame에 대해서 다뤄보자.

In [149]:
# Series example
obj = pd.Series(range(5), index = ['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int32

In [150]:
obj.index.is_unique

False

In [151]:
print(obj['a'])
print(obj['c'])

a    0
a    1
dtype: int32
4


In [152]:
# DataFrame example
df = pd.DataFrame(np.random.randn(4,3), index = ['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.050317,-0.497177,0.609266
a,0.525084,-0.870162,-2.444939
b,0.309988,-1.080126,-0.603848
b,1.372578,-0.043911,0.095136


In [153]:
df.ix['b',:]

Unnamed: 0,0,1,2
b,0.309988,-1.080126,-0.603848
b,1.372578,-0.043911,0.095136


## 3. 기술통계 계산과 요약
pandas 객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있다. 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속한다. 순수 numpy배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계되었다.

**<표> 기술통계와 요약통계**

|     메서드     |                             설명                            |
|:--------------:|:-----------------------------------------------------------:|
|      count     |              NA 값을 제외한 값의 수를 반복한다.             |
|    describe    |   Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산한다.  |
|    min, max    |                   최소, 최대값을 계산한다.                  |
| argmin, argmax | 각각 최소, 최대값을 갖고 있는 색인의 위치(정수)를 반환한다. |
| idxmin, idxmax |     각각 최소, 최대값을 갖고 있는 색인의 값을 반환한다.     |
|    quantile    |               0부터 1까지의 분위수를 계산한다.              |
|       sum      |                        합을 계산한다.                       |
|      mean      |                       평균을 계산한다.                      |
|     median     |                 중간값(50% 분위)를 반환한다.                |
|       mad      |              평균값에서 절대 평균편차를 구한다.             |
|       var      |                   표본분산의 값을 구한다.                   |
|       std      |                 표본표준편차의 값을 구한다.                 |
|      skew      |         표본비대칭도(왜도, 3차 적률)의 값을 구한다.         |
|      kurt      |              표본첨도(4차 적률)의 값을 구한다.              |
|     cumsum     |                      누적 합을 구한다.                      |
| cummin, cummax |          각각 누적 최소값과 누적 최대값을 계산한다.         |
|     cumprod    |                      누적 곱을 구한다.                      |
|      diff      |    1차 산술 차를 구한다.(시계열 데이터 처리 시 유용하다.)   |
|   pct_change   |                  퍼센트 변화율을 계산한다.                  |

**<표> 기술통계와 요약통계(축소 메서드)에 사용할 수 있는 옵션**

|  옵션  |                                    설명                                   |
|:------:|:-------------------------------------------------------------------------:|
|  axis  |          연산을 수행할 축, DataFrame에서 0은 로우고 1은 칼럼이다.         |
| skipna |          누락된 값을 제외할 것인지 정하는 옵션, 기본 값은 True다.         |
|  level | 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다. |

In [154]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]], index = ['a', 'b', 'c', 'd'],
               columns = ['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [155]:
# 메서드를 이용한 칼럼의 합
df.sum(axis = 0)

one    9.25
two   -5.80
dtype: float64

In [156]:
# 메서드를 이용한 로우의 합
df.sum(axis = 1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [157]:
# 전체 로우나 칼럼의 값이 NA가 아니라면 계산 과정에서 NA 값은 제외시키고 계산된다. 이는 skipna 옵션을 통해 조정할 수 있다.
df.mean(axis =1, skipna = False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [158]:
# axis 값 설정에 따라 칼럼별 로우별 최대값의 이름 인덱스, 또는 행 인덱스를 가져온다.
df.idxmax()

one    b
two    d
dtype: object

In [159]:
# axis 값 설정에 따라 칼럼별 로우별 최소값의 이름 인덱스, 또는 행 인덱스를 가져온다.
df.idxmin(axis = 0)

one    d
two    b
dtype: object

In [160]:
# 수치데이터에 대해서 여러 요약통계를 생성한다(칼럼 별)
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [161]:
#수치데이터가 아니면 다른 요약통계를 생성한다.
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 3.1 상관관계와 공분산 

In [162]:
df = pd.DataFrame(np.random.randn(15).reshape(5,3), columns = ['a','b','c'])
df

Unnamed: 0,a,b,c
0,0.361307,1.193643,-0.556719
1,0.859058,0.082038,-0.699624
2,-1.122228,1.224128,1.080907
3,-1.697763,-0.689036,-0.148367
4,-1.281407,-0.412466,-0.044052


In [163]:
# Series와 Series의 Correlation 계산
df.a.corr(df.b)

0.40936747286124198

In [164]:
# Series와 Series의 Covariance 계산
df.a.cov(df.b)

0.40801673876787159

In [165]:
# DataFrame에서 Correlation matrix 계산
df.corr()

Unnamed: 0,a,b,c
a,1.0,0.409367,-0.612688
b,0.409367,1.0,0.329673
c,-0.612688,0.329673,1.0


In [166]:
# DataFrame에서 Covariance matrix 계산
df.cov()

Unnamed: 0,a,b,c
a,1.248063,0.408017,-0.479702
b,0.408017,0.795963,0.206131
c,-0.479702,0.206131,0.491165


In [167]:
# DataFrame과 다른 Series 간의 상관관계 계산하기
df.corrwith(df.a)

a    1.000000
b    0.409367
c   -0.612688
dtype: float64

In [168]:
# DataFrame과 DataFrame 간의 상관관계 계산하기
# DataFrame을 인자로 넘기면 맞아 떨어지는 칼럼의 이름에 대한 상관관계를 계산한다.
df.corrwith(df)

a    1.0
b    1.0
c    1.0
dtype: float64

### 3.2 유일 값, 값 세기, 멤버십

**<표> 유일 값, 값 세기, 버리기 메서드**

|    메서드    |                                                         설명                                                        |
|:------------:|:-------------------------------------------------------------------------------------------------------------------:|
|     isin     |                 Series의 각 원소가 넘겨받은 연속된 값에 속하는 지를 나타내는 불리언 배열을 반환한다.                |
|    unique    | Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환한다. 결과는 Series에서 발견된 순서대로 반환된다. |
| value_counts |             Series에서 유일 값에 대한 색인 값과 도수를 계산한다. 결과는 도수 값의 내림차순으로 정렬된다.            |

In [169]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [170]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [171]:
obj.value_counts() # 내림차순 정렬, 어떤 배열이나 순차 자료 구조에서도 사용할 수 있다.

c    3
a    3
b    2
d    1
dtype: int64

In [172]:
pd.value_counts(obj.values, sort = False)

d    1
a    3
b    2
c    3
dtype: int64

In [173]:
# isin 메서드는 어떤 값이 Series에 있는 지 나타내는 불리언 벡터를 반환하는 데, Series나 DataFrame의 칼럼에서 값을 골라내고 싶을 때 
# 유용하게 사용할 수 있다.
mask = obj.isin(['b','c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [174]:
print(obj)
print(obj[mask])

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object
0    c
5    b
6    b
7    c
8    c
dtype: object


In [175]:
# DataFrame에서 한 칼럼이 특정조건을 만족하는 행을 골라내고 싶을 때
df = pd.DataFrame({'value' : [1,2,3,4], 'nominal' : ['a', 'a', 'b', 'd']})
df

Unnamed: 0,nominal,value
0,a,1
1,a,2
2,b,3
3,d,4


In [176]:
df.ix[df.nominal.isin(['a']),:]

Unnamed: 0,nominal,value
0,a,1
1,a,2


In [177]:
# DataFrame의 여러 칼럼에 대해 히스토그램을 구하기위해 도수분포표를 만드는 예제
data = pd.DataFrame({'Qu1' : [1, 3, 4, 3, 4],
                     'Qu2' : [2, 3, 1, 2, 3],
                     'Qu3' : [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [178]:
data.apply(pd.value_counts, axis = 0).fillna(0)

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## 4. 누락된 데이터 처리하기
* pandas 객체의 모든 기술통계는 default로 누락된 데이터를 배제하고 처리한다.
* pandas는 누락된 데이터를 실수든 아니든 모두 NaN(Not a Number)으로 취급한다.
* 파이썬의 내장 None 값 또한 NA 값으로 취급된다.

**<표> NA 처리 메서드**

|  메서드 |                                                     설명                                                    |
|:-------:|:-----------------------------------------------------------------------------------------------------------:|
|  dropna | 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다. |
|  fillna |            누락된 데이터를 대신할 값을 채우거나 'ffill' 또는 'bfill' 같은 보간 메서드를 적용한다.           |
|  isnull |                 누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환한다.                |
| notnull |                                        isnull과 반대되는 메서드이다.                                        |

In [179]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [180]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [181]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 4.1 누락된 데이터 골라내기
dropna 메서드를 활용한다.

#### 4.1.1 Series의 경우

In [182]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [183]:
# dropna 메서드를 활용한다.
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [184]:
# 불리언 색인을 이용한다,
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

#### 4.1.2 DataFrame의 경우
dropna 메서드를 활용하면 기본적으로 NA 값이 하나라도 있는 로우는 제외시킨다. 아래와 같은 두 가지 선택이 가능하다.
* 모두 NA인 로우나 칼럼을 제외한다.
* 하나라도 NA인 값을 포함하고 있는 로우나 칼럼을 제외한다.

In [185]:
data = pd.DataFrame([[1, 6.5 ,3], [1, np.nan, np.nan], [np.nan, np.nan, np.nan], [np.nan, 6.5, 3]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [186]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [187]:
# 로우에 대해서 각 칼럼의 값이 모두 NA일 때 해당 로우 제거하기
data.dropna(how = 'all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [188]:
# NA 값이 들어있는 칼럼을 제외하기
data[4] = np.nan
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [189]:
data.dropna(axis =1, how = 'all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [190]:
# 로우에 NA 값이 아닌 값이 특정 threshold 이상인 로우만 선택하기
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,0.601538,-0.358542,-0.77259
1,0.594531,-0.152583,-0.790397
2,0.543365,0.048867,0.808
3,-1.352048,0.10874,1.158707
4,-0.247032,-1.171691,0.628429
5,-0.541036,-1.085965,0.369512
6,0.270107,-0.054143,-0.49423


In [191]:
df.ix[:4,1] = np.nan ; df.ix[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.601538,,
1,0.594531,,
2,0.543365,,
3,-1.352048,,1.158707
4,-0.247032,,0.628429
5,-0.541036,-1.085965,0.369512
6,0.270107,-0.054143,-0.49423


In [192]:
df.dropna(thresh = 2)

Unnamed: 0,0,1,2
3,-1.352048,,1.158707
4,-0.247032,,0.628429
5,-0.541036,-1.085965,0.369512
6,0.270107,-0.054143,-0.49423


### 4.2 누락된 값 채우기
fillna 메서드를 활용한다.

**<표> fillna 메서드의 인자**

|   인자  |                              설명                              |
|:-------:|:--------------------------------------------------------------:|
|  value  |        비어있는 값을 채울 스칼라 값이나 사전 형식의 객체       |
|  method |            보간 방식, 기본적으로 'ffill'을 사용한다.           |
|   axis  |                 값을 채워 넣을 축. 기본 값은 0                 |
| inplace | 복사본을 생성하지 않고 호출한 객체를 변경한다. 기본 값은 False |
|  limit  |      값을 앞 혹은 뒤에서부터 몇 개까지 채울지를 지정한다.      |

In [193]:
df

Unnamed: 0,0,1,2
0,0.601538,,
1,0.594531,,
2,0.543365,,
3,-1.352048,,1.158707
4,-0.247032,,0.628429
5,-0.541036,-1.085965,0.369512
6,0.270107,-0.054143,-0.49423


In [194]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.601538,0.0,0.0
1,0.594531,0.0,0.0
2,0.543365,0.0,0.0
3,-1.352048,0.0,1.158707
4,-0.247032,0.0,0.628429
5,-0.541036,-1.085965,0.369512
6,0.270107,-0.054143,-0.49423


In [195]:
# fillna에 사전 값을 넘겨서 각 칼럼마다 다른 값을 채워넣을 수도 있다.
df.fillna({1: 0.5, 2 : -1})

Unnamed: 0,0,1,2
0,0.601538,0.5,-1.0
1,0.594531,0.5,-1.0
2,0.543365,0.5,-1.0
3,-1.352048,0.5,1.158707
4,-0.247032,0.5,0.628429
5,-0.541036,-1.085965,0.369512
6,0.270107,-0.054143,-0.49423


In [196]:
# fillna는 새로운 객체를 반환하지만 다음처럼 기존 객체를 변경할 수도 있다.
print(df)
df.fillna(0, inplace = True)
print(df)

          0         1         2
0  0.601538       NaN       NaN
1  0.594531       NaN       NaN
2  0.543365       NaN       NaN
3 -1.352048       NaN  1.158707
4 -0.247032       NaN  0.628429
5 -0.541036 -1.085965  0.369512
6  0.270107 -0.054143 -0.494230
          0         1         2
0  0.601538  0.000000  0.000000
1  0.594531  0.000000  0.000000
2  0.543365  0.000000  0.000000
3 -1.352048  0.000000  1.158707
4 -0.247032  0.000000  0.628429
5 -0.541036 -1.085965  0.369512
6  0.270107 -0.054143 -0.494230


In [197]:
# 재색인에서 사용 가능한 보간 메서드는 fillna 메서드에서도 사용이 가능하다.
df = pd.DataFrame(np.random.randn(6,3))
df

Unnamed: 0,0,1,2
0,0.230487,1.299863,0.310775
1,2.028703,1.862716,0.311918
2,-1.067707,0.329972,-1.534722
3,0.025576,-0.926283,-1.517993
4,0.084918,0.579112,0.793502
5,-1.463099,0.866153,0.898677


In [198]:
df.ix[2:,1] = np.nan ; df.ix[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.230487,1.299863,0.310775
1,2.028703,1.862716,0.311918
2,-1.067707,,-1.534722
3,0.025576,,-1.517993
4,0.084918,,
5,-1.463099,,


In [199]:
print(df.fillna(method = 'ffill'))
print(df.fillna(method = 'ffill', limit = 2))

          0         1         2
0  0.230487  1.299863  0.310775
1  2.028703  1.862716  0.311918
2 -1.067707  1.862716 -1.534722
3  0.025576  1.862716 -1.517993
4  0.084918  1.862716 -1.517993
5 -1.463099  1.862716 -1.517993
          0         1         2
0  0.230487  1.299863  0.310775
1  2.028703  1.862716  0.311918
2 -1.067707  1.862716 -1.534722
3  0.025576  1.862716 -1.517993
4  0.084918       NaN -1.517993
5 -1.463099       NaN -1.517993


In [200]:
# 누락된 값 대신에 칼럼의 평균값 채우기
df.fillna({1: df[1].mean(), 2 : df[2].mean()})

Unnamed: 0,0,1,2
0,0.230487,1.299863,0.310775
1,2.028703,1.862716,0.311918
2,-1.067707,1.58129,-1.534722
3,0.025576,1.58129,-1.517993
4,0.084918,1.58129,-0.607505
5,-1.463099,1.58129,-0.607505


## 5. 계층적 색인
축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다. 약간 추상적으로 말하면 차원이 높은 (고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능이다.

#### Series의 경우

In [201]:
data = pd.Series(np.random.randn(10), index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], 
                                               [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

a  1    1.599065
   2    0.406075
   3    0.679512
b  1    0.436504
   2   -1.954743
   3    0.149216
c  1   -0.491567
   2    0.511821
d  2    1.292522
   3   -1.041177
dtype: float64

In [202]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

In [203]:
# 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인으로 접근하는 것이 가능하다.
data['b']

1    0.436504
2   -1.954743
3    0.149216
dtype: float64

In [204]:
data['b':'c']

b  1    0.436504
   2   -1.954743
   3    0.149216
c  1   -0.491567
   2    0.511821
dtype: float64

In [205]:
data.ix[['b', 'd']]

b  1    0.436504
   2   -1.954743
   3    0.149216
d  2    1.292522
   3   -1.041177
dtype: float64

In [206]:
# 하위 계층의 객체를 선택하는 것도 가능하다.
data[:,2]

a    0.406075
b   -1.954743
c    0.511821
d    1.292522
dtype: float64

In [253]:
# 계층적인 색인은 데이터를 재형성하고 피벗 테이블 생성 같은 그룹 기반의 작업을 할 때 주로 활용된다.
data.unstack()

Unnamed: 0,1,2,3
a,1.599065,0.406075,0.679512
b,0.436504,-1.954743,0.149216
c,-0.491567,0.511821,
d,,1.292522,-1.041177


In [208]:
data.unstack().stack()

a  1    1.599065
   2    0.406075
   3    0.679512
b  1    0.436504
   2   -1.954743
   3    0.149216
c  1   -0.491567
   2    0.511821
d  2    1.292522
   3   -1.041177
dtype: float64

#### DataFrame의 경우
두 축 모두 계층적 색인을 가질 수 있다.

In [209]:
frame = pd.DataFrame(np.arange(12).reshape((4,3)), 
                      index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                      columns = [['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [210]:
# 계층적 색인의 각 단계는 이름(문자열이나 어떤 파이썬 객체라도 가능하다)을 가질 수 있다.
frame.index.names = ['key1', 'key2']
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [211]:
frame.columns.names = ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [212]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [213]:
# MultiIndex는 따로 생성한 다음에 재사용이 가능하다. 위에서 살펴본 DataFrame의 칼럼 계층의 이름은 다음처럼 생성할 수 있다.
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']], names = ['state', 'color'])

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

### 5.1 계층 순서 바꾸고 정렬하기
계층적 색인에서 계층 순서를 바꾸거나 지정된 계층에 따라 데이터를 정렬해야 하는 경우도 있다. swaplevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환한다.(데이터는 변경되지 않는다.) 반면에 sortlevel 메서드는 단일 계층에 속한 데이터를 정렬한다. swaplevel을 사용해서 계층을 바꿀 때 대개는 sortlevel을 사용해서 결과도 사전식으로 정렬한다.

In [214]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [215]:
# swaplevel 메서드 예제
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [216]:
# sortlevel 메서드 예제
frame.sortlevel(axis = 1)

Unnamed: 0_level_0,state,Colorado,Ohio,Ohio
Unnamed: 0_level_1,color,Green,Green,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,2,0,1
a,2,5,3,4
b,1,8,6,7
b,2,11,9,10


In [217]:
frame.swaplevel('key2', 'key1').sortlevel(axis = 0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


### 5.2 단계별 요약통계
DataFrame과 Series의 많은 기술통계와 요약통계는 level 옵션을 가지고 있는데, 이는 어떤한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션이다. DataFrame에서 로우나 칼럼을 단계별로 정렬하여 합을 구할 수 있다.(내부적으로 pandas의 groupby 기능을 이용하여 구현된 것이다.)

In [218]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [219]:
frame.sum(level = 'key1')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,3,5,7
b,15,17,19


In [220]:
frame.sum(level = 'color', axis = 1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


###  5.3 DataFrame의 칼럼 사용하기
* set_index 메서드는 하나 이상의 칼럼을 색인으로 하는 새로운 DataFrame을 생성한다. (long format -> wide format 변경)
* reset_index 메서드는 계층적 색인 단계가 칼럼으로 이동한다. (wide format -> long format 변경)

In [221]:
frame = pd.DataFrame({'a' : range(7), 'b' : range(7, 0, -1), 'c' : ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                      'd' : [0, 1, 2, 0, 1, 2, 3]})
frame # long format

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [222]:
frame2 = frame.set_index(['c', 'd']) # long foramt -> wide foramt
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [223]:
frame.set_index(['c', 'd'], drop = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [224]:
frame2.reset_index() # wide format -> long foramt

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 6. pandas와 관련된 기타 주제
### 6.1 정수 색인
pandas 객체를 정수로 색인해서 사용하는 일은 파이썬에서 리스트나 튜플 같은 기본 자료구조에서 사용되는 색인의 의미와 약간 다르다. <br>
만일 색인의 종류에 상관없이 위치 기반의 색인이 필요하다면 Series의 iget_value 메서드 **(iloc 메서드로 해당 위치기반 색인에 접근)** DataFrame의 irow, icol 메서드를 사용하면 된다.**(iloc 메서드로 해당 위치기반 색인에 접근)**

In [225]:
# Series가 정수 색인를 가지고 있는데, -1로 마지막에서 첫번째 원소를 선택하려고 하면 오류가 난다.
ser = pd.Series(np.arange(3))
ser 

0    0
1    1
2    2
dtype: int32

In [226]:
ser[-1] # 오류난다.

KeyError: -1

In [227]:
# 정수 색인이 아니라면 위와 같은 오류는 나지않는다.
ser2 = pd.Series(np.arange(3), index = ['a', 'b', 'c'])
ser2

a    0
b    1
c    2
dtype: int32

In [228]:
ser2[-1]

2

In [229]:
ser.ix[:1]

0    0
1    1
dtype: int32

In [230]:
ser2.iget_value

<bound method Series.iget_value of a    0
b    1
c    2
dtype: int32>

In [231]:
ser2.iloc[0]

0

In [232]:
frame = pd.DataFrame(np.arange(6).reshape(3,2), index = [2,0,1])
frame

Unnamed: 0,0,1
2,0,1
0,2,3
1,4,5


In [233]:
frame.irow

<bound method DataFrame.irow of    0  1
2  0  1
0  2  3
1  4  5>

In [234]:
frame.iloc[0]

0    0
1    1
Name: 2, dtype: int32

### 6.2 Panel 데이터
Panel은 DataFrame의 3차원 버전으로 이해하면 쉽게 이해할 수 있으나 계층적 색인을 이용하면 대개의 N차원 배열은 불필요하므로 간단히 소개한다.

In [244]:
import pandas.io.data as web
pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk)) for stk in ['AAPL', 'GOOG', 'MSFT', 'DELL']))

In [245]:
pdata # 3차원 배열

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 1665 (major_axis) x 6 (minor_axis)
Items axis: AAPL to MSFT
Major_axis axis: 2010-01-04 00:00:00 to 2016-07-15 00:00:00
Minor_axis axis: Open to Adj Close

In [246]:
pdata = pdata.swapaxes('items', 'minor') # item과 minor의 축을 바꾼다.

In [247]:
pdata['Adj Close'].head(n = 10)

Unnamed: 0_level_0,AAPL,DELL,GOOG,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,28.141855,14.06528,313.062468,26.045432
2010-01-05,28.190509,14.3845,311.683844,26.053846
2010-01-06,27.742101,14.10397,303.826685,25.893956
2010-01-07,27.690818,14.2394,296.753749,25.624666
2010-01-08,27.874915,14.36516,300.709808,25.801387
2010-01-11,27.629014,14.37483,300.255255,25.47319
2010-01-12,27.314734,14.5683,294.945572,25.304883
2010-01-13,27.700023,14.57797,293.252243,25.540513
2010-01-14,27.539595,14.22005,294.630868,26.053846
2010-01-15,27.079353,13.92985,289.710772,25.969694


In [248]:
# ix 메서드를 이용한 라벨 색인을 통한 접근은 3차원에도 일반화되어 특정 날짜나 어떤 기간 동안의 모든 데이터를 다음처럼 선택할 수 있다.
pdata.ix[:, '6/1/2012', :]

Unnamed: 0,Open,High,Low,Close,Volume,Adj Close
AAPL,569.159996,572.650009,560.520012,560.989983,130246900.0,73.768977
DELL,12.15,12.3,12.045,12.07,19397600.0,11.67592
GOOG,571.790972,572.650996,568.350996,570.981,6138700.0,285.205295
MSFT,28.76,28.959999,28.440001,28.450001,56634300.0,25.420428


In [249]:
pdata.ix['Adj Close', '5/22/2012':,:].head(n=5)

Unnamed: 0_level_0,AAPL,DELL,GOOG,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-05-22,73.240361,14.58765,300.100412,26.590928
2012-05-23,75.027411,12.08221,304.426106,26.010146
2012-05-24,74.338367,12.04351,301.528978,25.974404
2012-05-25,73.939925,12.05319,295.47005,25.965469
2012-05-28,,12.05319,,


In [250]:
# to_frame 메서드를 이용하여 3차원 배열을 2차원 DataFrame 쌓여있는 형탤 ㅗ변경
stacked = pdata.ix[:, '5/30/2012':, :].to_frame()

In [251]:
stacked.head(n = 12)

Unnamed: 0_level_0,Unnamed: 1_level_0,Open,High,Low,Close,Volume,Adj Close
Date,minor,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-05-30,AAPL,569.199997,579.98999,566.55999,579.169998,132357400.0,76.15961
2012-05-30,DELL,12.59,12.7,12.46,12.56,19787800.0,12.14992
2012-05-30,GOOG,588.161028,591.901014,583.530999,588.230992,3827600.0,293.821674
2012-05-30,MSFT,29.35,29.48,29.120001,29.34,41585500.0,26.215653
2012-05-31,AAPL,580.740021,581.499985,571.460022,577.730019,122918600.0,75.970256
2012-05-31,DELL,12.53,12.54,12.33,12.33,19955600.0,11.92743
2012-05-31,GOOG,588.720982,590.001032,579.001013,580.86099,5958800.0,290.140354
2012-05-31,MSFT,29.299999,29.42,28.940001,29.190001,39134000.0,26.081627
2012-06-01,AAPL,569.159996,572.650009,560.520012,560.989983,130246900.0,73.768977
2012-06-01,DELL,12.15,12.3,12.045,12.07,19397600.0,11.67592


In [252]:
# to_panel 메서드로 3차원 Panel로 변환
stacked.to_panel()

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 1052 (major_axis) x 4 (minor_axis)
Items axis: Open to Adj Close
Major_axis axis: 2012-05-30 00:00:00 to 2016-07-15 00:00:00
Minor_axis axis: AAPL to MSFT