## 정렬과 순위

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [2]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])

* 로우나 컬럼의 색인을 알파벳 순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용한다.

In [3]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

* DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [4]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [5]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [6]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [7]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


* 내림차순으로 정렬할 수도 있다.

In [8]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [9]:
array = np.array([5, 6, 7, 8, 1, 9, 10, 15])

In [10]:
array

array([ 5,  6,  7,  8,  1,  9, 10, 15])

In [11]:
frame1 = DataFrame(array.reshape(2, 4),
                   index=['c', 'a'], columns=['dd', 'aa', 'cc', 'bb'])

In [12]:
frame1

Unnamed: 0,dd,aa,cc,bb
c,5,6,7,8
a,1,9,10,15


In [13]:
frame1.sort_index()

Unnamed: 0,dd,aa,cc,bb
a,1,9,10,15
c,5,6,7,8


In [14]:
frame1.sort_index(axis=1)

Unnamed: 0,aa,bb,cc,dd
c,6,8,7,5
a,9,15,10,1


- Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용한다.

In [15]:
obj = Series([4, 7, -3, 2])

In [16]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

- 정렬할 때 비어있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.

In [17]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [18]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

- DataFrame에서는 컬럼에 있는 값으로 정렬이 필요할 수 있다.
- by 옵션에 정렬이 필요한 컬럼의 이름을 넘긴다.

In [19]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [20]:
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [21]:
frame.sort_values(by='b')

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


- 여러 개의 컬럼을 정렬하려면 컬럼의 이름이 담긴 리스트를 전달한다.

In [22]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


- 순위는 정렬과 거의 유사하다.
- 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다.
- numpy.argsort에서 반환하는 간접 정렬 색인과 유사하지만 동률인 순위를 처리하는 방식이 다르다.
- 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [23]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [24]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

- 데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.

In [25]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

- 내림차순으로 순위를 매길 수도 있다.

In [26]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

* method='min'을 사용하는 것이 가장 예상과 가까운 결과를 얻을 수 있다.

In [27]:
obj.rank(method='min')

0    6.0
1    1.0
2    6.0
3    4.0
4    3.0
5    2.0
6    4.0
dtype: float64

- DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수 있다.

In [28]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})

In [29]:
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [30]:
frame.rank(axis=1)

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


- average: 기본값, 같은 값을 가지는 항목의 평균 값을 순위로 삼는다.
- min: 같은 값을 가지는 그룹을 낮은 순위로 매긴다.
- max: 같은 값을 가지는 그룹을 높은 순위로 매긴다.
- first: 데이터 내에서 위치에 따라 순위를 매긴다.

## 중복 색인

In [31]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [32]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

- 색인의 is_unique 속성은 해당 값이 유일하면 True 유일하지 않다면 False를 반환한다.

In [33]:
obj.index.is_unique

False

- 중복되는 색인 값이 있으면 색인을 이용한 데이터 선택은 Series 객체를 반환한다.
- 중복되는 색인 값이 없으면 색인을 이용한 데이터 선택은 스칼라 값을 반환한다.

In [34]:
obj['a']

a    0
a    1
dtype: int64

In [35]:
obj['c']

4

- DataFrame에서 row를 선택하는 것도 동일하다.

In [36]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [37]:
df

Unnamed: 0,0,1,2
a,-0.865834,0.442142,0.492779
a,1.248269,0.134559,1.119651
b,-0.108997,1.05983,-0.676641
b,1.801773,1.550487,-1.667632


In [38]:
df.loc['a']

Unnamed: 0,0,1,2
a,-0.865834,0.442142,0.492779
a,1.248269,0.134559,1.119651


## 기술통계 계산과 요약

- pandas 객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있다.
- 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속한다.
- numpy 배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계되었다.

In [39]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index = ['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [40]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


- DafaFrame의 sum 메서드를 호출하면 각 칼럼의 합을 담은 Series를 반환한다.

In [41]:
df.sum()

one    9.25
two   -5.80
dtype: float64

* axis=1 옵션을 전달하면 로우의 합을 반환한다.

In [42]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

- NaN을 제외하는 것은 skipna 옵션으로 조정할 수 있다.

In [43]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [44]:
df.mean(axis=1)

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

- 공통적으로 사용되는 옵션은 다음과 같다.
- axis: 연산을 수행할 축. DataFrame에서 0은 로우, 1은 칼럼
- skipna: 누락된 값을 포함/제외를 설정. 기본 값은 True
- level: 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.

- idxmin, idxmax 메서드는 최소 혹은 최대 값을 가지고 있는 색인 값을 반환한다.

In [45]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [46]:
df.idxmin()

one    d
two    b
dtype: object

In [47]:
df.idxmin(axis=1)

a    one
b    two
c    NaN
d    two
dtype: object

In [48]:
df.idxmax()

one    b
two    d
dtype: object

In [49]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


- 누적합 cumsum은 skipna 옵션에 영향을 받지 않는다.

In [50]:
df.cumsum(skipna=True)

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


- describe 메서드는 한 번에 통계 결과를 여러 개 만들어 낸다.

In [51]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


- describe는 수치 데이터가 아닐 경우 다른 요약통계를 생성한다.

In [52]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [53]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [54]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

## 상관관계와 공분산 

In [55]:
import pandas as pd
from pandas_datareader import data
import fix_yahoo_finance as yf
yf.pdr_override()

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = data.get_data_yahoo(ticker, '2015-1-1', '2016-1-1')

[*********************100%***********************]  1 of 1 downloaded
[*********************100%***********************]  1 of 1 downloaded
[*********************100%***********************]  1 of 1 downloaded
[*********************100%***********************]  1 of 1 downloaded


In [56]:
all_data

{'AAPL':                   Open        High         Low       Close   Adj Close  \
 Date                                                                     
 2014-12-31  112.820000  113.129997  110.209999  110.379997  104.064095   
 2015-01-02  111.389999  111.440002  107.349998  109.330002  103.074188   
 2015-01-05  108.290001  108.650002  105.410004  106.250000  100.170403   
 2015-01-06  106.540001  107.430000  104.629997  106.260002  100.179832   
 2015-01-07  107.199997  108.199997  106.699997  107.750000  101.584587   
 2015-01-08  109.230003  112.150002  108.699997  111.889999  105.487694   
 2015-01-09  112.669998  113.250000  110.209999  112.010002  105.600815   
 2015-01-12  112.599998  112.629997  108.800003  109.250000  102.998756   
 2015-01-13  111.430000  112.800003  108.910004  110.220001  103.913254   
 2015-01-14  109.040001  110.489998  108.500000  109.800003  103.517303   
 2015-01-15  110.000000  110.059998  106.660004  106.820000  100.707787   
 2015-01-16  107.

In [57]:
# price = pd.DataFrame({tic: data['Close'] for tic, data in all_data.items()})
# volume = pd.DataFrame({tic: data['Volume'] for tic, data in all_data.items()})

In [58]:
# price.head()

In [59]:
# volume.head()

In [60]:
# returns = price.pct_change()

In [61]:
# returns.tail()

In [62]:
# returns.MSFT.corr(returns.IBM)

# returns.MSFT.cov(returns.IBM)

# returns.corr()

# returns.cov()

##  유일 값, 값 세기, 멤버십

In [63]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

- unique 함수는 Series에서 중복되는 값을 제거하고 유일 값만 담고 있는 Series를 반환한다.
- 유일 값은 정렬된 순서로 반환되지 않지만 uniques.sort() 등으로 정렬할 수 있다.

In [64]:
uniques = obj.unique()

In [65]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

- value_counts는 Series에서 빈도수를 계산하여 반환한다.

In [66]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [67]:
pd.value_counts(obj.values, sort=False)

d    1
a    3
c    3
b    2
dtype: int64

- isin 메서드는 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환한다.
- Series나 DataFrame의 칼럼에서 값을 골라내고 싶을 때 유용하다.

In [68]:
mask = obj.isin(['b', 'c'])

In [69]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [70]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

* isin: Series의 각 원소가 넘겨받은 연속된 값에 속하는지를 나타내는 불리언 배열을 반환
* unique: Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환. 결과는 Series에서 발견된 순서대로 반환된다.
* value_counts: Series에서 유일 값에 대한 색인 값과 도수를 계산한다. 결과는 도수 값의 내림차순으로 정렬된다.

* DataFrame의 여러 로우에 대해 히스토그램을 구하는 경우가 있다.
- value_counts를 이용하여 DataFrame의 여러 로우에 대한 히스토그램을 구할 수 있다.

In [71]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})

In [72]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [73]:
result = data.apply(pd.value_counts).fillna(0)

In [74]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


- value_counts 메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있기 때문에 fillna(0) 함수를 이용하여 비어있는 값은 0으로 채운다.

## 누락된 데이터 처리하기

* pandas의 설계 목표 중 하나는 누락 데이터를 가능한 한 쉽게 처리할 수 있도록 하는 것이다.
* 예를들어 pandas 객체의 모든 기술통계는 누락된 데이터를 배제하고 처리한다.
* pandas는 누락된 모든 데이터를 NaN으로 취급한다.

In [75]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [76]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [77]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

- 파이썬의 None 값도 NaN으로 취급한다.

In [78]:
string_data[0] = None

In [79]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

- NA 처리 메서드
- dropna 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다.
- fillna 누락된 데이터를 대신할 값을 채우거나 ffill, bfill 같은 보간 메서드를 적용할 수 있다.
- isnull 누락되거나 NA인 값을 알려주는 불리언 값이 저장된 같은 형의 객체를 반환한다.
- notnull isnull과 반대 메서드

## 누락된 데이터 골라내기

In [80]:
from numpy import nan as NA

In [81]:
data = Series([1, NA, 3.5, NA, 7])

- dropna를 사용하면 실제 데이터가 들어있는 색인 값과 데이터를 Series 값으로 반환한다.

In [82]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

- 불리언 색인을 이용해서 직접 계산하는 것도 가능하다.

In [83]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

- DataFrame의 경우 모두 NA인 로우나 컬럼을 제외하던가 하나로도 NA인 값을 포함하고 있는 로우나 컬럼을 제외시킬 수도 있다.
- dropna는 기본적으로 NA 값이 하나라도 있는 로우는 제외시킨다.

In [84]:
data = DataFrame([[1, 6.5, 3], [1, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])

In [85]:
cleaned = data.dropna()

In [86]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [87]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


- how='all' 옵션을 주면 모든 값이 NA인 로우만 제외한다.

In [88]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [89]:
data[4] = NA

In [90]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


- 칼럼을 제외시키는 방법은 옵션을 axis = 1을 주면 로우를 제외시키는 것과 동일한 방식으로 동작한다.

In [91]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


- DataFrame의 로우를 제외시키는 방법은 주로 시계열 데이터에 사용되는 경향이 있다.
- 몇 개 이상의 값이 들어있는 로우만 살펴보고 싶다면 thresh 인자에 원가는 값을 넘긴다.

In [92]:
df = DataFrame(np.random.randn(7, 3))

In [93]:
df.iloc[:4, 1] = NA

In [94]:
df

Unnamed: 0,0,1,2
0,-1.052373,,-0.41197
1,1.746951,,-0.34655
2,-0.686166,,-0.788329
3,-2.587315,,0.816862
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


In [95]:
df.iloc[:2, 2] = NA

In [96]:
df

Unnamed: 0,0,1,2
0,-1.052373,,
1,1.746951,,
2,-0.686166,,-0.788329
3,-2.587315,,0.816862
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


In [97]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,-0.686166,,-0.788329
3,-2.587315,,0.816862
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


In [98]:
df.dropna(thresh=3)

Unnamed: 0,0,1,2
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


## 누락된 값 채우기

* fillna 메서드에 채워 넣고 싶은 값을 넘겨주면 된다.

In [99]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-1.052373,0.0,0.0
1,1.746951,0.0,0.0
2,-0.686166,0.0,-0.788329
3,-2.587315,0.0,0.816862
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


- fillna에 사전 값을 넘겨서 각 칼럼마다 다른 값을 채워 넣을 수도 있다.

In [100]:
df.fillna({1: 0.5, 3: -1})

Unnamed: 0,0,1,2
0,-1.052373,0.5,
1,1.746951,0.5,
2,-0.686166,0.5,-0.788329
3,-2.587315,0.5,0.816862
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


- fillna는 새로운 객체를 반환하지만 기존 객체를 변경할 수도 있다.

In [101]:
_ = df.fillna(0, inplace=True)

In [102]:
df

Unnamed: 0,0,1,2
0,-1.052373,0.0,0.0
1,1.746951,0.0,0.0
2,-0.686166,0.0,-0.788329
3,-2.587315,0.0,0.816862
4,0.179641,0.065361,-0.459199
5,0.191915,0.127385,-1.246686
6,1.789645,-0.198595,-1.473911


- 재색인에서 사용 가능한 보간 메서드는 fillna 메서드에서도 사용 가능하다.

In [103]:
df = DataFrame(np.random.randn(6, 3))

In [104]:
df.loc[2:, 1] = NA

In [105]:
df

Unnamed: 0,0,1,2
0,2.334556,2.660436,0.364522
1,0.071727,1.614825,0.466044
2,0.022779,,-0.430263
3,0.626103,,1.250226
4,0.005508,,0.233961
5,-0.007715,,-0.711516


In [106]:
df.iloc[4:, 2] = NA

In [107]:
df

Unnamed: 0,0,1,2
0,2.334556,2.660436,0.364522
1,0.071727,1.614825,0.466044
2,0.022779,,-0.430263
3,0.626103,,1.250226
4,0.005508,,
5,-0.007715,,


In [108]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,2.334556,2.660436,0.364522
1,0.071727,1.614825,0.466044
2,0.022779,1.614825,-0.430263
3,0.626103,1.614825,1.250226
4,0.005508,1.614825,1.250226
5,-0.007715,1.614825,1.250226


In [109]:
df.fillna(method='bfill')

Unnamed: 0,0,1,2
0,2.334556,2.660436,0.364522
1,0.071727,1.614825,0.466044
2,0.022779,,-0.430263
3,0.626103,,1.250226
4,0.005508,,
5,-0.007715,,


In [110]:
df.fillna(method='ffill', limit=1)

Unnamed: 0,0,1,2
0,2.334556,2.660436,0.364522
1,0.071727,1.614825,0.466044
2,0.022779,1.614825,-0.430263
3,0.626103,,1.250226
4,0.005508,,1.250226
5,-0.007715,,


- 조금만 창의적으로 생각하면 fillna를 이용해서 다양한 일을 할 수 있다.
- 예를 들면 Series의 평균 값이나 중간 값을 전달할 수도 있다.

In [111]:
data = Series([1, NA, 3.5, NA, 7])

In [112]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

- fillna 함수의 인자는 다음과 같다.
- value: 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체
- method: 보간 방식. 기본적으로 ffill을 사용한다.
- axis: 값을 채워 넣을 축. 기본 값은 0
- inplace: 본사본을 생성하지 않고 호출한 객체를 변경한다. 기본값은 False
- limit: 값을 앞, 뒤에서부터 몇 개까지 채울지 결정한다.

## 계층적 색인 Hierarchical indexing

- 축에 대해 다중 색인을 지정할 수 있다.

In [113]:
data = Series(np.random.randn(10),
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [114]:
data

a  1    0.977364
   2   -0.830257
   3   -1.472570
b  1    1.207880
   2    0.945203
   3    1.736838
c  1    0.068221
   2   -1.054363
d  2   -2.644025
   3   -0.893660
dtype: float64

- 위 객체는 MultiIndex를 색인으로 하는 Series
- 상위 단계의 색인을 이용해서 하위 계층을 직접 접근할 수 있다.

In [115]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

- 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인으로 접근(partial indexing)하는 것이 가능하다.

In [116]:
data['b']

1    1.207880
2    0.945203
3    1.736838
dtype: float64

In [117]:
data['b':'c']

b  1    1.207880
   2    0.945203
   3    1.736838
c  1    0.068221
   2   -1.054363
dtype: float64

In [118]:
data.loc[['b', 'c']]

b  1    1.207880
   2    0.945203
   3    1.736838
c  1    0.068221
   2   -1.054363
dtype: float64

- 하위 계층의 객체를 선택하는 것도 가능하다.

In [119]:
data[:, 2]

a   -0.830257
b    0.945203
c   -1.054363
d   -2.644025
dtype: float64

- 계층적인 색인은 데이터를 재형성하고 피벗 테이블 생성 같은 그룹 기반의 작업을 할 때 중요하게 사용된다.
- 예를들어 DataFrame 객체에 unstack 메서드를 사용하여 데이터를 새롭게 배열할 수도 있다.

In [120]:
data.unstack()

Unnamed: 0,1,2,3
a,0.977364,-0.830257,-1.47257
b,1.20788,0.945203,1.736838
c,0.068221,-1.054363,
d,,-2.644025,-0.89366


In [121]:
data.unstack().stack()

a  1    0.977364
   2   -0.830257
   3   -1.472570
b  1    1.207880
   2    0.945203
   3    1.736838
c  1    0.068221
   2   -1.054363
d  2   -2.644025
   3   -0.893660
dtype: float64

- DataFrame에서는 두 축 모두 계층적 색인을 가질 수 있다.

In [122]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])

In [123]:
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


- 계층적 색인의 각 단계는 이름(어떤 파이썬 객체라도 가능하다.)을 가질 수 있다.
- 이름이 있다면 콘솔 출력 시에 함께 나타난다.
- 색인의 이름과 축의 라벨을 혼동하지 말자.

In [124]:
frame.index.names = ['key1', 'key2']

In [125]:
frame.columns.names = ['state', 'color']

In [126]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


- 칼럼의 부분집합도 partial indexing으로 접근할 수 있다.

In [127]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


* MultiIndex는 따로 생성한 다음에 재사용이 가능하다.

In [128]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

## 계층 순서 바꾸고 정렬하기

* 계층적 색인에서 계층 순서를 바꾸거나 지정된 계층에 따라 데이터를 정렬해야 하는 경우도 있다.
* swaplevel은 넘겨받은 2개의 계층 번호나 이름이 바뀐 새로운 객체를 반환한다.
* 데이터는 변경되지 않는다.

In [129]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [130]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


* sortlevel 메서드는 단일 계층에 속한 데이터를 정렬한다.
* swaplevel을 사용해서 계층을 바꿀 때 대개는 sortlevel을 사용해서 결과도 사전식으로 정렬한다.

In [131]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [132]:
frame.sortlevel(1)

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [133]:
frame.sort_index(level=1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [134]:
frame.swaplevel('key1', 'key2').sort_index(0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


* 객체가 계층적 색인으로 상위 계층부터 사전식으로 정렬이 되어 있다면 데이터를 선택하는 성능이 훨씬 좋아진다.

## 단계별 요약통계

* DataFrame과 Series의 많은 기술통계와 요약통계는 level 옵션을 가지고 있다.
* 이것은 어떤 한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션이다.
* DataFrame에서 로우나 칼럼을 단계별로 정렬하여 합을 구할 수 있다.

In [135]:
frame.sum(level='key2')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [136]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


* 내부적으로 pandas의 groupby 기능을 이용하여 구현된다.

## DataFrame 칼럼 사용하기

In [137]:
frame = DataFrame({'a': range(7), 'b':range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})

In [138]:
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


* DataFrame의 set_index 함수는 하나 이상의 칼럼을 색인으로 하는 새로운 DataFrame을 생성한다.

In [139]:
frame2 = frame.set_index(['c', 'd'])

In [140]:
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


* 명시적으로 남겨두지 않으면 set_index에 사용된 컬럼은 삭제된다.

In [141]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


* reset_index 함수는 set_index와 반대되는 개념으로 계층적 색인 단계가 칼럼으로 이동한다.

In [142]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 정수 색인

* pandas 객체를 정수로 색인해서 사용하는 일은 파이썬에서 리스트나 튜플 같은 기본 자료 구조에서 사용되는 색인의 의미와 약간 다르다.

In [143]:
ser = Series(np.arange(3))

In [144]:
ser

0    0
1    1
2    2
dtype: int32

In [145]:
# ser[-1] # 오류발생

* 정수 색은은 사용자가 원하는 것이 위치 색인인지 이름 색인인지 알아맞히는 것은 어렵다.

In [146]:
ser2 = Series(np.arange(3), index=['a', 'b', 'c'])

In [147]:
ser2

a    0
b    1
c    2
dtype: int32

In [148]:
ser2[-1]

2

* 정수 색인이 아니라면 위치 색인과 이름 색인을 구분하기 쉽다.