In [16]:
import pandas as pd
import numpy as np

In [17]:
# 나쁜 방식
index = [('California', 2000), ('California', 2010),('New York', 2000)
         , ('New York', 2010),('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,18976457, 19378102,20851820, 25145561]
pop = pd.Series(populations, index=index) # 다중 인덱스를 기반으로 시리즈
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [18]:
pop[('California', 2010):('Texas', 2000)] # 다중 인덱스를 기반으로 시리즈를 인덱싱하거나 슬라이싱

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

In [5]:
pop[[i for i in pop.index if i[1] == 2010]] # 2010년도의 데이터만 가져오기 위해서는 다소 지져분하게 작성하게 된다.
# 원하는 결과를 내주기는 하지만 지금까지 사용해온 Pandas의 슬라이싱 구분만큼 깔끔하지도 않고 대규모 데이터의 경우에는 효율적이지도 않다.

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

In [26]:
# 멀티 index로 나은 방식
index = pd.MultiIndex.from_tuples(index) # 튜플로부터 다중 인덱스를 생성할 수 있다
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [27]:
pop = pop.reindex(index) # Series 표현의 첫 두 열은 다중 인덱스 값을 보여주고, 세번째 열은 그 데이터를 보여준다
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [9]:
pop[:, 2010] # 두 번째 인덱스가 2010인 모든 데이터에 접근

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [10]:
# 다중 인덱스를 가진 Series를 전형적인 인덱스를 가진 DataFrame 으로 빠르게 변환해준다
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [11]:
# 반대로 DataFrame을 Series로 변경할 수 있다.
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [13]:
# 계층적인덱스가 필요한 이유는 예제 처럼 3차 또는 4차 인덱스를 필요로 할 때가 있어서 이다.
pop_df = pd.DataFrame({'total': pop,'under18': [9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [15]:
#유니버설 함수와 다른 기능들도 계층적 인덱스와 잘 동작한다.
# 연도별로 18세 이하의 인구 비율을 계산
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


In [16]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.212553,0.194266
a,2,0.708574,0.32628
b,1,0.833143,0.225361
b,2,0.54587,0.72085


In [23]:
# 튜플을 키로 갖는 딕셔러리를 전달하면 Pandas는 자동으로 이것을 인식해 기본으로  MultiIndex 를 사용
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)


California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

In [18]:
# 명시적으로 MultiIndex 를 생성
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [19]:
#각 점의 여러 인덱스 값을 제공하는 튜플 리스트로부터 생성
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [20]:
# 단일 인덱스의 데카르트 곱(Cartesian  product)으로부터 MultiIndex를 생성할 
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [28]:
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [25]:
#MultiIndex의 레벨에 이름을 지정
pop.index.names = ['state', 'year']
pop


state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [58]:
# DataFrame에서 행과 열은 완전히 대칭적이며 행이 인덱스의 여러 레벨을 가질 수 있듯이 열도 여러 레벨을 가질 수 있다
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],names=['subject', 'type'])

In [54]:
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37
data

array([[45. , 36.4, 46. , 35.8, 37. , 37. ],
       [20. , 37.1, 44. , 37.5, 50. , 37.1],
       [24. , 36.7, 57. , 34.9, 66. , 38. ],
       [30. , 36. , 42. , 37.1, 36. , 35.9]])

In [14]:
# 기본적으로 4차원 데이터로, 여기서 차원은 대상(subject), 측정 유형(type), 연도(year), 방문횟수(visit)다.
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

NameError: name 'columns' is not defined

In [60]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,46.0,35.8
2013,2,44.0,37.5
2014,1,57.0,34.9
2014,2,42.0,37.1


In [15]:
#  MultiIndex인덱싱 및 슬라이싱

# 다중 인덱스를 가진 Series
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [62]:
# 인덱싱해서 단일 요소에 접근할 수 있다.
pop['California', 2000]

33871648

In [63]:
# MultiIndex는 부분인덱싱(parial indexing)이나 인덱스 레벨 중 하나만 인덱싱하는 것도 지원한다
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [64]:
#MultiIndex가 정렬돼 있다면 부분 슬라이싱도 가능하다
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [65]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [66]:
# 부울 마스크를 이용해 데이터를 선택할 수 있다
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [67]:
# 팬시 인덱싱(fancy Indexing)을 이용한 데이터 선택도 가능하다
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

In [68]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,45.0,36.4,46.0,35.8,37.0,37.0
2013,2,20.0,37.1,44.0,37.5,50.0,37.1
2014,1,24.0,36.7,57.0,34.9,66.0,38.0
2014,2,30.0,36.0,42.0,37.1,36.0,35.9


In [69]:
health_data['Guido', 'HR']

year  visit
2013  1        46.0
      2        44.0
2014  1        57.0
      2        42.0
Name: (Guido, HR), dtype: float64

In [70]:
health_data.iloc[:2, :2]  # 처음부터 2개의 행과 2개의 열을 가져오게 된다.

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,45.0,36.4
2013,2,20.0,37.1


In [71]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        45.0
      2        20.0
2014  1        24.0
      2        30.0
Name: (Bob, HR), dtype: float64

In [72]:
# 슬라이스를 명시적으로 만들려면 IndexSlice객체를 사용하는 것이 더 낫다
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,45.0,46.0,37.0
2014,1,24.0,57.0,66.0


In [7]:
# 다중 인덱스 재정렬하기
# 인덱스가 사전적으로 정렬돼 있지 않은 다중 인덱스를 갖는 간단한 데이터
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.918492
      2      0.141086
c     1      0.258869
      2      0.323239
b     1      0.123566
      2      0.704392
dtype: float64

In [11]:
data['a':'b']
# index가 정렬되어 있지 않아 인덱스를 부분 슬라이싱하려고 하면 오류가 발생한다

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [9]:
# index가 정렬되어 있지 않아 인덱스를 부분 슬라이싱하려고 하면 오류가 발생한다
try:
     data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)
# MultiIndex가 정렬되지 않아서 나타나는 결과다
#여러가지 이유로 부분 슬라이스와 그와 유사한 다른 연산을 수행하려면 MultiIndex의 레벨이 정렬된(즉, 사전적)순서를 가져야 한다

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [77]:
data = data.sort_index()
data

char  int
a     1      0.216816
      2      0.019388
b     1      0.206153
      2      0.872018
c     1      0.718495
      2      0.648905
dtype: float64

In [78]:
data['a':'b']

char  int
a     1      0.216816
      2      0.019388
b     1      0.206153
      2      0.872018
dtype: float64

In [79]:
# 인덱스 스태킹 및 언스태킹
# 데이터를 정렬된 다중 인덱스에서 간단한 2차원 표현으로 변경할 수 있으며, 이때 선택적으로 사용할 레벨을 지정할 수 있다
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [81]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [83]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [84]:
# 인덱스 설정 및 재설정
# 계층적 데이터를 재정렬하는 다른 방법으로는 인덱스 레이블을 열로 바꾸는 것
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [86]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


In [87]:
# 원시 입력 데이터를  열 값으로부터 MultiIndex를 만드는 것이 유용하다
# DataFrame의 set_index메서드로 할 수 있다
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


In [88]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,45.0,36.4,46.0,35.8,37.0,37.0
2013,2,20.0,37.1,44.0,37.5,50.0,37.1
2014,1,24.0,36.7,57.0,34.9,66.0,38.0
2014,2,30.0,36.0,42.0,37.1,36.0,35.9


In [90]:
# 다중 인덱스에서 데이터 집계
# Pandas가 기본적으로 mean (), sum(), max()와 같은 데이터  집계 메서드를 제공
# 해마다 두 번의 방문에서 얻은 측정치의 평균을 구하려고 한다
data_mean = health_data.mean(level='year')
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,32.5,36.75,45.0,36.65,43.5,37.05
2014,27.0,36.35,49.5,36.0,51.0,36.95


In [91]:
# axis키워드를 사용해 열의 레벨 간 평균을 취할 수도  있다
data_mean.mean(axis=1, level='type')

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,40.333333,36.816667
2014,42.5,36.433333
