# 다중 인덱스된 Series

In [1]:
import numpy as np
import pandas as pd

In [2]:
#Pandas MultiIndex
index=[('California',2000),('California',2010),
       ('New York',2000),('New York',2010),
       ('Texas',2000),('Texas',2010)]
populations=[33871648,37253956,
           18976457,19378102,
           20851820,25145561]
pop=pd.Series(populations,index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [3]:
#튜플로부터 다중 인덱스 생성 가능
#다중 레벨의 인덱싱을 포함하고 있다
index=pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [4]:
#MultiIndex를 시리즈로 다시 인덱싱하면 데이터의 계층적 표현을 볼 수 있다
pop=pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [5]:
#두 번째 인덱스가 2010인 모든 데이터에 접근하려면 간단히 Pandas 슬라이싱 표기법 사용
pop[:,2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [6]:
#Multiindex : 추가 차원
#다중 인덱스를 가진 Series를 전형적인 인덱스를 가진 DataFrame으로 빠르게 변환해주는 unstack() 메서드
pop_df=pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [7]:
#stack()메서드는 이와 반대되는 연산을 제공
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [8]:
#데이터 유형에 훨씬 더 많은 유연성을 제공
#별도의 열을 하나 추가하는 것도 쉽다
pop_df=pd.DataFrame({'total':pop,
                    'under18':[9267089,9284094,
                              4687374,4318033,
                              5906301,6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [9]:
f_u18=pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


# MultiIndex 생성 메서드

In [10]:
df=pd.DataFrame(np.random.rand(4,2),
               index=[['a','a','b','b'],[1,2,1,2]],
               columns=['data1','data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.226494,0.566866
a,2,0.002853,0.384152
b,1,0.016362,0.935526
b,2,0.45033,0.23047


In [11]:
#적당한 튜플을 키로 갖는 딕셔너리를 전달하면 Pandas는 자동으로 이것을 인식해 기본으로 MultiIndex를 사용
data={('California',2000):33871648,
      ('California',2010):37253956,
      ('New York',2000):18976457,
      ('New York',2010):19378102,
      ('Texas',2000):20851820,
      ('Texas',2010):25145561}
pd.Series(data)

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [12]:
#명시적 MultiIndex 생성자
#각 레벨 내에 인덱스 값을 제공하는 간단한 배열 리스트로부터 생성 가능
pd.MultiIndex.from_arrays([['a','a','b','b'],[1,2,1,2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [13]:
#각 점의 여러 인덱스 값을 제공하는 튜플 리스트로부터 생성 가능
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [14]:
#단일 인덱스의 데카르트 곱으로부터 생성 가능
pd.MultiIndex.from_product([['a','b'],[1,2]])
#levels(각 레벨에서 사용할 수 있는 인덱스 값을 담고 있는 리스트의 리스트) 와
#labels(이 레이블을 참조하는 리스트의 리스트) 를 전달함으로써 내부 인코딩을 사용해 직접 생성 가능

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [15]:
#MultiIndex 레벨 이름
#생성자에 names인수를 전달하거나 생성 후에 인덱스의 names속성을 설정해 이름을 지정할 수 있다
pop.index.names=['state','year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [16]:
#열의 MultiIndex
#계층적 인덱스와 열
index=pd.MultiIndex.from_product([[2013,2014],[1,2]],
                                names=['year','visit'])
columns=pd.MultiIndex.from_product([['Bob','Guido','Sue'],['HR','Temp']],
                                  names=['subject','type'])
#일부 데이터 모형 만들기
data=np.round(np.random.randn(4,6),1)
data[:,::2] *= 10
data += 37
#DataFrame 생성하기
health_data=pd.DataFrame(data,index=index,columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,39.0,38.9,33.0,35.8,21.0,36.9
2013,2,30.0,35.6,40.0,37.7,32.0,38.6
2014,1,31.0,36.4,31.0,35.4,41.0,36.5
2014,2,43.0,36.2,30.0,36.3,54.0,37.3


In [17]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,33.0,35.8
2013,2,40.0,37.7
2014,1,31.0,35.4
2014,2,30.0,36.3


# MultiIndex 인덱싱 및 슬라이싱

In [18]:
#다중 인덱스를 가진 Series
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [19]:
#여러 용어로 인덱싱해서 단일 요소에 접근 가능
pop['California',2000]

33871648

In [20]:
#부분 인덱싱이나 인덱스 레벨 중 하나만 인덱싱하는 것도 지원하고 그 결과 더 낮은 수준의 인덱스를 유지하는 다른 Series를 얻는다
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [21]:
#정렬돼 있다면 부분 슬라이싱도 가능
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [22]:
#정렬돼 있다면 첫 번째 인덱스에 빈 슬라이스를 전달함으로 더 낮은 레벨에서 부분 인덱싱을 수행
pop[:,2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [23]:
#부울 마스크를 이용해 데이터 선택 가능
pop[pop>22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [24]:
#팬시 인덱싱을 이용한 데이터 선택 가능
pop[['California','Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

In [25]:
#다중 인덱스를 가진 DataFrame
#다중 인덱스를 가진 Series에서 사용된 구문이 열에 적용된다
health_data['Guido','HR']

year  visit
2013  1        33.0
      2        40.0
2014  1        31.0
      2        30.0
Name: (Guido, HR), dtype: float64

In [26]:
health_data.iloc[:2,:2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,39.0,38.9
2013,2,30.0,35.6


In [27]:
#loc나 iloc에서 개별 인덱스는 다중 인덱스의 튜플로 전달될 수 있다
health_data.loc[:,('Bob','HR')]

year  visit
2013  1        39.0
      2        30.0
2014  1        31.0
      2        43.0
Name: (Bob, HR), dtype: float64

In [28]:
#튜플 내에 슬라이스를 생성하려고 하면 오류 발생
#예를 들어, health_data.loc[(:,1),(:,'HR')]
#IndexSlice객체를 사용
idx=pd.IndexSlice
health_data.loc[idx[:,1],idx[:,'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,39.0,33.0,21.0
2014,1,31.0,31.0,41.0


# 다중 인덱스 재정렬하기

In [29]:
#정렬된 인덱스와 정렬되지 않은 인덱스
#사전적으로 정렬돼 있지 않은 다중 인덱스
index=pd.MultiIndex.from_product([['a','c','b'],[1,2]])
data=pd.Series(np.random.rand(6),index=index)
data.index.names=['char','int']
data

char  int
a     1      0.802921
      2      0.459721
c     1      0.649153
      2      0.035111
b     1      0.705322
      2      0.200208
dtype: float64

In [30]:
#이 인덱스를 부분 슬라이싱 하면 오류가 발생한다
#부분 슬라이스와 그와 유사한 다른 연산을 수행하려면 MultiIndex의 레벨이 정렬된 순서를 가져야 한다
#DataFrame의 sort_index()와 sortlevel() 메서드 사용가능
data=data.sort_index()
data

char  int
a     1      0.802921
      2      0.459721
b     1      0.705322
      2      0.200208
c     1      0.649153
      2      0.035111
dtype: float64

In [31]:
data['a':'b']

char  int
a     1      0.802921
      2      0.459721
b     1      0.705322
      2      0.200208
dtype: float64

In [32]:
#인덱스 스태킹 및 언스태깅
#데이터를 정렬된 다중 인덱스에서 간단한 2차원 표현으로 변경할 수 있으며, 선택적으로 사용한 레벨을 지정할 수 있다

pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [33]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [34]:
#원래 시리즈로 회복
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [35]:
#인덱스 설정 및 재설정
#선택적으로 열에 표현할 데이터의 이름을 지정할 수 있다
pop_flat=pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


In [36]:
#다중 인덱스를 갖는 DatdFrame을 반환하는 set_index 메서드 사용
pop_flat.set_index(['state','year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


# 다중 인덱스에서 데이터 집계

In [37]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,39.0,38.9,33.0,35.8,21.0,36.9
2013,2,30.0,35.6,40.0,37.7,32.0,38.6
2014,1,31.0,36.4,31.0,35.4,41.0,36.5
2014,2,43.0,36.2,30.0,36.3,54.0,37.3


In [38]:
#계층적 인덱스를 가진 데이터의 셩우, 데이터의 어느 부분 집합에 대해 집계 연산을 수행할 것인지 제어하는 level 매개변수를 전달
#탐색하고자 하는 인덱스 레벨의 이름을 지정해서 할 수 있다
data_mean=health_data.mean(level='year')
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,34.5,37.25,36.5,36.75,26.5,37.75
2014,37.0,36.3,30.5,35.85,47.5,36.9


In [39]:
#axis 키워드를 사용해 열의 레벨 간 평균을 취할 수 있다
data_mean.mean(axis=1,level='type')

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,32.5,37.25
2014,38.333333,36.35
