## 예제 4-10 멀티인덱스를 이용한 시리즈 활용 

In [1]:
import pandas as pd

In [None]:
index = [
    
]

In [None]:
mul_index = pd.MultiIndex.from_tuples(index)

In [139]:
populations = [ 30000,37000, 18970, 19370, 20850, 25140]

In [140]:
pop = pd.Series(populations, index=mul_index)

In [141]:
pop

서울  2008    30000
    2010    37000
부산  2008    18970
    2010    19370
인천  2008    20850
    2010    25140
dtype: int64

In [142]:
pop['서울']

2008    30000
2010    37000
dtype: int64

In [143]:
pop['서울',2008]

30000

In [144]:
pop[:, 2010]

서울    37000
부산    19370
인천    25140
dtype: int64

In [145]:
# 문자열 인덱스인 경우 정렬이 되어 있지않다면 슬라이싱 연산이 불가능하다.
try :
    pop["서울" : "인천"]
except Exception as e :
    print(e)

'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [146]:
# sort => 정렬
# 슬라이싱 연산을 하기 위해서는 인덱스 정렬이 필요하다.
pop = pop.sort_index()

In [147]:
pop["서울" : "인천"]

서울  2008    30000
    2010    37000
인천  2008    20850
    2010    25140
dtype: int64

In [148]:
# 행 인덱스 정보를 index.names에 직접 지정 할 수 있다.
pop.index.names = ['시','년도']

In [47]:
pop

시   년도  
부산  2008    18970
    2010    19370
서울  2008    30000
    2010    37000
인천  2008    20850
    2010    25140
dtype: int64

In [151]:
df = pd.DataFrame(pop,columns=['인구수'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수
시,년도,Unnamed: 2_level_1
부산,2008,18970
부산,2010,19370
서울,2008,30000
서울,2010,37000
인천,2008,20850
인천,2010,25140


In [154]:
df.loc['부산',:]

Unnamed: 0_level_0,인구수
년도,Unnamed: 1_level_1
2008,18970
2010,19370


In [160]:
#2010 년도 인구수 집계하려면?
# 데이터 프레임워크에서는 2010 인덱스로 바로 접근이 불가능하다.
#df[2010,:]

In [158]:
# 시리즈로 가져와서 부분합을 구할수있다.
df['인구수'][:,2010]

시
부산    19370
서울    37000
인천    25140
Name: 인구수, dtype: int64

In [161]:
# 데이터 프레임으로 보고 싶다면 시리즈의 분석결과를 다시 데이터 프레임으로 만들어 분석할 수 있다.
analysis = pd.DataFrame(df['인구수'][:,2010])
analysis

Unnamed: 0_level_0,인구수
시,Unnamed: 1_level_1
부산,19370
서울,37000
인천,25140


## 예제 4-11 멀티인덱스를 이용한 데이터프레임  활용 

In [190]:
r_inx = pd.MultiIndex.from_product([[2017,2018],[1,2]], names=['년도','과제점수'])

In [191]:
r_inx

MultiIndex([(2017, 1),
            (2017, 2),
            (2018, 1),
            (2018, 2)],
           names=['년도', '과제점수'])

In [192]:
c_inx = pd.MultiIndex.from_product([['철수','영희','지원'],['컴공','경제']], names=['학생','학과'])

In [193]:
c_inx

MultiIndex([('철수', '컴공'),
            ('철수', '경제'),
            ('영희', '컴공'),
            ('영희', '경제'),
            ('지원', '컴공'),
            ('지원', '경제')],
           names=['학생', '학과'])

In [194]:
import numpy as np

In [195]:
data = np.round(np.abs(np.random.randn(4,6)),1)

In [196]:
data

array([[0.1, 1.4, 1.8, 0.8, 0.2, 0.5],
       [0.4, 0.2, 0.5, 0.8, 0.8, 1.4],
       [1.4, 0.3, 0.7, 0.4, 0.9, 0.1],
       [1.1, 0.2, 0.2, 0.2, 0.8, 0.6]])

In [197]:
study_data = pd.DataFrame(data, index=r_inx, columns=c_inx)

In [198]:
study_data

Unnamed: 0_level_0,학생,철수,철수,영희,영희,지원,지원
Unnamed: 0_level_1,학과,컴공,경제,컴공,경제,컴공,경제
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.1,1.4,1.8,0.8,0.2,0.5
2017,2,0.4,0.2,0.5,0.8,0.8,1.4
2018,1,1.4,0.3,0.7,0.4,0.9,0.1
2018,2,1.1,0.2,0.2,0.2,0.8,0.6


In [199]:
study_data.index

MultiIndex([(2017, 1),
            (2017, 2),
            (2018, 1),
            (2018, 2)],
           names=['년도', '과제점수'])

In [200]:
study_data.columns

MultiIndex([('철수', '컴공'),
            ('철수', '경제'),
            ('영희', '컴공'),
            ('영희', '경제'),
            ('지원', '컴공'),
            ('지원', '경제')],
           names=['학생', '학과'])

In [201]:
study_data.index[0]

(2017, 1)

In [202]:
study_data.index[1]

(2017, 2)

In [203]:
study_data.index.names[0]

'년도'

In [204]:
study_data.index.names[1]

'과제점수'

In [205]:
study_data.values

array([[0.1, 1.4, 1.8, 0.8, 0.2, 0.5],
       [0.4, 0.2, 0.5, 0.8, 0.8, 1.4],
       [1.4, 0.3, 0.7, 0.4, 0.9, 0.1],
       [1.1, 0.2, 0.2, 0.2, 0.8, 0.6]])

In [206]:
study_data['지원']

Unnamed: 0_level_0,학과,컴공,경제
년도,과제점수,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,1,0.2,0.5
2017,2,0.8,1.4
2018,1,0.9,0.1
2018,2,0.8,0.6


In [207]:
study_data['지원','컴공']

년도    과제점수
2017  1       0.2
      2       0.8
2018  1       0.9
      2       0.8
Name: (지원, 컴공), dtype: float64

In [208]:
study_data.loc[:, ('지원','컴공')]

년도    과제점수
2017  1       0.2
      2       0.8
2018  1       0.9
      2       0.8
Name: (지원, 컴공), dtype: float64

#### 멀티 인덱스를 사용할 경우 pd.IndexSlice를 사용해서 슬라이스를 만들어서 처리

       . loc[ 행, 열] 로 표시하므로 멀티 인덱스 자체가 행과 열을 구성
       . 멀티 인덱스 내의 특정 정보를 가져오려고 해도 슬라이스로 처리가 필요

In [210]:
study_data

Unnamed: 0_level_0,학생,철수,철수,영희,영희,지원,지원
Unnamed: 0_level_1,학과,컴공,경제,컴공,경제,컴공,경제
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.1,1.4,1.8,0.8,0.2,0.5
2017,2,0.4,0.2,0.5,0.8,0.8,1.4
2018,1,1.4,0.3,0.7,0.4,0.9,0.1
2018,2,1.1,0.2,0.2,0.2,0.8,0.6


In [209]:
try :
    analysis_ky = study_data.loc[:2018, '철수':'영희']
except Exception as e :
    print(e)
analysis_ky

'Key length (1) was greater than MultiIndex lexsort depth (0)'


년도,과제점수
2017,1
2017,2
2018,1
2018,2


In [211]:
study_data = study_data.sort_index(axis=1)

In [212]:
study_data

Unnamed: 0_level_0,학생,영희,영희,지원,지원,철수,철수
Unnamed: 0_level_1,학과,경제,컴공,경제,컴공,경제,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.8,1.8,0.5,0.2,1.4,0.1
2017,2,0.8,0.5,1.4,0.8,0.2,0.4
2018,1,0.4,0.7,0.1,0.9,0.3,1.4
2018,2,0.2,0.2,0.6,0.8,0.2,1.1


In [213]:
try :
    analysis_ky = study_data.loc[:2018, '철수':'영희']
except Exception as e :
    print(e)
analysis_ky
# 열이름이 정렬이 되었기 때문에 에러는 발생하지 않지만 조회는 되지 않는다.

년도,과제점수
2017,1
2017,2
2018,1
2018,2


In [215]:
study_data.loc[:2018, '영희':'지원']

Unnamed: 0_level_0,학생,영희,영희,지원,지원
Unnamed: 0_level_1,학과,경제,컴공,경제,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2017,1,0.8,1.8,0.5,0.2
2017,2,0.8,0.5,1.4,0.8
2018,1,0.4,0.7,0.1,0.9
2018,2,0.2,0.2,0.6,0.8


In [216]:
# IndexSlice 속성을 사용하면 복합인덱스 차원에 맞게 검색이 가능하다.
study_data.loc[pd.IndexSlice[:,1], pd.IndexSlice[:, '컴공']]

Unnamed: 0_level_0,학생,영희,지원,철수
Unnamed: 0_level_1,학과,컴공,컴공,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2017,1,1.8,0.2,0.1
2018,1,0.7,0.9,1.4


In [217]:
study_data.index

MultiIndex([(2017, 1),
            (2017, 2),
            (2018, 1),
            (2018, 2)],
           names=['년도', '과제점수'])

In [218]:
study_data.index.levels[0].dtype

dtype('int64')

In [219]:
study_data.index.levels[1].dtype

dtype('int64')

In [220]:
study_data.xs((2017,1))

학생  학과
영희  경제    0.8
    컴공    1.8
지원  경제    0.5
    컴공    0.2
철수  경제    1.4
    컴공    0.1
Name: (2017, 1), dtype: float64

In [221]:
study_data.xs(2017)

학생,영희,영희,지원,지원,철수,철수
학과,경제,컴공,경제,컴공,경제,컴공
과제점수,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,0.8,1.8,0.5,0.2,1.4,0.1
2,0.8,0.5,1.4,0.8,0.2,0.4


In [222]:
study_data.columns.levels[0].dtype

dtype('O')

In [223]:
study_data.columns.levels[1].dtype

dtype('O')

In [224]:
study_data.xs(('지원','컴공'), axis=1)

년도    과제점수
2017  1       0.2
      2       0.8
2018  1       0.9
      2       0.8
Name: (지원, 컴공), dtype: float64