In [1]:
import pandas as pd

## 예제 4-10 멀티인덱스를 이용한 시리즈 활용 

In [2]:
index = [
    ('서울',2008),
    ('서울',2010),
    ('부산',2008),
    ('부산',2010), 
    ('인천',2008),
    ('인천',2010)
]

In [3]:
mul_index = pd.MultiIndex.from_tuples(index)

In [4]:
mul_index

MultiIndex([('서울', 2008),
            ('서울', 2010),
            ('부산', 2008),
            ('부산', 2010),
            ('인천', 2008),
            ('인천', 2010)],
           )

In [5]:
mul_index.values

array([('서울', 2008), ('서울', 2010), ('부산', 2008), ('부산', 2010),
       ('인천', 2008), ('인천', 2010)], dtype=object)

In [6]:
mul_index.value_counts()

(서울, 2008)    1
(서울, 2010)    1
(부산, 2008)    1
(부산, 2010)    1
(인천, 2008)    1
(인천, 2010)    1
dtype: int64

In [7]:
mul_index.levels

FrozenList([['부산', '서울', '인천'], [2008, 2010]])

In [8]:
populations = [ 30000,37000, 18970, 19370, 20850, 25140]

In [9]:
pop = pd.Series(populations, index=mul_index)

In [10]:
pop

서울  2008    30000
    2010    37000
부산  2008    18970
    2010    19370
인천  2008    20850
    2010    25140
dtype: int64

In [11]:
pop['서울']

2008    30000
2010    37000
dtype: int64

In [12]:
pop['서울',2008]

30000

In [13]:
pop[:, 2010]

서울    37000
부산    19370
인천    25140
dtype: int64

In [14]:
# 문자열 인덱스인 경우 정렬이 되어 있지 않다면 슬라이싱 연산이 불가능하다.
try :
    pop["서울" : "인천"]
except Exception as e :
    print(e)

'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [15]:
# 슬라이싱 연산을 하기 위해서는 인덱스 정렬이 필요하다.
# 단, 데이터프레임 자기 자신을 바꾸지는 않으므로 변수할당이 필요하다
pop = pop.sort_index()

In [16]:
pop

부산  2008    18970
    2010    19370
서울  2008    30000
    2010    37000
인천  2008    20850
    2010    25140
dtype: int64

In [17]:
# 행 인덱스 정보를 index.names을 사용하여 직접 지정할 수 있다.
pop["서울" : "인천"]

서울  2008    30000
    2010    37000
인천  2008    20850
    2010    25140
dtype: int64

In [18]:
# 행인덱스 정보를 index.names에 직접 지정할 수 있다.
pop.index.names = ['시','년도']

In [19]:
pop

시   년도  
부산  2008    18970
    2010    19370
서울  2008    30000
    2010    37000
인천  2008    20850
    2010    25140
dtype: int64

In [20]:
df = pd.DataFrame(pop,columns=['인구수'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수
시,년도,Unnamed: 2_level_1
부산,2008,18970
부산,2010,19370
서울,2008,30000
서울,2010,37000
인천,2008,20850
인천,2010,25140


In [21]:
df.loc['부산',:]

Unnamed: 0_level_0,인구수
년도,Unnamed: 1_level_1
2008,18970
2010,19370


In [22]:
#2010 년도 인구수 집계하려면?
# 데이터 프레임워크에서는 2010 인덱스로 바로 접근이 불가능하다.
#df[2010,:]

In [23]:
# 시리즈로 가져와서 부분합을 구할수있다.
df['인구수'][:,2010]

시
부산    19370
서울    37000
인천    25140
Name: 인구수, dtype: int64

In [24]:
# 데이터 프레임으로 보고 싶다면 시리즈의 분석결과를 다시 데이터 프레임으로 만들어 분석할 수 있다.
analysis = pd.DataFrame(df['인구수'][:,2010])
analysis

Unnamed: 0_level_0,인구수
시,Unnamed: 1_level_1
부산,19370
서울,37000
인천,25140


## 예제 4-11 멀티인덱스를 이용한 데이터프레임  활용 

In [59]:
r_inx = pd.MultiIndex.from_product([[2017,2018],[1,2]], names=['년도','과제점수'])

In [60]:
r_inx

MultiIndex([(2017, 1),
            (2017, 2),
            (2018, 1),
            (2018, 2)],
           names=['년도', '과제점수'])

In [61]:
c_inx = pd.MultiIndex.from_product([['철수','영희','지원'],['컴공','경제']], names=['학생','학과'])

In [62]:
c_inx

MultiIndex([('철수', '컴공'),
            ('철수', '경제'),
            ('영희', '컴공'),
            ('영희', '경제'),
            ('지원', '컴공'),
            ('지원', '경제')],
           names=['학생', '학과'])

In [63]:
import numpy as np

In [64]:
data = np.round(np.abs(np.random.randn(4,6)),1)

In [65]:
data

array([[0.3, 0.6, 0.4, 0.1, 0.1, 0.1],
       [0.4, 2.3, 2. , 1.3, 0.4, 0.7],
       [1.7, 0.7, 1.6, 1.6, 0.4, 0.7],
       [0.5, 0.8, 0.4, 0. , 1. , 1.9]])

In [66]:
study_data = pd.DataFrame(data, index=r_inx, columns=c_inx)

In [67]:
study_data

Unnamed: 0_level_0,학생,철수,철수,영희,영희,지원,지원
Unnamed: 0_level_1,학과,컴공,경제,컴공,경제,컴공,경제
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.3,0.6,0.4,0.1,0.1,0.1
2017,2,0.4,2.3,2.0,1.3,0.4,0.7
2018,1,1.7,0.7,1.6,1.6,0.4,0.7
2018,2,0.5,0.8,0.4,0.0,1.0,1.9


In [68]:
study_data.index

MultiIndex([(2017, 1),
            (2017, 2),
            (2018, 1),
            (2018, 2)],
           names=['년도', '과제점수'])

In [69]:
study_data.columns

MultiIndex([('철수', '컴공'),
            ('철수', '경제'),
            ('영희', '컴공'),
            ('영희', '경제'),
            ('지원', '컴공'),
            ('지원', '경제')],
           names=['학생', '학과'])

In [70]:
study_data.index[0]

(2017, 1)

In [71]:
study_data.index[1]

(2017, 2)

In [72]:
study_data.index.names[0]

'년도'

In [73]:
study_data.index.names[1]

'과제점수'

In [74]:
study_data.values

array([[0.3, 0.6, 0.4, 0.1, 0.1, 0.1],
       [0.4, 2.3, 2. , 1.3, 0.4, 0.7],
       [1.7, 0.7, 1.6, 1.6, 0.4, 0.7],
       [0.5, 0.8, 0.4, 0. , 1. , 1.9]])

In [75]:
study_data['지원']

Unnamed: 0_level_0,학과,컴공,경제
년도,과제점수,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,1,0.1,0.1
2017,2,0.4,0.7
2018,1,0.4,0.7
2018,2,1.0,1.9


In [76]:
# df[상위열인덱스,하위열인덱스]
study_data['지원','컴공']

년도    과제점수
2017  1       0.1
      2       0.4
2018  1       0.4
      2       1.0
Name: (지원, 컴공), dtype: float64

In [77]:
study_data.loc[:, ('지원','컴공')]

년도    과제점수
2017  1       0.1
      2       0.4
2018  1       0.4
      2       1.0
Name: (지원, 컴공), dtype: float64

#### 멀티 인덱스를 사용할 경우 pd.IndexSlice를 사용해서 슬라이스를 만들어서 처리

       . loc[ 행, 열] 로 표시하므로 멀티 인덱스 자체가 행과 열을 구성
       . 멀티 인덱스 내의 특정 정보를 가져오려고 해도 슬라이스로 처리가 필요

In [78]:
study_data

Unnamed: 0_level_0,학생,철수,철수,영희,영희,지원,지원
Unnamed: 0_level_1,학과,컴공,경제,컴공,경제,컴공,경제
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.3,0.6,0.4,0.1,0.1,0.1
2017,2,0.4,2.3,2.0,1.3,0.4,0.7
2018,1,1.7,0.7,1.6,1.6,0.4,0.7
2018,2,0.5,0.8,0.4,0.0,1.0,1.9


In [79]:
# 정렬이 안되어있으므로 에러
try :
    analysis_ky = study_data.loc[:2018, '철수':'영희']
except Exception as e :
    print(e)
analysis_ky

'Key length (1) was greater than MultiIndex lexsort depth (0)'


년도,과제점수
2017,1
2017,2
2018,1
2018,2


In [82]:
study_data = study_data.sort_index(axis=1)

In [83]:
study_data

Unnamed: 0_level_0,학생,영희,영희,지원,지원,철수,철수
Unnamed: 0_level_1,학과,경제,컴공,경제,컴공,경제,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.1,0.4,0.1,0.1,0.6,0.3
2017,2,1.3,2.0,0.7,0.4,2.3,0.4
2018,1,1.6,1.6,0.7,0.4,0.7,1.7
2018,2,0.0,0.4,1.9,1.0,0.8,0.5


In [84]:
try :
    analysis_ky = study_data.loc[:2018, '철수':'영희']
except Exception as e :
    print(e)
analysis_ky
# 열이름이 정렬이 되었기 때문에 에러는 발생하지 않지만 조회는 되지 않는다.
# 철수와 영희가 start ,end가 될 수 없으므로 슬라이싱 불가

년도,과제점수
2017,1
2017,2
2018,1
2018,2


In [49]:
study_data.loc[:2018, '영희':'지원']

Unnamed: 0_level_0,학생,영희,영희,지원,지원
Unnamed: 0_level_1,학과,경제,컴공,경제,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2017,1,0.6,0.5,0.3,0.8
2017,2,0.3,0.3,0.5,1.3
2018,1,1.4,0.3,0.3,0.5
2018,2,1.1,2.3,0.5,0.2


In [50]:
# IndexSlice 속성을 사용하면 복합인덱스 차원에 맞게 검색이 가능하다.
study_data.loc[pd.IndexSlice[:,1], pd.IndexSlice[:, '컴공']]
# 데이터프레임명.loc[pd.IndexSlice[상위인덱스 조건,하위인덱스 조건],pd.IndexSlice[상위열조건,하위열조건]]

Unnamed: 0_level_0,학생,영희,지원,철수
Unnamed: 0_level_1,학과,컴공,컴공,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2017,1,0.5,0.8,1.4
2018,1,0.3,0.5,0.1


In [85]:
study_data.loc[pd.IndexSlice[:,1:2], pd.IndexSlice[:, '컴공']]

Unnamed: 0_level_0,학생,영희,지원,철수
Unnamed: 0_level_1,학과,컴공,컴공,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2017,1,0.4,0.1,0.3
2017,2,2.0,0.4,0.4
2018,1,1.6,0.4,1.7
2018,2,0.4,1.0,0.5


In [86]:
study_data

Unnamed: 0_level_0,학생,영희,영희,지원,지원,철수,철수
Unnamed: 0_level_1,학과,경제,컴공,경제,컴공,경제,컴공
년도,과제점수,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,0.1,0.4,0.1,0.1,0.6,0.3
2017,2,1.3,2.0,0.7,0.4,2.3,0.4
2018,1,1.6,1.6,0.7,0.4,0.7,1.7
2018,2,0.0,0.4,1.9,1.0,0.8,0.5


In [87]:
study_data.index

MultiIndex([(2017, 1),
            (2017, 2),
            (2018, 1),
            (2018, 2)],
           names=['년도', '과제점수'])

In [52]:
study_data.index.levels[0].dtype

dtype('int64')

In [53]:
study_data.index.levels[1].dtype

dtype('int64')

In [54]:
study_data.xs((2017,1))

학생  학과
영희  경제    0.6
    컴공    0.5
지원  경제    0.3
    컴공    0.8
철수  경제    1.1
    컴공    1.4
Name: (2017, 1), dtype: float64

In [55]:
study_data.xs(2017)

학생,영희,영희,지원,지원,철수,철수
학과,경제,컴공,경제,컴공,경제,컴공
과제점수,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,0.6,0.5,0.3,0.8,1.1,1.4
2,0.3,0.3,0.5,1.3,1.3,1.1


In [56]:
study_data.columns.levels[0].dtype

dtype('O')

In [57]:
study_data.columns.levels[1].dtype

dtype('O')

In [58]:
study_data.xs(('지원','컴공'), axis=1)

년도    과제점수
2017  1       0.8
      2       1.3
2018  1       0.5
      2       0.2
Name: (지원, 컴공), dtype: float64