### [인덱스 다루기 - MultiIndex]
- 기본 인덱스
    * .set_index() <- 컬럼을 인덱스로 설정
    * .reindex() <- 인덱스 재구성(일부 변경, 결측치 발생 가능)
    * .reset_index() <- 위치 인덱스(RangeIndex)로 변경. 기존 인덱스는 컬럼 추가
    * .iloc[위치인덱스] 속성 <- 판다스에서 DataFrame/Series에 데이터가 존재하는 위치 번호를 지정/정수
    * .loc[] 속성 <- DataFrame/Series 생성 시 index, columns 매개변수로 지정한 인덱스들
- 멀티 인덱스
    * .xs() <- 인덱스 레벨에 따른 데이터 선택하는 메서드

[1] 모듈 로딩 및 데이터 준비 <hr>

In [1]:
## 모듈 로딩
import pandas as pd

In [3]:
## 인덱서 생성
columns_ = pd.MultiIndex.from_product([['math', 'eng'], 
                                       ['mid', 'final']], 
                                    names=['subject', 'exam'])
## DF 생성
dataDF = pd.DataFrame( [ [80, 90, 85, 95],
                     [70, 88, 75, 93] ], 
                    columns=columns_ )

In [5]:
display(dataDF.head(), dataDF.index, dataDF.columns)

subject,math,math,eng,eng
exam,mid,final,mid,final
0,80,90,85,95
1,70,88,75,93


RangeIndex(start=0, stop=2, step=1)

MultiIndex([('math',   'mid'),
            ('math', 'final'),
            ( 'eng',   'mid'),
            ( 'eng', 'final')],
           names=['subject', 'exam'])

In [7]:
## =========================================================
## 멀티인덱스 속성 확인
## =========================================================
mIDX = dataDF.columns

print('--------------------------------------')
print(f'type(mIDX): {type(mIDX)}')
print(f'names     : {mIDX.names}')
print(f'levels    : {mIDX.levels}')
print(f'dtypes    : {mIDX.dtypes}')
print(f'nlevels   : {mIDX.nlevels}개')
print('--------------------------------------')
print(f'levshape  : {mIDX.levshape}')
print(mIDX)

--------------------------------------
type(mIDX): <class 'pandas.core.indexes.multi.MultiIndex'>
names     : ['subject', 'exam']
levels    : [['eng', 'math'], ['final', 'mid']]
dtypes    : subject    object
exam       object
dtype: object
nlevels   : 2개
--------------------------------------
levshape  : (2, 2)
MultiIndex([('math',   'mid'),
            ('math', 'final'),
            ( 'eng',   'mid'),
            ( 'eng', 'final')],
           names=['subject', 'exam'])


In [None]:
## =========================================================
## [2-1] 열/컬럼 데이터 선택
## =========================================================
## - 전체 열이름/열인덱스로 선택
oneSR = dataDF[("math", "final")]
print(f'\ndataDF[("math", "final")]\n{oneSR}\n]')

## - level0번 열이름/열인덱스로 선택 ==> level=0 동일한 모든 행
level0 = dataDF[("math")]
print(f'\ndataDF["math"]\n{level0}\n]')

## - level1번 열이름/열인덱스로 선택 ==> level=1 동일한 모든 행
## - 컬럼 축 방향 설정 axis=1 또는 axis='columns'
level1 = dataDF.xs("final", level=1, axis=1)
print(f'\ndataDF.xs("final", level=1, axis=1)\n{level1}\n]')


dataDF[("math", "final")]
0    90
1    88
Name: (math, final), dtype: int64
]

dataDF["math"]
exam  mid  final
0      80     90
1      70     88
]

dataDF.xs("final", level=1, axis=1)
subject  math  eng
0          90   95
1          88   93
]


In [None]:
## ==============================================================
## [2-2] 열 추가 => 사전식 정렬 추천/성능 느려지는 것 막기 위해서
## ==============================================================
## => 'test' 추가 후 알파벳 순으로 정렬
dataDF[('eng', 'test')] = 0
dataDF.sort_index(axis=1)

subject,eng,eng,eng,math,math
exam,final,mid,test,final,mid
0,95,85,0,90,80
1,93,75,0,88,70


In [32]:
## ==============================================================
## [2-3] 열 인덱스 초기화
## ==============================================================
## -> reset_index(): 축/방향 설정 X, 행인덱스만 지원하는 메서드
dataDF.T.reset_index().T

Unnamed: 0,0,1,2,3,4
subject,math,math,eng,eng,eng
exam,mid,final,mid,final,test
0,80,90,85,95,0
1,70,88,75,93,0


In [34]:
dataDF.T.reset_index('subject').T

exam,mid,final,mid.1,final.1,test
subject,math,math,eng,eng,eng
0,80,90,85,95,0
1,70,88,75,93,0
