### 【 인덱스 다루기 - MultiIndex 】
- 기본 인덱스 
    * .set_index() <- 컬럼을 인덱스로 설정 
    * .reindex() <- 인덱스 재구성(일부 변경. 결측치 발생 가능)
    * .reset_index() <- 위치인덱스(RangeIndex)로 변경. 기존 인덱스는 컬럼 추가
    * .iloc[위치인덱스] 속성 <- 판다스에서 DataFrame/Series에 데이터가 존재하는 위치 번호 지정/정수
    * .loc[라벨인덱스] 속성 <- DataFrame/Series 생성 시 index, columns 매개변수로 지정한 인덱스들
- 멀티 인덱스
    * .xs() <- 인덱스 레벨에 따른 데이터 선택하는 메서드 

[1] 모듈 로딩 및 데이터 준비<hr>

In [2]:
## 모듈 로딩 
import pandas as pd 

In [6]:
## 데이터 준비
DATA_FILE = '../Data/학생관리부.xlsx'

## index_col= int, str, sequence int, slicing 

dataDF2  = pd.read_excel(DATA_FILE)
dataDF  = pd.read_excel(DATA_FILE, skiprows=2, index_col=[1,2])
dataDF.sort_index(inplace=True)
# display(dataDF, dataDF2) 

In [5]:
## 확인
display( dataDF.head())

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,홍길동,8
1,3,고길동,1
1,7,이길동,12
2,1,최길동,43
3,1,박길동,9


In [6]:
## ======================================================
## 멀티인덱스 속성 확인
## ======================================================
mIdx = dataDF.index 

print('-------------------------------')
print(f'type(mIdx)  : {type(mIdx)}')
print(f'names       : {mIdx.names}')
print(f'levels      : {mIdx.levels}')
print(f'dtypes      : {mIdx.dtypes}')
print(f'nlevels     : {mIdx.nlevels}개')
print('-------------------------------')
print(f'levshape    : {mIdx.levshape}')
print(mIdx)

-------------------------------
type(mIdx)  : <class 'pandas.core.indexes.multi.MultiIndex'>
names       : ['학년', '반']
levels      : [[1, 2, 3], [1, 3, 7]]
dtypes      : 학년    int64
반     int64
dtype: object
nlevels     : 2개
-------------------------------
levshape    : (3, 3)
MultiIndex([(1, 1),
            (1, 3),
            (1, 7),
            (2, 1),
            (3, 1)],
           names=['학년', '반'])


[2] DF에서 인덱스관련 속성 및 메서드 다루기<hr>

In [None]:
## ======================================================
## [2-1] 행 데이터 선택
## ======================================================
#          level0  level1
# MultiIndex([(1,  1),
#             (1,  3),
#             (1,  7),
#             (2,  1),
#             (3,  1)],
#            names=['학년', '반'])

## - 전체 행인덱스로 선택
oneSR = dataDF.loc[(1, 7)]
#print(f'\ndataDF.loc[(1, 7)]\n{oneSR}\n')


## - level0번 행인덱스로 선택 => level0 동일한 모든 행 
level0 = dataDF.loc[(1)]
#print(f'\ndataDF.loc[(1)]\n{level0}\n')


dataDF.xs(7)
     이름   석차
학년          
1   이길동   12



In [17]:
display(dataDF)

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,홍길동,8
1,3,고길동,1
1,7,이길동,12
2,1,최길동,43
3,1,박길동,9


In [None]:
## [실습]1반 친구들만 선택하기 
dataDF.xs(1, level='반')


Unnamed: 0_level_0,이름,석차
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1,홍길동,8
2,최길동,43
3,박길동,9


In [None]:
## ======================================================
## [2-2] 행 추가 => 사전식 정렬 추천/성능 느려지는 것 막기 위해서
## ======================================================
## => 모든 컬럼 동일값 추가 
dataDF.loc[(2, 2), : ]=0
dataDF.sort_index(inplace=True)    ## 권장/성능 위해서
dataDF

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,홍길동,8.0
1,3,고길동,1.0
1,7,이길동,12.0
2,1,최길동,43.0
2,2,0,0.0
3,1,박길동,9.0


In [22]:
## => 모든 컬럼 다른 값 추가
dataDF.loc[(2, 3), : ]=['베트맨', 3]
dataDF.sort_index(inplace=True)    ## 권장/성능 위해서
dataDF

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,홍길동,8.0
1,3,고길동,1.0
1,7,이길동,12.0
2,1,최길동,43.0
2,2,0,0.0
2,3,베트맨,3.0
3,1,박길동,9.0


In [23]:
## ======================================================
## [2-2] 열 추가 
## ======================================================
dataDF['번호']=0
dataDF.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차,번호
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,홍길동,8.0,0
1,3,고길동,1.0,0


In [24]:
dataDF['학교']=['대구', '대구','부산','대전','마산','대구','서울']
dataDF

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차,번호,학교
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,홍길동,8.0,0,대구
1,3,고길동,1.0,0,대구
1,7,이길동,12.0,0,부산
2,1,최길동,43.0,0,대전
2,2,0,0.0,0,마산
2,3,베트맨,3.0,0,대구
3,1,박길동,9.0,0,서울


In [25]:
## ======================================================
## [2-3] 행 인덱스 초기화
## ======================================================
## -> 모든 멀티인덱스 => 컬럼으로 추가 
dataDF.reset_index()

Unnamed: 0,학년,반,이름,석차,번호,학교
0,1,1,홍길동,8.0,0,대구
1,1,3,고길동,1.0,0,대구
2,1,7,이길동,12.0,0,부산
3,2,1,최길동,43.0,0,대전
4,2,2,0,0.0,0,마산
5,2,3,베트맨,3.0,0,대구
6,3,1,박길동,9.0,0,서울


In [117]:
## -> 특정 레벨 행 인덱스만 => 컬럼으로 
dataDF.reset_index(level=['반'])

Unnamed: 0_level_0,반,이름,석차,번호,학교
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,홍길동,8.0,0,대구
1,3,고길동,1.0,0,대구
1,7,이길동,12.0,0,부산
2,1,최길동,43.0,0,대전
3,1,박길동,9.0,0,마산
2,2,0,0.0,0,대구
2,3,베트맨,2.3,0,서울
