### [멀티 인덱스]
- 2개 이상의 행과 열로 구성된 인덱스

In [1]:
# 모듈 로딩
import pandas as pd
import df_util as util

In [2]:
# 데이터 준비
file1 = './test_data.csv'
file2 = './test_data2.csv'

In [3]:
# 데이터 정보 확인
df1 = pd.read_csv(file1)
df2 = pd.read_csv(file2)

# DF 확인 w/ 개인 선언 함수 import
util.checkDataFrame(df1,'df1')
util.checkDataFrame(df2,'df2')


[df1]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   index   10 non-null     object
 1   col1    10 non-null     int64 
 2   col2    10 non-null     int64 
 3   col3    10 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 448.0+ bytes
[Index]        : RangeIndex(start=0, stop=10, step=1)
[Columns]      : Index(['index', 'col1', 'col2', 'col3'], dtype='object')
[NDim]         : 2

[df2]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   lv0     5 non-null      object
 1   lv1     5 non-null      object
 2   lv2     5 non-null      object
 3   col1    5 non-null      int64 
 4   col2    5 non-null      int64 
 5   col3    5 non-null      int64 
dtypes: int64(3), object(3)
memory usage: 368.0+ bytes
[Index]        : RangeIn

##### 행 인덱스 설정

In [4]:
# set_index( [col1, col2] ) - df1의 첫번째 컬럼을 행 인덱스로 설정

df11 = df1.set_index('index')
df11.index

# index.name 삭제
df11.index.name=None
df11.index

Index(['A', 'C', 'C', 'A', 'B', 'B', 'C', 'C', 'B', 'A'], dtype='object')

In [5]:
# 'C'행 데이터 추출
df11.loc['C']

Unnamed: 0,col1,col2,col3
C,8,4,3
C,8,2,0
C,8,8,6
C,5,5,6


In [None]:
# 'A', 'C'행 추출
df11.loc[ ['A', 'C'] ]

In [12]:
# set_index( [col1, col2] ) - df1의 첫번째, 두번째 컬럼을 행 인덱스로 설정

df12 = df1.set_index(['index','col2'])
print(df12.index)

df12.loc[ [('C', 8), ('A', 1)] ]

MultiIndex([('A', 6),
            ('C', 4),
            ('C', 2),
            ('A', 8),
            ('B', 0),
            ('B', 2),
            ('C', 8),
            ('C', 5),
            ('B', 3),
            ('A', 1)],
           names=['index', 'col2'])


Unnamed: 0_level_0,Unnamed: 1_level_0,col1,col3
index,col2,Unnamed: 2_level_1,Unnamed: 3_level_1
C,8,8,6
A,1,3,4


##### 멀티 인덱스의 속성들 확인

In [None]:
mIdx = df12.index

print(f'nlevels   : {mIdx.nlevels}')
print(f'levels    : {mIdx.levels}')
print(f'names     : {mIdx.names}')

In [None]:
# 멀티인덱스에서 level0가 동일한 행 추출
#  -'A'

df12.loc['A']

In [None]:
# 멀티인덱스에서 level1이 동일한 행 추출
#  - 8
# loc 속성은 level0만 처리 가능 / 그외 하위레벨 기준 추출은 DataFrame.xs() 메서드로! 

# df12.loc['8']   ==> ERROR!

df12.xs( 8, level=1)     # level1 == 8인 행 데이터 추출

##### 멀티인덱스 DF에서 행 추가
- 일반 DF에서 행 추가:   DF명.loc[행인덱스] = 값<br><br>
- 멀티 DF에서 행 추가:   DF명.loc[ (level0, level1), :] = 값

In [9]:
# df12.loc[ ('D',9) ] = [9,9]         
#                            --> 'D'는 level0 인덱스로, 9는 컬럼명으로 생성됨

df12.loc[ ('D', 9), : ] = [9,9]     
df12



Unnamed: 0_level_0,Unnamed: 1_level_0,col1,col3
index,col2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,6,8.0,5.0
C,4,8.0,3.0
C,2,8.0,0.0
A,8,1.0,7.0
B,0,2.0,7.0
B,2,4.0,4.0
C,8,8.0,6.0
C,5,5.0,6.0
B,3,3.0,6.0
A,1,3.0,4.0


In [10]:
# # 시리즈 데이터 형태로 행추가
# df12.loc[ ('D', 10), :] = pd.Series( {'col2':10, 'col3':10})
# df12


sr1 = pd.Series( {'col1':10, 'col3':10} )      # 시리즈 ==> index: [col2, col3] / values: [10,10]
# sr1.index = ['D', 10]
df12.loc[('D', 10), :] = sr1          

''' 
여기서는 col2를 level1으로 지정해서 모든 행 인덱스 값이 서로 unique!!  /  따라서 바로 할당이 가능

여기서는 ('C', 8)로 데이터를 호출하면 동일한 멀티인덱스를 가지는 데이터 [8,6] 로 할당됨!!

따라서  [] 형태로 df12는 값을 저장

따라서 바로 값 할당 가능!
'''

In [11]:
df12

Unnamed: 0_level_0,Unnamed: 1_level_0,col1,col3
index,col2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,6,8.0,5.0
C,4,8.0,3.0
C,2,8.0,0.0
A,8,1.0,7.0
B,0,2.0,7.0
B,2,4.0,4.0
C,8,8.0,6.0
C,5,5.0,6.0
B,3,3.0,6.0
A,1,3.0,4.0
