In [61]:
#판다스 심화: 멀티 인덱스와 복합 인덱스

In [1]:
#멀티 인덱스(MultiIndex)란?
#멀티 인덱스(MultiIndex)는 하나 이상의 인덱스를 사용하여 데이터프레임의 행과 열을 구조화하는 방법.
#이는 다차원 데이터를 보다 효울적으로 관리하고 분석할 수 있게 해줌.

In [4]:
#멀티 인덱스 생성하기
#set_index()로 멀티 인덱스 설정
#여러 열을 사용해 멀티 인덱스를 설정할 수 있음.

In [8]:
import pandas as pd

#예시 데이터프레임 생성
data = {
    '도시': ['서울', '서울', '부산', '부산'],
    '년도': [2021,2022,2021,2022],
    '안구수': [9700000,9720000,3400000,3450000]
}
df = pd.DataFrame(data)

#'도시'와 '년도'를 멀티 인덱스로 설정
df_multi_index = df.set_index(['도시', '년도'])

In [14]:
#출력
df_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,안구수
도시,년도,Unnamed: 2_level_1
서울,2021,9700000
서울,2022,9720000
부산,2021,3400000
부산,2022,3450000


In [16]:
#도시와 년도가 인덱스로 설정되어, 데이터가 더 구조화된 형태로 나타남.

In [19]:
#pd.MultiIndex.from_tuples()로 멀티 인덱스 생성
#from_tuples()를 사용해 튜플로 구성된 멀티 인덱스를 생성할 수도 있음.

In [48]:
#멀티 인덱스를 튜플로 직접 생성
index = pd.MultiIndex.from_tuples([('서울', 2021), ('서울', 2022), ('부산', 2021), ('부산', 2022)], names = ['도시', '년도'])

#데이터프레임에 적용
df_multi_index = pd.DataFrame({'인구수': [9700000,9720000,3400000,3450000]}, index = index)

In [50]:
#출력
df_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수
도시,년도,Unnamed: 2_level_1
서울,2021,9700000
서울,2022,9720000
부산,2021,3400000
부산,2022,3450000


In [53]:
#멀티 인덱스 데이터 접근하기
#loc[]을 사용한 데이터 접근
#loc[]을 사용해 멀티 인덱스에서 특정 데이터를 선택할 수 있음.

#특정 인덱스의 데이터 선택
print(df_multi_index.loc['서울'])

          인구수
년도           
2021  9700000
2022  9720000


In [55]:
#하위 레벨까지 지정하여 데이터를 더 구체적으로 접근할 수도 있음.
#'서울'의 2021년 데이터 선택
print(df_multi_index.loc[('서울', 2021)])

인구수    9700000
Name: (서울, 2021), dtype: int64


In [58]:
#슬라이싱(slicing)으로 데이터 접근
#멀티 인덱스는 슬라이싱을 통해 특정 구간의 데이터를 쉽게 선택할 수 있음.

In [60]:
#부산의 모든 데이터를 선택
df_multi_index = df_multi_index.sort_index()

In [62]:
#출력
df_multi_index.loc['부산':'부산']

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수
도시,년도,Unnamed: 2_level_1
부산,2021,3400000
부산,2022,3450000


In [65]:
#xs()를 사용한 멀티 인덱스 교차 선택
#xs()는 특정 레벨에서 데이터를 선택하거나, 레벨을 넘어서 데이터를 선택할 때 유용.

In [67]:
#'도시'레벨에서 '서울'의 데이터를 선택
df_multi_index.xs('서울', level = '도시')

Unnamed: 0_level_0,인구수
년도,Unnamed: 1_level_1
2021,9700000
2022,9720000


In [70]:
#복합 인덱스(MultiIndex)활용
#인덱스 정렬 및 정렬된 상태 확인
#멀티인덱스를 사용한데이터프레임은 정렬된 상태로 관리하는 것이 일반적
#sort_index()로 인덱스를 정렬할 수 있음.

#멀티 인덱스 정렬
df_sorted = df_multi_index.sort_index()

In [72]:
#출력
df_sorted

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수
도시,년도,Unnamed: 2_level_1
부산,2021,3400000
부산,2022,3450000
서울,2021,9700000
서울,2022,9720000


In [82]:
#unstack()과 stack()으로 인덱스 변환
#unstack()은 멀티 인덱스를 열로 변환.
#반대로 stack()은 열을 인덱스로 변환.

#멀티 인덱스를 열로 변환(unstack)
df_unstacked = df_multi_index.unstack(level='년도')

In [84]:
#출력
df_unstacked

Unnamed: 0_level_0,인구수,인구수
년도,2021,2022
도시,Unnamed: 1_level_2,Unnamed: 2_level_2
부산,3400000,3450000
서울,9700000,9720000


In [94]:
# stack()을 사용하면, 다시 인덱스로 변환할 수 있음.

#다시 인덱스로 변환(stack)
df_stacked = df_unstacked.stack()

  df_stacked = df_unstacked.stack()


In [96]:
#출력
df_stacked

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수
도시,년도,Unnamed: 2_level_1
부산,2021,3400000
부산,2022,3450000
서울,2021,9700000
서울,2022,9720000


In [99]:
#멀티 인덱스의 응용
#그룹화(Grouping)와 함께 사용

#멀티 인덱스는 그룹화와 함께 사용할 때, 더 강력해짐.
#그룹화한 데이터를 멀티 인덱스로 변환하여 복잡한 분석을 수행할 수 있음.

In [109]:
#데이터프레임 생성
data = {
    '도시': ['서울', '서울', '부산', '부산', '서울', '부산'],
    '년도': [2021, 2022, 2021, 2022, 2021, 2022],
    '인구수': [9700000, 9720000, 3400000, 3450000, 9800000, 3500000],
    '소득': [60000, 62000, 45000, 46000, 63000, 47000]
}
df = pd.DataFrame(data)

#'도시'와 '년도'를 기준으로 그룹화하여 평균 계산
grouped_df = df.groupby(['도시','년도']).mean()

In [111]:
#출력
grouped_df

Unnamed: 0_level_0,Unnamed: 1_level_0,인구수,소득
도시,년도,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,2021,3400000.0,45000.0
부산,2022,3475000.0,46500.0
서울,2021,9750000.0,61500.0
서울,2022,9720000.0,62000.0


In [None]:
#요약
#멀티 인덱스(MultiIndex)는 하나 이상의 인덱스를 사용하여 다차원 데이터를 효율적으로 관리하는 방법
#멀티 인덱스는 set_index()나 from_tuples()를 사용해 생성할 수 있으며, loc[], xs(), 슬라이싱 등을 통해 데이터를 선택할 수 있음.
#복합 인덱스를 사용하면, 데이터를 정렬하거나, unstack()과 stack()을 통해 인덱스를 변환하는 작업이 용이
#멀티 인덱스는 그룹화와 같은 복잡한 데이터 분석 작업에도 유용하게 사용.