# 6. 멀티 인덱스

`groupby()` 메소드에 여러 열을 리스트 형태로 전달하면 각 열들이 다중으로 행 인덱스를 구성하는 것을 보았다.<br>
이처럼 판다스는 행 인덱스를 여러 레벨로 구현할 수 있도록 멀티 인덱스 클래스를 지원한다.
<br><br>
먼저 'class' 열과 'sex' 열에 들어 있는 객실 등급과 남녀 성별을 기준으로 그룹화한다.<br>
그룹 객체에 `mean()` 메소드를 적용하면 그룹별로 각 열의 평균값을 정리하여 반환한다.<br>
이대 반환되는 객체는 멀티 인덱스를 가진 데이터프레임이고 gdf 변수에 저장한다.


In [2]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

##############################
# class 열, sex 열을 기준으로 분할
grouped = df.groupby(['class', 'sex'])

# 그룹 객체에 연산 메소드 적용
gdf = grouped.mean()
print(gdf)
print('\n')
print(type(gdf))


                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447


<class 'pandas.core.frame.DataFrame'>


---

데이터프레임 gdf의 멀티 인덱스에서 하나의 인덱스만 사용하는 방법을 살펴보자.<br>
예제에서는 loc 인덱서를 이용하여 'class' 인덱스에서 'First'라는 값을 가진 행을 선택한다.


In [4]:
# class 값이 First인 행을 선택하여 출력
print(gdf.loc['First'])

              age        fare  survived
sex                                    
female  34.611765  106.125798  0.968085
male    41.281386   67.226127  0.368852


---

이번에는 멀티 인덱스에서 두 개의 인덱스를 사용하는 방법이다.<br>
loc 인덱서를 이용하고 인자로는 ('First', 'female')와 같이 튜플 형태로 각 인덱스에서 찾는 값을 전달한다.<br>
'class' 인덱스에서 'First'라는 값을 갖는 행 중에서 'sex' 인덱스가 'female'에 해당하는 행을 추출한다.<br>
이처럼 1등석 승객 중에서 여성 탑승자 데이터만 따로 구분하여 처리할 수 있다.



In [6]:
# class 값이 First이고, sex 값이 female인 행을 선택하여 출력
print(gdf.loc[('First', 'female')])

age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64


---

이번에는 loc 인덱서 대신 xs 인덱서를 사용한다. 'sex' 인덱스에서 'male' 값을 갖는 행을 추출한다.<br>
남성 승객에 한정하여 객실 등급별로 그룹을 만들어서 분석할 수 있다.<br>
나이가 많을수록 상대적으로 비싼 요금을 지불하고 높은 객실 등급을 이용하는 경향을 읽을 수 있다.


In [7]:
# sex 값이 male인 행을 선택하여 출력
print(gdf.xs('male', level='sex'))


              age       fare  survived
class                                 
First   41.281386  67.226127  0.368852
Second  30.740707  19.741782  0.157407
Third   26.507589  12.661633  0.135447
