In [214]:
"""
피봇 테이블

피봇 테이블(pivot table)이란 데이터 열(column) 중에서 
두 개를 키(key)로 사용하여 데이터를 선택하는 방법을 말한다.

피봇 테이블을 사용하기 위해서는 키가 될 수 있는 
두 개의 열(column) 혹은 필드(field)를 선택하여 이 두 열을

행 인덱스 (row index)
열 인덱스 (column index)
로 변경하고 행 조건과 열 조건에 맞는 데이터를 찾아서 해당 칸에 넣는다.
 만약 주어진 데이터가 없으면 NaN 값을 넣는다.

pandas는 피봇 테이블을 만들기 위한 pivot 메서드를 제공한다. 
첫번째 인수로는 행 인덱스로 사용할 열 이름, 
두번째 인수로는 열 인덱스로 사용할 열 이름, 
그리고 마지막으로 데이터로 사용할 열 이름을 넣는다.
"""

In [179]:
import pandas as pd
import numpy as np

In [180]:
data = {
    "state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada"],
    "year": [2000, 2001, 2002, 2001, 2002],
    "pop": [1.5, 2.5, 3.0, 2.5, 3.5]
}

df = pd.DataFrame(data, columns=["state", "year", "pop"])
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,2.5
2,Ohio,2002,3.0
3,Nevada,2001,2.5
4,Nevada,2002,3.5


In [181]:
# df.pivot("index", "columns", "value")
# state을 행으로 year를 열로 pop열의 값을 value로
df.pivot("state", "year", "pop")

year,2000,2001,2002
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nevada,,2.5,3.5
Ohio,1.5,2.5,3.0


In [182]:
# 피봇 테이블은 다음과 같이 set_index 명령과 unstack 명령을 
# 사용해서 만들 수도 있다.
df.set_index(["state", "year"]).unstack("year")

Unnamed: 0_level_0,pop,pop,pop
year,2000,2001,2002
state,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Nevada,,2.5,3.5
Ohio,1.5,2.5,3.0


In [183]:
# 행 인덱스와, 열 인덱스가 될 자료는 키(key)의 역할을 해야 한다. 
# 즉, 이 값으로 데이터가 유일하게(unique) 결정되어야 한다. 
# 만약 조건에 해당하는 데이터가 2개 이상인 경우에는 에러가 발생한다.
# df.pivot("year", "pop", "state") error : pop에 중복값들이 있기 때문

In [214]:
"""
그룹 분석

이렇게 특정 조건에 맞는 데이터가 하나 이상 즉, 그룹일 경우는
그룹 분석을 해야 한다.

그룹 분석은 피봇 테이블과 달리 키에 의해서 결정되는 데이터가
복수개가 있어도 괜찮다.
대신 연산을 통해 복수개의 그룹 데이터에 대한 대표값을 정한다.
pandas 에서는 groupby 명령과 그룹 연산 메서드를 이용하여 그룹 분석을 한다.

그룹 연산을 하는 방법은 다음과 같다.

분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출한다.
호출한 결과에 그룹 연산을 수행한다.

"""

In [214]:
"""
groupby 메서드

groupby 메서드는 데이터를 그룹 별로 분류하는 역할을 한다.
groupby 메서드의 인수로는 다음과 같은 값을 사용한다.

열 또는 열의 리스트
행 인덱스

연산 결과로 GroupBy 클래스 객체를 반환하는데
이 객체에는 그룹별로 연산을 할 수 있는 그룹 연산 메서드가 있다.
"""

In [214]:
"""
그룹 연산 메서드

groupby 결과, 즉 GroupBy 클래스 객체의 뒤에 
붙일 수 있는 그룹 연산 메서드는 다양하다. 
전체 목록을 보려면 다음 웹사이트를 참조한다.

https://pandas.pydata.org/pandas-docs/stable/api.html#groupby
다음은 자주 사용되는 그룹 연산 메서드들이다.

size(), count(): 갯수
mean(), median(), min(), max(): 평균, 중앙값, 최소, 최대
sum(), prod(), std(), var(), quantile() : 합계, 곱, 표준편차, 분산, 사분위수
first(), last(): 가장 첫번째 데이터와 가장 나중 데이터

이 외에도 많이 사용되는 것으로는 다음과 같은 그룹 연산이 있다.

agg(), aggregate()
만약 원하는 그룹 연산이 없는 경우 함수를 만들고 이 함수를 agg()에 전달한다.
또는 여러가지 그룹 연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트를 
전달한다.

transform()
그룹 연산으로 대표값을 만든 다음, 이 대표 값을 새로운 열(column)로 
원래 데이터프레임에 추가한다.

describe()
하나의 그룹 대표값이 아니라 여러개의 값을 데이터프레임으로 구한다.

apply()
describe() 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 
원하는 그룹 연산이 없는 경우에 사용한다.
"""

In [187]:
# 예를 들어 다음과 같은 데이터가 있을 때 key1 값에 따른 data1의 평균은 
# 어떻게 구할까? 그룹 분석으로 이 결과를 구할 수 있다.
np.random.seed(0)
df = pd.DataFrame(
    {
        "key1": ["a", "a", "b", "b", "a"],
        "key2": ["one", "two", "one", "two", "one"],
        "data1": np.random.randn(5),
        "data2": np.random.randn(5)
    }
)

df

Unnamed: 0,data1,data2,key1,key2
0,1.764052,-0.977278,a,one
1,0.400157,0.950088,a,two
2,0.978738,-0.151357,b,one
3,2.240893,-0.103219,b,two
4,1.867558,0.410599,a,one


In [188]:
# 우선 데이터프레임 전체에 대해 그룹분석을 하자. 
# groupby 명령을 수행하고 그 결과에 대해 각각 평균을 구하기 위해 
# mean이라는 그룹 연산을 하였다.

#  단일그룹 : key1을 그룹으로 묶고 평균 구하기
df.groupby(df.key1).mean()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.343923,0.127803
b,1.609816,-0.127288


In [189]:
# 만약 열 data1에 대해서만 하고 싶다면 미리 시리즈를 구하거나 
# groupby 반환값 또는 최종 그룹연산 결과에서 data1만 뽑아도 된다.
df.data1.groupby(df.key1).mean()

key1
a    1.343923
b    1.609816
Name: data1, dtype: float64

In [190]:
df.groupby(df.key1)["data1"].mean()

key1
a    1.343923
b    1.609816
Name: data1, dtype: float64

In [191]:
df.groupby(df.key1).mean()["data1"]

key1
a    1.343923
b    1.609816
Name: data1, dtype: float64

In [192]:
# 그럼 이번에는 복합 key (key1, key2) 값에 따른 data1의 평균을 구하자. 
# 이 문제는 피봇 데이블과 유사하다. 
# 분석하고자 하는 키가 여러개이면 리스트를 사용한다.

# 복합그룹 : key1, key2
df.groupby([df.key1, df.key2]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,1.815805,-0.28334
a,two,0.400157,0.950088
b,one,0.978738,-0.151357
b,two,2.240893,-0.103219


In [193]:
# unstack() 적용
df.groupby([df.key1, df.key2]).mean().unstack("key2")

Unnamed: 0_level_0,data1,data1,data2,data2
key2,one,two,one,two
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1.815805,0.400157,-0.28334,0.950088
b,0.978738,2.240893,-0.151357,-0.103219


In [194]:
# data1 값만 확인
df.data1.groupby([df.key1, df.key2]).mean().unstack("key2")


key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.815805,0.400157
b,0.978738,2.240893


In [195]:
df.groupby([df["key1"], df["key2"]]).mean()["data1"].unstack("key2")

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.815805,0.400157
b,0.978738,2.240893


In [214]:
"""
pivot_table

pandas는 pivot 명령과 groupby 명령의 중간적 성격을 
가지는 pivot_table 명령도 제공한다.

pivot_table 명령은 groupby 명령처럼 그룹 분석을 하지만 최종적으로는 
pivot 명령처럼 피봇테이블을 만든다. 
즉 groupby 명령의 결과에 unstack을 자동 적용하여 2차원적인 형태로 변형한다.
사용 방법은 다음과 같다.

pivot_table(data, values=None, index=None, columns=None, 
    aggfunc='mean', fill_value=None, margins=False, margins_name='All')
    
data: 분석할 데이터프레임 (메서드일 때는 필요하지 않음)
values: 분석할 데이터프레임에서 분석할 열
index: 행 인덱스로 들어갈 키 열 또는 키 열의 리스트
columns: 열 인덱스로 들어갈 키 열 또는 키 열의 리스트
aggfunc: 분석 메서드
fill_value: NaN 대체 값
margins: 오른쪽과 아래에 합계를 붙일지 여부
margins_name: 합계 열(행)의 이름

따라서 일반 피봇 테이블의 관점에서 볼 때는 pivot을 수행하지만 
데이터가 유니크하게 선택되지 않으면 aggfunc 인수로 정의된 함수를 
수행하여 대표값을 계산하는 것과 같다.

예를 들어 위에서 만들었던 피봇 테이블은 pivot_table 명령으로 
다음과 같이 만들 수도 있다.
"""

In [197]:
df

Unnamed: 0,data1,data2,key1,key2
0,1.764052,-0.977278,a,one
1,0.400157,0.950088,a,two
2,0.978738,-0.151357,b,one
3,2.240893,-0.103219,b,two
4,1.867558,0.410599,a,one


In [198]:
# pd.pivot_table(df, 분석할 데이터열, 인데스설정열, 컬럼설정열)
pd.pivot_table(df, ["data1", "data2"], "key1", "key2")

Unnamed: 0_level_0,data1,data1,data2,data2
key2,one,two,one,two
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1.815805,0.400157,-0.28334,0.950088
b,0.978738,2.240893,-0.151357,-0.103219


In [199]:
# margins=True : 열, 행 합계 구하기
# margins_name : 마진의 이름 설정
pd.pivot_table(df, "data1", "key1", "key2", 
               margins=True, margins_name="total")

key2,one,two,total
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1.815805,0.400157,1.343923
b,0.978738,2.240893,1.609816
total,1.536783,1.320525,1.45028


In [214]:
"""
TIP 데이터 예제

식당에서 식사 후 내는 팁(tip)과 관련된 데이터를 이용하여 
좀더 구체적으로 그룹 분석 방법을 살펴본다.

우선 seaborn에 설치된 샘플 데이터를 로드한다.
"""

In [201]:
import seaborn as sbn

In [202]:
# data loading
tips = sbn.load_dataset("tips")
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [214]:
"""
이 데이터프레임에서 각각의 컬럼은 다음을 뜻한다.

total_bill: 식사대금
tip: 팁
sex: 성별
smoker: 흡연/금연 여부
day: 요일
time: 시간
size: 인원

우선 식사대금와 팁의 비율을 나타내는 tip_pct를 추가하자.
"""

In [211]:
# pivot_table 이용
tips.pivot_table("tip_pct", "sex", "smoker", aggfunc="mean")

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [204]:
tips["tip_pct"] = tips["tip"]/tips["total_bill"]
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [205]:
# describe로 통계량 요약
tips.describe()

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [206]:
# 그룹별 통계
# 성별(sex)로 데이터 갯수 세기
# value_counts() : Series에서만 가능
tips["sex"].value_counts()

Male      157
Female     87
Name: sex, dtype: int64

In [207]:
tips.groupby(tips.sex).size()

sex
Male      157
Female     87
dtype: int64

In [208]:
# 이번에는 성별과 흡연유무로 나누어 
# 데이터의 갯수와 팁 액수의 평균을 알아본다.

# 성별과 흡연유무로 group화
tips.groupby([tips.sex, tips.smoker]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [209]:
# pivot_table 사용 : 빈도수 확인
tips.pivot_table("tip_pct", "sex", "smoker", 
                 aggfunc="count", margins=True)

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60.0,97.0,157.0
Female,33.0,54.0,87.0
All,93.0,151.0,244.0


In [210]:
# sex, smoker 그룹화하여 tip_pct 평균 확인하기
tips.groupby(["sex", "smoker"]).aggregate("mean")["tip_pct"]

sex     smoker
Male    Yes       0.152771
        No        0.160669
Female  Yes       0.182150
        No        0.156921
Name: tip_pct, dtype: float64

In [211]:
# pivot_table 이용
tips.pivot_table("tip_pct", "sex", "smoker", aggfunc="mean")

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [212]:
# 이번에는 성별과 흡연유무로 나누어 팁 액수의 평균뿐 아니라
# 여러가지 통계값을 알아본다.
tips.groupby(["sex", "smoker"]).describe()[["tip", "tip_pct"]].T

Unnamed: 0_level_0,sex,Male,Male,Female,Female
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
tip,count,60.0,97.0,33.0,54.0
tip,mean,3.051167,3.113402,2.931515,2.773519
tip,std,1.50012,1.489559,1.219916,1.128425
tip,min,1.0,1.25,1.0,1.0
tip,25%,2.0,2.0,2.0,2.0
tip,50%,3.0,2.74,2.88,2.68
tip,75%,3.82,3.71,3.5,3.4375
tip,max,10.0,9.0,6.5,5.2
tip_pct,count,60.0,97.0,33.0,54.0
tip_pct,mean,0.152771,0.160669,0.18215,0.156921


In [314]:
tips.pivot_table(["tip", "tip_pct"], ["sex", "smoker"],
                 aggfunc="describe")

Unnamed: 0_level_0,Unnamed: 1_level_0,tip,tip,tip,tip,tip,tip,tip,tip,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,25%,50%,75%,count,max,mean,min,std,25%,50%,75%,count,max,mean,min,std
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
Male,Yes,2.0,3.0,3.82,60.0,10.0,3.051167,1.0,1.50012,0.101845,0.141015,0.191697,60.0,0.710345,0.152771,0.035638,0.090588
Male,No,2.0,2.74,3.71,97.0,9.0,3.113402,1.25,1.489559,0.13181,0.157604,0.18622,97.0,0.29199,0.160669,0.071804,0.041849
Female,Yes,2.0,2.88,3.5,33.0,6.5,2.931515,1.0,1.219916,0.152439,0.173913,0.198216,33.0,0.416667,0.18215,0.056433,0.071595
Female,No,2.0,2.68,3.4375,54.0,5.2,2.773519,1.0,1.128425,0.139708,0.149691,0.18163,54.0,0.252672,0.156921,0.056797,0.036421


In [269]:
# 이번에는 각 그룹에서 가장 많은 팁과 가장 적은 팁의 차이를 알아보자. 
# 함수가 없으므로 만들어야 한다.
def max_min(x):
    return x.max()-x.min()
tips.groupby(["sex", "smoker"])[["tip"]].agg(max_min)


Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


In [280]:
# 만약 여러가지 그룹연산을 동시에 하고 싶다면 다음과 같이 리스트를 넣는다.
tips.groupby(["sex", "smoker"])[["total_bill"]].agg(["mean", max_min])

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max_min
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2
Male,Yes,22.2845,43.56
Male,No,19.791237,40.82
Female,Yes,17.977879,41.23
Female,No,18.105185,28.58


In [300]:
tips.pivot_table("total_bill", ["sex", "smoker"],
                 aggfunc=("mean", max_min))

Unnamed: 0_level_0,Unnamed: 1_level_0,max_min,mean
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,43.56,22.2845
Male,No,40.82,19.791237
Female,Yes,41.23,17.977879
Female,No,28.58,18.105185


In [301]:
# 만약 데이터 열마다 다른 연산을 하고 싶다면 
# 열 라벨과 연산 이름(또는 함수)를 딕셔너리로 넣는다.
tips.groupby(["sex", "smoker"]).agg({"tip_pct": "mean", 
                                     "total_bill": max_min})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [316]:
tips.pivot_table(index=["sex", "smoker"],
                 aggfunc=({"tip_pct": "mean",
                           "total_bill": max_min}))

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [307]:
# sex, smoker를 그룹화 하여 전체 평균내기
tips.pivot_table(index=["sex", "smoker"])

Unnamed: 0_level_0,Unnamed: 1_level_0,size,tip,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,Yes,2.5,3.051167,0.152771,22.2845
Male,No,2.71134,3.113402,0.160669,19.791237
Female,Yes,2.242424,2.931515,0.18215,17.977879
Female,No,2.592593,2.773519,0.156921,18.105185


In [330]:
tips.pivot_table(values=["tip_pct", "size"], 
                 index=["sex", "day"], 
                 columns="smoker")

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [342]:
# fill_value = : NaN값을 원하는 형태로 바꿔줌
tips.pivot_table("size", ["time", "sex", "smoker"],
                 columns="day", aggfunc="sum", fill_value="0")

Unnamed: 0_level_0,Unnamed: 1_level_0,day,Thur,Fri,Sat,Sun
time,sex,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Lunch,Male,Yes,23,5,0,0
Lunch,Male,No,50,0,0,0
Lunch,Female,Yes,17,6,0,0
Lunch,Female,No,60,3,0,0
Dinner,Male,Yes,0,12,71,39
Dinner,Male,No,0,4,85,124
Dinner,Female,Yes,0,8,33,10
Dinner,Female,No,2,2,30,43


In [None]:
"""
연습 문제 1
타이타닉 승객 데이터를 이용하여 다음 분석을 실시하라. 
데이터는 다음과 같이 받을 수 있다.

titanic = sns.load_dataset("titanic")

1. 
qcut 명령으로 세 개의 나이 그룹을 만든다.

2. 
성별, 선실, 나이 그룹에 의한 생존율을 데이터프레임으로 계산한다. 
행에는 성별 및 나이 그룹에 대한 다중 인덱스를 사용하고 
열에는 선실 인덱스를 사용한다.
3.
성별 및 선실에 의한 생존율을 피봇 데이터 형태로 만든다.
"""

In [374]:
titanic = sbn.load_dataset("titanic")
titanic.tail() 
# survive age pclass
titanic["age_group"] = pd.qcut(titanic.age, 3, labels=["Q1", "Q2", "Q3"])
titanic.tail()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_group
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,Q2
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,Q1
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,Q2
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,Q2


In [372]:
titanic.pivot_table("survived", index=["sex", "age_group"], 
                    columns="pclass", aggfunc="mean")



Unnamed: 0_level_0,pclass,1,2,3
sex,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,Q1,0.954545,1.0,0.508475
female,Q2,0.947368,0.909091,0.481481
female,Q3,0.977273,0.857143,0.25
male,Q1,0.5,0.357143,0.158879
male,Q2,0.5,0.076923,0.195652
male,Q3,0.347826,0.0625,0.055556


In [365]:
titanic.groupby(["sex", "pclass", "age_group"])[["survived"]].mean().unstack("pclass")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,pclass,1,2,3
sex,age_group,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,Q1,0.954545,1.0,0.508475
female,Q2,0.947368,0.909091,0.481481
female,Q3,0.977273,0.857143,0.25
male,Q1,0.5,0.357143,0.158879
male,Q2,0.5,0.076923,0.195652
male,Q3,0.347826,0.0625,0.055556


In [381]:
titanic.groupby(["sex", "pclass"]).mean()[["survived"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447
