# CrossTab
pandas의 crosstab 함수는 두 개 이상의 범주형 변수 간의 빈도수를 구해 교차표(Contingency Table)를 만드는 데 유용합니다.  
엑셀의 피벗 테이블과 유사하지만, 주로 범주형 데이터의 분포나 관계를 파악할 때 많이 사용됩니다.

In [1]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


* 빈도수(Count) 구하기

In [17]:
pd.crosstab(index = tips['sex'], columns = tips["day"])

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,30,10,59,58
Female,32,9,28,18


* 값(Value)과 집계 함수(aggfunc) 적용

In [19]:
pd.crosstab(index = tips['sex'], columns = tips["day"], values = tips['tip'], aggfunc="sum")

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,89.41,26.93,181.95,186.78
Female,82.42,25.03,78.45,60.61


* 총합계(Margins) 추가하기

In [21]:
pd.crosstab(index = tips['sex'], columns = tips["day"], values = tips['tip'], 
            aggfunc="sum", margins=True, margins_name="전체")

day,Thur,Fri,Sat,Sun,전체
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,89.41,26.93,181.95,186.78,485.07
Female,82.42,25.03,78.45,60.61,246.51
전체,171.83,51.96,260.4,247.39,731.58


* normalize: 결과 교차표의 값을 정규화(비율 또는 백분율) 할지 여부를 지정합니다.

In [24]:
pd.crosstab(index = tips['sex'], columns = tips["day"], values = tips['tip'], 
            aggfunc="sum", margins=True, margins_name="전체", normalize=True)

day,Thur,Fri,Sat,Sun,전체
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,0.122215,0.036811,0.248708,0.25531,0.663044
Female,0.11266,0.034214,0.107234,0.082848,0.336956
전체,0.234875,0.071024,0.355942,0.338159,1.0


In [25]:
pd.crosstab(index = tips['sex'], columns = tips["day"], values = tips['tip'], 
            aggfunc="sum", margins=True, margins_name="전체", normalize="index")

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,0.184324,0.055518,0.375101,0.385058
Female,0.334347,0.101537,0.318243,0.245872
전체,0.234875,0.071024,0.355942,0.338159


In [26]:
pd.crosstab(index = tips['sex'], columns = tips["day"], values = tips['tip'], 
            aggfunc="sum", margins=True, margins_name="전체", normalize="columns")

day,Thur,Fri,Sat,Sun,전체
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,0.52034,0.518283,0.698733,0.755002,0.663044
Female,0.47966,0.481717,0.301267,0.244998,0.336956


# Pivot Table
판다스의 pivot_table 함수는 데이터를 피벗 테이블(pivot table) 형태로 재구성하여 요약 집계할 수 있는 매우 유용한 도구입니다. 엑셀의 피벗 테이블과 유사한 개념으로, 여러 변수들을 행(row)과 열(column)로 재배치하고, 특정 값에 대해 집계(aggregation) 함수를 적용하여 데이터의 통계적 요약 정보를 쉽게 도출할 수 있습니다.

In [28]:
import warnings
warnings.filterwarnings("ignore")

tips.pivot_table(index = "sex", columns = "day",
                 values = "tip", aggfunc="mean")

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,2.980333,2.693,3.083898,3.220345
Female,2.575625,2.781111,2.801786,3.367222


* 여러 집계 함수와 여러 값 사용하기

In [6]:
tips.pivot_table(index = "sex", columns = "day",
                 values = ["total_bill","tip"], aggfunc="mean")

Unnamed: 0_level_0,tip,tip,tip,tip,total_bill,total_bill,total_bill,total_bill
day,Thur,Fri,Sat,Sun,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,2.980333,2.693,3.083898,3.220345,18.714667,19.857,20.802542,21.887241
Female,2.575625,2.781111,2.801786,3.367222,16.715312,14.145556,19.680357,19.872222


* 여러 집계 함수를 적용하기

In [8]:
tips.pivot_table(index = "sex", columns = "day",
                 values = "tip", aggfunc=["sum", "mean"])

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
day,Thur,Fri,Sat,Sun,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,89.41,26.93,181.95,186.78,2.980333,2.693,3.083898,3.220345
Female,82.42,25.03,78.45,60.61,2.575625,2.781111,2.801786,3.367222


* fill_value: 피벗 테이블 생성 시 결측치(NaN)를 특정 값으로 채워줍니다.

In [10]:
tips.pivot_table(index = ["sex", "day"], columns = "time",
                 values = "tip", aggfunc="mean", fill_value=0)

Unnamed: 0_level_0,time,Lunch,Dinner
sex,day,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Thur,2.980333,0.0
Male,Fri,1.9,3.032857
Male,Sat,0.0,3.083898
Male,Sun,0.0,3.220345
Female,Thur,2.561935,3.0
Female,Fri,2.745,2.81
Female,Sat,0.0,2.801786
Female,Sun,0.0,3.367222


* margins: 행과 열의 총합(혹은 총평균 등)을 추가합니다.

In [13]:
tips.pivot_table(index = ["sex", "day"], columns = "time",
                 values = "tip", aggfunc="mean", fill_value=0, margins=True, margins_name="전체")

Unnamed: 0_level_0,time,Lunch,Dinner,전체
sex,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,Thur,2.980333,0.0,2.980333
Male,Fri,1.9,3.032857,2.693
Male,Sat,0.0,3.083898,3.083898
Male,Sun,0.0,3.220345,3.220345
Female,Thur,2.561935,3.0,2.575625
Female,Fri,2.745,2.81,2.781111
Female,Sat,0.0,2.801786,2.801786
Female,Sun,0.0,3.367222,3.367222
전체,,2.728088,3.10267,2.998279


# 연습문제 (tips 데이터 활)
1. crosstab을 사용하여 요일(day)과 식사 시간(time)별로 식사 건수(빈도수)를 구하시오.

In [5]:
pd.crosstab(index = tips["day"], columns = tips["time"])

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,61,1
Fri,7,12
Sat,0,87
Sun,0,76


2. crosstab을 활용하여 각 요일(day)별로 흡연자(smoker)의 평균 팁(tip)을 계산하시오.

In [11]:
pd.crosstab(index = tips["day"], columns = tips["smoker"], values = tips["tip"], aggfunc = "mean")

smoker,Yes,No
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,3.03,2.673778
Fri,2.714,2.8125
Sat,2.875476,3.102889
Sun,3.516842,3.167895


3. pivot_table을 사용하여 성별(sex)과 흡연자(smoker)별로 총 total_bill의 합계를 계산하는 피벗 테이블을 만드시오.

In [10]:
tips.pivot_table(index = "sex", columns = "smoker",
                values = "total_bill", aggfunc = "sum")

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,1337.07,1919.75
Female,593.27,977.68


4. pivot_table을 사용하여 요일(day)별 평균 tip을 계산하고, 마진(margins) 옵션을 활용하여 전체 평균도 함께 표시하시오.

In [15]:
tips.pivot_table(index = "day", 
                 values = "tip", aggfunc = "mean",    # 기본값이 평균이라서 평균구할땐 aggfunc 안적어도됨
                 margins = True)

Unnamed: 0_level_0,tip
day,Unnamed: 1_level_1
Thur,2.771452
Fri,2.734737
Sat,2.993103
Sun,3.255132
All,2.998279


5. pivot_table을 사용하여 식사 시간(time)별로 각 파티의 인원 수(size)에 따른 평균 total_bill을 구하는 테이블을 만드시오.

In [16]:
tips.pivot_table(index = "time", columns = "size", 
                 values = "total_bill", aggfunc = "mean")

size,1,2,3,4,5,6
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Lunch,9.325,14.886731,18.524,29.95,41.19,30.383333
Dinner,5.16,17.228654,23.997879,28.404688,27.2875,48.17


6. pivot_table을 사용하여 요일(day)와 성별(sex)을 인덱스로, 흡연자(smoker)를 열로 하여 평균 tip을 계산하는 피벗 테이블을 작성하고, 결측값은 0으로 채우시오.

In [19]:
tips.pivot_table(index = ["day", "sex"], columns = "smoker", 
                 values = "tip", aggfunc = "mean",
                 fill_value = 0)

Unnamed: 0_level_0,smoker,Yes,No
day,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,Male,3.058,2.9415
Thur,Female,2.99,2.4596
Fri,Male,2.74125,2.5
Fri,Female,2.682857,3.125
Sat,Male,2.879259,3.256563
Sat,Female,2.868667,2.724615
Sun,Male,3.521333,3.115349
Sun,Female,3.5,3.329286


7. crosstab을 사용하여 요일(day)별로 흡연자와 비흡연자 각각의 빈도수를 구하고, 각 요일 내에서 비율(normalize)을 표시하시오.  
(normalize='index' 옵션을 추가하면 각 행(요일) 기준 비율로 나타낼 수 있습니다.)

In [27]:
pd.crosstab(index = tips["day"], columns = tips["smoker"], 
            normalize = "index")

smoker,Yes,No
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,0.274194,0.725806
Fri,0.789474,0.210526
Sat,0.482759,0.517241
Sun,0.25,0.75


8. pivot_table을 사용하여 요일(day)를 인덱스로, 식사 시간(time)을 열로 하여 total_bill에 대해 평균과 합계를 동시에 계산하는 피벗 테이블을 작성하시오.

In [28]:
tips.pivot_table(index = "day", columns = "time",
                 values = "total_bill", aggfunc = ["mean", "sum"])

Unnamed: 0_level_0,mean,mean,sum,sum
time,Lunch,Dinner,Lunch,Dinner
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Thur,17.664754,18.78,1077.55,18.78
Fri,12.845714,19.663333,89.92,235.96
Sat,,20.441379,0.0,1778.4
Sun,,21.41,0.0,1627.16


9. Tips 데이터셋에 새로운 컬럼 tip_pct를 생성하여 tip 비율(%) = tip/total_bill * 100을 계산한 후, pivot_table을 사용하여 **요일(day)**과 **식사 시간(time)**별 평균 tip 비율을 구하시오.

In [31]:
tips["tip_pct"] = tips["tip"] / tips["total_bill"] * 100
tips

tips.pivot_table(index = "day", columns = "time",
                 values = "tip_pct", aggfunc = "mean")

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,16.130074,15.974441
Fri,18.876489,15.891611
Sat,,15.315172
Sun,,16.689729


10. pivot_table을 사용하여 파티 인원 수(size)를 범주형 변수로 변환한 후, 파티 인원(size)별로 요일(day)별 평균 total_bill을 구하는 피벗 테이블을 작성하시오.

In [35]:
tips['size'] = tips['size'].astype("str")      # 문자열로 바꾸면  자동으로 범주형으로 인식
# 정석은 tips['size'] = tips['size'].astype("category")

tips.pivot_table(index = "size", columns = "day",
                 values = "total_bill", aggfunc = "mean")

day,Thur,Fri,Sat,Sun
size,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10.07,8.58,5.16,
2,15.156875,16.321875,16.83717,17.56
3,19.16,15.98,25.509444,22.184
4,29.95,40.17,29.876154,26.688333
5,41.19,,28.15,27.0
6,30.383333,,,48.17
