## CrossTab
Pandas의 crosstab 함수는 데이터 내에서 두 개 이상의 요소 간의 교차 분석을 수행하는 데 사용됩니다. 이 함수는 주로 두 변수 사이의 관계를 분석하기 위해 사용되며, 이를 통해 각 변수의 빈도수를 요약한 교차 테이블(혹은 교차분석표)을 생성할 수 있습니다. crosstab은 특히 카테고리 데이터의 분석에 유용하며, 설문 조사 응답, 사용자 선호도 등 다양한 데이터를 분석하는 데 적합합니다.

* index: 교차 테이블의 행을 구성할 데이터 (하나 이상의 배열이 될 수 있음).
* columns: 교차 테이블의 열을 구성할 데이터 (하나 이상의 배열이 될 수 있음).
* values: 선택적 매개변수로, 집계 함수(aggfunc)와 함께 사용되어 특정 값을 기준으로 집계를 수행합니다.
* aggfunc: values에 적용할 집계 함수 (예: sum, mean 등).
* margins: True로 설정하면, 모든 행/열의 합계를 추가합니다.
* normalize: 데이터를 정규화할지 여부를 결정합니다. 특정 축에 대해 정규화하거나 전체 테이블을 정규화할 수 있습니다.

In [9]:
#CrossTab   : 내가 원하는 행과 열을 설정해서 빈도값
#PivotTable : 내가 원하는 행과 열을 설정해서 집계값

import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")

#성별별로 요일별로 성별마다 몇팀이 왔는지(노멀라이즈)
pd.crosstab(index=tips['sex'], 
            columns=tips['day'], 
            margins=True, normalize=True)

day,Thur,Fri,Sat,Sun,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,0.122951,0.040984,0.241803,0.237705,0.643443
Female,0.131148,0.036885,0.114754,0.07377,0.356557
All,0.254098,0.077869,0.356557,0.311475,1.0


In [10]:
#성별별로 시간별로(멀티인덱싱) 요일마다 몇팀이 왔는지?
pd.crosstab(index=[tips['sex'], tips['time']], 
            columns=tips['day'], 
            margins=True)

Unnamed: 0_level_0,day,Thur,Fri,Sat,Sun,All
sex,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Male,Lunch,30,3,0,0,33
Male,Dinner,0,7,59,58,124
Female,Lunch,31,4,0,0,35
Female,Dinner,1,5,28,18,52
All,,62,19,87,76,244


## Pivot Table
Pandas의 pivot_table은 Excel의 피벗 테이블과 유사한 기능을 제공합니다. 이 함수는 데이터프레임의 데이터를 요약하는 데 사용되며, 복잡한 데이터에서 중요한 정보를 추출하고, 특정 요약 통계를 제공하는 데 매우 유용합니다. pivot_table을 사용하면, 데이터를 다양한 방식으로 재구성하고, 그룹화된 데이터에 대한 집계 함수를 적용할 수 있습니다.

* data: 분석할 데이터프레임입니다.
* values: 집계하려는 컬럼 이름들의 리스트입니다. 기본적으로 수치 데이터 컬럼을 집계합니다.
* index: 피벗 테이블의 행으로 사용할 컬럼 또는 컬럼 리스트입니다.
* columns: 피벗 테이블의 열로 사용할 컬럼 또는 컬럼 리스트입니다.
* aggfunc: 데이터 집계에 사용할 함수입니다. 기본값은 'mean'이지만, 'sum', 'count', 'max', 'min' 등 다양한 함수를 사용할 수 있습니다.
* fill_value: NA/null 값을 대체할 값입니다.
* margins: True로 설정하면, 모든 행과 열의 합계/평균을 추가합니다.
* dropna: True로 설정하면, 모든 값이 NA인 컬럼을 포함하지 않습니다.
* margins_name: margins가 True일 때, 합계/평균 행의 이름을 지정합니다.

crosstab은 두 변수 간의 교차 분석에 주로 사용되며, pivot_table은 데이터를 보다 복잡하고 다차원적으로 요약하는 데 사용됩니다. crosstab의 기본 동작은 빈도수 계산이고, pivot_table의 기본 동작은 평균을 계산하는 것입니다.

In [14]:
#성별별로/요일별로 팁을 얼마나 주는지($)
tips.pivot_table(index='sex', 
                 columns='day', 
                 values='tip', 
                 aggfunc=['mean','median'])

Unnamed: 0_level_0,mean,mean,mean,mean,median,median,median,median
day,Thur,Fri,Sat,Sun,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,2.980333,2.693,3.083898,3.220345,2.53,2.6,3.0,3.085
Female,2.575625,2.781111,2.801786,3.367222,2.005,3.0,2.625,3.5


## 연습문제
1. 성별(sex)과 흡연 유무(smoker)에 따른 고객 수를 교차 분석하세요.

In [21]:
pd.crosstab(index=tips['sex'], columns=tips['smoker'])

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


2. 요일(day)별로 성별(sex) 고객 수를 교차 분석하세요.

In [22]:
pd.crosstab(index=tips['day'], columns=tips['sex'])

sex,Male,Female
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,30,32
Fri,10,9
Sat,59,28
Sun,58,18


3. 시간(time)과 요일(day)에 따른 흡연자(smoker)와 비흡연자의 분포를 교차 분석하세요.

In [23]:
# 멀티인덱싱
pd.crosstab(index=[tips['time'], tips['day']], columns=tips['smoker'], margins=True)

Unnamed: 0_level_0,smoker,Yes,No,All
time,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Lunch,Thur,17,44,61
Lunch,Fri,6,1,7
Dinner,Thur,0,1,1
Dinner,Fri,9,3,12
Dinner,Sat,42,45,87
Dinner,Sun,19,57,76
All,,93,151,244


4. 요일(day)별, 시간(time)별 성별(sex) 고객 수를 교차 분석하되, 각 카테고리별 총합도 표시하세요(margins=True 사용).

In [25]:
# 멀티인덱싱
pd.crosstab(index=[tips['day'], tips['time']], columns=tips['sex'], margins=True)

Unnamed: 0_level_0,sex,Male,Female,All
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Thur,Lunch,30,31,61
Thur,Dinner,0,1,1
Fri,Lunch,3,4,7
Fri,Dinner,7,5,12
Sat,Dinner,59,28,87
Sun,Dinner,58,18,76
All,,157,87,244


5. 성별(sex)과 요일(day)에 따른 평균 팁 금액을 교차 분석하세요(aggfunc='mean'과 values 사용).

In [26]:
#성별별로/요일별로 팁을 얼마나 주는지($)
tips.pivot_table(index='sex', columns='day', values='tip', aggfunc='mean')

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,2.980333,2.693,3.083898,3.220345
Female,2.575625,2.781111,2.801786,3.367222


6. 요일(day)별 총 계산서 금액(total_bill)의 평균을 피벗 테이블을 사용해 분석하세요.

In [28]:
tips.pivot_table(index='day', values='total_bill', aggfunc='mean')

Unnamed: 0_level_0,total_bill
day,Unnamed: 1_level_1
Thur,17.682742
Fri,17.151579
Sat,20.441379
Sun,21.41


7. 성별(sex)과 흡연 유무(smoker)를 기준으로 팁(tip)의 평균을 분석하세요.

In [29]:
tips.pivot_table(index='sex', columns='smoker', values='tip', aggfunc='mean')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,3.051167,3.113402
Female,2.931515,2.773519


8. 요일(day)과 시간(time)을 행으로 하고, 성별(sex)을 열로 하여, 팁 금액(tip)의 총합을 계산하세요.

In [30]:
tips.pivot_table(index=['day','time'], columns='sex', values='tip', aggfunc='sum')

Unnamed: 0_level_0,sex,Male,Female
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,Lunch,89.41,79.42
Thur,Dinner,0.0,3.0
Fri,Lunch,5.7,10.98
Fri,Dinner,21.23,14.05
Sat,Lunch,0.0,0.0
Sat,Dinner,181.95,78.45
Sun,Lunch,0.0,0.0
Sun,Dinner,186.78,60.61


9. 시간(time)별, 요일(day)별로 최대 총 계산서 금액(total_bill)과 최소 팁 금액(tip)을 동시에 분석하세요(aggfunc에 리스트 사용).

In [34]:
tips.pivot_table(index='time', columns='day', 
                 aggfunc={'total_bill':'max', 'tip':'min'})

Unnamed: 0_level_0,tip,tip,tip,tip,total_bill,total_bill,total_bill,total_bill
day,Thur,Fri,Sat,Sun,Thur,Fri,Sat,Sun
time,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Lunch,1.25,1.58,,,43.11,16.27,,
Dinner,3.0,1.0,1.0,1.01,18.78,40.17,50.81,48.17


10. 성별(sex)을 행으로, 흡연 유무(smoker)를 열로 하여, 총 계산서 금액(total_bill)의 평균을 계산하고, 결과를 총계를 포함하여 분석하세요.

In [32]:
tips.pivot_table(index='sex', columns='smoker', values=['total_bill'], aggfunc='sum', margins=True)

Unnamed: 0_level_0,total_bill,total_bill,total_bill
smoker,Yes,No,All
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Male,1337.07,1919.75,3256.82
Female,593.27,977.68,1570.95
All,1930.34,2897.43,4827.77
