## CrossTab
Pandas의 crosstab 함수는 데이터 내에서 두 개 이상의 요소 간의 교차 분석을 수행하는 데 사용됩니다. 이 함수는 주로 두 변수 사이의 관계를 분석하기 위해 사용되며, 이를 통해 각 변수의 빈도수를 요약한 교차 테이블(혹은 교차분석표)을 생성할 수 있습니다. crosstab은 특히 카테고리 데이터의 분석에 유용하며, 설문 조사 응답, 사용자 선호도 등 다양한 데이터를 분석하는 데 적합합니다.

* index: 교차 테이블의 행을 구성할 데이터 (하나 이상의 배열이 될 수 있음).
* columns: 교차 테이블의 열을 구성할 데이터 (하나 이상의 배열이 될 수 있음).
* values: 선택적 매개변수로, 집계 함수(aggfunc)와 함께 사용되어 특정 값을 기준으로 집계를 수행합니다.
* aggfunc: values에 적용할 집계 함수 (예: sum, mean 등).
* margins: True로 설정하면, 모든 행/열의 합계를 추가합니다.
* normalize: 데이터를 정규화할지 여부를 결정합니다. 특정 축에 대해 정규화하거나 전체 테이블을 정규화할 수 있습니다.

In [6]:
# CrossTab : 내가 원하는 행과 열을 설정해서 빈도값
# Pivot Table : 내가 원하는 행과 열을 설정해서 집계값

import pandas as pd

tips = pd.read_csv("Data/tips.csv")

pd.crosstab(index = tips['sex'], columns = tips['day'], 
            margins=True, normalize='index')

day,Fri,Sat,Sun,Thur
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,0.103448,0.321839,0.206897,0.367816
Male,0.063694,0.375796,0.369427,0.191083
All,0.077869,0.356557,0.311475,0.254098


In [8]:
# 성별별로 시간별로 요일마다 몇팀이 왔는지?
pd.crosstab(index = [tips['sex'], tips['time']], columns = tips['day'])

Unnamed: 0_level_0,day,Fri,Sat,Sun,Thur
sex,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Female,Dinner,5,28,18,1
Female,Lunch,4,0,0,31
Male,Dinner,7,59,58,0
Male,Lunch,3,0,0,30


## Pivot Table
Pandas의 pivot_table은 Excel의 피벗 테이블과 유사한 기능을 제공합니다. 이 함수는 데이터프레임의 데이터를 요약하는 데 사용되며, 복잡한 데이터에서 중요한 정보를 추출하고, 특정 요약 통계를 제공하는 데 매우 유용합니다. pivot_table을 사용하면, 데이터를 다양한 방식으로 재구성하고, 그룹화된 데이터에 대한 집계 함수를 적용할 수 있습니다.

* data: 분석할 데이터프레임입니다.
* values: 집계하려는 컬럼 이름들의 리스트입니다. 기본적으로 수치 데이터 컬럼을 집계합니다.
* index: 피벗 테이블의 행으로 사용할 컬럼 또는 컬럼 리스트입니다.
* columns: 피벗 테이블의 열로 사용할 컬럼 또는 컬럼 리스트입니다.
* aggfunc: 데이터 집계에 사용할 함수입니다. 기본값은 'mean'이지만, 'sum', 'count', 'max', 'min' 등 다양한 함수를 사용할 수 있습니다.
* fill_value: NA/null 값을 대체할 값입니다.
* margins: True로 설정하면, 모든 행과 열의 합계/평균을 추가합니다.
* dropna: True로 설정하면, 모든 값이 NA인 컬럼을 포함하지 않습니다.
* margins_name: margins가 True일 때, 합계/평균 행의 이름을 지정합니다.

crosstab은 두 변수 간의 교차 분석에 주로 사용되며, pivot_table은 데이터를 보다 복잡하고 다차원적으로 요약하는 데 사용됩니다. crosstab의 기본 동작은 빈도수 계산이고, pivot_table의 기본 동작은 평균을 계산하는 것입니다.

In [12]:
tips.pivot_table(index = 'sex', columns = 'day', 
                 values = 'tip', aggfunc=["mean", 'median'])

Unnamed: 0_level_0,mean,mean,mean,mean,median,median,median,median
day,Fri,Sat,Sun,Thur,Fri,Sat,Sun,Thur
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Female,2.781111,2.801786,3.367222,2.575625,3.0,2.625,3.5,2.005
Male,2.693,3.083898,3.220345,2.980333,2.6,3.0,3.085,2.53


## 연습문제
1. 성별(sex)과 흡연 유무(smoker)에 따른 고객 수를 교차 분석하세요.

In [13]:
pd.crosstab(index = tips['sex'], columns = tips['smoker'])

smoker,No,Yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,54,33
Male,97,60


2. 요일(day)별로 성별(sex) 고객 수를 교차 분석하세요.

In [14]:
pd.crosstab(index = tips['day'], columns = tips['sex'])

sex,Female,Male
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,9,10
Sat,28,59
Sun,18,58
Thur,32,30


3. 시간(time)과 요일(day)에 따른 흡연자(smoker)와 비흡연자의 분포를 교차 분석하세요.

In [15]:
pd.crosstab(index = [tips['time'], tips['day']], columns = tips['smoker'])

Unnamed: 0_level_0,smoker,No,Yes
time,day,Unnamed: 2_level_1,Unnamed: 3_level_1
Dinner,Fri,3,9
Dinner,Sat,45,42
Dinner,Sun,57,19
Dinner,Thur,1,0
Lunch,Fri,1,6
Lunch,Thur,44,17


4. 요일(day)별, 시간(time)별 성별(sex) 고객 수를 교차 분석하되, 각 카테고리별 총합도 표시하세요(margins=True 사용).

In [17]:
pd.crosstab(index = [tips['day'], tips['time']], 
            columns = tips['sex'],
            margins=True)

Unnamed: 0_level_0,sex,Female,Male,All
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,Dinner,5,7,12
Fri,Lunch,4,3,7
Sat,Dinner,28,59,87
Sun,Dinner,18,58,76
Thur,Dinner,1,0,1
Thur,Lunch,31,30,61
All,,87,157,244


5. 성별(sex)과 요일(day)에 따른 평균 팁 금액을 교차 분석하세요(aggfunc='mean'과 values 사용).

In [18]:
tips.pivot_table(index = 'sex', columns = 'day', values = 'tip',
                aggfunc="mean")

day,Fri,Sat,Sun,Thur
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,2.781111,2.801786,3.367222,2.575625
Male,2.693,3.083898,3.220345,2.980333


6. 요일(day)별 총 계산서 금액(total_bill)의 평균을 피벗 테이블을 사용해 분석하세요.

In [19]:
tips.pivot_table(index = 'day', values = 'total_bill')

Unnamed: 0_level_0,total_bill
day,Unnamed: 1_level_1
Fri,17.151579
Sat,20.441379
Sun,21.41
Thur,17.682742


7. 성별(sex)과 흡연 유무(smoker)를 기준으로 팁(tip)의 평균을 분석하세요.

In [21]:
tips.pivot_table(index = 'sex', columns = 'smoker', values = 'tip')

smoker,No,Yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,2.773519,2.931515
Male,3.113402,3.051167


8. 요일(day)과 시간(time)을 행으로 하고, 성별(sex)을 열로 하여, 팁 금액(tip)의 총합을 계산하세요.

In [23]:
tips.pivot_table(index = ['day', 'time'], columns = 'sex',
                 values = 'tip', aggfunc="sum", fill_value=0)

Unnamed: 0_level_0,sex,Female,Male
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,Dinner,14.05,21.23
Fri,Lunch,10.98,5.7
Sat,Dinner,78.45,181.95
Sun,Dinner,60.61,186.78
Thur,Dinner,3.0,0.0
Thur,Lunch,79.42,89.41


9. 시간(time)별, 요일(day)별로 최대 총 계산서 금액(total_bill)과 최소 팁 금액(tip)을 동시에 분석하세요(aggfunc에 리스트 사용).

In [25]:
tips.pivot_table(index = 'time', columns = 'day', 
                 aggfunc={'total_bill' : 'max', "tip" : "min"})

Unnamed: 0_level_0,tip,tip,tip,tip,total_bill,total_bill,total_bill,total_bill
day,Fri,Sat,Sun,Thur,Fri,Sat,Sun,Thur
time,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Dinner,1.0,1.0,1.01,3.0,40.17,50.81,48.17,18.78
Lunch,1.58,,,1.25,16.27,,,43.11


10. 성별(sex)을 행으로, 흡연 유무(smoker)를 열로 하여, 총 계산서 금액(total_bill)의 평균을 계산하고, 결과를 총계를 포함하여 분석하세요.

In [27]:
tips.pivot_table(index = 'sex', columns = 'smoker', 
                 values = "total_bill", margins=True)

smoker,No,Yes,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,18.105185,17.977879,18.056897
Male,19.791237,22.2845,20.744076
All,19.188278,20.756344,19.785943


In [31]:
df = pd.read_excel("한국관광데이터/kto_201001.xlsx", header = 1,
                  usecols = "A:G", skipfooter=4)
df

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,329131,18238,421,4339,80916,433045
1,일본,202825,1750,89,549,3971,209184
2,대만,35788,41,17,37,516,36399
3,홍콩,13874,55,0,21,595,14545
4,마카오,554,0,0,0,0,554
...,...,...,...,...,...,...,...
62,아프리카 기타,349,594,25,86,296,1350
63,기타대륙,10,3,0,0,0,13
64,국적미상,10,3,0,0,0,13
65,교포소계,0,0,0,0,22537,22537
