## Pivot Table
피봇 테이블은 데이터를 요약하는 방식으로, 특정한 "행"과 "열"을 기준으로 데이터를 재구성합니다. 이를 통해 데이터를 다양한 각도에서 볼 수 있으며, 특히 대용량 데이터셋에서 유용합니다.

* 주요 매개변수
    - values: 요약할 데이터의 열을 지정합니다.
    - index: 피봇 테이블의 행을 구성하는 열을 지정합니다.
    - columns: 피봇 테이블의 열을 구성하는 열을 지정합니다.
    - aggfunc: 데이터를 집계하는 함수를 지정합니다. 기본값은 mean (평균)이지만 sum, count, max 등 다양한 함수를 사용할 수 있습니다.

In [12]:
import pandas as pd
import numpy as np
import seaborn as sns

tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
tips.pivot_table(index = "sex", values="tip", aggfunc = "mean")

## Cross Tab
판다스의 crosstab 함수는 두 개 이상의 컬럼 간의 교차 빈도를 계산하기 위해 사용됩니다. 이는 주로 설문 조사 결과나 사용자 행동 데이터를 분석할 때 유용하며, 두 변수 간의 관계를 파악하는 데에도 자주 사용됩니다.

In [None]:
pd.crosstab(index = tips.sex, columns=tips.day)

## 연습문제
1. 성별에 따른 평균 팁 금액을 계산하는 Pivot Table을 만드세요.

In [2]:
tips.pivot_table(index = 'sex', values='tip')

Unnamed: 0_level_0,tip
sex,Unnamed: 1_level_1
Male,3.089618
Female,2.833448


2. 요일별로 각 시간대(time)에 따른 총 팁 금액을 보여주는 Pivot Table을 작성하세요.

In [3]:
tips.pivot_table(index = 'day',columns='time' ,values='tip', aggfunc="sum")

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,168.83,3.0
Fri,16.68,35.28
Sat,0.0,260.4
Sun,0.0,247.39


3. 사이즈(size)에 따른 평균 팁 비율(tip/total_bill)을 보여주는 Pivot Table을 작성하세요. 팁 비율은 새로운 컬럼으로 계산하여 추가하세요.

In [35]:
tips['tip_ratio'] = tips['tip']/tips['total_bill']

tips.pivot_table(index='size', values='tip_ratio')

Unnamed: 0_level_0,tip_ratio
size,Unnamed: 1_level_1
1,0.217292
2,0.165719
3,0.152157
4,0.145949
5,0.141495
6,0.156229


4. 성별과 요일을 멀티 인덱스로 하여, 각 그룹별 평균 총 청구금액과 평균 팁 금액을 보여주는 Pivot Table을 작성하세요.

In [44]:
tips.pivot_table(index=['sex','day'],values=['total_bill','tip'])

Unnamed: 0_level_0,Unnamed: 1_level_0,tip,total_bill
sex,day,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Thur,2.980333,18.714667
Male,Fri,2.693,19.857
Male,Sat,3.083898,20.802542
Male,Sun,3.220345,21.887241
Female,Thur,2.575625,16.715312
Female,Fri,2.781111,14.145556
Female,Sat,2.801786,19.680357
Female,Sun,3.367222,19.872222


5. 성별(sex)과 흡연 여부(smoker)간의 빈도수를 보여주는 Cross Tab을 생성하세요.

In [13]:
pd.crosstab(index = tips.sex, columns=tips.smoker)

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


6. 성별(sex)에 따른 시간(time)별 방문 빈도수를 나타내는 Cross Tab을 만들고, 이를 백분율로 표현하세요.

In [45]:
pd.crosstab(index = tips.sex, columns=tips.time, normalize=True)

time,Lunch,Dinner
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.135246,0.508197
Female,0.143443,0.213115


7. 요일(day)별 흡연 여부(smoker)의 빈도수를 나타내는 Cross Tab을 생성하고, 각 요일별 전체 방문수 대비 흡연자의 비율을 계산하세요.

In [48]:
pd.crosstab(index=tips['day'], columns=tips['smoker'], normalize=True)[['Yes']]

smoker,Yes
day,Unnamed: 1_level_1
Thur,0.069672
Fri,0.061475
Sat,0.172131
Sun,0.077869


8. 모든 요일(day)에 대해, 각 성별(sex)의 방문 횟수를 보여주는 Cross Tab을 생성하세요. 각 성별과 요일의 총 방문 횟수도 함께 표시하세요.

In [40]:
pd.crosstab(index=tips['day'], columns=tips['sex'], margins=True)

sex,Male,Female,All
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,30,32,62
Fri,10,9,19
Sat,59,28,87
Sun,58,18,76
All,157,87,244


9. 사이즈(size)에 따른 흡연자와 비흡연자의 방문 횟수를 보여주는 Cross Tab을 만드세요. 그리고 각 사이즈별 방문 횟수를 비율로 표시하세요.

In [49]:
pd.crosstab(index=tips['size'], columns=tips['smoker'], normalize='index')

smoker,Yes,No
size,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.5,0.5
2,0.423077,0.576923
3,0.315789,0.684211
4,0.297297,0.702703
5,0.4,0.6
6,0.0,1.0


10. 성별(sex)과 *흡연 여부(smoker)를 기준으로 그룹화한 후, 각 그룹별 평균 팁 금액과 최소, 최대 총 청구금액을 계산하는 Pivot Table을 만드세요.

In [52]:
tips.pivot_table(index=['sex','smoker'], values=['tip','total_bill'], 
                 aggfunc={'tip':'mean', 'total_bill':['min','max']})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,min
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Male,Yes,3.051167,50.81,7.25
Male,No,3.113402,48.33,7.51
Female,Yes,2.931515,44.3,3.07
Female,No,2.773519,35.83,7.25
