# 피벗 Table
- 피벗이란? 회전하는 물체의 균형을 잡아주는 중심점(원의 중심정과 흡사)
- 피벗 테이블이란? 기존 데이터의 칼럼을 재구성해서 데이터에 대한 통계를 한눈에 파악 할 수 있게 정리한 표
- 피벗 기능 활용시 장점 : 데이터를 원하는 형태로 손쉽게 집계 할 수 있음
- API 소개

```
pd.pivot_table(df,  # 피벗할 데이터프레임
              index = '행 위치에 들어갈 열',
              columns = '열 위치에 들어갈 열',
              values = '데이터로 사용할 열',
              aggfunc = 데이터 집계함수)
```

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = {"소속": ["jyp", "psy", "jyp", "jyp", "jyp", "jyp", "psy", "psy", "psy"],
        "가수": ["비", "제시", "박진형", "원더걸스", "제니", "샤샤", "현아", "싸이", "하니"],
        "성별": ['남자', '여자', '남자', '여자', '여자', '여자', '여자', '남자', '여자'],
        "연령": [15, 20, 20, 30, 30, 40, 50, 60, 70]}
data

{'소속': ['jyp', 'psy', 'jyp', 'jyp', 'jyp', 'jyp', 'psy', 'psy', 'psy'],
 '가수': ['비', '제시', '박진형', '원더걸스', '제니', '샤샤', '현아', '싸이', '하니'],
 '성별': ['남자', '여자', '남자', '여자', '여자', '여자', '여자', '남자', '여자'],
 '연령': [15, 20, 20, 30, 30, 40, 50, 60, 70]}

In [3]:
type(data)

dict

**dict type은 브래킷 연산자만 사용 가능하다**

In [4]:
print(data['소속'])
print(data.소속)

['jyp', 'psy', 'jyp', 'jyp', 'jyp', 'jyp', 'psy', 'psy', 'psy']


AttributeError: 'dict' object has no attribute '소속'

In [8]:
df = pd.DataFrame(data)

print("연령의 평균 : ",df['연령'].mean(), type(df['연령'].mean()))
print("연령의 총합 : ", df.연령.sum())
df['소속가수연령합'] = df['연령'].sum()
df

연령의 평균 :  37.22222222222222 <class 'float'>
연령의 총합 :  335


Unnamed: 0,소속,가수,성별,연령,소속가수연령합
0,jyp,비,남자,15,335
1,psy,제시,여자,20,335
2,jyp,박진형,남자,20,335
3,jyp,원더걸스,여자,30,335
4,jyp,제니,여자,30,335
5,jyp,샤샤,여자,40,335
6,psy,현아,여자,50,335
7,psy,싸이,남자,60,335
8,psy,하니,여자,70,335


- 각 소속사별 성별을 기준으로 연령값의 평균으로 새로운 table 집계해서 생성
- 원본 table을 새롭게 재구성

- 각 소속사별(index=['소속']),  성별(columns=['성별'])을
- 기준으로 연령값(values='연령')의 평균(aggfunc=np.mean)으로 
- 새로운 table 집계해서 생성

In [9]:
table = df.pivot_table(values='연령', index=['소속'], columns=['성별'],
                       aggfunc=np.mean)
table

성별,남자,여자
소속,Unnamed: 1_level_1,Unnamed: 2_level_1
jyp,17.5,33.333333
psy,60.0,46.666667


In [10]:
table.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, jyp to psy
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   남자      2 non-null      float64
 1   여자      2 non-null      float64
dtypes: float64(2)
memory usage: 48.0+ bytes


- 연령값을 기준으로 평균과 합을 동시에 재구성
- np.mean : numpy에서 평균을 의미하는 기호

In [11]:
table = df.pivot_table(values='연령', index=['소속'], columns=['성별'], aggfunc=[np.sum, np.mean])
table

Unnamed: 0_level_0,sum,sum,mean,mean
성별,남자,여자,남자,여자
소속,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
jyp,35,100,17.5,33.333333
psy,60,140,60.0,46.666667


In [12]:
# np.sum이 아닌 'sum'을 써도 가능하다
table = df.pivot_table(values='연령', index=['소속'], columns=['성별'], aggfunc=['sum', 'mean'])
table

Unnamed: 0_level_0,sum,sum,mean,mean
성별,남자,여자,남자,여자
소속,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
jyp,35,100,17.5,33.333333
psy,60,140,60.0,46.666667


In [13]:
# 숫자를 정수로 변환
# 메모리 정략을 위한 32bit 로 처리
table = table.astype('int32')
table

Unnamed: 0_level_0,sum,sum,mean,mean
성별,남자,여자,남자,여자
소속,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
jyp,35,100,17,33
psy,60,140,60,46


In [14]:
# 가수들이 어떤 소속사에 소속되어 있는지에 대한 재구성
table = df.pivot_table(values='연령', index=['소속'], columns=['가수'])
table

가수,박진형,비,샤샤,싸이,원더걸스,제니,제시,하니,현아
소속,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
jyp,20.0,15.0,40.0,,30.0,30.0,,,
psy,,,,60.0,,,20.0,70.0,50.0


In [15]:
table.fillna('', inplace=True)
table

가수,박진형,비,샤샤,싸이,원더걸스,제니,제시,하니,현아
소속,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
jyp,20.0,15.0,40.0,,30.0,30.0,,,
psy,,,,60.0,,,20.0,70.0,50.0


In [16]:
table.reset_index()

가수,소속,박진형,비,샤샤,싸이,원더걸스,제니,제시,하니,현아
0,jyp,20.0,15.0,40.0,,30.0,30.0,,,
1,psy,,,,60.0,,,20.0,70.0,50.0
