### 피벗 Table
- 피벗이란? 회전하는 물체의 균형을 잡아주는 중심점(원의 중심정과 흡사)
- 피벗 테이블이란? 기존 데이터의 칼럼을 재구성해서 데이터에 대한 통계를 한눈에 파악 할 수 있게 정리한 표
- 피벗 기능 활용시 장점 : 데이터를 원하는 형태로 손쉽게 집계 할 수 있음
- API 소개
```
pd.pivot_table(df,  # 피벗할 데이터프레임
              index = '행 위치에 들어갈 열',
              columns = '열 위치에 들어갈 열',
              values = '데이터로 사용할 열',
              aggfunc = 데이터 집계함수)
```

In [2]:
data = {"소속": ["jyp", "psy", "jyp", "jyp", "jyp", "jyp", "psy", "psy", "psy"],
        "가수": ["비", "제시", "박진형", "원더걸스", "제니", "샤샤", "현아", "싸이", "하니"],
        "성별": ['남자', '여자', '남자', '여자', '여자', '여자', '여자', '남자', '여자'],
        "연령": [15, 20, 20, 30, 30, 40, 50, 60, 70]}
data

{'소속': ['jyp', 'psy', 'jyp', 'jyp', 'jyp', 'jyp', 'psy', 'psy', 'psy'],
 '가수': ['비', '제시', '박진형', '원더걸스', '제니', '샤샤', '현아', '싸이', '하니'],
 '성별': ['남자', '여자', '남자', '여자', '여자', '여자', '여자', '남자', '여자'],
 '연령': [15, 20, 20, 30, 30, 40, 50, 60, 70]}

In [3]:
import pandas as pd
import numpy as np

In [4]:
type(data)

dict

In [5]:
print(data['소속'])

['jyp', 'psy', 'jyp', 'jyp', 'jyp', 'jyp', 'psy', 'psy', 'psy']


In [6]:
print(data['소속'][0])

jyp


In [12]:
# dict로 DataFrame 생성

df = pd.DataFrame(data)
df

Unnamed: 0,소속,가수,성별,연령
0,jyp,비,남자,15
1,psy,제시,여자,20
2,jyp,박진형,남자,20
3,jyp,원더걸스,여자,30
4,jyp,제니,여자,30
5,jyp,샤샤,여자,40
6,psy,현아,여자,50
7,psy,싸이,남자,60
8,psy,하니,여자,70


In [13]:
df.연령

0    15
1    20
2    20
3    30
4    30
5    40
6    50
7    60
8    70
Name: 연령, dtype: int64

In [11]:
# 연령 평균

df['연령'].mean()

37.22222222222222

In [14]:
df['연령'].sum()

335

In [15]:
# 가수들 연령합 이라는 시리즈 추가
df['연령합'] = df['연령'].sum()
df

Unnamed: 0,소속,가수,성별,연령,연령합
0,jyp,비,남자,15,335
1,psy,제시,여자,20,335
2,jyp,박진형,남자,20,335
3,jyp,원더걸스,여자,30,335
4,jyp,제니,여자,30,335
5,jyp,샤샤,여자,40,335
6,psy,현아,여자,50,335
7,psy,싸이,남자,60,335
8,psy,하니,여자,70,335


In [20]:
# df['연령'].mean() : 숫자연산의 default 타입은 - float64
# 정수타입으로 변환해서 저장시에는 int()로 형변환 - int64

df['연령평균'] = int(df['연령'].mean())
df

Unnamed: 0,소속,가수,성별,연령,연령합,연령평균
0,jyp,비,남자,15,335,37
1,psy,제시,여자,20,335,37
2,jyp,박진형,남자,20,335,37
3,jyp,원더걸스,여자,30,335,37
4,jyp,제니,여자,30,335,37
5,jyp,샤샤,여자,40,335,37
6,psy,현아,여자,50,335,37
7,psy,싸이,남자,60,335,37
8,psy,하니,여자,70,335,37


In [25]:
df['연령평균'].dtype

dtype('int64')

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   소속      9 non-null      object
 1   가수      9 non-null      object
 2   성별      9 non-null      object
 3   연령      9 non-null      int64 
 4   연령합     9 non-null      int64 
 5   연령평균    9 non-null      int64 
dtypes: int64(3), object(3)
memory usage: 560.0+ bytes


```
pd.pivot_table(df,  # 피벗할 데이터프레임
              index = '행 위치에 들어갈 열',
              columns = '열 위치에 들어갈 열',
              values = '데이터로 사용할 열',
              aggfunc = 데이터 집계함수)
```

In [34]:
#  각 소속사별 성별을 기준으로 연령값의 평균으로 새로운 table 집계해서 생성
# 원본 table을 새롭게 재구성
# 각 소속사별(index=['소속']), 성별(columns=['성별'])을 기준으로 연령값의 평균(aggfunc=np.mean)으로 새로운 table 집계해서 생성

table = df.pivot_table(values='연령', index=['소속'], columns=['성별'], aggfunc=np.mean)
table.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, jyp to psy
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   남자      2 non-null      float64
 1   여자      2 non-null      float64
dtypes: float64(2)
memory usage: 48.0+ bytes


In [35]:
table

성별,남자,여자
소속,Unnamed: 1_level_1,Unnamed: 2_level_1
jyp,17.5,33.333333
psy,60.0,46.666667


In [37]:
#  각 소속사별 성별을 기준으로 연령값의 평균으로 새로운 table 집계해서 생성
# 원본 table을 새롭게 재구성
# 각 소속사별(index=['소속']), 성별(columns=['성별'])을 기준으로 연령값의 평균(aggfunc=np.mean)으로 새로운 table 집계해서 생성

table = df.pivot_table(values='연령', index=['소속'], columns=['성별'], aggfunc=np.sum)
table.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, jyp to psy
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   남자      2 non-null      int64
 1   여자      2 non-null      int64
dtypes: int64(2)
memory usage: 48.0+ bytes


In [38]:
table

성별,남자,여자
소속,Unnamed: 1_level_1,Unnamed: 2_level_1
jyp,35,100
psy,60,140


In [40]:
df

Unnamed: 0,소속,가수,성별,연령,연령합,연령평균
0,jyp,비,남자,15,335,37
1,psy,제시,여자,20,335,37
2,jyp,박진형,남자,20,335,37
3,jyp,원더걸스,여자,30,335,37
4,jyp,제니,여자,30,335,37
5,jyp,샤샤,여자,40,335,37
6,psy,현아,여자,50,335,37
7,psy,싸이,남자,60,335,37
8,psy,하니,여자,70,335,37


In [41]:
table.index

Index(['jyp', 'psy'], dtype='object', name='소속')

In [42]:
table.columns

Index(['남자', '여자'], dtype='object', name='성별')

In [47]:
# 연령값을 기준으로 평균과 합을 동시에 재구성

table = df.pivot_table(values='연령', index=['소속'], columns=['성별'], aggfunc=[np.sum, np.mean])
table

Unnamed: 0_level_0,sum,sum,mean,mean
성별,남자,여자,남자,여자
소속,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
jyp,35,100,17.5,33.333333
psy,60,140,60.0,46.666667


In [46]:
table = df.pivot_table(values='연령', index=['소속'], columns=['성별'], aggfunc=['sum', 'mean'])
table

Unnamed: 0_level_0,sum,sum,mean,mean
성별,남자,여자,남자,여자
소속,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
jyp,35,100,17.5,33.333333
psy,60,140,60.0,46.666667


In [50]:
# 숫자를 정수로 변환
# 메모리 정량을 위한 32 bit로 처리

table = table.astype('int32')
table

Unnamed: 0_level_0,sum,sum,mean,mean
성별,남자,여자,남자,여자
소속,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
jyp,35,100,17,33
psy,60,140,60,46


In [51]:
df

Unnamed: 0,소속,가수,성별,연령,연령합,연령평균
0,jyp,비,남자,15,335,37
1,psy,제시,여자,20,335,37
2,jyp,박진형,남자,20,335,37
3,jyp,원더걸스,여자,30,335,37
4,jyp,제니,여자,30,335,37
5,jyp,샤샤,여자,40,335,37
6,psy,현아,여자,50,335,37
7,psy,싸이,남자,60,335,37
8,psy,하니,여자,70,335,37


In [52]:
# 가수들이 어떤 소속사에 소속되어 있는지에 대한 재구성

table = df.pivot_table(values='연령', index=['소속'], columns=['가수'])
table

가수,박진형,비,샤샤,싸이,원더걸스,제니,제시,하니,현아
소속,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
jyp,20.0,15.0,40.0,,30.0,30.0,,,
psy,,,,60.0,,,20.0,70.0,50.0


In [54]:
table.fillna('',inplace=True)
table

가수,박진형,비,샤샤,싸이,원더걸스,제니,제시,하니,현아
소속,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
jyp,20.0,15.0,40.0,,30.0,30.0,,,
psy,,,,60.0,,,20.0,70.0,50.0


In [55]:
table.reset_index()

가수,소속,박진형,비,샤샤,싸이,원더걸스,제니,제시,하니,현아
0,jyp,20.0,15.0,40.0,,30.0,30.0,,,
1,psy,,,,60.0,,,20.0,70.0,50.0
