In [None]:
import pandas as pd

In [None]:
df_idol = pd.read_csv("./data/korean-idol.csv")
df_idol.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


# 피벗 테이블(pivot table)
* 데이터 프레임의 데이터를 인덱스로 사용하기 위한 테이블
    * 기준을 데이터로 잡고 집계
* 항목(카테고리) 데이터를 컬럼이나 행의 인덱스로 만들기 위함
* 왼쪽에 나타나는 인덱스를 **행 인덱스**, 상단에 나타나는 인덱스를 **열 인덱스(컬럼 이름)**

In [None]:
pd.pivot_table(
    df_idol, # pivot table을 만들 데이터 프레임
    index="소속사", # 행 인덱스 설정,
    columns="성별", # 열 인덱스 설정
)

Unnamed: 0_level_0,브랜드평판지수,브랜드평판지수,키,키
성별,남자,여자,남자,여자
소속사,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
RBW,,7650928.0,,162.1
SM,,3918661.0,,
YG,9916947.0,,177.0,
빅히트,6260169.0,,176.56,
스타크루이엔티,4036489.0,,167.1,
커넥트,8273745.0,,180.0,
큐브,,4668615.0,,
판타지오,3506027.0,,183.0,
플레디스,3855194.0,,177.766667,


In [None]:
pd.pivot_table(
    df_idol,
    index="그룹",
    columns="혈액형",
    values="키" # 집계 대상 컬럼
)

혈액형,A,AB,B,O
그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
뉴이스트,,175.0,,179.15
마마무,162.1,,,
방탄소년단,175.8,178.0,,176.6
빅뱅,177.0,,,
아스트로,,,183.0,
핫샷,167.1,,,


In [None]:
import numpy as np

pd.pivot_table(
    df_idol,
    index="그룹",
    columns="혈액형",
    values="브랜드평판지수",
    aggfunc=[np.sum, np.mean]
)

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
혈액형,A,AB,B,O,A,AB,B,O
그룹,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
뉴이스트,,3301654.0,,8263929.0,,3301654.0,,4131964.5
마마무,7650928.0,,,,7650928.0,,,
방탄소년단,15731595.0,8073501.0,,7495750.0,7865797.5,8073501.0,,3747875.0
빅뱅,9916947.0,,,,9916947.0,,,
소녀시대,3918661.0,,,,3918661.0,,,
아스트로,,,3506027.0,,,,3506027.0,
아이들,,,4668615.0,,,,4668615.0,
핫샷,4036489.0,,,,4036489.0,,,


# 그룹핑
* `groupby` 함수를 활용
* 데이터를 **그룹으로 묶어서 분석할 때 유용**
* **~별로 집계**

In [None]:
df_idol.groupby("소속사") # 이 상태에서 필요한 집계를 수행

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015EFEB156D0>

집계의 종류
* count() - 개수
* sum() - 합계
* mean() - 평균
* var() - 분산
* std() - 표준편차
* min() - 최소값
* max() - 최대값

In [None]:
# nan값을 제외한 데이터의 개수를 세어준다.
df_idol.groupby("소속사").count()

Unnamed: 0_level_0,이름,그룹,성별,생년월일,키,혈액형,브랜드평판지수
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
RBW,1,1,1,1,1,1,1
SM,1,1,1,1,0,1,1
YG,1,1,1,1,1,1,1
빅히트,5,5,5,5,5,5,5
스타크루이엔티,1,1,1,1,1,1,1
커넥트,1,0,1,1,1,1,1
큐브,1,1,1,1,0,1,1
판타지오,1,1,1,1,1,1,1
플레디스,3,3,3,3,3,3,3


In [None]:
# count를 제외한 기타 집계 함수는 숫자형식의 데이터에만 적용이 가능
df_idol.groupby("그룹").mean()

Unnamed: 0_level_0,키,브랜드평판지수
그룹,Unnamed: 1_level_1,Unnamed: 2_level_1
뉴이스트,177.766667,3855194.0
마마무,162.1,7650928.0
방탄소년단,176.56,6260169.0
빅뱅,177.0,9916947.0
소녀시대,,3918661.0
아스트로,183.0,3506027.0
아이들,,4668615.0
핫샷,167.1,4036489.0


In [None]:
# 혈액별 키의 평균
df_idol.groupby("혈액형")["키"].mean()

혈액형
A     172.966667
AB    176.500000
B     183.000000
O     177.875000
Name: 키, dtype: float64