# 그룹별 집계의 개념

- 그룹별 집계(groupby)
  - 데이터로부터 동일한 객체를 가진 데이터만 따로 뽑아 기술통계 데이터를 추출
  - 엑셀의 피봇 테이블(pivot table) 기능과 비슷
  - 예) A반 수학 점수의 원본 데이터(raw data)를 가지고 있을 때, 해당 ㅔ이터에서 같은 성별을 가진 학생들의 평균 점수를 구하거나 50점 이상을 받은 학생의 수를 구함


- groupby 명령어는 분할->적용->결합 과정을 거침
- 분할(split)
  - 같은 종류의 데이터끼리 나누는 기능
- 적용(apply)
  - 데이터 블록마다 sum, count, mean 등 연산 적용
- 결합(combine)
  - 연산 함수가 적용된 각 블록들을 합침


In [1]:
import pandas as pd
import numpy as np

In [2]:
ipl_data = {
    "Team": [
        "Riders",
        "Riders",
        "Devils",
        "Devils",
        "Kings",
        "Kings",
        "Kings",
        "Kings",
        "Riders",
        "Royals",
        "Royals",
        "Riders",
    ],
    "Rank": [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
    "Year": [2014, 2015, 2014, 2015, 2014, 2015, 2016, 2017, 2016, 2014, 2015, 2017],
    "Points": [876, 789, 863, 673, 741, 812, 756, 788, 694, 701, 804, 690],
}

df = pd.DataFrame(ipl_data)
df

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,Kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


In [None]:
df.groupby("Team")["Points"].sum()
# "Team" : 묶음의 기준이 되는 열
# "Points" : 적용받는 열
# .sum() : 적용받는 연산

Team
Devils    1536
Kings     3097
Riders    3049
Royals    1505
Name: Points, dtype: int64

# 멀티 인덱스 그룹별 집계

- 한 개 이상의 열을 기준으로 그룹별 집계를 실행
  - 리스트를 사용하여 여러 개의 열 이름을 기준으로 넣으면 여러 열이 키 값이 되어 결과 출력
  - 계층적 인덱스(hierarchical index) 형태


In [4]:
multi_groupby = df.groupby(["Team", "Year"])["Points"].sum()
multi_groupby

Team    Year
Devils  2014    863
        2015    673
Kings   2014    741
        2015    812
        2016    756
        2017    788
Riders  2014    876
        2015    789
        2016    694
        2017    690
Royals  2014    701
        2015    804
Name: Points, dtype: int64

- 한 개 이상의 열로 그룹별 집계 수행하면 여러 열이 모두 인덱스로 반환됨


In [5]:
multi_groupby.index

MultiIndex([('Devils', 2014),
            ('Devils', 2015),
            ( 'Kings', 2014),
            ( 'Kings', 2015),
            ( 'Kings', 2016),
            ( 'Kings', 2017),
            ('Riders', 2014),
            ('Riders', 2015),
            ('Riders', 2016),
            ('Riders', 2017),
            ('Royals', 2014),
            ('Royals', 2015)],
           names=['Team', 'Year'])

In [7]:
multi_groupby["Devils":"Kings"]

Team    Year
Devils  2014    863
        2015    673
Kings   2014    741
        2015    812
        2016    756
        2017    788
Name: Points, dtype: int64

In [8]:
multi_groupby.unstack()

Year,2014,2015,2016,2017
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Devils,863.0,673.0,,
Kings,741.0,812.0,756.0,788.0
Riders,876.0,789.0,694.0,690.0
Royals,701.0,804.0,,


- 멀티 인덱스
  - swaplevel 함수로 인덱스 간 레벨을 변경
  - sort_index 함수로 첫 번째 인덱스를 기준으로 데이터 재정렬


In [9]:
multi_groupby.swaplevel().sort_index()

Year  Team  
2014  Devils    863
      Kings     741
      Riders    876
      Royals    701
2015  Devils    673
      Kings     812
      Riders    789
      Royals    804
2016  Kings     756
      Riders    694
2017  Kings     788
      Riders    690
Name: Points, dtype: int64

- 각 레벨에 별도의 연산 함수를 적용할 수 있음


In [32]:
multi_groupby.groupby(level=0).sum()

Team
Devils    1536
Kings     3097
Riders    3049
Royals    1505
Name: Points, dtype: int64

In [33]:
multi_groupby.groupby(level=1).sum()

Year
2014    3181
2015    3078
2016    1450
2017    1478
Name: Points, dtype: int64