# 집계, 필터, 변환, 적용
- GroupBy 객체에는 그룹 데이터를 결합하기 전에 여러 유용한 연산을 효율적으로 구현하는 메서드가 있음
- aggregate() : 문자열, 함수, 리스트 등을 취해 한 번에 모든 집계를 계산

In [21]:
import random
import pandas as pd
import numpy as np

np.random.seed(5)

df = pd.DataFrame({'key' : ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1' : range(6),
                   'data2' : np.random.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,3
1,B,1,6
2,C,2,6
3,A,3,0
4,B,4,9
5,C,5,8


In [22]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,0,1.5,3
B,1,2.5,4,6,7.5,9
C,2,3.5,5,6,7.0,8


In [23]:
df.groupby('key').aggregate({'data1' : 'min', 'data2' : 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,3
B,1,9
C,2,8


- filter() : 속성을 기준으로 데이터를 걸러낼 수 있음
- 그룹이 필터링을 통과하는지 아닌지를 부울(bool) 값을 반환

In [39]:
def filter_func(x) :
    return x['data2'].std() > 2

print(df.groupby('key').std(), '\n')
print(df.groupby('key').filter(filter_func))

       data1     data2
key                   
A    2.12132  2.121320
B    2.12132  2.121320
C    2.12132  1.414214 

  key  data1  data2
0   A      0      3
1   B      1      6
3   A      3      0
4   B      4      9


- transform() : 재결합을 위해 전체 데이터의 변환된 버전을 반환

In [40]:
# 데이터에서 그룹별 평균값을 빼서 데이터를 중앙에 정렬하는 예제
df.groupby('key').transform(lambda x: x- x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.5
1,-1.5,-1.5
2,-1.5,-1.0
3,1.5,-1.5
4,1.5,1.5
5,1.5,1.0


- apply() : 임의의 함수를 그룹 결과에 적용할 때 사용
- Pandas 객체 나 스칼라를 반환

In [50]:
# 첫 번째 열을 두 번째 열의 합계로 정규화한 예제
def norm_by_data2(x) :
    # x는 그룹 값을 가지는 DF
    x['data1'] /= x['data2'].sum()
    return x

df.groupby('key').apply(norm_by_data2)

Unnamed: 0,key,data1,data2
0,A,0.0,3
1,B,0.066667,6
2,C,0.142857,6
3,A,1.0,0
4,B,0.266667,9
5,C,0.357143,8


# 피벗 테이블
- 표 형태의 데이터로 작업하는 스프레드시티와 다른 프로그램에서 일반적으로 볼 수 있는 유사한 작업
- 입력값으로 간단한 열 단위의 데이터를 취하고 그 데이터에 대한 다차원 요약을 제공하는 2차원 테이블로 항목을 그룹핑함
- 근본적으로 GroupBy 집계의 다차원 버전이라고 생각!

In [51]:
import seaborn as sns
import numpy as np
import pandas as pd

planets = sns.load_dataset('planets')
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [53]:
planets.pivot_table('orbital_period', index='method', columns='number')

number,1,2,3,4,5,6,7
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Astrometry,631.18,,,,,,
Eclipse Timing Variations,5821.166667,4216.883333,,,,,
Imaging,140621.60625,,,73500.0,,,
Microlensing,3030.0,3462.5,,,,,
Orbital Brightness Modulation,1.544929,0.291496,,,,,
Pulsar Timing,18262.545353,,63.338433,,,,
Pulsation Timing Variations,1170.0,,,,,,
Radial Velocity,814.143794,959.022946,769.421724,695.769616,1045.993508,213.752357,
Transit,12.301023,27.589652,22.187586,21.430775,30.584464,40.5136,119.217898
Transit Timing Variations,,79.7835,,,,,


In [54]:
# 다단계 피벗 테이블
planets.pivot_table('orbital_period', ['method', 'year'], 'number')

Unnamed: 0_level_0,number,1,2,3,4,5,6,7
method,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2010,1016.0,,,,,,
Astrometry,2013,246.36,,,,,,
Eclipse Timing Variations,2008,,4544.0,,,,,
Eclipse Timing Variations,2009,10220.0,,,,,,
Eclipse Timing Variations,2010,,4228.525,,,,,
Eclipse Timing Variations,2011,2900.0,3878.125,,,,,
Eclipse Timing Variations,2012,4343.5,,,,,,
Imaging,2006,730000.0,,,,,,
Imaging,2008,162140.0,,,92000.0,,,
Imaging,2009,6885.116667,,,,,,
