reference : 
- https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks
- https://shorturl.at/HVwX3

In [None]:
import pandas as pd
import numpy as np

# Aggregation and Grouping

## 1. Simple Aggregation in Pandas

In [None]:
ser = pd.Series(rng.rand(5))
ser

In [None]:
ser.sum()

In [None]:
ser.mean()

For a `DataFrame`, by default the aggregates return results within each column:

In [None]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

In [None]:
df.mean()

By specifying the `axis` argument, you can instead aggregate within each row:

In [None]:
df.mean(axis=1)

## 2. GroupBy

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

In [None]:
df.groupby('key')

In [None]:
df.groupby('key').sum()

### GroupBy 객체

In [None]:
data = {'학년': ['1학년', '1학년', '2학년', '2학년', '3학년', '3학년', '3학년'], 
        '성별': ['남', '여', '남', '여', '남', '여', '여'], 
        '영어 성적': [80, 90, 70, 60, 85, 95, 75],
        '수학 성적': [88, 92, 65, 63, 80, 75, 92]}
score = pd.DataFrame(data)
score.head()

#### 1) Column indexing

'학년' 컬럼을 그룹화하면, DataFrameGroupBy 객체가 반환된다.

In [None]:
score.groupby('학년')

'학년'으로 그룹화 된 객체를 '영어 성적'으로 인덱싱하면  
Series 그룹이 반환된다. 하지만 아직까지 어떤 Aggregation 연산도 수행되지 않았다.

In [None]:
score.groupby('학년')['영어 성적']

'학년'으로 그룹화 -> '영어 성적' 컬럼 특정화 -> median() 으로 aggregation 수행

In [None]:
score.groupby('학년')['영어 성적'].median()

#### 2) 그룹별로 순환하기

- GroupBy 객체는 그룹별로 순환하면서 Series 객체나 DataFrame 객체를 반환한다.

In [None]:
for (grade, group) in score.groupby('학년'):
    print("{0:5s},shape={1},type={2}".format(grade, group.shape, type(group)))

In [None]:
for (grade, group) in score.groupby('학년'):
    print("{0} group :\n{1}\n".format(grade, group))

### Aggregation 수행

#### 1) 하나의 컬럼, Aggregation

In [None]:
score.groupby('학년').aggregate(['min', np.median, max])

dictionary form

#### 2) 여러개 컬럼 aggregation

In [None]:
score.groupby('학년').aggregate({'영어 성적': 'min',
                              '수학 성적': 'max'})

In [None]:
# Grouping with '학년'
# Indexing with ['영어 성적', '수학 성적']
# Aggregation functions : min, max, mean
score.groupby('학년')[['영어 성적','수학 성적']].aggregate(['min','max','mean'])