# Chapter 11 그룹연산

판다스의 그룹 연산은 데이터를 집계하거나 변환하는 등의 작업을 한 번에 처리할 수 있는 강력한 기능이다. 보통 그룹 연산은 데이터를 '분할'하고 '반영'하고, '결합'하는 과정을 거치게 되는데, '분할'은 어떤 기준으로 데이터를 나누는 것이고, '반영'은 함수 등을 적용하여 데이터를 쳐리하는 것이다. 그리고 '결합'은 처리한 결과를 다시 함치는 것이다. 보통 이 과정을 하나로 묶어 '분할-반영-결합(Split - Apply - Combine)'이라고 한다. <br>
판다스의 groupby 메서드는 SQL의 GROUP BY와 비슷하다는것을 점차 알게 될것이다. 사실 '분할-반영-결합'은 오래 전부터 분산 컴퓨팅 분야에서 빅데이터를 처리 하기위해 사용했던 방법이다. 목차는 다음과 같다. 

 - 11-1 데이터 집계
 - 11-2 데이터 변환 
 - 11-3 데이터 필터링
 - 11-4 그룹 오브젝트
 
### groupby 메서드로 평균값 구하기 

#### 1. 
먼저 갭마인더 데이터 집합을 불러오자.

In [1]:
import pandas as pd

df = pd.read_csv("data/gapminder.tsv", sep = '\t')

#### 2. 
다음은 year 열을 기준으로 데이터를 그룹화 한 다음 lifeExp 열의 평균을 구한것이다.

In [2]:
avg_life_exp_by_year = df.groupby('year').lifeExp.mean()
print(avg_life_exp_by_year)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


### 분할-반영-결합 과정 살펴보기 - groupby 메서드

앞에서 groupby 메서드를 사용해 lifeExp 열의 연도별 평균값을 구했다. groupby 메서드 자체를 분해하여 살펴보는것은 불가능하기 때문에 비슷한 연산을 수행하는 메서드를 순서대로 알아보자.

#### 1. 
실제로 groupby 메서드에 life 열을 전달하면 가장 먼저 연도별로 데이터를 나누는 과정이 진행 된다. year 열의 데이터를 중복 없이 추출한코드를 보자. groupby 메서드에 열 이름을 전달하면 이런 '분할' 작업이 먼저 일어나게 된다. 

In [3]:
year = df.year.unique()
print(year)

[1952 1957 1962 1967 1972 1977 1982 1987 1992 1997 2002 2007]


#### 2. 
다음에는 연도별 평균값이다. 그러려면 일단 연도별 데이터추출을 해보자. 예시로 1952년의 데이터를 추출한 것이다. 

In [5]:
y1952 = df.loc[df.year == 1952, :]
y1952.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
12,Albania,Europe,1952,55.23,1282697,1601.056136
24,Algeria,Africa,1952,43.077,9279525,2449.008185
36,Angola,Africa,1952,30.015,4232095,3520.610273
48,Argentina,Americas,1952,62.485,17876956,5911.315053


#### 3. 
아직 lifeExp 열의 평균값을 구하지 않았다. 다음은 1952년 데이터에서 lifeExp의 평균값을 구한 것이다. 이 작업도 '반영'의 한 부분이다. 

In [6]:
y1952_mean = y1952.lifeExp.mean()
print(y1952_mean)

49.057619718309866


#### 4. 

이 과정을 모두 반복 하는것이 비로소 '반영'작업이 끝나게 된다. 또한 이 모든 값을 합치는 과정이 '결합'의 과정이다.

### groupby 메서드와 함께 사용하는 집계 메서드 

다음의 집계 메서드를 확인해보자. groupby와 함께 사용하는 메서드 이다.

|집계 메서드|설명|
|:-:|:-:|
|count|누락값을 제외한 데이터 수를 반환|
|size|누락값을 포함한 데이터 수를 반환|
|mean|평균값|
|std|표준편차|
|min|최소값|
|quantile(q=0.25)|백분위수 25%|
|quantile(q=0.5)|백분위수 50%|
|quantile(q=0.75)|백분위수 75%|
|max|최대값|
|sum|전체 합|
|var|분산|
|sem|평균의 표준편차|
|describe|데이터 수, 평균, 표준편차, 최소값, 백분위수들, 최대값 모두 반환|
|first|첫 번째 행 반환|
|last|마지막 행 반환|
|nth|n번째 행 반환|

### agg 메서드로 사용자 함수와 groupby 메서드 조합

라이브러리에서 제공하는 집계 메서드로 원하는 값을 계산할 수 없는 경우에는 직접 함수를 만들어서 사용해야 한다. 이번에는 사용자 함수와 groupby 메서드를 조합해서 사용해보자. 사용자 함수와 groupby 메서드를 조합하려면 agg 메서드를 이용해야 한다.

### 평균값을 구하는 사용자 함수와 groupby 메서드

#### 1. 
다음은 입력받은 열의 평균값을 구하는 함수이다. 

In [9]:
def my_mean(values):
    n = len(values)
    sum = 0
    for value in values:
        sum += value
    
    return sum / n

#### 2. 
다음은 과정 1에서 만든 함수를 groupby 메서드와 조합하기 위해 agg 메서드를 사용한 것이다. 결과를 보면 mean 메서드를 사용하여 얻은 값과 동일하다는 것을 알 수 있다. 

In [10]:
agg_my_mean = df.groupby('year').lifeExp.agg(my_mean)
print(agg_my_mean)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


### 2개의 인자값을 받아 처리하는 사용자 함수와 groupby 메서드

#### 1. 
이번에는 2개의 인자값을 받아 처리하는 사용자 정의 함수를 만들어보자. 다음은 첫 번째 인자로 받은 열의 평균을 구하여 두 번째 인자로 받은 값과 차이를 계산한 다음 반환 하는 함수이다.

In [12]:
def my_mean_diff(values, diff_value):
    n = len(values)
    sum = 0
    for value in values:
        sum += value
    mean = sum / n
    
    return mean - diff_value

#### 2. 
다음은 연도별 평균 수명에서 전체 평균 수명을 뺀 값을 구한 것이다. agg 메서드의 첫 번째 인자에 my_mean_diff 함수를 전달하고 두 번째 인자에 전체 평균 수명값을 전달한다. 

In [13]:
global_mean = df.lifeExp.mean()
print(global_mean)

agg_mean_diff = df.groupby('year').lifeExp.agg(my_mean_diff, diff_value= global_mean)
print(agg_mean_diff)

59.474439366197174
year
1952   -10.416820
1957    -7.967038
1962    -5.865190
1967    -3.796150
1972    -1.827053
1977     0.095718
1982     2.058758
1987     3.738173
1992     4.685899
1997     5.540237
2002     6.220483
2007     7.532983
Name: lifeExp, dtype: float64


### 여러 개의 집계 메서드 한 번에 사용

여러 개의 집계 메서드를 한 번에 사용하고 싶으면 집계 메서드를 리스트나 딕셔너리에 담아 agg 메서드에 전달하면 된다.

### 집계 메서드를 리스트, 딕셔너리에 담아 전달

#### 1. 
다음은 연도별로 그룹화한 lifeExp 열의 0이 아닌 값의 개수, 평균, 표준편차를 한 번에 계산하여 출력한 것이다. 넘파이 메서드인 count_nonzero, mean, std를 리스트에 담아 agg 메서드에 전달한다. 

In [16]:
import numpy as np
gdf = df.groupby('year').lifeExp.agg([np.count_nonzero, np.mean, np.std])
print(gdf)

      count_nonzero       mean        std
year                                     
1952          142.0  49.057620  12.225956
1957          142.0  51.507401  12.231286
1962          142.0  53.609249  12.097245
1967          142.0  55.678290  11.718858
1972          142.0  57.647386  11.381953
1977          142.0  59.570157  11.227229
1982          142.0  61.533197  10.770618
1987          142.0  63.212613  10.556285
1992          142.0  64.160338  11.227380
1997          142.0  65.014676  11.559439
2002          142.0  65.694923  12.279823
2007          142.0  67.007423  12.073021


#### 2. 
이번에는 집계 메서드를 직셔너리에 담아 agg 메서드에 전달 해보자. 딕셔너리의 키로 집계 메서드를 적용할 열 이름을 전달하고 딕셔너리의 값으로 집계 메서드를 전달 하면 된다.

In [17]:
gdf_dict = df.groupby('year').agg({'lifeExp': 'mean', 'pop': 'median', 'gdpPercap': 'median'})
print(gdf_dict)

        lifeExp         pop    gdpPercap
year                                    
1952  49.057620   3943953.0  1968.528344
1957  51.507401   4282942.0  2173.220291
1962  53.609249   4686039.5  2335.439533
1967  55.678290   5170175.5  2678.334741
1972  57.647386   5877996.5  3339.129407
1977  59.570157   6404036.5  3798.609244
1982  61.533197   7007320.0  4216.228428
1987  63.212613   7774861.5  4280.300366
1992  64.160338   8688686.5  4386.085502
1997  65.014676   9735063.5  4781.825478
2002  65.694923  10372918.5  5319.804524
2007  67.007423  10517531.0  6124.371109


## 11-2 데이터 변환 

이번에는 데이터 변환 메서드에 대해 알아보자. 데이터 변환 메서드는 데이터와 메서드를 일데일로 대응시켜 계산하기 때문에 데이터의 양이 줄어즐지 않는다. 말 그대로 데이터를 변환하는 데 사용한다. 

### 표준점수 계산
통계 분야에서는 데이터의 평균과 표준편차의 차이를 표준점수라고 부른다. 표준섬수를 구하면 변환한 데이터의 평균값이 0이되고 표준편차는 1이 된다. 그러면 데이터가 표준화되어 서로 다른 데이터를 쉽게 비교할 수 있게 된다. 

### 표준점수 계산

#### 1. 
다음은 표준점수를 계산하는 함수이다. 

In [18]:
def my_zscore(x):
    return (x - x.mean()) / x.std()

#### 2. 
다음은 각 연도별 lifeExp 열의 표준점수를 계산한 것이다. my_zscore 함수를 적용하기 위해 transform 메서드를 사요했다.

In [19]:
transform_z = df.groupby('year').lifeExp.transform(my_zscore)

print(transform_z.head())

0   -1.656854
1   -1.731249
2   -1.786543
3   -1.848157
4   -1.894173
Name: lifeExp, dtype: float64


#### 3. 
my_zscore 함수는 데이터를 표준화할 뿐 집계는 하지 않는다. 즉, 데이터의 양이 줄어들지 않는다. 당름은 원본 데이터프레임의 데이터 크기와 변환한 데이터프레임의 데이터 크기를 비교한 것이다.

In [20]:
print(df.shape)
print(transform_z.shape)

(1704, 6)
(1704,)


### 누락값을 평균값으로 처리하기 

이번에는 누락값을 평균값으로 처리하는 방법을 알아보자. 

#### 1. 
다음은 seaborn 라이브러리의 tips 데이터 집합에서 10개의 행 데이터만 가져온 다음 total_bill 열의 값 4개를 임의로 선태갛여 누락값으로 바꾼 것이다. 

In [22]:
import seaborn as sns
import numpy as np 

np.random.seed(42)
tips_10 = sns.load_dataset('tips').sample(10)
tips_10.loc[np.random.permutation(tips_10.index)[:4], 'total_bill'] = np.NaN
print(tips_10)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6          8.77  2.00    Male     No   Sun  Dinner     2
153         NaN  2.00    Male     No   Sun  Dinner     4
211         NaN  5.16    Male    Yes   Sat  Dinner     4
198         NaN  2.00  Female    Yes  Thur   Lunch     2
176         NaN  2.00    Male    Yes   Sun  Dinner     2
192       28.44  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9         14.78  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


#### 2. 
이번에는 성별을 구분하여 total_bill 열의 데이터를 받아 평균값을 구해보자. 

In [23]:
def fill_na_mean(x):
    avg = x.mean()
    return x.fillna(avg)

#### 3. 
다음은 성별을 구분한 total_bill 열의 데이터를 fill_na_mean 함수에 전달하여 평균값을 구한 다음 tips_10에 새로운 열로 추가한 것이다. 남성과 여성의 누락값을 고려하여 계산한 평균값으로 잘 채워져 있는 것을 알 수 있다.

In [24]:
total_bill_group_mean = tips_10.groupby('sex').total_bill.transform(fill_na_mean)
tips_10['fill_total_bill'] = total_bill_group_mean
print(tips_10)

     total_bill   tip     sex smoker   day    time  size  fill_total_bill
24        19.82  3.18    Male     No   Sat  Dinner     2          19.8200
6          8.77  2.00    Male     No   Sun  Dinner     2           8.7700
153         NaN  2.00    Male     No   Sun  Dinner     4          17.9525
211         NaN  5.16    Male    Yes   Sat  Dinner     4          17.9525
198         NaN  2.00  Female    Yes  Thur   Lunch     2          13.9300
176         NaN  2.00    Male    Yes   Sun  Dinner     2          17.9525
192       28.44  2.56    Male    Yes  Thur   Lunch     2          28.4400
124       12.48  2.52  Female     No  Thur   Lunch     2          12.4800
9         14.78  3.23    Male     No   Sun  Dinner     2          14.7800
101       15.38  3.00  Female    Yes   Fri  Dinner     2          15.3800


## 11-3 데이터 필터링
만약 그룹화한 데이터에서 원하는 데이터를 걸러내고 싶다면 어떻게 해야 할까. 그럴때는 데이터 필터링을 사용하면 되는데 다음 예제를 통해 살펴보자.

### 데이터필터링 사용  - filter 메서드

#### 1. 
다음과 같이 tips 데이터 집합을 불러와 데이터 크기를 확인한다.

In [25]:
tips = sns.load_dataset('tips')
print(tips.shape)

(244, 7)


#### 2. 
size 열의 데이터 수를 확인해 보면 1,5,6 테이블의 주문이 매우 적다는 것을 알 수 있다.

In [26]:
print(tips['size'].value_counts())

2    156
3     38
4     37
5      5
6      4
1      4
Name: size, dtype: int64


#### 3. 
상황에 따라  이런 데이터는 제외하기도 한다. 만약 30번 이상의 주문이 있는 테이블만 추리기 위해서는 어떻게 해야 할까. 다음을 보자. 

In [34]:
tips_filtered = tips.groupby('size').filter(lambda x: x['size'].count() >= 30)
tips_filtered

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [32]:
tips_filtered['size'].value_counts()

2    156
3     38
4     37
Name: size, dtype: int64

## 11-4 그룹 오브젝트

### 그룹 오브젝트 살펴보기 

이번에는 그룹 오브젝트에 대해 알아보자.

### 그룹 오브젝트 저장하여 살펴보기 

#### 1. 
다음은 tips 데이터 집합에서 임의로 10개의 데이터를 추출한 것이다. 

In [35]:
tips_10 = sns.load_dataset('tips').sample(10, random_state=42)
print(tips_10)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6          8.77  2.00    Male     No   Sun  Dinner     2
153       24.55  2.00    Male     No   Sun  Dinner     4
211       25.89  5.16    Male    Yes   Sat  Dinner     4
198       13.00  2.00  Female    Yes  Thur   Lunch     2
176       17.89  2.00    Male    Yes   Sun  Dinner     2
192       28.44  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9         14.78  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


#### 2. 
groupby 메서드의 결과값을 출력하면 자료형이 그룹 오브젝트라는 것을 확인할 수 있다. 

In [36]:
grouped = tips_10.groupby('sex')
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7feb0b7d78d0>


#### 3. 
그룹 오브젝트에 포함된 그룹을 보려면 groups 속성을 출력하면 된다. 그러면 sex 열로 그룹화한 데이터프레임의 인덱스를 확인할 수 있따. 이 그룹 오브젝트로 집계, 변환, 필터 작업을 수행하면 된다.

In [37]:
print(grouped.groups)

{'Male': [24, 6, 153, 211, 176, 192, 9], 'Female': [198, 124, 101]}


### 한 번에 그룹 오브젝트 계산하기 

### 그룹 오브젝트의 평균 구하기 

#### 1. 
일단 앞에서 만든 그룹 오브젝트를 이용하여 평균을 구해보자. 그러면 tips 데이터 집합의 모든 열의 평균을 구한 것이 아니라 total_bill, tip, size 열의 평균을 구했다는 것을 알 수 있다.

In [39]:
avg = grouped.mean()

#### 2. 
tips 데이터 집합의 열을 확인해 보면 평균값을 계산할 수 없는 열인 smoker, day, time 열은 그룹 연산에서 제외되는것을 확인할 수 있다.

In [40]:
print(tips_10.columns)

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')


### 그룹 오브젝트 활용하기 

이번에는 그룹 오브젝트를 좀 더 다양하게 활용하는 방법에 대해 알아보자. 

### 그룹 오브젝트에서 데이터 추출하고 반복하기 

#### 1. 
만약 그룹 오브젝트에서 특정 데이터만 추출하려면 get_group 메서드를 사용하면 된다. 다음은 sex 열로 그룹화한 그룹 오브젝트에 get_group 메서드를 사용하여 성별이 여성인 데이터만 추출한 것이다. 

In [41]:
female = grouped.get_group('Female')
print(female)

     total_bill   tip     sex smoker   day    time  size
198       13.00  2.00  Female    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


#### 2. 
이번에는 그룹 오브젝트를 반복문에 사용해보자. sex 열을 기준으로 그룹화한 tips 데이터 집합은 여성 그룹과 남성 그룹으로 나누어져 있다 .이 특징을 이용하여 반복문을 사용하면 된다. 다음은 각 성별 그룹의 데이터를 반복문을 이용하여 출력한 것이다. 

In [42]:
for sex_group in grouped:
    print(sex_group)

('Male',      total_bill   tip   sex smoker   day    time  size
24        19.82  3.18  Male     No   Sat  Dinner     2
6          8.77  2.00  Male     No   Sun  Dinner     2
153       24.55  2.00  Male     No   Sun  Dinner     4
211       25.89  5.16  Male    Yes   Sat  Dinner     4
176       17.89  2.00  Male    Yes   Sun  Dinner     2
192       28.44  2.56  Male    Yes  Thur   Lunch     2
9         14.78  3.23  Male     No   Sun  Dinner     2)
('Female',      total_bill   tip     sex smoker   day    time  size
198       13.00  2.00  Female    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2)


#### 3. 
그런데 이 겨 ㄹ과를 자세히 잘펴보면 sex_group의 자료형이 튜플이라는것을 알 수 있다.

In [43]:
for sex_group in grouped:
    print('the type is: {}\n'.format(type(sex_group)))
    print('the length is: {}\n'.format(len(sex_group)))
    
    first_element = sex_group[0]

the type is: <class 'tuple'>

the length is: 2

the type is: <class 'tuple'>

the length is: 2



### 여러 열을 사용해 그룹 오브젝트 만들고 계산하기 

지금까지는 하나의 열을 사용하여 그룹 오브젝트를 만들고 연산을 수행했다. 하지만 여러 열을 사용하여 그룹 오브젝트를 만들고 평균값을 구하는 등의 계산도 할 수 있다. 

### 그룹 오브젝트 계산하고 살펴보기

#### 1. 
여러 열을 사용하여 데이터를 그룹화하려면 리스트에 열 이름을 담아 groupby 메서드에 전달하면 된다. 다음은 sex, time 열을 기준으로 데이터를 그룹화하고 평균값을 구한것이다. 

In [44]:
bill_sex_time = tips_10.groupby(['sex', 'time'])
group_avg = bill_sex_time.mean()

print(group_avg)

               total_bill       tip      size
sex    time                                  
Male   Lunch    28.440000  2.560000  2.000000
       Dinner   18.616667  2.928333  2.666667
Female Lunch    12.740000  2.260000  2.000000
       Dinner   15.380000  3.000000  2.000000


#### 2. 
과정 1을 거친 group_avg의 자료형을 확인해 보면 데이터프레임이라는 것을 알 수 있다. 그리고 변수 group_avg에 포함된 열은 total_bill, tip, size 라는 것도 알 수 있다.

In [45]:
print(type(group_avg))

print(group_avg.columns)

<class 'pandas.core.frame.DataFrame'>
Index(['total_bill', 'tip', 'size'], dtype='object')


#### 3. 
group_avg의 자료형은 데이터프레임이다. 그러면 인덱스는 어떻게 구성되어 있는지 확인해보자. 

In [46]:
print(group_avg.index)

MultiIndex([(  'Male',  'Lunch'),
            (  'Male', 'Dinner'),
            ('Female',  'Lunch'),
            ('Female', 'Dinner')],
           names=['sex', 'time'])


#### 4. 
과정 3과 같이 데이터프레임의 인덱스가 MultiIndex인 경우에는 reset_index 메서드를 사용하여 데이터프레임의 인덱스를 새로 부여할 수도 있다.

In [47]:
group_method = tips_10.groupby(['sex', 'time']).mean().reset_index()
print(group_method)

      sex    time  total_bill       tip      size
0    Male   Lunch   28.440000  2.560000  2.000000
1    Male  Dinner   18.616667  2.928333  2.666667
2  Female   Lunch   12.740000  2.260000  2.000000
3  Female  Dinner   15.380000  3.000000  2.000000


#### 5. 
reset_index 메서드 대신 as_index 인자를 False로 설정해도 위와 같은 결과를 얻을 수 있다.

In [48]:
group_param = tips_10.groupby(['sex', 'time'], as_index=False).mean()
print(group_param)

      sex    time  total_bill       tip      size
0    Male   Lunch   28.440000  2.560000  2.000000
1    Male  Dinner   18.616667  2.928333  2.666667
2  Female   Lunch   12.740000  2.260000  2.000000
3  Female  Dinner   15.380000  3.000000  2.000000
