'그룹 연산'이란 특정한 기준을 적용해 몇 개의 그룹으로 분할하여 처리하는 것을 의미한다. 데이터를 집계, 변환, 필터링하는데 효율적이며 3단계의 과정으로 이루어진다.

1단계) **분할(split)**: 데이터를 특정 조건에 의해 분할한다. <br>
2단계) **적용(apply)**: 데이터를 집계, 반환, 필터링하는데 필요한 메소드를 적용한다. <br>
3단계) **결합(combine)**: 2단계의 처리 결과를 하나로 결합한다.

<h3> 그룹 객체 만들기 </h3>
<h4> 1개의 열을 기준으로 그룹화 </h4>

**groupby() 메소드**는 데이터프레임의 특정 열을 기준으로 데이터프레임을 분할해 그룹 객체를 반환한다. 기준이 되는 열은 1개도 가능하고, 여러 열을 리스트로 입력할 수도 있다. 

* **그룹 연산(분할): DataFrame 객체.groupby(기준이 되는 열)**

먼저 열 1개를 기준으로 분할해보자. 'titanic' 데이터셋에서 5개의 열을 선택해 데이터프레임을 만들고, 'class' 열을 기준으로 그룹을 나눠보자.

In [None]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

print('승객 수: ', len(df))
print(df.head(), '\n')

grouped = df.groupby(['class'])
print(grouped)

승객 수:  891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0 

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7efe960913d0>


'class'열에는 'First', 'Second', 'Third' 3개의 값이있다. 이 값들을 기준으로 3개의 그룹으로 나누어진다. <br>그룹 객체(grouped)의 내용을 출력해보자. 각 **행 인덱스가 그대로 유지**되는 것을 알 수 있다.

In [None]:
for key, group in grouped:
  print('* key : ', key)
  print('* number : ', len(group))
  print(group.head(), '\n')

* key :  First
* number :  216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1 

* key :  Second
* number :  184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1 

* key :  Third
* number :  491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0 



**그룹 객체에 연산 메소드를 적용할 수 있다.** grouped 객체의 3개 그룹에 대해 그룹별 평균값을 구해보자. <br> 
이때 연산이 가능한 열에 대해서만 선택적으로 연산을 수행한다. 따라서 문자열 데이터를 갖는 'sex', 'class' 열은 제외하고 계산한다.

In [None]:
average = grouped.mean()
print(average)

              age       fare  survived
class                                 
First   38.233441  84.154687  0.629630
Second  29.877630  20.662183  0.472826
Third   25.140620  13.675550  0.242363


**get_group() 메소드**를 적용하면 특정 그룹만 서택할 수 있다.

In [None]:
group3 = grouped.get_group('Third')
print(group3.head())

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


<h4> 여러 열을 기준으로 그룹화 </h4>

이번에는 groupby() 메소드에 여러 개의 열을 리스트로 전달해보자. <br> 여러 개의 기준 값을 사용하기 때문에 반환되는 그룹 객체의 인덱스는 **다중 구조**를 갖는다. <br>(멀티 인덱스는 6-6을 참고하자.)

* 그룹 연산(분할): DataFrame 객체.groupby(기준이 되는 열의 리스트)

groupby() 메소드에 두 열을 인자로 전달하면 **두 열이 갖는 원소 값들로 만들 수 있는 모든 조합으로 키를 생성**한다. 즉, 'class'와 'sex'열을 전달하면 총 6개의 키가 생성된다. 이때 키는 ('First', 'female')과 같이 튜플로 지정된다.

In [None]:
grouped_two = df.groupby(['class', 'sex'])

for key, group in grouped_two:
  print('* key : ', key)
  print('* number : ', len(group))
  print(group.head(), '\n')

* key :  ('First', 'female')
* number :  94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1 

* key :  ('First', 'male')
* number :  122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0 

* key :  ('Second', 'female')
* number :  76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1 

* key :  ('Second', 'male')
* number :  108
     age   sex   class  fare  survived

그룹 객체에 **mean() 메소드**를 적용해보자. <br>
이전과 같이 데이터프레임이 반환되며 2중 멀티 인덱스가 지정된다.

In [None]:
average_two = grouped_two.mean()
print(average_two, '\n')
print(type(average_two))

                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447 

<class 'pandas.core.frame.DataFrame'>


**get_group() 메소드**를 사용하면 특정 그룹만 골라서 추출할 수 있다. 단, **인자로 전달하는 키는 튜플로 입력**해야한다.

In [None]:
group_3f = grouped_two.get_group(('Third', 'female'))
print(group_3f.head())

     age     sex  class     fare  survived
2   26.0  female  Third   7.9250         1
8   27.0  female  Third  11.1333         1
10   4.0  female  Third  16.7000         1
14  14.0  female  Third   7.8542         0
18  31.0  female  Third  18.0000         0


<h3> 그룹 연산 메소드(적용-결합 단계) </h3>
<h4> 데이터 집계 </h4>

이전에 각 그룹별 평균을 계산한 것처럼 그룹 객체에 다양한 연산을 적용할 수 있다. 이 과정을 **'데이터 집계(aggreagation)'**라고 부른다. <br>
집계 기능을 내장하고 있는 판다스 기본 함수에는 mean(), max(), min(), sum(), count(), size(), var(), std(), describe(), info(), first(), last() 등이 있다. 

* **표준편차 데이터 집계: group 객체.std()**

먼저 그룹 별로 표준편차를 계산해보고, 'fare' 열만 따로 표준편차를 집계해보자.

In [None]:
grouped = df.groupby('class')

std_all = grouped.std()
print(std_all, '\n')
print(type(std_all), '\n')

std_fare = grouped.fare.std()
print(std_fare, '\n')
print(type(std_fare))

              age       fare  survived
class                                 
First   14.802856  78.380373  0.484026
Second  14.001077  13.417399  0.500623
Third   12.495398  11.778142  0.428949 

<class 'pandas.core.frame.DataFrame'> 

class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64 

<class 'pandas.core.series.Series'>


agg() 메소드를 사용하면 사용자 정의 함수를 그룹 함수에 적용할 수 있다. 

* **agg() 메소드 데이터 집계: group 객체.agg(매핑 함수)**

최대값과 최소값의 차를 계산하는 함수를 정의해 사용해보자.

* 최대값과 최소값의 차를 계산하면 데이터의 분포 범위를 알 수 있다.

In [None]:
def min_max(x):
  # 최대값 - 최솟값
  return x.max() - x.min()

agg_minmax = grouped.agg(min_max)
print(agg_minmax.head())

          age      fare  survived
class                            
First   79.08  512.3292         1
Second  69.33   73.5000         1
Third   73.58   69.5500         1


동시에 여러 개의 함수를 사용하여 각 그룹별 데이터에 대한 집계 연산을 처리할 수 있다. <br>
각각의 열에 여러 개의 함수를 일괄 적용할 때는 리스트로 인수를 전달하고, 열마다 다른 종류의 함수를 적용하려면 딕셔너리를 전달한다.

* **모든 열에 여러 함수를 매핑: group 객체.agg([함수1, 함수, 함수3, ...])**
* **각 열마다 다른 함수를 매핑: group 객체.agg({'열1': 함수1, '열2': 함수2, ...})**

먼저 min, max 함수를 모든 열에 적용해보자. 그리고 'fare'열에는 min, max 함수, 'age'열에는 mean 함수를 적용해보자. <br>
2개의 함수를 리스트 형태로 입력하면 각 열에 대해 2개의 함수의 연산 결과를 각각 집계해 다른 열로 구분하여 표시한다. <br> 이때 함수명을 열 이름에 추가해 2중 열 구조를 만든다.

In [None]:
agg_all = grouped.agg(['min', 'max'])
print(agg_all.head(), '\n')

agg_sep = grouped.agg({'fare': ['min', 'max'], 'age':'mean'})
print(agg_sep.head())

         age           sex       fare           survived    
         min   max     min   max  min       max      min max
class                                                       
First   0.92  80.0  female  male  0.0  512.3292        0   1
Second  0.67  70.0  female  male  0.0   73.5000        0   1
Third   0.42  74.0  female  male  0.0   69.5500        0   1 

       fare                  age
        min       max       mean
class                           
First   0.0  512.3292  38.233441
Second  0.0   73.5000  29.877630
Third   0.0   69.5500  25.140620


<h4> 그룹 연산 데이터 변환 </h4>

agg() 메소드는 각 그룹별 데이터에 함수를 구분 적용하고, 그룹별로 연산 결과를 집계한다. **transform() 메소드**는 그룹별로 구분하여 각 원소에 함수를 적용하지만 그룹별 집계 대신 각 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환한다. 즉, 원본 데이터프레임과 같은 형태로 변형하여 정리한다.

* **데이터 변환 연산: group 객체.transform(매핑 함수)**

'age'열에 포함된 개별 데이터의 z-score를 구해보자.

In [None]:
age_mean = grouped.age.mean()
print(age_mean, '\n')

age_std = grouped.age.std()
print(age_std, '\n')

for key, group in grouped.age:
  group_zscore = (group - age_mean.loc[key]) / age_std.loc[key]
  print('* origin: ', key)
  print(group_zscore.head(3), '\n')

class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64 

class
First     14.802856
Second    14.001077
Third     12.495398
Name: age, dtype: float64 

* origin:  First
1   -0.015770
3   -0.218434
6    1.065103
Name: age, dtype: float64 

* origin:  Second
9    -1.134029
15    1.794317
17         NaN
Name: age, dtype: float64 

* origin:  Third
0   -0.251342
2    0.068776
4    0.789041
Name: age, dtype: float64 



이번에는 transfrom() 메소드를 사용해보자. z-score를 계산하는 사용자 함수를 정의하고 transform() 메소드의 인자로 전달하자.

In [None]:
def z_score(x):
  return (x - x.mean()) / x.std()

age_zscore = grouped.age.transform(z_score)
print(age_zscore.loc[[1, 9, 0]], '\n')
print(len(age_zscore), '\n')
print(age_zscore.loc[0:9], '\n')
print(type(age_zscore))

1   -0.015770
9   -1.134029
0   -0.251342
Name: age, dtype: float64 

891 

0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
5         NaN
6    1.065103
7   -1.851931
8    0.148805
9   -1.134029
Name: age, dtype: float64 

<class 'pandas.core.series.Series'>


<h4> 그룹 객체 필터링 </h4>

**filter() 메소드**를 적용해 **조건식을 가진 함수**를 전달하면 조건이 참인 그룹만 남긴다.

* **그룹 객체 필터링: group 객체.filter(조건식 함수)**

데이터 개수가 200개 이상인 그룹만 필터링해보자.

In [None]:
grouped_filter = grouped.filter(lambda x: len(x) >= 200)
print(grouped_filter.head(), '\n')
print(type(grouped_filter))

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0 

<class 'pandas.core.frame.DataFrame'>


'age'열의 평균값이 30보다 작은 그룹만 선택해보자.

In [None]:
age_filter = grouped.filter(lambda x: x.age.mean() < 30)
print(age_filter.tail(), '\n')
print(type(age_filter))

      age     sex   class    fare  survived
884  25.0    male   Third   7.050         0
885  39.0  female   Third  29.125         0
886  27.0    male  Second  13.000         0
888   NaN  female   Third  23.450         0
890  32.0    male   Third   7.750         0 

<class 'pandas.core.frame.DataFrame'>


<h4> 그룹 객체에 함수 매핑 </h4>

apply() 메소드는 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑한다. 

* **범용 메소드: group 객체.apply(매핑 함수)**

그룹별로 describe() 메소드를 적용해보자.

In [None]:
agg_grouped = grouped.apply(lambda x: x.describe())
print(agg_grouped)

                     age        fare    survived
class                                           
First  count  186.000000  216.000000  216.000000
       mean    38.233441   84.154687    0.629630
       std     14.802856   78.380373    0.484026
       min      0.920000    0.000000    0.000000
       25%     27.000000   30.923950    0.000000
       50%     37.000000   60.287500    1.000000
       75%     49.000000   93.500000    1.000000
       max     80.000000  512.329200    1.000000
Second count  173.000000  184.000000  184.000000
       mean    29.877630   20.662183    0.472826
       std     14.001077   13.417399    0.500623
       min      0.670000    0.000000    0.000000
       25%     23.000000   13.000000    0.000000
       50%     29.000000   14.250000    0.000000
       75%     36.000000   26.000000    1.000000
       max     70.000000   73.500000    1.000000
Third  count  355.000000  491.000000  491.000000
       mean    25.140620   13.675550    0.242363
       std     12.49

z-score를 계산하는 사용자 정의 함수를 사용해보자.

In [None]:
def z_score(x):
  return (x - x.mean()) / x.std()

age_zscore = grouped.age.apply(z_score) # axis 기본값은 0이다.
print(age_zscore.head())

0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
Name: age, dtype: float64


'age'열의 평균값이 30보다 작은 그룹을 판별해보자.

In [None]:
age_filter = grouped.apply(lambda x: x.age.mean() < 30)
print(age_filter)
print('\n')

for x in age_filter.index:
  if age_filter[x] == True:
    age_filter_df = grouped.get_group(x)
    print(age_filter_df.head())
    print('\n')

class
First     False
Second     True
Third      True
dtype: bool


     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


