그룹연산
- 특정 기준을 적용하여 몇 개의 그룹으로 분할하여 처리하는것
- 데이터를 집계, 변환, 필터링 하는데 효율적
- 단계
    - 1) 분할(split): 데이터를 특정 조건에 의해 분할
        - 데이터프레임 객체.groupby(기준이 되는 열)
    - 2) 적용(apply): 데이터를 집계, 변환, 필터링하는데 필요한 메소드 적용
    - 3) 결합(combine): 2단계의 처리 결과를 하나로 결합

1단계 그룹객체 만들기(분할 단계)
- 1개 열을 기준으로 그룹화
    - 데이터프레임 객체.groupby(기준이 되는 열)
    - 그룹 객체 반환
        - 그룹 객체를 iteration(반복)으로출력
        - 그룹 객체에 연산 메소드 적용 가능
            - 연산이 가능한 열에만 적용
        - 특적 그룹만 선택
            - 그룹객체.get_group("특정 그룹")
- 여러 열을 기준으로 그룹화
    - 데이터프레임 객체.groupby(기준이 되는 열 리스트)
    - 그룹 객체 반환
        - 그룹 객체를 iteration(반복)으로출력
        - 그룹 객체에 연산 메소드 적용 가능
            - 연산이 가능한 열에만 적용
            - 멀티 인덱스 적용
                - 가능한 조합은 튜플 형식으로 지정
        - 특적 그룹만 선택
            - 그룹객체.get_group((행1,행2))
                - 인자를 튜플로 지정해야함

In [9]:
#<예제 6-14> 그룹 연산 - 분할 (1개 열 기준)

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
df = titanic.loc[:,["age","sex","class","fare","survived"]]

print("승객수:",len(df))
print(df.head())

print("\n")

# class열을 기준으로 분할
grouped = df.groupby("class")
print(grouped)

print("\n")

# 그룹 객체를 iteration으로 출력: head()메소드로 첫 5행만 출력
for key, group in grouped:
    print("* key :",key)
    print("* number :",len(group))
    print(group.head())
    print("\n")
    
#그룹 객체(grouped)에 연산 메소드 적용
# 연산이 가능한 열에 선택적으로 연산 수행
average = grouped.mean()
print(average)

print("\n")

# 특정 그룹만 선택
# 그룹객체.get_group("특정 그룹")
group3 = grouped.get_group("Third")
print(group3.head())

승객수: 891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000201E7AF9100>


* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1


* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


* key : Third
* number : 491
    age     sex  class     fare  survived
0  

In [13]:
#<예제 6-14> 그룹 연산 - 분할 (여러 열 기준)

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
df = titanic.loc[:,["age","sex","class","fare","survived"]]

print("승객수:",len(df))
print(df.head())

print("\n")

#"class","sex" 열을 기준으로 분할
grouped2 = df.groupby(["class","sex"])

# grouped2를 iteration 으로 출력
for key, group in grouped2:
    print("* key :",key)
    print("* number :",len(group))
    print(group.head())
    print("\n")
    
# grouped2 에 연산메소드(mean()) 적용
# 멀티인덱스 지정됨
    # ("class","sex")
print(grouped2.mean())

print("\n")

# 멀티 인덱스를 이용하여특정 그룹만을 골라서 추출
# 그룹 객체.get_group(("행1","행2")) <- 튜플로 인자를 입력
group2f = grouped2.get_group(("Third","female"))
print(group2f.head())

승객수: 891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


* key : ('First', 'female')
* number : 94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1


* key : ('First', 'male')
* number : 122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0


* key : ('Second', 'female')
* number : 76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15 

2,3단계 그룹 연산 메소드(적용-결합 단계)
- 데이터 집계
    - 그룹객체에 연산을 적용하는 것
    - 각 그룹을 행 인덱스로 갖는 데이터프레임 반환
    - 내장함수
        - 그룹객체. 연산 메소드()
        - mean(), max(), min(), sum(), count(), std(), ...등
    - 사용자 정의 함수(매핑 함수)
        - 그룹객체.agg(매핑 함수)
    - 모든 열에 여러 함수를 매핑
        - 그룹객체.agg(["함수1","함수2",...])
    - 각 열마다 다른 함수를 매핑
        - 그룹객체.agg({"열1":["함수1","함수1-1"], "열2","함수2", ...})

In [16]:
#<예제 6-15> 데이터 집계

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
df = titanic.loc[:,["age","sex","class",'fare',"survived"]]

# class열을 기준으로 분할
group = df.groupby(["class"])

# 내장 함수 적용
# 각 그룹에 대한 모든 열의 표준편차 집계하여 데이터프레임으로 반환 
std_all = group.std()
print(std_all)

print("\n")

# 사용자 정의 함수(매핑 함수)
def min_max(x):
    return x.max() - x.min()

# 그룹객체.agg(매핑함수)
agg_minmax = grouped.agg(min_max)
print(agg_minmax)

print("\n")

# 여러 함수르 각 열에 동일하게 적용하여 집계
# 그룹객체.agg([함수1,함수2])
agg_all = grouped.agg(["min","max"])
print(agg_all)

print("\n")

# 각 열마다 다른 함수를 적용하여 집계
# 그룹객체.agg({"열1":"함수1", "열2","함수2", ...})
agg_each = grouped.agg({"fare":["min","max"],"age":"mean"})
print(agg_each)

              age       fare  survived
class                                 
First   14.802856  78.380373  0.484026
Second  14.001077  13.417399  0.500623
Third   12.495398  11.778142  0.428949


          age      fare  survived
class                            
First   79.08  512.3292         1
Second  69.33   73.5000         1
Third   73.58   69.5500         1


         age           sex       fare           survived    
         min   max     min   max  min       max      min max
class                                                       
First   0.92  80.0  female  male  0.0  512.3292        0   1
Second  0.67  70.0  female  male  0.0   73.5000        0   1
Third   0.42  74.0  female  male  0.0   69.5500        0   1


       fare                  age
        min       max       mean
class                           
First   0.0  512.3292  38.233441
Second  0.0   73.5000  29.877630
Third   0.0   69.5500  25.140620


그룹 연산 데이터 반환
- 그룹객체.transform(매핑함수)
- 각 원소의 본해 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
    - 연산의 결과를 원본 데이터프레임과 같은 형태로 변형하여 정리

In [21]:
# <예제 6-16>그룹 연산데이터변환

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
df = titanic.loc[:,["age","sex","class",'fare',"survived"]]

# class열을 기준으로 분할
group = df.groupby(["class"])

# transform()메소드 사용하여 "age"열의 z-score 출력
def z_score(x):
    return (x-x.mean())/x.std()

age_zscore = group.age.transform(z_score)
print(age_zscore.head())

0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
Name: age, dtype: float64


그룹 객체 필터링
- 그룹객체.filter(조건식함수)
    - 조건이 참인 그룹만을 남긴다.

In [30]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
df = titanic.loc[:,["age","sex","class",'fare',"survived"]]

# class열을 기준으로 분할
grouped = df.groupby(["class"])

for key, group in grouped:
    print("* key :",key)
    print("* number :",len(group))
    print(group.head())
    print("\n")

# 데이터 개수가 200개 이산인 그룹만을 필터링하여 원본 데이터프레임으로 반환
group_filter = grouped.filter(lambda x: len(x)  >= 200)
print(group_filter.head(10))
print("\n")

# age열의 평균이 30보다 작은 그룹만을 필터링하여 원본 데이터프레임으로 반환
group_filter = grouped.filter(lambda x: x.age.mean()<30)
print(group_filter.head(10))

* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1


* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


* key : Third
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


     age     sex  class     fare  survived
0   22.0    male  Third   7.2500         0
1   38.0  female  First  71.2833         1
2  

그룹 객체에 함수 매핑
- 그룹객체.apply(매핑 함수)

In [39]:
# <예제6-18> 그룹객체에 함수 매핑


import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
df = titanic.loc[:,["age","sex","class",'fare',"survived"]]

# class열을 기준으로 분할
grouped = df.groupby(["class"])

# describe() 함수 매핑
apply_grouped = grouped.apply(lambda x: x.describe())
print(apply_grouped,"\n")

# z-score 함수 매핑하기
def z_score(x):
    return (x-x.mean())/x.std()

z_score_grouped = grouped.age.apply(z_score)
print(z_score_grouped.head())

print("\n")

# 필터링 : age열의 데이터 평균이 30보다 작은 그룸반을 필터링하여 출력
age_filter = grouped.apply(lambda x: x.age.mean()<30)
print(age_filter)
print("\n")

for x in age_filter.index:
    if age_filter[x] == True:
        age_filter_df = grouped.get_group(x)
        print(age_filter_df.head())
        print("\n")

                     age        fare    survived
class                                           
First  count  186.000000  216.000000  216.000000
       mean    38.233441   84.154687    0.629630
       std     14.802856   78.380373    0.484026
       min      0.920000    0.000000    0.000000
       25%     27.000000   30.923950    0.000000
       50%     37.000000   60.287500    1.000000
       75%     49.000000   93.500000    1.000000
       max     80.000000  512.329200    1.000000
Second count  173.000000  184.000000  184.000000
       mean    29.877630   20.662183    0.472826
       std     14.001077   13.417399    0.500623
       min      0.670000    0.000000    0.000000
       25%     23.000000   13.000000    0.000000
       50%     29.000000   14.250000    0.000000
       75%     36.000000   26.000000    1.000000
       max     70.000000   73.500000    1.000000
Third  count  355.000000  491.000000  491.000000
       mean    25.140620   13.675550    0.242363
       std     12.49