- 그룹 객체에 함수 매핑

`apply()` 메소드는 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑한다.<br>
사용자가 원하는 대부분의 연산을 그룹 객체에도 적용할 수 있다.

- 범용 메소드: `group 객체.apply(매핑함수)`

'class' 열을 기준으로 구분한 3개의 그룹에 요약 통계 정보를 나타내는 `describe()` 메소드를 적용한다.<br>
각 그룹별 데이터의 개수, 평균, 표준편차, 최소값, 최대값 등을 확인할 수 있다.


In [2]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class'])

##############################
# 집계: 각 그룹별 요약 통계 정보 집계
agg_grouped = grouped.apply(lambda x: x.describe())
print(agg_grouped)


                     age        fare    survived
class                                           
First  count  186.000000  216.000000  216.000000
       mean    38.233441   84.154687    0.629630
       std     14.802856   78.380373    0.484026
       min      0.920000    0.000000    0.000000
       25%     27.000000   30.923950    0.000000
       50%     37.000000   60.287500    1.000000
       75%     49.000000   93.500000    1.000000
       max     80.000000  512.329200    1.000000
Second count  173.000000  184.000000  184.000000
       mean    29.877630   20.662183    0.472826
       std     14.001077   13.417399    0.500623
       min      0.670000    0.000000    0.000000
       25%     23.000000   13.000000    0.000000
       50%     29.000000   14.250000    0.000000
       75%     36.000000   26.000000    1.000000
       max     70.000000   73.500000    1.000000
Third  count  355.000000  491.000000  491.000000
       mean    25.140620   13.675550    0.242363
       std     12.49

---

z-score를 계산하는 사용자 함수를 사용하여 'age'열의 데이터를 z-score로 변환한다.


In [4]:
# z-score를 계산하는 사용자 함수 정의
def z_score(x):
    return (x - x.mean()) / x.std()


age_zscore = grouped.age.apply(z_score)  # 기본값 axis=0
print(age_zscore.head())

0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
Name: age, dtype: float64


---

'age' 열의 평균값이 30보다 작은 즉, 평균나이가 30세 미만인 그룹을 판별한다.<br>
조건이 참인 그룹은 'class' 값이 'Second'와 'Third'인 그룹이다.<br>
반복문을 사용하여 데이터를 출력한다.


In [7]:
# 필터링 : age 열의 데이터 평균이 30보다 작은 그룹만을 필터링하여 출력
age_filter = grouped.apply(lambda x: x.age.mean() < 30)
print(age_filter)
print('\n')

for x in age_filter.index:
    if age_filter[x]:
        age_filter_df = grouped.get_group(x)
        print(age_filter_df.head())
        print('\n')


class
First     False
Second     True
Third      True
dtype: bool


     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


