In [2]:
import warnings
warnings.filterwarnings('ignore')
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

In [4]:
df = pd.read_csv('./data/gapminder.tsv', sep='\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [9]:
# groupby() 함수를 이용해서 특정 열을 기준으로 데이터를 그룹화 할 수 있다.
age_lifeExp_by_year = df.groupby('year').lifeExp.mean()
age_lifeExp_by_year

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

In [10]:
# groupby() 함수와 같이 사용하는 집계 함수
# count() => 누락값을 제외한 데이터 개수
# size() => 누락값을 포함한 데이터 개수
# mean() => 평균
# std() => 표준편차
# min() => 최소값
# quantile(분q = 0.25) => 1사위수
# quantile(q = 0.50) => 중위수
# quantile(q = 0.75) => 3사분위수
# max() => 최대값
# sum() => 합계
# var() => 분산
# sem() => 평균의 표준편차
# describe() => 데이터 개수, 평균, 표준편차, 최소값, 사분위수, 최대값을 모두 반환
# first() => 첫 번째 행 반환
# last() => 마지막 행 반환
# nth() => n번째 행 반환

agg() 함수를 사용하면 사용자 정의 함수를 groupby() 함수로 그룹화한 데이터엥 일괄적으로 적용시킬 수 있다.  
agg() 함수로 사용자 정의 함수와 groupby() 함수 조합하기

In [12]:
# 평균
def my_mean(values):
    n = len(values)
    total = 0
    for value in values:
        total += value
    return total / n

In [13]:
print(my_mean([1, 2, 3, 4, 5]))

3.0


In [19]:
# 판다스에서 제공하는 집계 함수가 아닐 경우 아래와 같이 실행하면 에러가 발생된다.
# age_lifeExp_by_year = df.groupby('year').lifeExp.my_mean()

In [22]:
# 그룹화된 데이터에 실행할 사용자 정의 함수의 인수가 1개일 경우
# agg() 함수의 인수로 실행하려는 사용자 정의 함수의 이름을 넘겨준다. => 함수의 이름만 써야하고 ()는 입력하면 안된다.
# agg() 함수의 인수로 지정된 함수의 첫 번째 인수로 그룹화된 데이터가 넘어간다.
agg_my_mean = df.groupby('year').lifeExp.agg(my_mean)
agg_my_mean

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

In [27]:
# year 별로 계산된 그룹 평균과 전체 평균의 편차를 계산하는 함수
def my_mean_diff(values, diff_value):
    n = len(values)
    total = 0
    for value in values:
        total += value
    mean = total / n
    # 그룹별 평균에서 전체 평균을 뺀 값을 리턴시킨가.
    return mean - diff_value

In [28]:
# 전체 평균을 계산한다.
global_mean = df.lifeExp.mean()
print(global_mean)

59.474439366197174


In [29]:
# agg() 함수의 첫 번째 인수로 그룹 데이터를 함수로 전달하고 두 번째 인수로 전체 평균을 전달한다.
age_mean_diff = df.groupby('year').lifeExp.agg(my_mean_diff, diff_value = global_mean)
age_mean_diff

year
1952   -10.416820
1957    -7.967038
1962    -5.865190
1967    -3.796150
1972    -1.827053
1977     0.095718
1982     2.058758
1987     3.738173
1992     4.685899
1997     5.540237
2002     6.220483
2007     7.532983
Name: lifeExp, dtype: float64