In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

# groupby 메서드로 평균값 구하기

In [None]:
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [None]:
df.groupby('year').lifeExp.mean()

# 분할-반영-결합 과정 살펴보기

In [None]:
# 1952, 1957, 1962, 2007년의 lifeExp 평균 구하기
y1952 = df.loc[df.year == 1952, :]
y1957 = df.loc[df.year == 1957, :]
y1962 = df.loc[df.year == 1962, :]
y2007 = df.loc[df.year == 2007, :]

In [None]:
y1952_mean = y1952.lifeExp.mean()
y1957_mean = y1957.lifeExp.mean()
y1962_mean = y1962.lifeExp.mean()
y2007_mean = y2007.lifeExp.mean()

In [None]:
pd.DataFrame({
    "year" : [1952, 1957, 1962, 2007],
    'lifeExp mean' : [y1952_mean, y1957_mean, y1962_mean, y2007_mean]
})

# 평균값을 구하는 사용자 함수와 groupby 메서드

In [None]:
# 평균을 반환하는 함수
def get_mean(values):
    sum = 0

    for value in values:
        sum += value
    return sum / len(values)

In [None]:
# 각 년도에서 lifeExp의 평균 구하기
df.groupby('year').lifeExp.agg(get_mean)

# 두 개의 인잣값을 받아 처리하는 사용자 함수와 groupby 메서드

In [None]:
# 전체 lifeExp의 평균에서 각 년도의 lifeExp평균을 뺀 값을 반환하는 함수
def get_mean_diff(values, lifeExp_mean):
    sum = 0
    for value in values:
        sum += value
    return (sum / len(values)) - lifeExp_mean

In [None]:
lifeExp_mean = df.lifeExp.mean()

In [None]:
df.groupby('year').lifeExp.agg(get_mean_diff, lifeExp_mean=lifeExp_mean)

# 집계 메서드를 리스트, 딕셔너리에 담아 전달하기

In [None]:
df.groupby('year').lifeExp.agg([np.count_nonzero, np.mean, np.std])

# 표준 점수 계산하기

In [None]:
df.groupby('year').agg({
    'lifeExp' : 'median'
}).head()

# 누락값을 평균값으로 처리하기

In [None]:
# lifeExp 열에서 Null값을 lifeExp의 평균값으로 대체합니다.
lifeExp_mean = df.lifeExp.mean()
df.lifeExp.fillna(lifeExp_mean)

# 데이터 필터링 사용하기 ─ filter 메서드

In [None]:
tips = sns.load_dataset('tips')

In [60]:
tips_filtered = tips.groupby('size').filter(lambda x: x['size'].count() >= 30)

In [61]:
tips_filtered['size'].value_counts()

2    156
3     38
4     37
Name: size, dtype: int64

# 그룹 오브젝트 저장하여 살펴보기

In [62]:
group = tips.groupby('sex')
group.groups

{'Male': Int64Index([  1,   2,   3,   5,   6,   7,   8,   9,  10,  12,
             ...
             231, 232, 233, 234, 235, 236, 237, 239, 241, 242],
            dtype='int64', length=157),
 'Female': Int64Index([  0,   4,  11,  14,  16,  18,  21,  22,  29,  32,  33,  37,  51,
              52,  57,  66,  67,  71,  72,  73,  74,  82,  85,  92,  93,  94,
             100, 101, 102, 103, 104, 109, 111, 114, 115, 117, 118, 119, 121,
             124, 125, 127, 128, 131, 132, 133, 134, 135, 136, 137, 139, 140,
             143, 144, 145, 146, 147, 155, 157, 158, 162, 164, 168, 169, 178,
             186, 188, 191, 197, 198, 201, 202, 203, 205, 209, 213, 214, 215,
             219, 221, 223, 225, 226, 229, 238, 240, 243],
            dtype='int64')}

# 그룹 오브젝트의 평균 구하기

In [63]:
group.mean()

Unnamed: 0_level_0,total_bill,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,20.744076,3.089618,2.630573
Female,18.056897,2.833448,2.45977


# 그룹 오브젝트에서 데이터 추출하고 반복하기

In [64]:
# 무엇을 반복해야하는지 모르겠습니다.
female = group.get_group('Female')
print(female.head())

total_bill   tip     sex smoker  day    time  size
0        16.99  1.01  Female     No  Sun  Dinner     2
4        24.59  3.61  Female     No  Sun  Dinner     4
11       35.26  5.00  Female     No  Sun  Dinner     4
14       14.83  3.02  Female     No  Sun  Dinner     2
16       10.33  1.67  Female     No  Sun  Dinner     3


# 그룹 오브젝트 계산하고 살펴보기

In [65]:
tips.groupby(['sex', 'time']).mean().reset_index()

Unnamed: 0,sex,time,total_bill,tip,size
0,Male,Lunch,18.048485,2.882121,2.363636
1,Male,Dinner,21.461452,3.144839,2.701613
2,Female,Lunch,16.339143,2.582857,2.457143
3,Female,Dinner,19.213077,3.002115,2.461538
