# groupby 메서드로 평균값 구하기

In [2]:
import pandas as pd
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

avg_life_exp_by_year = df.groupby('year').lifeExp.mean()
print(avg_life_exp_by_year)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 분할-반영-결합 과정 살펴보기

In [7]:
# [분할]
# 가장 먼저 연도별로 데이터를 나누는 과정

# year열의 데이터를 중복 없이 추출
years = df.year.unique()
print(years)

# [반영]
# 연도별로 평균값을 구함
y1952 = df.loc[df.year == 1952, :]
print(y1952.head())
y1952_mean = y1952.lifeExp.mean()
print(y1952_mean)

y2007 = df.loc[df.year == 2007, :]
print(y2007.head())
y2007_mean = y2007.lifeExp.mean()
print(y2007_mean)

# [결합]
# 연도별로 계산한 lifeExp의 평균값을 구함
df2 = pd.DataFrame({'year':[1952,'...',2007],
                   '':[y1952_mean,'...',y2007_mean]})
print(df2)

[1952 1957 1962 1967 1972 1977 1982 1987 1992 1997 2002 2007]
        country continent  year  lifeExp       pop    gdpPercap
0   Afghanistan      Asia  1952   28.801   8425333   779.445314
12      Albania    Europe  1952   55.230   1282697  1601.056136
24      Algeria    Africa  1952   43.077   9279525  2449.008185
36       Angola    Africa  1952   30.015   4232095  3520.610273
48    Argentina  Americas  1952   62.485  17876956  5911.315053
49.05761971830987
        country continent  year  lifeExp       pop     gdpPercap
11  Afghanistan      Asia  2007   43.828  31889923    974.580338
23      Albania    Europe  2007   76.423   3600523   5937.029526
35      Algeria    Africa  2007   72.301  33333216   6223.367465
47       Angola    Africa  2007   42.731  12420476   4797.231267
59    Argentina  Americas  2007   75.320  40301927  12779.379640
67.00742253521126
   year         
0  1952  49.0576
1   ...      ...
2  2007  67.0074


# 평균값을 구하는 사용자 함수와 groupby 메서드

In [8]:
'''
[groupby 메서드와 함께 사용하는 집계 메서드]

count : 누락값을 제외한 데이터 수를 반환
size : 누락값을 포함한 데이터 수를 반환
mean : 평균값 반환
std : 표준편차 반환
min : 최솟값 반환
quantile(q=0.25) : 백분위수 25%
quantile(q=0.50) : 백분위수 50%
quantile(q=0.75) : 백분위수 75%
max : 최댓값 반환
sum : 전체 합 반환
var : 분산 반환
sem : 평균의 표준편차 반환
describe : 데이터 수, 평균, 표준편차, 최소값, 백분위수(25,50,75%), 최댓값을 모두 반환
first : 첫 번째 행 반환
last : 마지막 행 반환
nth : n번째 행 반환
'''

# agg 메서드로 사용자 함수와 groupby 메서드 조합

# 입력받은 열의 평균값을 구하는 함수
def my_mean(values):
    n = len(values)
    sum = 0
    for value in values:
        sum += value
    
    return sum/n

# 직접 만든 함수를 groupby메서드와 조합하기 위해 agg메서드 사용
agg_my_mean = df.groupby('year').lifeExp.agg(my_mean)
print(agg_my_mean)
# mean메서드를 사용하여 얻은 값과 동일함

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 두 개의 인잣값을 받아 처리하는 사용자 함수와 groupby 메서드

In [9]:
# 첫 번째 인자로 받은 열의 평균값을 구하여 두 번째 인자로 받은 값과의 차이를 계산한 다음 반환하는 함수
def my_mean_diff(values, diff_value):
    n = len(values)
    sum = 0
    for value in values:
        sum += value
    mean = sum / n
    return mean - diff_value

# 연도별 평균 수명에서 전체 평균 수명을 뺀 값을 구함
global_mean = df.lifeExp.mean()
print(global_mean)

agg_mean_diff = df.groupby('year').lifeExp.agg(my_mean_diff, diff_value=global_mean)
print(agg_mean_diff)

59.47443936619713
year
1952   -10.416820
1957    -7.967038
1962    -5.865190
1967    -3.796150
1972    -1.827053
1977     0.095718
1982     2.058758
1987     3.738173
1992     4.685899
1997     5.540237
2002     6.220483
2007     7.532983
Name: lifeExp, dtype: float64


# 집계 메서드를 리스트, 딕셔너리에 담아 전달하기

In [15]:
# 여러 개의 집계 메서드를 한 번에 사용하고 싶은 경우, 집계 메서드를 리스트나 딕셔너리에 담아 agg 메서드에 전달

# 리스트
import numpy as np
gdf = df.groupby('year').lifeExp.agg([np.count_nonzero, np.mean, np.std])
print(gdf)


# 딕셔너리
# 딕셔너리의 키로 집계 메서드를 적용할 열 이름을 전달
# 딕셔너리의 값으로 집계 메서드를 전달
gdf_dict = df.groupby('year').agg({'lifeExp':'mean','pop':'median','gdpPercap':'median'})
print(gdf_dict)

      count_nonzero       mean        std
year                                     
1952          142.0  49.057620  12.225956
1957          142.0  51.507401  12.231286
1962          142.0  53.609249  12.097245
1967          142.0  55.678290  11.718858
1972          142.0  57.647386  11.381953
1977          142.0  59.570157  11.227229
1982          142.0  61.533197  10.770618
1987          142.0  63.212613  10.556285
1992          142.0  64.160338  11.227380
1997          142.0  65.014676  11.559439
2002          142.0  65.694923  12.279823
2007          142.0  67.007423  12.073021
        lifeExp         pop    gdpPercap
year                                    
1952  49.057620   3943953.0  1968.528344
1957  51.507401   4282942.0  2173.220291
1962  53.609249   4686039.5  2335.439533
1967  55.678290   5170175.5  2678.334741
1972  57.647386   5877996.5  3339.129407
1977  59.570157   6404036.5  3798.609244
1982  61.533197   7007320.0  4216.228428
1987  63.212613   7774861.5  4280.300366
19

# 표준 점수 계산하기

In [19]:
# 표준점수 : 데이터의 평균과 표준편차의 차이
# 표준점수를 구하면 변환한 데이터의 평균값이 0이 되고 표준편차는 1이 됩니다.

# 표준점수를 계산하는 함수
def my_zscore(x):
    return (x - x.mean()) / x.std()

# 각 연도별 lifeExp 열의 표준점수를 계산
# my_zscore함수를 적용하기 위해 transform 메서드를 사용
transform_z = df.groupby('year').lifeExp.transform(my_zscore)
print(transform_z.head())

# my_zscore함수는 데이터를 표준화할 뿐 집계를 하지 않기 때문에 데이터의 양이 줄어들지 않음
print(df.shape)
print(transform_z.shape)

0   -1.656854
1   -1.731249
2   -1.786543
3   -1.848157
4   -1.894173
Name: lifeExp, dtype: float64
(1704, 6)
(1704,)


# 누락값을 평균값으로 처리하기

In [25]:
import seaborn as sns
import numpy as np

np.random.seed(42)
tips_10 = sns.load_dataset('tips').sample(10)
tips_10.loc[np.random.permutation(tips_10.index)[:4], 'total_bill'] = np.NaN
print(tips_10)

# 여성과 남성을 구분하여 평균값을 구해야 함 -> 여성보다 남성의 데이터가 더 많기 때문에 여성 데이터가 남성 데이터의 영향을 많이 받을 수 있음
count_sex = tips_10.groupby('sex').count()
print(count_sex)
# 남성의 누락값은 3개, 여성의 누락값은 1개라는 것을 알 수 있음

# 성별을 구분하여 total_bill 열의 데이터를 받아 평균값을 구하는 함수
def fill_na_mean(x):
    avg = x.mean()
    return x.fillna(avg)

# 남성과 여성의 누락값을 고려하여 계산한 평균값을 새로운 열로 추가
total_bill_group_mean = tips_10.groupby('sex').total_bill.transform(fill_na_mean)
tips_10['fill_total_bill'] = total_bill_group_mean
print(tips_10)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6          8.77  2.00    Male     No   Sun  Dinner     2
153         NaN  2.00    Male     No   Sun  Dinner     4
211         NaN  5.16    Male    Yes   Sat  Dinner     4
198         NaN  2.00  Female    Yes  Thur   Lunch     2
176         NaN  2.00    Male    Yes   Sun  Dinner     2
192       28.44  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9         14.78  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2
        total_bill  tip  smoker  day  time  size
sex                                             
Male             4    7       7    7     7     7
Female           2    3       3    3     3     3
     total_bill   tip     sex smoker   day    time  size  fill_total_bill
24        19.82  3.18    Male     No   Sat  Dinner     2          19.8200
6          8.77  2.00    Male

# 데이터 필터링 사용하기 ─ filter 메서드

In [29]:
tips = sns.load_dataset('tips')
print(tips.shape)

# size열의 데이터 수를 확인해보면 1,5,6 테이블의 주문이 적다는 것을 알 수 있음
print(tips['size'].value_counts())

# 30번 이상의 주문이 있는 테이블만 추리기
tips_filtered = tips.groupby('size').filter(lambda x : x['size'].count() >= 30)

print(tips_filtered.shape)
print(tips_filtered['size'].value_counts())

(244, 7)
2    156
3     38
4     37
5      5
6      4
1      4
Name: size, dtype: int64
(231, 7)
2    156
3     38
4     37
Name: size, dtype: int64


# 그룹 오브젝트 저장하여 살펴보기

In [36]:
tips_10 = sns.load_dataset('tips').sample(10, random_state=42)
print(tips_10)

# groupby메서드의 결괏값을 출력하면 자료형이 그룹 오브젝트라는 것을 확인할 수 있음
grouped = tips_10.groupby('sex')
print(grouped)

# 그룹오브젝트에 포함된 그룹을 보려면 groups속성을 출력
print(grouped.groups)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6          8.77  2.00    Male     No   Sun  Dinner     2
153       24.55  2.00    Male     No   Sun  Dinner     4
211       25.89  5.16    Male    Yes   Sat  Dinner     4
198       13.00  2.00  Female    Yes  Thur   Lunch     2
176       17.89  2.00    Male    Yes   Sun  Dinner     2
192       28.44  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9         14.78  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E4383D1F70>
{'Male': [24, 6, 153, 211, 176, 192, 9], 'Female': [198, 124, 101]}


# 그룹 오브젝트의 평균 구하기

In [40]:
avgs = grouped.mean()
print(avgs)
# 평균값을 계산할 수 없는 열인 smoker, day, time열은 그룹 연산에서 제외됨
print(tips_10.columns)

        total_bill       tip      size
sex                                   
Male         20.02  2.875714  2.571429
Female       13.62  2.506667  2.000000
Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')


# 그룹 오브젝트에서 데이터 추출하고 반복하기

In [45]:
# 그룹 오브젝트에서 특정 데이터만 추출할 경우 get_group메서드를 사용

# get_group메서드를 사용하여 성별이 여성인 데이터만 추출
female = grouped.get_group('Female')
print(female)

print("=================================================================================================")    

# 각 성별 그룹의 데이터를 반복문을 이용하여 출력
for sex_group in grouped:
    print(sex_group)

print("=================================================================================================")    
    
# sex_group의 자세한 정보를 출력
for sex_group in grouped:
    print('the type is: {}\n'.format(type(sex_group)))
    print('the length is: {}\n'.format(len(sex_group)))
    
    first_element = sex_group[0]
    print('the first element is: {}\n'.format(first_element))
    print('it has a type of: {}\n'.format(type(sex_group[0])))
    
    second_element = sex_group[1]
    print('the second element is: \n{}\n'.format(second_element))
    print('it has a type of: {}\n'.format(type(second_element)))
    
    print('what we have:')
    print(sex_group)
    
    break

     total_bill   tip smoker   day    time  size
198       13.00  2.00    Yes  Thur   Lunch     2
124       12.48  2.52     No  Thur   Lunch     2
101       15.38  3.00    Yes   Fri  Dinner     2
('Male',      total_bill   tip   sex smoker   day    time  size
24        19.82  3.18  Male     No   Sat  Dinner     2
6          8.77  2.00  Male     No   Sun  Dinner     2
153       24.55  2.00  Male     No   Sun  Dinner     4
211       25.89  5.16  Male    Yes   Sat  Dinner     4
176       17.89  2.00  Male    Yes   Sun  Dinner     2
192       28.44  2.56  Male    Yes  Thur   Lunch     2
9         14.78  3.23  Male     No   Sun  Dinner     2)
('Female',      total_bill   tip     sex smoker   day    time  size
198       13.00  2.00  Female    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2)
the type is: <class 'tuple'>

the length is: 2

the first element is: Male

it has a type of: <class 'str'>

the s

# 그룹 오브젝트 계산하고 살펴보기

In [51]:
# 여러 열을 사용하여 데이터를 그룹화하려면 리스트에 열 이름을 담아 groupby 메서드에 전달
bill_sex_time = tips_10.groupby(['sex','time'])
group_avg = bill_sex_time.mean()
print(group_avg)

print(type(group_avg))
print(group_avg.columns)

print(group_avg.index)

# 데이터프레임의 인덱스가 MultiIndex인 경우에는 reset_index 메서드를 사용하여 데이터 프레임의 인덱스를 새로 부여
group_method = tips_10.groupby(['sex', 'time']).mean().reset_index()
print(group_method)

# reset_index 메서드 대신 as_index 인자를 False로 설정해도 과정4와 같은 결과를 얻을 수 있음
group_param = tips_10.groupby(['sex','time'], as_index=False).mean()
print(group_param)

               total_bill       tip      size
sex    time                                  
Male   Lunch    28.440000  2.560000  2.000000
       Dinner   18.616667  2.928333  2.666667
Female Lunch    12.740000  2.260000  2.000000
       Dinner   15.380000  3.000000  2.000000
<class 'pandas.core.frame.DataFrame'>
Index(['total_bill', 'tip', 'size'], dtype='object')
MultiIndex([(  'Male',  'Lunch'),
            (  'Male', 'Dinner'),
            ('Female',  'Lunch'),
            ('Female', 'Dinner')],
           names=['sex', 'time'])
      sex    time  total_bill       tip      size
0    Male   Lunch   28.440000  2.560000  2.000000
1    Male  Dinner   18.616667  2.928333  2.666667
2  Female   Lunch   12.740000  2.260000  2.000000
3  Female  Dinner   15.380000  3.000000  2.000000
      sex    time  total_bill       tip      size
0    Male   Lunch   28.440000  2.560000  2.000000
1    Male  Dinner   18.616667  2.928333  2.666667
2  Female   Lunch   12.740000  2.260000  2.000000
3  Female  D