# groupby 메서드로 평균값 구하기

그룹 연산 = 데이터를 분할(Split) + 반영(Apply) + 결합(Combine)한다.

그룹 연산은 대용량의 데이터도 쉽게 처리할 수 있다.

In [1]:
import pandas as pd
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [4]:
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [6]:
# year 열을 기준으로 데이터를 그룹화하고 lifeExp 열의 평균을 구한다.
avg_life_exp_by_year = df.groupby('year').lifeExp.mean()
print(avg_life_exp_by_year)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 분할-반영-결합 과정 살펴보기

분할 : groupby 메서드에 열 이름을 전달하면 분할 작업이 먼저 일어난다.

In [7]:
years=df.year.unique()
print(years)

[1952 1957 1962 1967 1972 1977 1982 1987 1992 1997 2002 2007]


반영 1 : 연도별 데이터를 추출한다.

In [10]:
y1952 = df.loc[df.year==1952]
y1952

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
12,Albania,Europe,1952,55.230,1282697,1601.056136
24,Algeria,Africa,1952,43.077,9279525,2449.008185
36,Angola,Africa,1952,30.015,4232095,3520.610273
48,Argentina,Americas,1952,62.485,17876956,5911.315053
...,...,...,...,...,...,...
1644,Vietnam,Asia,1952,40.412,26246839,605.066492
1656,West Bank and Gaza,Asia,1952,43.160,1030585,1515.592329
1668,"Yemen, Rep.",Asia,1952,32.548,4963829,781.717576
1680,Zambia,Africa,1952,42.038,2672000,1147.388831


In [11]:
y1952 = df.loc[df.year==1952, :]
y1952

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
12,Albania,Europe,1952,55.230,1282697,1601.056136
24,Algeria,Africa,1952,43.077,9279525,2449.008185
36,Angola,Africa,1952,30.015,4232095,3520.610273
48,Argentina,Americas,1952,62.485,17876956,5911.315053
...,...,...,...,...,...,...
1644,Vietnam,Asia,1952,40.412,26246839,605.066492
1656,West Bank and Gaza,Asia,1952,43.160,1030585,1515.592329
1668,"Yemen, Rep.",Asia,1952,32.548,4963829,781.717576
1680,Zambia,Africa,1952,42.038,2672000,1147.388831


In [12]:
print(y1952.head())

        country continent  year  lifeExp       pop    gdpPercap
0   Afghanistan      Asia  1952   28.801   8425333   779.445314
12      Albania    Europe  1952   55.230   1282697  1601.056136
24      Algeria    Africa  1952   43.077   9279525  2449.008185
36       Angola    Africa  1952   30.015   4232095  3520.610273
48    Argentina  Americas  1952   62.485  17876956  5911.315053


반영 2 : 1952년 데이터에서 lifeExp 열의 평균값을 구한다.

In [14]:
y1952_mean=y1952.lifeExp.mean()
print(y1952_mean)

49.05761971830987


반영 3 : 반영 1,2를 반복하여 남은 연도의 평균값을 구한다.

In [18]:
y1957 = df.loc[df.year==1957]
y1957_mean=y1957.lifeExp.mean()
print(y1957_mean)

y1962 = df.loc[df.year==1962]
y1962_mean=y1962.lifeExp.mean()
print(y1962_mean)

y2007 = df.loc[df.year==2007 ]
y2007_mean=y2007.lifeExp.mean()
print(y2007_mean)

51.50740112676054
53.60924901408449
67.00742253521126


In [19]:
df2 = pd.DataFrame({
    'year':[1952,1957,1962,2007],
    '':[y1952_mean, y1957_mean, y1962_mean, y2007_mean]
})

print(df2)

   year           
0  1952  49.057620
1  1957  51.507401
2  1962  53.609249
3  2007  67.007423


## groupby 메서드와 함께 사용하는 집계 메서드

집계 메서드

|메서드|설명|
|:---|:---|
|count|누락값을 제외한 데이터 수를 반환|
|size|누락값을 포함한 데이터 수를 반환|
|mean|평균값 반환|
|std|표준편차 반환|
|min|최솟값 반환|
|quantile(q=0.25)|백분위수 25%|
|quantile(q=0.50)|백분위수 50%|
|quantile(q=0.75)|백분위수 75%|
|max|최댓값 반환|
|sum|전체 합 반호나|
|var|분산 반환|
|sem|평균의 표준편차 반환|
|describe|데이터 수, 평균, 표준편차, 최소값, 백분위수(25,50,75%), 최댓값을 모두 반환|
|first|첫번째 행 반환|
|last|마지막 행 반환|
|nth|n번째 행 반환|

In [32]:
tmp = df.groupby('year')
tmp.describe()

Unnamed: 0_level_0,lifeExp,lifeExp,lifeExp,lifeExp,lifeExp,lifeExp,lifeExp,lifeExp,pop,pop,pop,pop,pop,gdpPercap,gdpPercap,gdpPercap,gdpPercap,gdpPercap,gdpPercap,gdpPercap,gdpPercap
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1952,142.0,49.05762,12.225956,28.801,39.059,45.1355,59.765,72.67,142.0,16950400.0,...,9168197.75,556263500.0,142.0,3725.276046,9321.064786,298.846212,864.752389,1968.528344,3913.492777,108382.3529
1957,142.0,51.507401,12.231286,30.332,41.2475,48.3605,63.03675,73.47,142.0,18763410.0,...,9817598.0,637408000.0,142.0,4299.408345,9869.662202,335.997115,930.540819,2173.220291,4876.356362,113523.1329
1962,142.0,53.609249,12.097245,31.997,43.4685,50.881,65.2345,73.68,142.0,20421010.0,...,10980084.5,665770000.0,142.0,4725.812342,8667.362525,355.203227,1059.149171,2335.439533,5709.381428,95458.11176
1967,142.0,55.67829,11.718858,34.02,46.03375,53.825,67.4195,74.16,142.0,22658300.0,...,12614584.75,754550000.0,142.0,5483.653047,8095.315431,349.0,1151.245103,2678.334741,7075.932943,80894.88326
1972,142.0,57.647386,11.381953,35.4,48.50025,56.53,69.2475,74.72,142.0,25189980.0,...,14679199.5,862030000.0,142.0,6770.082815,10614.383403,357.0,1257.193853,3339.129407,9508.839303,109347.867
1977,142.0,59.570157,11.227229,31.22,50.4755,59.672,70.3825,76.11,142.0,27676380.0,...,16670227.0,943455000.0,142.0,7313.166421,8362.48915,371.0,1357.257252,3798.609244,11204.102423,59265.47714
1982,142.0,61.533197,10.770618,38.445,52.94,62.4415,70.92125,77.11,142.0,30207300.0,...,18407324.75,1000281000.0,142.0,7518.901673,7733.845006,424.0,1363.338985,4216.228428,12347.953723,33693.17525
1987,142.0,63.212613,10.556285,39.906,54.94075,65.834,71.87725,78.67,142.0,33038570.0,...,20947542.5,1084035000.0,142.0,7900.920218,8288.281304,385.0,1327.469823,4280.300366,11994.052795,31540.9748
1992,142.0,64.160338,11.22738,23.599,56.12175,67.703,72.5825,79.36,142.0,35990920.0,...,22705382.5,1164970000.0,142.0,8158.608521,9031.84608,347.0,1270.660958,4386.085502,10684.35187,34932.91959
1997,142.0,65.014676,11.559439,36.087,55.63375,69.394,74.16975,80.69,142.0,38839470.0,...,24311369.75,1230075000.0,142.0,9090.175363,10171.493263,312.188423,1366.837958,4781.825478,12022.867188,41283.16433


In [36]:
tmp.first()

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,Afghanistan,Asia,28.801,8425333,779.445314
1957,Afghanistan,Asia,30.332,9240934,820.85303
1962,Afghanistan,Asia,31.997,10267083,853.10071
1967,Afghanistan,Asia,34.02,11537966,836.197138
1972,Afghanistan,Asia,36.088,13079460,739.981106
1977,Afghanistan,Asia,38.438,14880372,786.11336
1982,Afghanistan,Asia,39.854,12881816,978.011439
1987,Afghanistan,Asia,40.822,13867957,852.395945
1992,Afghanistan,Asia,41.674,16317921,649.341395
1997,Afghanistan,Asia,41.763,22227415,635.341351


In [34]:
tmp.nth(0)

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,Afghanistan,Asia,28.801,8425333,779.445314
1957,Afghanistan,Asia,30.332,9240934,820.85303
1962,Afghanistan,Asia,31.997,10267083,853.10071
1967,Afghanistan,Asia,34.02,11537966,836.197138
1972,Afghanistan,Asia,36.088,13079460,739.981106
1977,Afghanistan,Asia,38.438,14880372,786.11336
1982,Afghanistan,Asia,39.854,12881816,978.011439
1987,Afghanistan,Asia,40.822,13867957,852.395945
1992,Afghanistan,Asia,41.674,16317921,649.341395
1997,Afghanistan,Asia,41.763,22227415,635.341351


# 평균값을 구하는 사용자 함수와 groupby 메서드

## agg 메서드로 사용자 함수와 groupby 메서드 조합하기

라이브러리에서 제공하는 집계 메서드로 원하는 값을 계산할 수 없는 경우에는 직접 함수를 만들어서 사용해야 한다.

사용자 함수와 groupby 메서드를 조합하려면 agg 메서드를 사용해야 한다.

In [40]:
def my_mean(values):
    n = len(values)
    sum = 0
    for value in values:
        sum += value
    return sum/n

In [41]:
agg_my_mean = df.groupby('year').lifeExp.agg(my_mean)
print(agg_my_mean)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 두 개의 인잣값을 받아 처리하는 사용자 함수와 groupby 메서드

In [44]:
def my_mean_diff(values, diff_value):
    n = len(values)
    sum = 0
    for value in values:
        sum += value
    mean = sum/n
    return mean - diff_value

연도별 평균 수명에서 전체 평균 수명을 뺀 값을 구한다.

In [45]:
global_mean = df.lifeExp.mean()
print(global_mean)

agg_my_diff=df.groupby('year').lifeExp.agg(my_mean_diff, diff_value=global_mean)
print(agg_my_diff)

59.47443936619713
year
1952   -10.416820
1957    -7.967038
1962    -5.865190
1967    -3.796150
1972    -1.827053
1977     0.095718
1982     2.058758
1987     3.738173
1992     4.685899
1997     5.540237
2002     6.220483
2007     7.532983
Name: lifeExp, dtype: float64


# 집계 메서드를 리스트, 딕셔너리에 담아 전달하기

여러 개의 집계 메서드를 한 번에 사용하려면 집계 메서드를 리스트나 딕셔너리에 담아 agg 메서드에 전달하면 된다.

In [46]:
import numpy as np
gdf = df.groupby('year').lifeExp.agg([np.count_nonzero, np.mean, np.std])
print(gdf)

      count_nonzero       mean        std
year                                     
1952          142.0  49.057620  12.225956
1957          142.0  51.507401  12.231286
1962          142.0  53.609249  12.097245
1967          142.0  55.678290  11.718858
1972          142.0  57.647386  11.381953
1977          142.0  59.570157  11.227229
1982          142.0  61.533197  10.770618
1987          142.0  63.212613  10.556285
1992          142.0  64.160338  11.227380
1997          142.0  65.014676  11.559439
2002          142.0  65.694923  12.279823
2007          142.0  67.007423  12.073021


In [48]:
gdf_dict = df.groupby('year').agg({'lifeExp':'mean', 'pop':'median', 'gdpPercap':'median'})
print(gdf_dict)

        lifeExp         pop    gdpPercap
year                                    
1952  49.057620   3943953.0  1968.528344
1957  51.507401   4282942.0  2173.220291
1962  53.609249   4686039.5  2335.439533
1967  55.678290   5170175.5  2678.334741
1972  57.647386   5877996.5  3339.129407
1977  59.570157   6404036.5  3798.609244
1982  61.533197   7007320.0  4216.228428
1987  63.212613   7774861.5  4280.300366
1992  64.160338   8688686.5  4386.085502
1997  65.014676   9735063.5  4781.825478
2002  65.694923  10372918.5  5319.804524
2007  67.007423  10517531.0  6124.371109


# 표준 점수 계산하기

데이터 변환 메서드는 데이터와 메서드를 일대일로 대응시켜 계산하기 때문에 데이터의 양이 줄지 않고 데이터를 변환하는데 사용한다.

표준 점수 = 데이터의 평균 - 표준편차

표준 점수를 구하면 변환한 데이터의 평균값이 0이 되고 표준 편차는 1이 된다. 그러면 데이터가 표준화되어 서로 다른 데이터를 쉽게 비교할 수 있다.

In [50]:
def my_zscore(x):
    return (x-x.mean())/x.std()

In [51]:
transfrom_z = df.groupby('year').lifeExp.transform(my_zscore)
print(transfrom_z.head())

0   -1.656854
1   -1.731249
2   -1.786543
3   -1.848157
4   -1.894173
Name: lifeExp, dtype: float64


my_zscore 함순느 데이터를 표준화할 뿐 집계는 하지 않는다.

In [53]:
print(df.shape)
print(transfrom_z.shape)

(1704, 6)
(1704,)


# 누락값을 평균값으로 처리하기

seaborn 라이브러리의 tips 데이터 집합에서 10개의 행 데이터만 가져온 다음 total_bill 열의 값 4개를 임의로 선택하여 누락값으로 바꾼다.

In [63]:
import seaborn as sns
import numpy as np

np.random.seed(42)

tips_10 = sns.load_dataset('tips').sample(10)
tips_10.loc[np.random.permutation(tips_10.index)[:4], 'total_bill']
print(tips_10)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6          8.77  2.00    Male     No   Sun  Dinner     2
153       24.55  2.00    Male     No   Sun  Dinner     4
211       25.89  5.16    Male    Yes   Sat  Dinner     4
198       13.00  2.00  Female    Yes  Thur   Lunch     2
176       17.89  2.00    Male    Yes   Sun  Dinner     2
192       28.44  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9         14.78  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


In [72]:
np.random.permutation(tips_10.index)[:4]

array([211,  24,   6, 124], dtype=int64)

In [73]:
tips_10.loc[np.random.permutation(tips_10.index)[:4], 'total_bill']

9      14.78
6       8.77
176    17.89
192    28.44
Name: total_bill, dtype: float64

In [76]:
tips_10.loc[np.random.permutation(tips_10.index)[:4], 'total_bill']=np.NaN
print(tips_10)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6           NaN  2.00    Male     No   Sun  Dinner     2
153         NaN  2.00    Male     No   Sun  Dinner     4
211       25.89  5.16    Male    Yes   Sat  Dinner     4
198       13.00  2.00  Female    Yes  Thur   Lunch     2
176       17.89  2.00    Male    Yes   Sun  Dinner     2
192         NaN  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9           NaN  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


tips_10 데이터는 여성보다 남성이 더 많아 여성과 남성을 구분하여 total_bill 열의 평균값을 구해야한다.
그렇지 않으면 여성의 데이터가 남성 데이터의 영향을 많이 받아 훼손될 수 있기 때문이다.

남성 누락값 4개

In [80]:
count_sex = tips_10.groupby('sex').count()
print(count_sex)

        total_bill  tip  smoker  day  time  size
sex                                             
Male             3    7       7    7     7     7
Female           3    3       3    3     3     3


In [99]:
def fill_na_mean(x):
    avg=x.mean()
    print()
    print(x)
    print(x.mean())
    print()
    return x.fillna(avg)

In [100]:
total_bill_group_mean=tips_10.groupby('sex').total_bill.transform(fill_na_mean)
tips_10['fill_total_bill']=total_bill_group_mean
print(tips_10)


24     19.82
6        NaN
153      NaN
211    25.89
176    17.89
192      NaN
9        NaN
Name: Male, dtype: float64
21.2


198    13.00
124    12.48
101    15.38
Name: Female, dtype: float64
13.62

     total_bill   tip     sex smoker   day    time  size  fill_total_bill
24        19.82  3.18    Male     No   Sat  Dinner     2            19.82
6           NaN  2.00    Male     No   Sun  Dinner     2            21.20
153         NaN  2.00    Male     No   Sun  Dinner     4            21.20
211       25.89  5.16    Male    Yes   Sat  Dinner     4            25.89
198       13.00  2.00  Female    Yes  Thur   Lunch     2            13.00
176       17.89  2.00    Male    Yes   Sun  Dinner     2            17.89
192         NaN  2.56    Male    Yes  Thur   Lunch     2            21.20
124       12.48  2.52  Female     No  Thur   Lunch     2            12.48
9           NaN  3.23    Male     No   Sun  Dinner     2            21.20
101       15.38  3.00  Female    Yes   Fri  Dinner     2   

# 데이터 필터링 사용하기 ─ filter 메서드

filter 메서드 : 그룹화한 데이터에서 원하는 데이터를 거르고 싶을 때 데이터 필터링을 사용하자

In [101]:
tips = sns.load_dataset('tips')
print(tips.shape)

(244, 7)


In [103]:
print(tips['size'].value_counts())

2    156
3     38
4     37
5      5
6      4
1      4
Name: size, dtype: int64


In [105]:
print(tips.groupby('size').count())

      total_bill  tip  sex  smoker  day  time
size                                         
1              4    4    4       4    4     4
2            156  156  156     156  156   156
3             38   38   38      38   38    38
4             37   37   37      37   37    37
5              5    5    5       5    5     5
6              4    4    4       4    4     4


30번 이상의 주문이 있는 테이블만 그룹화하여 변수 tips_filtered에 저장한다.

In [106]:
tips_filtered = tips.groupby('size').\
                filter(lambda x: x['size'].count()>=30)

In [107]:
print(tips_filtered.shape)

(231, 7)


In [108]:
print(tips_filtered['size'].value_counts())

2    156
3     38
4     37
Name: size, dtype: int64


# 그룹 오브젝트 저장하여 살펴보기

그룹 오브젝트 : groupby 메서드가 반환하는 값

In [109]:
tips_10 = sns.load_dataset('tips').sample(10, random_state=42)
print(tips_10)

     total_bill   tip     sex smoker   day    time  size
24        19.82  3.18    Male     No   Sat  Dinner     2
6          8.77  2.00    Male     No   Sun  Dinner     2
153       24.55  2.00    Male     No   Sun  Dinner     4
211       25.89  5.16    Male    Yes   Sat  Dinner     4
198       13.00  2.00  Female    Yes  Thur   Lunch     2
176       17.89  2.00    Male    Yes   Sun  Dinner     2
192       28.44  2.56    Male    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
9         14.78  3.23    Male     No   Sun  Dinner     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


In [111]:
grouped = tips_10.groupby('sex')
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000023A5C88AAF0>


그룹 오브젝트에 포함된 그룹을 보려면 groups 속성을 출력하면 된다.

그러면 sex 열로 그룹화한 `데이터프레임의 인덱스`를 확인할 수 있다.

이 그룹 오브젝트로 집계, 변환, 필터 작업을 수행하면 된다.

In [112]:
print(grouped.groups)

{'Male': Int64Index([24, 6, 153, 211, 176, 192, 9], dtype='int64'), 'Female': Int64Index([198, 124, 101], dtype='int64')}


# 그룹 오브젝트의 평균 구하기

## 한 번에 그룹 오브젝트 계산하기

smoker, day, time 열과 같은 평균값을 구할 수 없는 열도 포함한 그룹 오브젝트에 mean 메서드와 같은 집계 메서드를 사용해도 오류가 발생하지 않는다.

파이썬은 자동으로 계산할 수 있는 열을 골라주는 기능을 제공한다. 따라서 그룹 오브젝트에 mean 메서드를 사용해도 바로 평균값을 구할 수 있다.

In [134]:
avgs=grouped.mean()
print(avgs)

        total_bill       tip      size
sex                                   
Male         20.02  2.875714  2.571429
Female       13.62  2.506667  2.000000


In [135]:
print(tips_10.columns)

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')


# 그룹 오브젝트에서 데이터 추출하고 반복하기

그룹 오브젝트 활용법 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

그룹 오브젝트에서 특정 데이터만 추출하려면 get_group 메서드를 사용하면 된다.

다음은 sex열로 그룹화한 그룹 오브젝트에 get_group 메서드를 사용하여 성별이 여성인 데이터만 추출한다.

In [113]:
female = grouped.get_group('Female')
print(female)

     total_bill   tip     sex smoker   day    time  size
198       13.00  2.00  Female    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


그룹 오브젝트에 반복문 사용

sex 열을 기준으로 그룹화한 tips 데이터 집합은 여성과 남성으로 나누어져 있는데 이 특징을 사용해 반복문을 사용하자.

In [114]:
for sex_group in grouped:
    print(sex_group)

('Male',      total_bill   tip   sex smoker   day    time  size
24        19.82  3.18  Male     No   Sat  Dinner     2
6          8.77  2.00  Male     No   Sun  Dinner     2
153       24.55  2.00  Male     No   Sun  Dinner     4
211       25.89  5.16  Male    Yes   Sat  Dinner     4
176       17.89  2.00  Male    Yes   Sun  Dinner     2
192       28.44  2.56  Male    Yes  Thur   Lunch     2
9         14.78  3.23  Male     No   Sun  Dinner     2)
('Female',      total_bill   tip     sex smoker   day    time  size
198       13.00  2.00  Female    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2)


In [126]:
for sex_group in grouped:
    print('first:',sex_group[0])
    print()
    print('second:',sex_group[1])

first: Male

second:      total_bill   tip   sex smoker   day    time  size
24        19.82  3.18  Male     No   Sat  Dinner     2
6          8.77  2.00  Male     No   Sun  Dinner     2
153       24.55  2.00  Male     No   Sun  Dinner     4
211       25.89  5.16  Male    Yes   Sat  Dinner     4
176       17.89  2.00  Male    Yes   Sun  Dinner     2
192       28.44  2.56  Male    Yes  Thur   Lunch     2
9         14.78  3.23  Male     No   Sun  Dinner     2
first: Female

second:      total_bill   tip     sex smoker   day    time  size
198       13.00  2.00  Female    Yes  Thur   Lunch     2
124       12.48  2.52  Female     No  Thur   Lunch     2
101       15.38  3.00  Female    Yes   Fri  Dinner     2


In [121]:
for sex_group in grouped:
    print('the type is {}\n'.format(type(sex_group)))
    print('the length is {}\n'.format(len(sex_group)))
    
    first_element = sex_group[0]
    print('the first element is : {}\n'.format(first_element))
    print('it has a type of : {}\n'.format(type(first_element)))
    
    second_element = sex_group[1]
    print('the second element is : \n{}\n'.format(second_element))
    print('it has a type of : {}\n'.format(type(second_element)))
    
    print('what we have :')
    print(sex_group)
    
    break

the type is <class 'tuple'>

the length is 2

the first element is : Male

it has a type of : <class 'str'>

the second element is : 
     total_bill   tip   sex smoker   day    time  size
24        19.82  3.18  Male     No   Sat  Dinner     2
6          8.77  2.00  Male     No   Sun  Dinner     2
153       24.55  2.00  Male     No   Sun  Dinner     4
211       25.89  5.16  Male    Yes   Sat  Dinner     4
176       17.89  2.00  Male    Yes   Sun  Dinner     2
192       28.44  2.56  Male    Yes  Thur   Lunch     2
9         14.78  3.23  Male     No   Sun  Dinner     2

it has a type of : <class 'pandas.core.frame.DataFrame'>

what we have :
('Male',      total_bill   tip   sex smoker   day    time  size
24        19.82  3.18  Male     No   Sat  Dinner     2
6          8.77  2.00  Male     No   Sun  Dinner     2
153       24.55  2.00  Male     No   Sun  Dinner     4
211       25.89  5.16  Male    Yes   Sat  Dinner     4
176       17.89  2.00  Male    Yes   Sun  Dinner     2
192       28.

# 그룹 오브젝트 계산하고 살펴보기

여러 열을 사용해 그룹 오브젝트 만들고 계산하기

여러 열을 사용하여 데이터를 그룹화하려면 리스트에 열 이름을 담아 groupby 메서드에 전달하면 된다.

다음은 sex, time 열을 기준으로 데이터를 그룹화하고 평균값을 구한 것이다.

In [128]:
bill_sex_time = tips_10.groupby(['sex','time'])
group_avg=bill_sex_time.mean()
print(group_avg)

               total_bill       tip      size
sex    time                                  
Male   Lunch    28.440000  2.560000  2.000000
       Dinner   18.616667  2.928333  2.666667
Female Lunch    12.740000  2.260000  2.000000
       Dinner   15.380000  3.000000  2.000000


In [129]:
print(type(group_avg))

<class 'pandas.core.frame.DataFrame'>


In [130]:
print(group_avg.columns)

Index(['total_bill', 'tip', 'size'], dtype='object')


멀티 인덱스 : 여러 인덱스를 담고 있는 인덱스

In [131]:
print(group_avg.index)

MultiIndex([(  'Male',  'Lunch'),
            (  'Male', 'Dinner'),
            ('Female',  'Lunch'),
            ('Female', 'Dinner')],
           names=['sex', 'time'])


reset_index 메서드를 사용해 데이터프레임의 인덱스를 새로 부여할 수 있다.

In [133]:
group_method=tips_10.groupby(['sex','time']).mean().reset_index()
print(group_method)

      sex    time  total_bill       tip      size
0    Male   Lunch   28.440000  2.560000  2.000000
1    Male  Dinner   18.616667  2.928333  2.666667
2  Female   Lunch   12.740000  2.260000  2.000000
3  Female  Dinner   15.380000  3.000000  2.000000


reset_index 메서드 대신 as_index 인자를 False로 설정해도 위와 같은 결과를 얻을 수 있다.

In [136]:
group_param = tips_10.groupby(['sex','time'], as_index=False).mean()
print(group_param)

      sex    time  total_bill       tip      size
0    Male   Lunch   28.440000  2.560000  2.000000
1    Male  Dinner   18.616667  2.928333  2.666667
2  Female   Lunch   12.740000  2.260000  2.000000
3  Female  Dinner   15.380000  3.000000  2.000000
