# 데이터 그룹화

앞 서 **데이터프레임의 요약**에서는 전체 데이터를 요약 (count, mean, 분위수 등)했었다. 예를 들어, 가계금융복지조사 데이터에서 가구주가 남자인 자료를 요약하려면 전체 데이터에서 가구주가 남자인 데이터를 추출하여 요약할 수 있다. 이 절에서는 주어진 범주를 이용하여 그룹별로 한번에 요약하는 방법에 대해 알아보고자 한다.

데이터프레임을 그룹으로 나눌 때 여러 개의 기준을 조합해서 나눌 수도 있다.

앞서 사용했던 가계금융복지조사 데이터를 불러오자.

In [1]:
import pandas as pd

In [2]:
df0 = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_depart/2016_housemasterdata_part1.csv", encoding='cp949',index_col=False)
df0

Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,장애인가구코드,...,혼인상태코드,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득
0,2016,10200111,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,76202,22200,4000,5000,0
1,2016,10200121,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,자기집,132.2㎡ 이상,단독주택,부채 보유,116466,45000,3000,0,0
2,2016,10200151,수도권,여자,3,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,86.0㎡ ~ 132.2㎡ 미만,아파트,부채 보유,125360,8000,12600,0,0
3,2016,10200161,수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,79406,25500,0,4200,0
4,2016,10200171,수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,45600,27800,12420,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18268,2016,994200361,비수도권,여자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ 미만,연립 및 다세대,부채 미보유,19213,0,888,100,0
18269,2016,994200381,비수도권,여자,1,노인가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,사별,기타,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,2200,0,0,0,40
18270,2016,994505311,비수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,15300,0,4500,0,40
18271,2016,994505321,비수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,기타,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,200,0,2160,0,0


먼저 가구주의 성별, 즉 남여별로 가구 구성원의 총합과 근로소득의 총합계 금액을 계산해 보자.

가주주 성별로 사업소득의 평균을 계산하려면 

1. 전체 자료를 성별로 나누고 
2. 각 성별로 가구 구성원과 근로소득를 더해야한다. 

즉, 데이터프레임을 지정된 열(`가구주_성별코드`)의 값(`남자`, `여자`)에 따라서 그룹으로 나누어 가구 구성원과 근로소득의 합을 계산해야 한다.

메소드 `groupby( by=...)`는  지정된 열의 값으로 데이터프레임을 그룹(group)으로 나누어 준다. 메소드 `groupby( by=...)`는  **데이터프레임을  물리적으로 그룹을 나누어 주는 것은 아니고 메소드에서 지정된 그룹을 데이터프레임에 적용하는 기능을 한다.**

   - `by=` 는 그룹을 나눌 때 사용되는 열을 리스트 형식으로 지정한다.
   - 메소드 `groupby( by=...)` 로 만들어진 데이터프레임의 자료 형식은 `DataFrameGroupBy`이다. 따라서 보통 데이터프레임에 적용되는 메소드들을 사용할 수 없는 경우가 있다.

이제 데이터프레임 `df` 를 연도 `가구주_성별코드`를 이용하여 그룹화된 데이터프레임 `df_group`을 만들어 보자.

In [3]:
df_group = df.groupby( by=["가구주_성별코드"] )

그룹화된 데이터프레임 `df_cgroup` 은 보통 데이터프레임과 다르게 출력해주는 내용이 없다. 그 이유는 그룹화된 데이터프레임은 그룹에 대한 정보만 가진 특별한 자료의 형식을 가진다.  

In [4]:
df_group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x10850e190>

In [5]:
type(df_group)

pandas.core.groupby.generic.DataFrameGroupBy

## 그룹별 요약

이제 아래의 코드가 어떤 결과를 내는지 보자.

결과는 그룹으로 지정된 가구주의 성별로  각 그룹의 모든 가구 구성원과 근로소득를 더해서 성별 가구 구성원과 근로소득의 총합을 계산해준다. 

- 메소드 `sum()` 는  그룹화된 데이터프레임에서 그룹에 속한 모든 자료를 더해준다.  

In [9]:
df_group.sum()

Unnamed: 0_level_0,조사연도,가구고유번호,가구원수,만연령,자산금액,부채금액,근로소득,사업소득,재산소득
가구주_성별코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
남자,27996192,6765007143007,42754,735872,584996336,103494340,48411503,18327356,3946501
여자,8842176,2105583534116,8118,260328,77381988,12220015,6097083,1955531,457507


위의 코드는 모든 연속형 변수에 대한 그룹별 총합을 구해준다.

아레와 같이 필요한 열만 먼저 선택해서 그룹별 총합을 구할 수 있다.

In [10]:
df_group[['가구원수','근로소득']].sum()

Unnamed: 0_level_0,가구원수,근로소득
가구주_성별코드,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,42754,48411503
여자,8118,6097083


위의 결과를 보면 만들어진 데이터 프레임에서 다음과 같은 특성이 보인다.

- 열이름이  한 칸 위로 올라가 있다. 이는 문자로 된 열이름(column name)이 비어있다는 것이다. 
- 행인덱스가 `가구주_성별코드` 로 되어 있으며 숫자로 된 행인덱스가 없는 것을 알 수 있다.

우리가 사용할 수 있는 유용한 데이터프레임을 만들기 위해서는 인덱스의 재구성이 필요하다. 메소드 `reset_index()`를 사용해 보자.

그룹별 정보를 가진 새로운 데이터프레임 `df_sex`를 만들어 보자.

In [12]:
df_sex = df_group[['가구원수','근로소득']].sum().reset_index()
df_sex

Unnamed: 0,가구주_성별코드,가구원수,근로소득
0,남자,42754,48411503
1,여자,8118,6097083


참고로 그룹별 총함이 아닌 평균값을 구할 수 있을까? `sum()` 이 아닌 `mean()` ₩메소드를 사용하면 된다.  

In [13]:
df_group[['가구원수','근로소득']].mean().reset_index()

Unnamed: 0,가구주_성별코드,가구원수,근로소득
0,남자,3.078707,3486.102326
1,여자,1.850889,1390.123803


## 여러 개의 그룹

이제 두 개 이상의 범주형 변수의 조합으로 만들어진 그룹에 대한 방법을 알아봅니다.

가ㅖ금융복지 데이터에서 `수도권여부` 와 `가구주_성별` 을 조합한 그룹에 대하여 각 금융항목에 대한 평균을 계산합니다. 

In [14]:
df.groupby( by =['수도권여부','가구주_성별코드']).mean().reset_index()

Unnamed: 0,수도권여부,가구주_성별코드,조사연도,가구고유번호,가구원수,만연령,자산금액,부채금액,근로소득,사업소득,재산소득
0,비수도권,남자,2016.0,497414200.0,3.057023,53.978093,36027.228974,5691.09214,3191.019485,1389.669639,198.346764
1,비수도권,여자,2016.0,490845800.0,1.774295,61.939046,14026.637757,2067.442703,1156.900035,419.15674,81.298154
2,수도권,남자,2016.0,467727800.0,3.119717,51.121174,53659.168853,10784.18884,4044.197793,1187.507183,446.537372
3,수도권,여자,2016.0,459647100.0,1.99604,54.456106,24496.046865,4148.110231,1832.094389,496.456766,147.920792


위의 코드에서 범주형 항목을 가진 열들은 `mean()` 메소드를 적용할 때 자동적으로 제외됨을 알 수 있다.

그룹별 평균에서 `조사연도` 와 `가구고유번호` 의 평균은 의미가 없으므로 아레 코드를 이용하여 제외할 수 있다. 

In [15]:
df.groupby( by =['수도권여부','가구주_성별코드']).mean().reset_index().drop(['조사연도','가구고유번호'], axis=1)

Unnamed: 0,수도권여부,가구주_성별코드,가구원수,만연령,자산금액,부채금액,근로소득,사업소득,재산소득
0,비수도권,남자,3.057023,53.978093,36027.228974,5691.09214,3191.019485,1389.669639,198.346764
1,비수도권,여자,1.774295,61.939046,14026.637757,2067.442703,1156.900035,419.15674,81.298154
2,수도권,남자,3.119717,51.121174,53659.168853,10784.18884,4044.197793,1187.507183,446.537372
3,수도권,여자,1.99604,54.456106,24496.046865,4148.110231,1832.094389,496.456766,147.920792
