# 그룹별 집계

판다스(Pandas)의 groupby() 기능은 데이터를 그룹별로 분할하여 독립된 그룹에 대하여 별도로 데이터를 처리(혹은 적용)하거나 그룹별 통계량을 확인하고자 할 때 유용한 함수

## #01. 작업준비
### 패키지 준비



In [1]:
from pandas import read_excel


### 데이터 가져오기

In [2]:
df = read_excel("https://data.hossam.kr/C02/traffic_acc.xlsx")
df

Unnamed: 0,년도,월,발생건수,사망자수,부상자수
0,2005,1,15494,504,25413
1,2005,2,13244,431,21635
2,2005,3,16580,477,25550
3,2005,4,17817,507,28131
4,2005,5,19085,571,29808
...,...,...,...,...,...
163,2018,8,18335,357,27749
164,2018,9,18371,348,27751
165,2018,10,19738,373,28836
166,2018,11,19029,298,28000


## #02. groupby() 메서드 사용하기

### 1. 기본 사용 방법
지정된 칼럼을 기준으로 같은 값을 갖는 행을 그룹으로 묶고 지정되지 않은 칼럼에 대한 집계 함수를 명시해야 한다.

함수
- count	데이터의 개수
- sum	합계
- mean	평균
- median	중앙값
- var, std	분산, 표준편차
- min, max	최소, 최대값
- unique, nunique	고유값, 고유값 개수
- prod	곱
- first, last	첫째, 마지막값


집계전 제외해야 하는 칼럼은 drop()을 사용해서 삭제하거나 집계에 포함되어야하는 항목만 추출한 후 groupby를 적용하는 것이 바람직하다.


In [4]:
df.head()

Unnamed: 0,년도,월,발생건수,사망자수,부상자수
0,2005,1,15494,504,25413
1,2005,2,13244,431,21635
2,2005,3,16580,477,25550
3,2005,4,17817,507,28131
4,2005,5,19085,571,29808


In [5]:
df.groupby('년도').sum()

Unnamed: 0_level_0,월,발생건수,사망자수,부상자수
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2005,78,214171,6376,342233
2006,78,213745,6327,340229
2007,78,211662,6166,335906
2008,78,215822,5870,338962
2009,78,231990,5838,361875
2010,78,226878,5505,352458
2011,78,221711,5229,341391
2012,78,223656,5392,344565
2013,78,215354,5092,328711
2014,78,223552,4762,337497


### 불필요한 칼럼을 제외하는 경우


In [7]:
df2 = df.drop("월",axis=1)
df2

Unnamed: 0,년도,발생건수,사망자수,부상자수
0,2005,15494,504,25413
1,2005,13244,431,21635
2,2005,16580,477,25550
3,2005,17817,507,28131
4,2005,19085,571,29808
...,...,...,...,...
163,2018,18335,357,27749
164,2018,18371,348,27751
165,2018,19738,373,28836
166,2018,19029,298,28000


In [8]:
df2.groupby('년도').sum()

Unnamed: 0_level_0,발생건수,사망자수,부상자수
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,214171,6376,342233
2006,213745,6327,340229
2007,211662,6166,335906
2008,215822,5870,338962
2009,231990,5838,361875
2010,226878,5505,352458
2011,221711,5229,341391
2012,223656,5392,344565
2013,215354,5092,328711
2014,223552,4762,337497


### 년도별 교통사고 사망자수만 집계해야하는 경우

In [9]:
df3=df.filter(['년도','사망자수'])
df3

Unnamed: 0,년도,사망자수
0,2005,504
1,2005,431
2,2005,477
3,2005,507
4,2005,571
...,...,...
163,2018,357
164,2018,348
165,2018,373
166,2018,298


### 2. 두개 이상의 변수에 대한 처리
집계기준이 두개인 경우

In [13]:
df.groupby(['년도','월']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,발생건수,사망자수,부상자수
년도,월,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2005,1,15494,504,25413
2005,2,13244,431,21635
2005,3,16580,477,25550
2005,4,17817,507,28131
2005,5,19085,571,29808
...,...,...,...,...
2018,8,18335,357,27749
2018,9,18371,348,27751
2018,10,19738,373,28836
2018,11,19029,298,28000


### 두 개 이상의 집계함수를 사용하는 경우

In [14]:
df.filter(['년도','발생건수']).groupby('년도').agg(['mean','min','max','sum'])

Unnamed: 0_level_0,발생건수,발생건수,발생건수,발생건수
Unnamed: 0_level_1,mean,min,max,sum
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2005,17847.583333,13244,19757,214171
2006,17812.083333,14270,19877,213745
2007,17638.5,14696,19264,211662
2008,17985.166667,14176,19926,215822
2009,19332.5,15502,21440,231990
2010,18906.5,15803,21575,226878
2011,18475.916667,14208,20952,221711
2012,18638.0,16656,19750,223656
2013,17946.166667,14187,19797,215354
2014,18629.333333,14061,20760,223552


## #03. 사용자 정의 함수를 통한 집계
### 함수 만들기

In [15]:
def myFunction(x):
    # x는 시리즈 - 칼럼하나가 통째로 전달됨
    return x.max()-x.min()



In [17]:
df.drop('월',axis=1).groupby('년도').agg(['min','max',myFunction])


Unnamed: 0_level_0,발생건수,발생건수,발생건수,사망자수,사망자수,사망자수,부상자수,부상자수,부상자수
Unnamed: 0_level_1,min,max,myFunction,min,max,myFunction,min,max,myFunction
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
2005,13244,19757,6513,431,639,208,21635,31603,9968
2006,14270,19877,5607,373,701,328,22903,31270,8367
2007,14696,19264,4568,446,582,136,23717,30532,6815
2008,14176,19926,5750,423,574,151,23282,30935,7653
2009,15502,21440,5938,405,592,187,24429,33255,8826
2010,15803,21575,5772,395,619,224,24968,33282,8314
2011,14208,20952,6744,338,520,182,22493,32133,9640
2012,16656,19750,3094,393,533,140,25998,30163,4165
2013,14187,19797,5610,335,499,164,22255,29676,7421
2014,14061,20760,6699,325,476,151,21501,31199,9698


## #04. 인덱스 지정 해제

groupby() 메서드에서 사용한 필드는 결과 데이터프레임의 인덱스로 지정되는 것이 기본 형태

groupby() 메서드에 as_index=False 파라미터를 추가하여 인덱스 지정을 방지할 수 있다

In [18]:
df.drop('월',axis=1).groupby('년도',as_index=False).sum()

Unnamed: 0,년도,발생건수,사망자수,부상자수
0,2005,214171,6376,342233
1,2006,213745,6327,340229
2,2007,211662,6166,335906
3,2008,215822,5870,338962
4,2009,231990,5838,361875
5,2010,226878,5505,352458
6,2011,221711,5229,341391
7,2012,223656,5392,344565
8,2013,215354,5092,328711
9,2014,223552,4762,337497
