In [1]:
from pandas import read_excel


In [2]:
df = read_excel("https://data.hossam.kr/C02/traffic_acc.xlsx")
df

Unnamed: 0,년도,월,발생건수,사망자수,부상자수
0,2005,1,15494,504,25413
1,2005,2,13244,431,21635
2,2005,3,16580,477,25550
3,2005,4,17817,507,28131
4,2005,5,19085,571,29808
...,...,...,...,...,...
163,2018,8,18335,357,27749
164,2018,9,18371,348,27751
165,2018,10,19738,373,28836
166,2018,11,19029,298,28000


## 01. `groupby()` 매서드 사용하기

### 1. 기본 사용 방법

지정된 컬럼을 기준으로 같은 값을 갖는 행을 그룹으로 묶고 지정되지 않은 컬럼에 대한 집계 함수를 명시해야 한다.

| 함수 | 내용 |
|:---:|:----:|
| count | 데이터의 개수|
| sum | 합계 |
| mean | 평균 |
|median | 중앙값 |
| var, std | 분산, 표준편차|
| min, max | 최소, 최댓값 |
| unique, nunique | 고유값, 고유값 갯수|
| prod | 곱 |
|  first, las | 첫째, 마지막 값|

아래 결과에서는 '월도 합계를 구한다.

집계전 제외해야 하는 컬럼은 `drop()`을 사용해서 삭제하거나 집계에 포함되어야 하는 항목만 `filter()`로 추출한 후 `groupby()`를 적용하는 것이 바람직

In [3]:
df.groupby('년도').sum() 

Unnamed: 0_level_0,월,발생건수,사망자수,부상자수
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2005,78,214171,6376,342233
2006,78,213745,6327,340229
2007,78,211662,6166,335906
2008,78,215822,5870,338962
2009,78,231990,5838,361875
2010,78,226878,5505,352458
2011,78,221711,5229,341391
2012,78,223656,5392,344565
2013,78,215354,5092,328711
2014,78,223552,4762,337497


년도별 교통사고 사망자수 집계해야 할 경우

In [4]:
df3 = df.filter(['년도', '사망자수'])
df3

Unnamed: 0,년도,사망자수
0,2005,504
1,2005,431
2,2005,477
3,2005,507
4,2005,571
...,...,...
163,2018,357
164,2018,348
165,2018,373
166,2018,298


### 2. 두 개 이상의 변수에 대한 처리

#### 집계 기준이 두 개인 경우

In [12]:
df.groupby(['년도', '월']).mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,발생건수,사망자수,부상자수
년도,월,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2005,1,15494.0,504.0,25413.0
2005,2,13244.0,431.0,21635.0
2005,3,16580.0,477.0,25550.0
2005,4,17817.0,507.0,28131.0
2005,5,19085.0,571.0,29808.0
...,...,...,...,...
2018,8,18335.0,357.0,27749.0
2018,9,18371.0,348.0,27751.0
2018,10,19738.0,373.0,28836.0
2018,11,19029.0,298.0,28000.0


##### 두 개 이상의 집계함수를 사용할 경우

In [6]:
df.filter(['년도', '발생건수']).groupby('년도').agg(['sum','max','min','mean'])

Unnamed: 0_level_0,발생건수,발생건수,발생건수,발생건수
Unnamed: 0_level_1,sum,max,min,mean
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2005,214171,19757,13244,17847.583333
2006,213745,19877,14270,17812.083333
2007,211662,19264,14696,17638.5
2008,215822,19926,14176,17985.166667
2009,231990,21440,15502,19332.5
2010,226878,21575,15803,18906.5
2011,221711,20952,14208,18475.916667
2012,223656,19750,16656,18638.0
2013,215354,19797,14187,17946.166667
2014,223552,20760,14061,18629.333333


## 02. 사용자 정의 함수를 통한 집계

#### 함수 만들기

In [13]:
def myFunction(x):
    # x는 시리즈 - 컬럼 하나가 통째로 전달됨
    return x.max() - x.min()

In [9]:
df.drop('월', axis=1).groupby('년도').agg(['sum', 'max', 'min' , 'mean', myFunction])

Unnamed: 0_level_0,발생건수,발생건수,발생건수,발생건수,발생건수,사망자수,사망자수,사망자수,사망자수,사망자수,부상자수,부상자수,부상자수,부상자수,부상자수
Unnamed: 0_level_1,sum,max,min,mean,myFunction,sum,max,min,mean,myFunction,sum,max,min,mean,myFunction
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
2005,214171,19757,13244,17847.583333,6513,6376,639,431,531.333333,208,342233,31603,21635,28519.416667,9968
2006,213745,19877,14270,17812.083333,5607,6327,701,373,527.25,328,340229,31270,22903,28352.416667,8367
2007,211662,19264,14696,17638.5,4568,6166,582,446,513.833333,136,335906,30532,23717,27992.166667,6815
2008,215822,19926,14176,17985.166667,5750,5870,574,423,489.166667,151,338962,30935,23282,28246.833333,7653
2009,231990,21440,15502,19332.5,5938,5838,592,405,486.5,187,361875,33255,24429,30156.25,8826
2010,226878,21575,15803,18906.5,5772,5505,619,395,458.75,224,352458,33282,24968,29371.5,8314
2011,221711,20952,14208,18475.916667,6744,5229,520,338,435.75,182,341391,32133,22493,28449.25,9640
2012,223656,19750,16656,18638.0,3094,5392,533,393,449.333333,140,344565,30163,25998,28713.75,4165
2013,215354,19797,14187,17946.166667,5610,5092,499,335,424.333333,164,328711,29676,22255,27392.583333,7421
2014,223552,20760,14061,18629.333333,6699,4762,476,325,396.833333,151,337497,31199,21501,28124.75,9698


## 03. 인덱스 지정 해제

`groupby` 매서드에서 사용한 필드는 결과 데이터프레임의 인덱스로 지정되는 것이 기본 형태

`groupby` 매서드에 `as_index=False`  파라미터를 추가하여 인덱스 지정을 방지할 수 있다.

In [14]:
df.drop('월', axis =1).groupby('년도', as_index = False).sum()

Unnamed: 0,년도,발생건수,사망자수,부상자수
0,2005,214171,6376,342233
1,2006,213745,6327,340229
2,2007,211662,6166,335906
3,2008,215822,5870,338962
4,2009,231990,5838,361875
5,2010,226878,5505,352458
6,2011,221711,5229,341391
7,2012,223656,5392,344565
8,2013,215354,5092,328711
9,2014,223552,4762,337497
