In [1]:
import numpy as np
import pandas as pd

In [2]:
# 데이터 프레임 생성
df1 = pd.read_csv('data/city_people.csv', encoding='euc-kr')
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [3]:
# groupby : 지정된 컬럼을 기준으로 그룹을 묶어 준다.
# 컬럼 내의 값이 같은 것 끼리 하나의 그룹으로 묶힌다

# (그룹의 기준이 되는 값, 그룹으로 묶힌 행들의 데이터 프레임) 형태로 각 그룹별
# 튜플이 만들어지고 그 튜플들을 관리하는 객체가 생성된다.
# 이 객체 안에는 각 그룹별로 통계량 값을 구할 수 있는 함수들이 제공된다.
a1 = df1.groupby('도시')

for c1, temp_df in a1 :
    display(c1)
    display(temp_df)
    display('-------------------------------')

'부산'

Unnamed: 0,도시,연도,인구,지역
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권


'-------------------------------'

'서울'

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권


'-------------------------------'

'인천'

Unnamed: 0,도시,연도,인구,지역
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


'-------------------------------'

In [4]:
# 그룹의 기준을 여러개 설정할 수 있다.
# 첫 번째 그룹을 기준으로 묶고 각 그룹내에서 두 번째 컬럼을 기준으로 그룹을 나눈다.

# ((그룹의 기준이되는 값들이 담긴 튜플), 그룹으로 묶인 데이터 프레임)
a1 = df1.groupby(['지역', '연도'])

for c1, temp_df in a1 :
    display(c1)
    display(temp_df)
    display('-------------------------------')

('경상권', np.int64(2005))

Unnamed: 0,도시,연도,인구,지역
5,부산,2005,3512547,경상권


'-------------------------------'

('경상권', np.int64(2010))

Unnamed: 0,도시,연도,인구,지역
4,부산,2010,3393191,경상권


'-------------------------------'

('경상권', np.int64(2015))

Unnamed: 0,도시,연도,인구,지역
3,부산,2015,3448737,경상권


'-------------------------------'

('수도권', np.int64(2005))

Unnamed: 0,도시,연도,인구,지역
2,서울,2005,9762546,수도권


'-------------------------------'

('수도권', np.int64(2010))

Unnamed: 0,도시,연도,인구,지역
1,서울,2010,9631482,수도권
7,인천,2010,2632035,수도권


'-------------------------------'

('수도권', np.int64(2015))

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
6,인천,2015,2890451,수도권


'-------------------------------'

In [5]:
# 도시를 기준으로 인구 최대 값을 구한다.
# 방법1 : 값을 구하기 위한 컬럼들을 미리 가져온 다음 통계값을 구한다.
# 가져온 컬럼들 중에 그룹의 기준이 되는 컬럼만 빼고 나머지 컬럼들의 통계값을 구한다.
df2 = df1[['도시', '인구']]
df2.groupby('도시').max()

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


In [6]:
# 방법2 : 먼저 그룹을 묶고 값을 구하기 위한 컬럼을 가져와 통계값을 구한다.
df1.groupby('도시')['인구'].max()

도시
부산    3512547
서울    9904312
인천    2890451
Name: 인구, dtype: int64

- 방법1 : 그룹의 기준이 되는 컬럼과 통계값을 구하고자 하는 컬럼들을 추출한다음 통계값을 구한다. 만약 구하고자 하는 통계값이 하나만 있다고 하더라도 결과는 데이터 프레임으로 나온다.
- 방법2 : 먼저 그룹으로 묶고 통계값을 구하고자 하는 컬럼을 추출한 다음 통계값을 구한다. 만약 구하고자 하는 통계값이 하나만 있다면 결과는 Series로 나온다.

In [7]:
# 통계량을 구하고 싶은 컬럼이 2개 이상이라면...
# 방법1
df100 = df1[['도시', '연도', '인구']]

df100.groupby('도시').max()

Unnamed: 0_level_0,연도,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2015,3512547
서울,2015,9904312
인천,2015,2890451


In [8]:
# 방법2
df1.groupby('도시')[['연도', '인구']].max()

Unnamed: 0_level_0,연도,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2015,3512547
서울,2015,9904312
인천,2015,2890451


In [9]:
# 그룹의 기준을 다수로 두고 통계량 값을 구해본다.
df2 = df1[['연도', '인구', '지역']]

r2 = df2.groupby(['지역', '연도']).max()
r2

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


In [10]:
# 결과는 멀티 인덱스를 데이터 프레임이다.
r2.loc['경상권'].loc[2005]

인구    3512547
Name: 2005, dtype: int64

In [11]:
# 기준이 되는 컬럼은 결과에 인덱스로 빠지게 된다.
# 만약 그룹의 기준이 되는 컬럼들도 결과에 포함하고자 한다면...
df2 = df1[['도시', '인구']]
r1 = df2.groupby('도시', as_index=False).max()
display(r1)

df3 = df1[['지역', '연도', '인구']]
r2 = df3.groupby(['지역', '연도'], as_index=False).max()
display(r2)

Unnamed: 0,도시,인구
0,부산,3512547
1,서울,9904312
2,인천,2890451


Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547
1,경상권,2010,3393191
2,경상권,2015,3448737
3,수도권,2005,9762546
4,수도권,2010,9631482
5,수도권,2015,9904312


### 여러 통계값을 동시에 구하기

In [12]:
df2 = df1[['도시', '인구']]

r1 = df2.groupby('도시').agg(['min', 'max', 'std', 'median'])
r1

Unnamed: 0_level_0,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,median
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
부산,3393191,3512547,59725.663038,3448737.0
서울,9631482,9904312,136449.978473,9762546.0
인천,2632035,2890451,182727.705967,2761243.0


In [13]:
r1.loc['서울', '인구'].loc['max']

np.float64(9904312.0)

In [14]:
# 각 컬럼별 통계값을 다르게 구할 경우
df2 = df1[['도시', '인구', '지역']]

a1 = {
    '도시' : ['count'],
    '인구' : ['sum', 'max']
}

df2.groupby('지역').agg(a1)

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312
