In [1]:
import numpy as np
import pandas as pd

In [2]:
df1=pd.read_csv('data/city_people.csv', encoding='euc-kr')
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [8]:
# 그룹의 기준과 통계값을 구할 컬럼을 추출하고 그룹 통계를 구함
# 결과가 데이터프레임으로 나옴.

# 도시를 기준으로 그룹을 묶고 인구 최대값을 구함
df2 = df1[['도시', '인구']]
df2.groupby('도시').max()

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


In [9]:
# 도시를 기준으로 그룹을 묶고 연도와 인구의 최대값을 각각 구함.
df3 = df1[['도시', '연도', '인구']]
df3.groupby('도시').max()

Unnamed: 0_level_0,연도,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2015,3512547
서울,2015,9904312
인천,2015,2890451


In [11]:
# 일단 그룹으로 묶고 필요한 컬럼을 추출하여 통계값을 구함
# 하나의 컬럼에 대한 통계값을 구한다면 결과는 Series로 나옴

# 도시를 기준으로 그룹을 묶고 각 그룹의 인구 최대값을 구함
df1.groupby('도시')['인구'].max()

도시
부산    3512547
서울    9904312
인천    2890451
Name: 인구, dtype: int64

In [13]:
# 두개 이상의 컬럼을 그룹의 기준으로 설정함
# 첫번째 컬럼을 기준으로 그룹을 묶고 그 안에서 두번째 컬럼을 기준으로 나눔

# 각 지역에서 연도별 최대 인구수를 구함
df2 = df1[['연도', '인구', '지역']]
r2 = df2.groupby(['지역', '연도']).max()
r2

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


In [14]:
r2.loc['경상권']

Unnamed: 0_level_0,인구
연도,Unnamed: 1_level_1
2005,3512547
2010,3393191
2015,3448737


In [16]:
# 멀티 인덱스 접근
r2.loc['경상권'].loc[2005, '인구']

3512547

In [23]:
# 그룹의 기준이 된 컬럼들도 결과에서 컬럼으로 포함하고 싶다면
# as_index에 False를 넣어줌
df2 = df1[['도시', '인구']]
r1 = df2.groupby('도시', as_index=False).max()

df3 = df1[['지역', '연도', '인구']]
r2 = df3.groupby(['지역', '연도'], as_index=False).max()

display(r1)
display(r2)

Unnamed: 0,도시,인구
0,부산,3512547
1,서울,9904312
2,인천,2890451


Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547
1,경상권,2010,3393191
2,경상권,2015,3448737
3,수도권,2005,9762546
4,수도권,2010,9631482
5,수도권,2015,9904312


### 여러 통계값을 동시에 구하기

In [25]:
# agg 함수: 구하고자 하는 통계값의 종류를 리스트나 딕셔너리로 넣어줌
# 통계값의 종류는 함수의 이름과 동일한 문자열을 넣어줌
df2 = df1[['도시', '인구', '연도']]

r1 =df2.groupby('도시').agg(['min', 'max', 'count', 'sum'])
r1

Unnamed: 0_level_0,인구,인구,인구,인구,연도,연도,연도,연도
Unnamed: 0_level_1,min,max,count,sum,min,max,count,sum
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
부산,3393191,3512547,3,10354475,2005,2015,3,6030
서울,9631482,9904312,3,29298340,2005,2015,3,6030
인천,2632035,2890451,2,5522486,2010,2015,2,4025


In [27]:
# 멀티 컬럼 접근방법
display(r1['인구']['max'].loc['서울'])
display(r1.loc['서울'].loc['인구'].loc['max'])

9904312

9904312

In [29]:
# 딕셔너리로 넣어주면 각 컬럼에 대해 다른 통계값을 구할 수 있음
df2 = df1[['도시', '인구', '지역']]

a1 = {
    "도시":['count'],
    "인구":['sum', 'max']
}

df2.groupby('지역').agg(a1)

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312
