In [1]:
import numpy as np
import pandas as pd

In [2]:
df1 = pd.read_csv('data/data/city_people.csv', encoding = 'euc-kr')
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [6]:
# group by : 지정된 컬럼을 기준으로 그룹을 묶어준다.
# 컬럼 내의 값이 같은 것끼리 하나의 그룹이 된다.
a1 = df1.groupby('도시')

for a2 in a1 : 
    print(a2[0])
    display(a2[1])
    print()

부산


Unnamed: 0,도시,연도,인구,지역
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권



서울


Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권



인천


Unnamed: 0,도시,연도,인구,지역
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권





In [7]:
# 그룹의 기준을 여러가지로 설정할 수 있다.
# 첫 번째 컬럼을 기준으로 묶고 각 그룹 내에서 두 번째 컬럼을 기준으로 그룹을 나눈다.
a1 = df1.groupby(['지역', '연도'])
for a2 in a1 :
    print(a2[0])
    display(a2[1])
    print()

('경상권', 2005)


Unnamed: 0,도시,연도,인구,지역
5,부산,2005,3512547,경상권



('경상권', 2010)


Unnamed: 0,도시,연도,인구,지역
4,부산,2010,3393191,경상권



('경상권', 2015)


Unnamed: 0,도시,연도,인구,지역
3,부산,2015,3448737,경상권



('수도권', 2005)


Unnamed: 0,도시,연도,인구,지역
2,서울,2005,9762546,수도권



('수도권', 2010)


Unnamed: 0,도시,연도,인구,지역
1,서울,2010,9631482,수도권
7,인천,2010,2632035,수도권



('수도권', 2015)


Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
6,인천,2015,2890451,수도권





In [9]:
# 도시를 기준으로 인구 최대 값을 구한다.
# 방법 1. 값을 구하기 위한 컬럼들을 미리 가져온 다음 통계값을 구한다.
# 가져온 컬럼들 중에 그룹이 기준이 되는 컬럼만 빼고 나머지 컬럼들의 통계값을 구한다.
# 결과는 데이터프레임으로 나온다.
df2 = df1[['도시', '인구']]
df2.groupby('도시').max
df2

Unnamed: 0,도시,인구
0,서울,9904312
1,서울,9631482
2,서울,9762546
3,부산,3448737
4,부산,3393191
5,부산,3512547
6,인천,2890451
7,인천,2632035


In [12]:
# 방법 2. 먼저 그룹으로 묶고 값을 구하기 위한 컬럼을 가져와 통계값을 구한다.
# 결과가 series로 나온다.
df1.groupby('도시')['인구'].max()

도시
부산    3512547
서울    9904312
인천    2890451
Name: 인구, dtype: int64

In [14]:
# 두 개 이상의 컬럼을 그룹의 기준으로 설정한다.
# 각 지역에서 연도별 최대 인구수를 구한다.
df2 = df1[['연도', '인구', '지역']]

r2 = df2.groupby(['지역', '연도']).max()
r2

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


In [17]:
# 결과는 멀티 인덱스를 가진 데이터프레임이다.
r2.loc['경상권'].loc[2005, '인구']

3512547

In [21]:
# 기준이 되는 컬럼은 결과에 인덱스로 빠지게 된다.
# 만약 포함시키고 싶다면 as_index에 False를 넣어준다.
df2 = df1[['도시', '인구']]
r1 = df2.groupby('도시', as_index=False).max()
display(r1)

df3 = df1[['지역', '연도', '인구']]
r2 = df3.groupby(['지역', '연도'], as_index=False).max()
display(r2)

Unnamed: 0,도시,인구
0,부산,3512547
1,서울,9904312
2,인천,2890451


Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547
1,경상권,2010,3393191
2,경상권,2015,3448737
3,수도권,2005,9762546
4,수도권,2010,9631482
5,수도권,2015,9904312


### 여러 통계값을 동시에 구하기

In [22]:
df2 = df1[['도시', '인구']]

# 구할 통계에 대한 함수의 이름을 문자열로 넣어준다.
r1 = df2.groupby('도시').agg(['min', 'max', 'std', 'median'])
display(r1)

Unnamed: 0_level_0,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,median
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
부산,3393191,3512547,59725.663038,3448737.0
서울,9631482,9904312,136449.978473,9762546.0
인천,2632035,2890451,182727.705967,2761243.0


In [25]:
r1.loc['서울', '인구'].loc['max']
# 행이 서울이고, 인구 값들 중에서 최대값을 구라라

9904312.0

In [26]:
# 각 컬럼별 통계값을 다르게 구할 경우
df2 = df1[['도시', '인구', '지역']]

a1 = {
    '도시' : ['count'],
    '인구' : ['sum', 'max']
}
df2.groupby('지역').agg(a1)

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312
