# 4. 데이터 그룹핑

## 4-1. groupby 함수

In [2]:
import numpy as np
import pandas as pd

In [3]:
# Data Frame 생성
df = pd.DataFrame({
    '학과': ['수학', '화학', '수학', '화학' ,'수학'],
    '이름': ['로버트', '앤드류', '유진', '제이슨', '제이크'],
    '학년': [1, 2, 3, 2, 3],
    '학점': [1.5, 2.7, 3.5, 1.9, 4.0]
})

display(df)

Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
1,화학,앤드류,2,2.7
2,수학,유진,3,3.5
3,화학,제이슨,2,1.9
4,수학,제이크,3,4.0


In [8]:
# Data Frame에 대해 학과를 기준으로 그룹화 진행
df_dept = df.groupby('학과') 

In [9]:
print(df_dept)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001540A687748>


In [10]:
# 그룹화한 그 자체로는 뭔가를 출력하거나 직접 사용할 수 없다. (SQL과 동일)
# 집계함수 등을 통해 용도에 맞게 활용
# 학과별 기술통계 출력
df_dept.describe()

Unnamed: 0_level_0,학년,학년,학년,학년,학년,학년,학년,학년,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
수학,3.0,2.333333,1.154701,1.0,2.0,3.0,3.0,3.0,3.0,3.0,1.322876,1.5,2.5,3.5,3.75,4.0
화학,2.0,2.0,0.0,2.0,2.0,2.0,2.0,2.0,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


In [7]:
# 학과별 원소 개수 출력
df_dept.count()

Unnamed: 0_level_0,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
수학,3,3,3
화학,2,2,2


## 4-2. 1단계 그룹핑

In [4]:
# Series에 대한 1단계 그룹핑
# 위에 df.groupby('학과') 는 DataFrameGroupBy 객체이며
# df['컬럼 1개']의 경우 series로 반환이 되므로
# df['학점'].groupby(df['학점']) 의 경우 SeriesGroupBy 객체임을 확인할 수 있다.
dept = df['학점'].groupby(df['학과']) 
print(dept)

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001540A66AA88>


In [5]:
# 학과 평균 성적 출력
dept.mean()

학과
수학    3.0
화학    2.3
Name: 학점, dtype: float64

In [6]:
# 학과 성적 표준편차 출력
dept.std()

학과
수학    1.322876
화학    0.565685
Name: 학점, dtype: float64

In [11]:
# group별 크기 출력
group_size = dept.size()
print(group_size)

학과
수학    3
화학    2
Name: 학점, dtype: int64


In [12]:
# 수학과 인원의 데이터만 따로 출력
# 학점 Series를 학과로 groupby 했기 때문에, 수학과 학생들의 학점이 나오게 된다.
math= dept.get_group('수학')
print(math)

0    1.5
2    3.5
4    4.0
Name: 학점, dtype: float64


GroupBy 객체에서 자주 사용되는 그룹 연산 method
- mean, median, min, max, std : 그룹 데이터의 평균, 중앙, 최소, 최대, 표준편차 값
- size, count: 그룹 데이터의 개수
- describe: 위 집계 연산과 1사분위, 3사분위 값을 포함해 DataFrame으로 나타냄
- sum, quantile: 그룹 데이터의 합계, 사분위수
- agg, aggregate, apply: 원하는 그룹 연산 함수를 만들어 agg, aggregate, apply에 전달해 적용할 수 있음

## 4-3. 2단계 그룹핑

In [13]:
# 예를 들어 '수학과 2학년 학생들', '수학과 1학년 학생들'처럼 2단계 그룹핑이 필요한 경우도 있다.
dept = df.groupby([df['학과'], df['학년']])
dept

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001540A6B0388>

In [14]:
# 그룹별 기술통계 도출
dept.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
학과,학년,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
수학,1,1.0,1.5,,1.5,1.5,1.5,1.5,1.5
수학,3,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
화학,2,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


In [15]:
display(dept.mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,학년,Unnamed: 2_level_1
수학,1,1.5
수학,3,3.75
화학,2,2.3


In [17]:
# 더 많은 데이터로 실습 진행
df2 = pd.DataFrame({
    '학과': ['화학', '수학', '화학' ,'수학'],
    '이름': ['앤디', '제니', '엘리스', '멜리샤'],
    '학년': [1, 2, 3, 2],
    '학점': [3, 4.2, 3.1, 4.5]
})

# df와 df2를 행방향 연결
concat_df = pd.concat([df, df2], axis=0)
concat_df.reset_index(drop=True, inplace=True)
display(concat_df)

Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
1,화학,앤드류,2,2.7
2,수학,유진,3,3.5
3,화학,제이슨,2,1.9
4,수학,제이크,3,4.0
5,화학,앤디,1,3.0
6,수학,제니,2,4.2
7,화학,엘리스,3,3.1
8,수학,멜리샤,2,4.5


In [23]:
# 학과와 학년별로 그룹핑
dept_and_year = concat_df.groupby([concat_df['학과'], concat_df['학년']])

In [24]:
dept_and_year.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
학과,학년,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
수학,1,1.0,1.5,,1.5,1.5,1.5,1.5,1.5
수학,2,2.0,4.35,0.212132,4.2,4.275,4.35,4.425,4.5
수학,3,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
화학,1,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
화학,2,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7
화학,3,1.0,3.1,,3.1,3.1,3.1,3.1,3.1


In [25]:
# 그룹별 평균 출력
dept_and_year.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,학년,Unnamed: 2_level_1
수학,1,1.5
수학,2,4.35
수학,3,3.75
화학,1,3.0
화학,2,2.3
화학,3,3.1


In [26]:
# 2단계 그룹화는 인덱스가 특징이다. 아래와 같이 multi index 로 인덱싱할 수 있다.
# 2단계 그룹화 인덱스 확인
dept_and_year.mean().index

MultiIndex([('수학', 1),
            ('수학', 2),
            ('수학', 3),
            ('화학', 1),
            ('화학', 2),
            ('화학', 3)],
           names=['학과', '학년'])

## 4-4. apply 함수

In [28]:
# groupby 한 데이터에 대해 어떠한 연산을 적용할 때 쓴다.
# 학과별 우수 성적자 3명 출력 함수
# SQL이랑 원리는 동일, 조건에 대해 내림차순 정렬 후 앞에 3개 가져오기
def top3_dept_scorer(df):
    return df.sort_values(by='학점', ascending=False)[:3]

In [47]:
# 학과 groupby 객체 생성
dept = concat_df.groupby('학과')

In [48]:
# apply와 top3_dept_scorer 함수 적용
dept.apply(top3_dept_scorer)

Unnamed: 0_level_0,Unnamed: 1_level_0,학과,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,8,수학,멜리샤,2,4.5
수학,6,수학,제니,2,4.2
수학,4,수학,제이크,3,4.0
화학,7,화학,엘리스,3,3.1
화학,5,화학,앤디,1,3.0
화학,1,화학,앤드류,2,2.7


In [51]:
# 학과 최우수 성적 2명을 출력하는 함수
def top2_scorer(series):
    return series.sort_values(ascending=False)[:2]

In [53]:
dept['학점'].apply(top2_scorer)

학과   
수학  8    4.5
    6    4.2
화학  7    3.1
    5    3.0
Name: 학점, dtype: float64

In [54]:
# 멀티인덱스이기 때문에 보기 좋게 display되지 않는 것
# Data Frame으로 보면 정렬된 view로 볼 수 있다.
pd.DataFrame(dept['학점'].apply(top2_scorer))

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,8,4.5
수학,6,4.2
화학,7,3.1
화학,5,3.0


## 4-5. lambda식 활용

In [56]:
# 새로운 Data Frame 생성
df = pd.DataFrame({
    'key': ['A', 'B', 'B', 'C', 'A', 'C', 'A', 'B', 'C', 'A'],
    'data': [1, 2, 2, 1, 3, 8, 2, 5, 3, 6]
})

In [59]:
# key별로 그룹화를 진행 후 data 값의 크기별로 내림차순 정렬
df.groupby('key').apply(lambda x: x.sort_values(by='data', ascending=False))

Unnamed: 0_level_0,Unnamed: 1_level_0,key,data
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,9,A,6
A,4,A,3
A,6,A,2
A,0,A,1
B,7,B,5
B,1,B,2
B,2,B,2
C,5,C,8
C,8,C,3
C,3,C,1


In [62]:
# 학과별 성적 탑3 학생 출력을 lambda식으로 진행
concat_df.groupby('학과').apply(lambda x: x.sort_values(by='학점', ascending=False)[:3])

Unnamed: 0_level_0,Unnamed: 1_level_0,학과,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,8,수학,멜리샤,2,4.5
수학,6,수학,제니,2,4.2
수학,4,수학,제이크,3,4.0
화학,7,화학,엘리스,3,3.1
화학,5,화학,앤디,1,3.0
화학,1,화학,앤드류,2,2.7


## 4-6. groupby와 재귀 함수

In [64]:
# 1차 그룹핑 재뒤
for dept, group in concat_df.groupby(concat_df['학과']):
    print('학과: {}'.format(dept))
    display(group)

학과: 수학


Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
2,수학,유진,3,3.5
4,수학,제이크,3,4.0
6,수학,제니,2,4.2
8,수학,멜리샤,2,4.5


학과: 화학


Unnamed: 0,학과,이름,학년,학점
1,화학,앤드류,2,2.7
3,화학,제이슨,2,1.9
5,화학,앤디,1,3.0
7,화학,엘리스,3,3.1


In [65]:
# 2차 그룹핑 재귀
for (dept, year), group in concat_df.groupby([concat_df['학과'], concat_df['학년']]):
    print('학과: {}'.format(dept))
    print('학년: {}'.format(year))
    display(group)

학과: 수학
학년: 1


Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5


학과: 수학
학년: 2


Unnamed: 0,학과,이름,학년,학점
6,수학,제니,2,4.2
8,수학,멜리샤,2,4.5


학과: 수학
학년: 3


Unnamed: 0,학과,이름,학년,학점
2,수학,유진,3,3.5
4,수학,제이크,3,4.0


학과: 화학
학년: 1


Unnamed: 0,학과,이름,학년,학점
5,화학,앤디,1,3.0


학과: 화학
학년: 2


Unnamed: 0,학과,이름,학년,학점
1,화학,앤드류,2,2.7
3,화학,제이슨,2,1.9


학과: 화학
학년: 3


Unnamed: 0,학과,이름,학년,학점
7,화학,엘리스,3,3.1
