## 데이터 그룹핑

### groupby 함수

In [1]:
# 필요 라이브러리 로딩
import numpy as np
import pandas as pd

In [72]:
# 샘플 데이터프레임 생성
df = pd.DataFrame({
    '학과':['수학','화학','수학','화학','수학'],
    '이름':['로버트','앤드류','유진','제이슨','제이크'],
    '학년':[1,2,3,2,3],
    '학점':[1.5, 2.7, 3.5, 1.9, 4.0]
})
display(df)

Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
1,화학,앤드류,2,2.7
2,수학,유진,3,3.5
3,화학,제이슨,2,1.9
4,수학,제이크,3,4.0


In [5]:
# 데이터 프레임에 대해서 학과를 기준으로 그룹화를 실행
df_dept = df.groupby('학과')
print(df_dept) # DataFrame의 GroupBy 객체 반환

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000014F9043A908>


In [6]:
# 학과별 기술통계 출력
df_dept.describe() # 문자열 데이터에 대해서는 기술통계는 아무런 반응을 하지 않음

# std : standard deviation, 표준편차

Unnamed: 0_level_0,학년,학년,학년,학년,학년,학년,학년,학년,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
수학,3.0,2.333333,1.154701,1.0,2.0,3.0,3.0,3.0,3.0,3.0,1.322876,1.5,2.5,3.5,3.75,4.0
화학,2.0,2.0,0.0,2.0,2.0,2.0,2.0,2.0,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


In [7]:
# 학과별 원소 개수 출력
df_dept.count()

Unnamed: 0_level_0,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
수학,3,3,3
화학,2,2,2


### 1단계 그룹핑

In [73]:
# Series에 대한 1단계 그룹핑
dept = df['학점'].groupby(df['학과']) # df['컬럼 1개']의 경우 Series로 반환됨
# 학점들을 학과로 그룹핑, 학과별 학점 계산을 할 수 있음
print(dept)
dept.describe()

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000014F908D3780>


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
수학,3.0,3.0,1.322876,1.5,2.5,3.5,3.75,4.0
화학,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


In [11]:
# 학과 평균 성적 출력
dept.mean()

학과
수학    3.0
화학    2.3
Name: 학점, dtype: float64

In [12]:
# 학과 성적 표준편차 출력
dept.std()

학과
수학    1.322876
화학    0.565685
Name: 학점, dtype: float64

In [13]:
# group별 크기 출력
group_size = dept.size()
print(group_size)

학과
수학    3
화학    2
Name: 학점, dtype: int64


In [30]:
# 수학과 인원의 데이터만 따로 출력
math = dept.get_group('수학') # get_groupt('index 명')
print(math) # 수학과 학생 성적만 나옴

0    1.5
2    3.5
4    4.0
Name: 학점, dtype: float64


이처럼 GroupBy 객체의 그룹연산 메서드는 다양하다. 자주 사용되는 메서드는
* mean, median, min, max, std : 그룹 데이터의 평균, 중앙, 최소, 최대, 표준편차 값
* size, count : 그룹 데이터의 개수
* describe : 위 집계 연산과 1사분위, 3사분위 값을 포함하여 데이터프레임으로 나타냄
* sum, quantile : 그룹 데이터의 합계, 사분위수
* agg, aggregate, apply : 원하는 그룹연산 함수를 만들어, agg, aggregate, apply에 전달하여 적용할 수 있음

### 2단계 그룹핑


In [15]:
# 만약 학과와 학년 모두를 고려해서 그룹의 특징을 추출해야 한다면?
# 수학과 2학년 평균 성적 등
# 2단계 그룹핑
dept = df.groupby([df['학과'],df['학년']])
dept

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000014F904C6A90>

In [16]:
# 그룹별 정보 도출
dept.describe()
# 표준편차가 결측치가 나온 경우는 값이 한 개밖에 없기 때문에 표준편차를 못구하기 때문이다.

Unnamed: 0_level_0,Unnamed: 1_level_0,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
학과,학년,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
수학,1,1.0,1.5,,1.5,1.5,1.5,1.5,1.5
수학,3,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
화학,2,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


In [17]:
display(dept.mean()) # 그룹 평균값 도출

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,학년,Unnamed: 2_level_1
수학,1,1.5
수학,3,3.75
화학,2,2.3


In [28]:
# 더 많은 데이터로 실습 진행
df2 = pd.DataFrame({
    '학과' :['화학','수학','화학','수학'],
    '이름' :['앤디','제니','엘리스','멜리샤'],
    '학년' :[1,2,3,2],
    '학점' :[3, 4.2, 3.1, 4.5]
})

# df1과 df2 행방향 연결
concat_df = pd.concat([df,df2],axis=0)
concat_df.reset_index(drop=True, inplace=True)
display(concat_df)

Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
1,화학,앤드류,2,2.7
2,수학,유진,3,3.5
3,화학,제이슨,2,1.9
4,수학,제이크,3,4.0
5,화학,앤디,1,3.0
6,수학,제니,2,4.2
7,화학,엘리스,3,3.1
8,수학,멜리샤,2,4.5


In [32]:
# 학과와 학년별로 그룹핑
dept2 = concat_df.groupby([concat_df['학과'],concat_df['학년']])
dept2.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
학과,학년,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
수학,1,1.0,1.5,,1.5,1.5,1.5,1.5,1.5
수학,2,2.0,4.35,0.212132,4.2,4.275,4.35,4.425,4.5
수학,3,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
화학,1,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
화학,2,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7
화학,3,1.0,3.1,,3.1,3.1,3.1,3.1,3.1


In [34]:
# 그룹별 평균 출력
dept2.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,학년,Unnamed: 2_level_1
수학,1,1.5
수학,2,4.35
수학,3,3.75
화학,1,3.0
화학,2,2.3
화학,3,3.1


In [39]:
# 2단계 그룹화 인덱스 확인
type(dept2) # DataFrameGroupBy
type(dept2.mean()) # DataFrame
dept2.mean().index # 2단계 그룹핑 특징인 index가 멀티 index라서 튜플 형태로 되어 있음

MultiIndex([('수학', 1),
            ('수학', 2),
            ('수학', 3),
            ('화학', 1),
            ('화학', 2),
            ('화학', 3)],
           names=['학과', '학년'])

### apply 함수

In [57]:
# 학과별 우수 성적자 3명 출력 함수
def top3_dept_scorer(df):
    return df.sort_values(by='학점',ascending=False)[:3] # 학점 상위 3명 리턴

In [43]:
# 학과 그룹바이 객체 생성
dept = concat_df.groupby('학과')
dept.describe()

Unnamed: 0_level_0,학년,학년,학년,학년,학년,학년,학년,학년,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
수학,5.0,2.2,0.83666,1.0,2.0,2.0,3.0,3.0,5.0,3.54,1.19708,1.5,3.5,4.0,4.2,4.5
화학,4.0,2.0,0.816497,1.0,1.75,2.0,2.25,3.0,4.0,2.675,0.543906,1.9,2.5,2.85,3.025,3.1


In [58]:
# apply와 top3_dept_scorer 함수
dept.apply(top3_dept_scorer)

Unnamed: 0_level_0,Unnamed: 1_level_0,학과,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,8,수학,멜리샤,2,4.5
수학,6,수학,제니,2,4.2
수학,4,수학,제이크,3,4.0
화학,7,화학,엘리스,3,3.1
화학,5,화학,앤디,1,3.0
화학,1,화학,앤드류,2,2.7


In [62]:
# 학과 최우수 성적 2명을 출력하는 함수
# series에서도 똑같이 apply를 적용할 수있다.
def top2_scorer(series):
    return series.sort_values(ascending=False)[:2]

In [60]:
dept['학점'].apply(top2_scorer)

학과   
수학  8    4.5
    6    4.2
화학  7    3.1
    5    3.0
Name: 학점, dtype: float64

In [63]:
# 멀티인덱스의 경우 데이터 프레임으로 보면 정렬된 뷰를 볼 수 있다.
pd.DataFrame(dept['학점'].apply(top2_scorer))

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,8,4.5
수학,6,4.2
화학,7,3.1
화학,5,3.0


### lambda식 활용

In [64]:
# apply 메소드는 람다식과 자주 사용하는 편이다.
# 함수를 정의할 필요없이 람다식으로 간단하게 표현 가능하기 때문
df = pd.DataFrame({
    'key':['a','b','b','c','a'],
    'data':[1,2,2,1,3]
})
display(df)

Unnamed: 0,key,data
0,a,1
1,b,2
2,b,2
3,c,1
4,a,3


In [67]:
# key별로 그룹화를 진행 후 data 값의 크기 별로 오름차순 정렬
dept = df.groupby('key').apply(lambda x: x.sort_values(by='data'))
display(dept)

Unnamed: 0_level_0,Unnamed: 1_level_0,key,data
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0,a,1
a,4,a,3
b,1,b,2
b,2,b,2
c,3,c,1


In [70]:
# 위에서 apply 함수를 이용하여 진행한 학과별 성적 탑 3명 학생 출력을 lambda 식으로 진행
dept2 = concat_df.groupby('학과')
dept2.apply(lambda x: x.sort_values(by='학점', ascending=False)[:3])

Unnamed: 0_level_0,Unnamed: 1_level_0,학과,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,8,수학,멜리샤,2,4.5
수학,6,수학,제니,2,4.2
수학,4,수학,제이크,3,4.0
화학,7,화학,엘리스,3,3.1
화학,5,화학,앤디,1,3.0
화학,1,화학,앤드류,2,2.7


### groupby 와 재귀함수

In [81]:
# 1차 그룹핑 재귀
for dept, group in concat_df.groupby('학과'): # 그룹의 이름과 그룹의 정보를 받는다
    print('학과 : {}'.format(dept))
    display(group)

학과 : 수학


Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
2,수학,유진,3,3.5
4,수학,제이크,3,4.0
6,수학,제니,2,4.2
8,수학,멜리샤,2,4.5


학과 : 화학


Unnamed: 0,학과,이름,학년,학점
1,화학,앤드류,2,2.7
3,화학,제이슨,2,1.9
5,화학,앤디,1,3.0
7,화학,엘리스,3,3.1


In [84]:
# 2차 그룹핑 재귀
for (dept1, dept2), group in concat_df.groupby([concat_df['학과'],concat_df['학년']]):
    print('학과 :{}, 학년 : {}'.format(dept1, dept2))
    display(group)

학과 :수학, 학년 : 1


Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5


학과 :수학, 학년 : 2


Unnamed: 0,학과,이름,학년,학점
6,수학,제니,2,4.2
8,수학,멜리샤,2,4.5


학과 :수학, 학년 : 3


Unnamed: 0,학과,이름,학년,학점
2,수학,유진,3,3.5
4,수학,제이크,3,4.0


학과 :화학, 학년 : 1


Unnamed: 0,학과,이름,학년,학점
5,화학,앤디,1,3.0


학과 :화학, 학년 : 2


Unnamed: 0,학과,이름,학년,학점
1,화학,앤드류,2,2.7
3,화학,제이슨,2,1.9


학과 :화학, 학년 : 3


Unnamed: 0,학과,이름,학년,학점
7,화학,엘리스,3,3.1
