# 데이터 그룹핑

## 1. `group by` 함수

### 0. 라이브러리 로딩 및 df 생성

In [1]:
# 필요 라이브러리 로딩
import numpy as np
import pandas as pd

In [2]:
# 샘플 데이터프레임 생성
df = pd.DataFrame({
    '학과': ['수학', '화학', '수학', '화학', '수학'],
    '이름': ['로버트', '앤드류', '유진', '제이슨', '제이크'],
    '학년': [1, 2, 3, 2, 3],
    '학점': [1.5, 2.7, 3.5, 1.9, 4.0]
})

df

Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
1,화학,앤드류,2,2.7
2,수학,유진,3,3.5
3,화학,제이슨,2,1.9
4,수학,제이크,3,4.0


In [3]:
# 데이터프레임에 대해 학과를 기준으로 그룹화 실행
df_dept = df.groupby('학과')
df_dept 

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001801579D550>

- 원래는 수학, 화학의 두 그룹으로 나눠져야 한다. 그러나, 데이터프레임의 `groupBy` 객체가 반환됨
- `groupBy` 객체가 제공하는 속성이나 메소드를 이용해서 효과적으로 활용할 수 있음

In [4]:
# 위 `groupBy`객체에 대한 메소드를 활용하여 학과별 기술통계 출력
df_dept.describe()

Unnamed: 0_level_0,학년,학년,학년,학년,학년,학년,학년,학년,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
수학,3.0,2.333333,1.154701,1.0,2.0,3.0,3.0,3.0,3.0,3.0,1.322876,1.5,2.5,3.5,3.75,4.0
화학,2.0,2.0,0.0,2.0,2.0,2.0,2.0,2.0,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


- count : 각 학과에 총 몇명 있나?
- mean : 평균 학년? ex. 2.3학년

In [5]:
# 학과별 원소 개수 출력 
df_dept.count() # 첫번째 열만 읽으면 된다. 3명, 2명

Unnamed: 0_level_0,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
수학,3,3,3
화학,2,2,2


### 1-1. 1단계 그룹핑

In [6]:
# Series에 대한 1단계 그룹핑
# dept = df['학점'] # Series 출력됨 # Series에 대해서 groupby할건데, Series라 학점 정보만 가짐
# 그래서 '학과'도 같이 df에 입력해줘야 한다. # df['컬럼 1개']의 경우, Series로 변환됨!
dept = df['학점'].groupby(df['학과'])
dept

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000018015674D50>

- 아까는 데이터프레임 그룹바이였는데, 지금은 SERIES 그룹바이로 바뀐 것을 확인 가능
- SERIES 그룹바이 객체에 대해서 통계적 특성을 살펴보자.

In [7]:
# 학과 평균 성적 출력 
# 학점에 대한 Series에 대해서 groupby한 것이기 때문에 출력 결과는 # Series 형태 # '학과'가 index가 되어 출력됨
dept.mean() 

학과
수학    3.0
화학    2.3
Name: 학점, dtype: float64

In [8]:
# 학과 성적 표준편차 출력
dept.std() 

학과
수학    1.322876
화학    0.565685
Name: 학점, dtype: float64

In [9]:
# group별 크기 출력 # group_size라는 변수에 할당을 해서 출력
group_size = dept.size()
group_size # 각 학과(그룹)의 변수가 몇 개인가? 수학과와 화학과에 각각 몇 명이 있는가?

학과
수학    3
화학    2
Name: 학점, dtype: int64

In [10]:
# 수학과 인원의 데이터만 따로 출력
math = dept.get_group('수학')
math # 수학과 학생들 성적만 출력

0    1.5
2    3.5
4    4.0
Name: 학점, dtype: float64

> 자주 사용되며 다양한 `GROUPBY` 객체의 그룹연산 메서드
- `mean`, `median`, `min`, `max`, `std`: 그룹 데이터의 평균, 중앙, 최소, 최대, 표준편차 값
- `size`, `count`: 그룹 데이터의 개수
- `describe`: 위 집계 연산과 1사분위, 3사분위값을 포함하여 데이터프레임으로 나타냄
- `sum`, `quantile`: 그룹 데이터의 합계, 사분위수
- `agg`, `aggregate`, `apply`: 원하는 그룹연산 함수를 만들어 `agg`, `aggregate`, `apply`에 전달하여 적용할 수 있음

### 1-2. 2단계 그룹핑
- 만약에, 학과와 학년을 모두 고려해서 그룹의 특징을 추출한다면 어떻게 해야 할까?
- 이를테면, 그룹별 평균 성적(ex. 수학과 1학년의 평균 성적, 수학과 2학년의 평균 성적)
- 이런 경우에는 groupby 인수로 원하는 컬럼을 주어 2단계 그룹핑을 실행 가능

#### 1-2-1. 학과와 학년으로 그룹화 진행

In [11]:
dept = df.groupby([df['학과'], df['학년']]) # 리스트로 넣는 것이 특징!
dept

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000180157AF890>

- 데이터프레임 groupby 객체가 나왔다. 

In [12]:
# 그룹별 기술통계 도출
dept.describe() # 인덱스가 두 개로 나온다. 수학과 1, 3학년에 대한 정보와 화학과 2학년 정보가 나

Unnamed: 0_level_0,Unnamed: 1_level_0,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
학과,학년,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
수학,1,1.0,1.5,,1.5,1.5,1.5,1.5,1.5
수학,3,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
화학,2,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7


In [13]:
# 그룹 평균값 도출 # reset_index()로 DataFrame으로 변환
dept['학점'].mean().reset_index()

Unnamed: 0,학과,학년,학점
0,수학,1,1.5
1,수학,3,3.75
2,화학,2,2.3


- dept['학점'].mean()으로 얻은 결과는 Series 객체로, 기본적으로 Series는 인덱스와 값이 1차원으로 나열되기 때문에 데이터프레임 형태로 변환하여 보기 좋게 출력하려면 추가적인 처리가 필요

#### 1-2-2. 더 많은 데이터로 실습 진행

In [14]:
# 새로운 데이터프레임 생성
df2 = pd.DataFrame({
    '학과': ['화학', '수학', '화학', '수학'],
    '이름': ['앤디', '제니', '엘리스', '멜리샤'],
    '학년': [1, 2, 3, 2],
    '학점': [3, 4.2, 3.1, 4.5]
})

# df1과 df2 행방향 연결
concat_df = pd.concat([df, df2], axis=0)
concat_df.reset_index(inplace=True, drop=True)
concat_df

Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
1,화학,앤드류,2,2.7
2,수학,유진,3,3.5
3,화학,제이슨,2,1.9
4,수학,제이크,3,4.0
5,화학,앤디,1,3.0
6,수학,제니,2,4.2
7,화학,엘리스,3,3.1
8,수학,멜리샤,2,4.5


In [15]:
# 학과와 학년별로 그룹핑
dept_and_year = concat_df.groupby([concat_df['학과'], concat_df['학년']])

In [16]:
# 학과 & 학년별 정보 출력
dept_and_year.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점,학점,학점,학점,학점,학점,학점,학점
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
학과,학년,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
수학,1,1.0,1.5,,1.5,1.5,1.5,1.5,1.5
수학,2,2.0,4.35,0.212132,4.2,4.275,4.35,4.425,4.5
수학,3,2.0,3.75,0.353553,3.5,3.625,3.75,3.875,4.0
화학,1,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
화학,2,2.0,2.3,0.565685,1.9,2.1,2.3,2.5,2.7
화학,3,1.0,3.1,,3.1,3.1,3.1,3.1,3.1


In [34]:
pd.DataFrame(dept_and_year['학점'].mean()) # 멀티인덱스의 경우 데이터프레임으로 보면 정렬된 뷰 가능!

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,학년,Unnamed: 2_level_1
수학,1,1.5
수학,2,4.35
수학,3,3.75
화학,1,3.0
화학,2,2.3
화학,3,3.1


In [18]:
# 2단계 그룹의 특징: 인덱스!
dept_and_year['학점'].mean().index # 단일 인덱스가 아닌, 멀티 인덱스임! (각각 튜플 상태)

MultiIndex([('수학', 1),
            ('수학', 2),
            ('수학', 3),
            ('화학', 1),
            ('화학', 2),
            ('화학', 3)],
           names=['학과', '학년'])

## 2. `apply` 함수
- groupby와 함께 굉장히 자주 쓰임
- 보통 사용자 정의 함수랑 같이 쓰이는 경우가 많음
- 보통 평균값, 중앙값, 최댓값, 최솟값 등으로 구할 수 없는 경우에 새로 사용자 정의 함수를 활용해 사용

### 2-1. 사용자 정의 함수 활용

In [21]:
# 학과별 우수 성적자 3명 출력 함수
# df를 # sort_valuser 정렬하겠다 # by 학점에 따라 # 내림차순 정렬하겠다
def top3_dept_scorer(df):
    return df.sort_values(by='학점', ascending=False)[:3] # 학점 상위 3명 리턴

In [22]:
# 학과 그룹바이 객체 생성 # 추가한 최종 df인 concat_df 활용!
dept = concat_df.groupby('학과')

- concat_df.groupby('학과')는 concat_df 데이터프레임에서 '학과' 열을 기준으로 그룹화하여 DataFrameGroupBy 객체를 생성
- 이 객체는 각 '학과' 값에 대해 데이터를 그룹화하여 나중에 다양한 집계 작업이나 변환 작업을 적용할 수 있게 해줌

In [23]:
# apply와 top3_dept_scorer 함수
dept.apply(top3_dept_scorer)

  dept.apply(top3_dept_scorer)


Unnamed: 0_level_0,Unnamed: 1_level_0,학과,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,8,수학,멜리샤,2,4.5
수학,6,수학,제니,2,4.2
수학,4,수학,제이크,3,4.0
화학,7,화학,엘리스,3,3.1
화학,5,화학,앤디,1,3.0
화학,1,화학,앤드류,2,2.7


In [28]:
# 학과 최우수 성적 2명을 출력하는 함수
# series를 받아 # series에 대해서 sort_value
def top2_scorer(series):
    return series.sort_values(ascending=False)[:2]

In [30]:
dept['학점'].apply(top2_scorer) # 보기 힘든 형태로 나타남

학과   
수학  8    4.5
    6    4.2
화학  7    3.1
    5    3.0
Name: 학점, dtype: float64

In [32]:
# 멀티인덱스의 경우 데이터프레임으로 보면 정렬된 뷰 볼 수 있음!
pd.DataFrame(dept['학점'].apply(top2_scorer))

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,8,4.5
수학,6,4.2
화학,7,3.1
화학,5,3.0


### 2-2. `lambda`식 활용해서 `apply` 함수 활용
- 실제로 데이터를 다루다보면, apply 메소드는 람다식과 자주 쓰이는 편
- 함수를 정의할 필요 없이, 람다식으로 간단하게 구현 가능하기 때문
- 따라서 람다를 잘 활용한다면 간결한 방법으로 강력한 그룹연산을 '한 줄의 코드'로 실행 가능

In [37]:
# 새로운 데이터프레임 생성
df = pd.DataFrame({
    'key': ['A', 'B', 'B', 'C', 'A', 'C', 'A', 'B', 'C', 'A'],
    'data': [1, 2, 2, 1, 3, 8, 2, 5, 3, 6]
})
df

Unnamed: 0,key,data
0,A,1
1,B,2
2,B,2
3,C,1
4,A,3
5,C,8
6,A,2
7,B,5
8,C,3
9,A,6


In [39]:
# key별로 그룹화를 진행 후 data 값의 크기별로 오름차순 정렬
df.groupby('key').apply(lambda x: x.sort_values(by='data'))
# df.groupby('key') : key별로 그룹바이했음 --> 그룹바이 객체 안에는 A, B, C그룹이 있게 됨!
# x: x.sort_values : X에 대해서 데이터를 정렬할거야 
# (by='data') : data값을 기준으로
# ascending 인수가 없으므로 자동 정렬됨

  df.groupby('key').apply(lambda x: x.sort_values(by='data'))


Unnamed: 0_level_0,Unnamed: 1_level_0,key,data
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,A,1
A,6,A,2
A,4,A,3
A,9,A,6
B,1,B,2
B,2,B,2
B,7,B,5
C,3,C,1
C,8,C,3
C,5,C,8


In [42]:
# 위에서 apply함수를 이용하여 진행한 학과별 성적 탑 3명 학생 출력을 lambda식으로 진행
dept = concat_df.groupby('학과') # 먼저, 학과라는 groupby 객체를 만들어주자

In [43]:
dept.apply(lambda x: x.sort_values(by='학점', ascending=False)[:3])

  dept.apply(lambda x: x.sort_values(by='학점', ascending=False)[:3])


Unnamed: 0_level_0,Unnamed: 1_level_0,학과,이름,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,8,수학,멜리샤,2,4.5
수학,6,수학,제니,2,4.2
수학,4,수학,제이크,3,4.0
화학,7,화학,엘리스,3,3.1
화학,5,화학,앤디,1,3.0
화학,1,화학,앤드류,2,2.7


## 3. `groupby`와 재귀함수
- groupby 객체는 재귀함수도 지원하기 때문에 아래와 같이 `groupby 객체`를 for문에 넣을 수 있다.
- 대신, 그룹의 이름과 그룹에 대한 데이터 정보를 알려줘야 한다. 

In [46]:
# 1차 그룹핑 재귀 
# groupby 객체: concat_df.groupby(concat_df['학과']
# dept: 학과를 기준(concat_df['학과'])으로 했기 때문에 학과(department)를 for 뒤에 넣음
# group: 그룹에 대한 정보를 가져올 것이기 때문에 group이라고 명
for dept, group in concat_df.groupby(concat_df['학과']): 
    print('학과: {}'.format(dept)) # print로 학과 이름 알려줌
    display(group) # 그룹의 이름을 dataframe으로 가져옴

학과: 수학


Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5
2,수학,유진,3,3.5
4,수학,제이크,3,4.0
6,수학,제니,2,4.2
8,수학,멜리샤,2,4.5


학과: 화학


Unnamed: 0,학과,이름,학년,학점
1,화학,앤드류,2,2.7
3,화학,제이슨,2,1.9
5,화학,앤디,1,3.0
7,화학,엘리스,3,3.1


```
1. concat_df.groupby(concat_df['학과']):
concat_df 데이터프레임을 '학과' 열을 기준으로 그룹화. 각 학과별로 데이터를 나누어 그룹을 만든다는 의미

2. for dept, group in concat_df.groupby(concat_df['학과'])::
이 구문은 그룹화된 객체를 반복(iterate)
dept는 현재 그룹의 학과 이름을 담고 있음
group은 해당 학과에 속하는 모든 데이터를 포함한 데이터프레임

3. print('학과: {}'.format(dept)):
현재 그룹의 학과 이름을 출력. dept는 학과 이름이므로, 이 줄은 학과 이름을 콘솔에 출력

4. display(group):
현재 그룹에 해당하는 데이터프레임을 출력. group은 특정 학과에 속하는 데이터만 포함된 데이터프레임
```

In [47]:
# 2차 그룹핑 재귀: 두번 하는 것인만큼 for문에도 하나가 더 추가됨

for (dept, year), group in concat_df.groupby([concat_df['학과'], concat_df['학년']]): # 학과뿐 아니라 학년과 함께 그룹바이를 진행
    print('-'* 25) # 구분줄
    print('학과: ', dept)
    print('학년: ', year)
    display(group)

-------------------------
학과:  수학
학년:  1


Unnamed: 0,학과,이름,학년,학점
0,수학,로버트,1,1.5


-------------------------
학과:  수학
학년:  2


Unnamed: 0,학과,이름,학년,학점
6,수학,제니,2,4.2
8,수학,멜리샤,2,4.5


-------------------------
학과:  수학
학년:  3


Unnamed: 0,학과,이름,학년,학점
2,수학,유진,3,3.5
4,수학,제이크,3,4.0


-------------------------
학과:  화학
학년:  1


Unnamed: 0,학과,이름,학년,학점
5,화학,앤디,1,3.0


-------------------------
학과:  화학
학년:  2


Unnamed: 0,학과,이름,학년,학점
1,화학,앤드류,2,2.7
3,화학,제이슨,2,1.9


-------------------------
학과:  화학
학년:  3


Unnamed: 0,학과,이름,학년,학점
7,화학,엘리스,3,3.1
