## .groupby()
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html
- https://pandas.pydata.org/docs/reference/api/pandas.Series.groupby.html
- https://pandas.pydata.org/docs/reference/api/pandas.Index.groupby.html

- 데이터를 그룹화하고 그룹 단위로 연산을 수행하는 기능을 제공하는 함수
- 기준을 정하여 그룹으로 나누고, 각 그룹 단위로 연산을 수행.

### 진행 순서
1. 그룹으로 나눌 열 또는 열들을 선택
    - groupby() 함수에 그룹으로 나눌 열(label or list-like)을 전달. 
    - 예로 `df.groupby('업종')`은 '업종'열을 기준으로 데이터를 그룹화.
2. 그룹 객체에 원하는 연산을 수행
    - 그룹 객체를 생성되면 그룹 단위로 집계 함수로 연산을 수행.
    - 예로 `df.groupby('업종').mean()`은 '업종'열을 기준으로 그룹화된 데이터 평균을 계산.

## 간단 예제 실습

In [None]:
import pandas as pd

In [None]:
# 학생 성적 데이터 생성
data = {
    '학생명': ['철수', '영희', '민수', '수현', '지영', '동희'],
    '과목': ['수학', '영어', '수학', '과학', '영어', '과학'],
    '성적': [90, 85, 92, 88, 95, 91]
}

df = pd.DataFrame(data)

In [None]:
# 과목별 평균 성적 계산


## 실습 1 - 단일 열 그룹화

In [None]:
# Pokemon.csv - 포켓몬


In [None]:
# Type 1의 목록


In [None]:
# group화 된 상태 보기


In [None]:
# .get_group(value) -> DataFrame으로 확인
# mask로 조건식 하는 것과 같은 출력 pokemons['Type 1'] == 'Dark'


1. 그룹화를 하면 조건식처럼 하나씩 mask를 만들어 조회하지 않아도 된다.
2. 코드와 데이터의 재사용성이 증가한다.
3. 그룹별 통계를 낼 수 있게 되어, 집단들의 특징을 파악하기 쉬운 구조가 된다.
4. .pivot_table()을 사용할 때보다 수행능력/편의성에 이득이 있다.

In [None]:
# .groupby() vs .pivot_table()


FutureWarning: pivot_table dropped a column because it failed to aggregate. This behavior is deprecated and will raise in a future version of pandas. Select only the columns that can be aggregated.  

향후 경고: 피벗_테이블이 집계에 실패하여 열을 삭제했습니다. 이 동작은 더 이상 사용되지 않으며 향후 판다 버전에서 발생할 예정입니다. 집계할 수 있는 열만 선택하세요.

In [None]:
# pivot_table에는 numeric_only옵션이 없다. 따라서 경고를 안띄우려면 열 지정이나 메소드 실행 등 추가 데이터전처리가 필요하다.
# 하지만 group화된 데이터를 집계할 땐 numeric_only 옵션이 있다.


In [None]:
# 특정 그룹에 대한 집계 함수 수행


## 실습 2 - 2개 열 그룹화

멀티 인덱스처럼 튜플로 인덱스가 묶여있다.

In [None]:
# 여기서 집계함수를 하면


In [None]:
# 조회 -> 멀티인덱싱 방법과 동일


In [None]:
# 특정 타입 조회, 멀티인덱싱 level 1


## 주의 - 그룹화되면 한 행의 각 열 데이터는 독립적

In [None]:
# "Bug-Electric 타입에서 제일 좋은 포켓몬을 찾아야지!" -> Joltik?


In [None]:
# 하지만 실제로 찾아보면 일치하지 않는다.


In [None]:
# 왜냐면 각 열에서 그룹화한 열은 여러개의 데이터가 하나의 보따리에 들어간 상태이며
# 보따리 안에서 max인 것을 반환한 것이기 때문

## 실습 3 - .groupby()이후 .agg()
- https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.agg.html

In [None]:
# gropyby() 이후가 Dataframe은 아니지만 agg()를 사용할 수 있다.
