 # df.groupby()
  - 데이터를 특정 기준에 따라 `그룹화(Grouping)`하고 이를 바탕으로 `집계(Aggregation)`하는 과정입니다.
  그룹화를 위한 기준과, 집계에 사용될 특정 연산이나 계산의 기준을 설정하는 것이 필요합니다.
  - 절차
    - Splitting(분할)
    - Applying(적용)
    - Combining(결합)

```python
df.gropuby( by = 'col_group' )['col_agg'].agg_func().reset_index()
# 두개 이상의 column 으로 그룹화 하는 경우
## by = 'col_group' -> by =  ['col_group1','col_group2']
# 두개 이상의 column 으로 집계하는 경우 'col_agg' ->  ['col_agg1','col_agg2']
# reset_index() index 로 설정된 'group'을 column으로 만들어줌
```



## Splitting(분할)
-  데이터를 일정한 기준에 따라 여러 그룹으로 나눕니다.


In [2]:
import pandas as pd
df = pd.DataFrame({
    'group': ['A', 'A', 'B', 'B', 'C', 'C'],
    'value': [10, 10, 30, 40, 60, 60]
})

In [3]:
print("A: ", df[ df.group == "A"])
print("B: ", df[ df.group == "B"])
print("C: ", df[ df.group == "C"])

A:    group  value
0     A     10
1     A     10
B:    group  value
2     B     30
3     B     40
C:    group  value
4     C     60
5     C     60


## Applying (적용)
- 각 그룹에 독립적으로 함수를 적용합니다.
- Pandas에서 `sum`, `mean`, `max`, `min`과 같은 집계 함수는 기본적으로 숫자 데이터에 적용됩니다.(`sum`, `max` 등은 적용되지만 사용하지 않음) 반면에 `count`와 `nunique` 함수는 모든 데이터 유형(숫자, 문자열 등)에 적용됩니다


In [15]:
import pandas as pd
df2 = pd.DataFrame({
    'group': ['A', 'A', 'B', 'B', 'C', 'C'],
    'value': [10, 10, 30, 40, 60, 60],
    'value2': [None, 'd', 'd', 'd', None, None]
})
df2

Unnamed: 0,group,value,value2
0,A,10,
1,A,10,d
2,B,30,d
3,B,40,d
4,C,60,
5,C,60,


In [5]:
print(df[df.group == "A"]["value"].sum())
print(df[df.group == "B"]["value"].sum())
print(df[df.group == "C"]["value"].sum())

20
70
120


## Combining (결합)
- 결과를 하나의 데이터 구조로 결합합니다.


In [7]:
df.groupby( by = 'group' )['value'].sum().reset_index()

Unnamed: 0,group,value
0,A,20
1,B,70
2,C,120


### reset_index()
-  index 로 설정된 값을 column으로 만들어줌

In [8]:
df.groupby( by = 'group' )['value'].sum()

Unnamed: 0_level_0,value
group,Unnamed: 1_level_1
A,20
B,70
C,120


In [9]:
df.groupby( by = 'group' )['value'].sum().reset_index()

Unnamed: 0,group,value
0,A,20
1,B,70
2,C,120


### Aggregarion(집계)


1. **sum, mean, max, min**: 이들 함수는 숫자형 데이터에 대해 작동합니다. 예를 들어, 문자열 데이터가 있는 열에 이 함수들을 적용하면 결과가 의미가 없거나 오류가 발생할 수 있습니다.


In [11]:
df.groupby(by='group')['value'].sum().reset_index()

Unnamed: 0,group,value
0,A,20
1,B,70
2,C,120


In [12]:
df.groupby(by='group')['value'].mean().reset_index()

Unnamed: 0,group,value
0,A,10.0
1,B,35.0
2,C,60.0


In [14]:
df.groupby(by='group')['value'].std().reset_index()

Unnamed: 0,group,value
0,A,0.0
1,B,7.071068
2,C,0.0


In [16]:
df2.groupby(by='group')["value2"].count().reset_index()

Unnamed: 0,group,value2
0,A,1
1,B,2
2,C,0


# groupby.agg()
- 여러 집계 연산을 수행
```python
df.groupby(by = 'group').agg(
      col_name1 = ('col1','agg_func')
      , col_name2 = ('col2','agg_func')
      ).reset_index()
# agg_func -> sum, mean, max, min, ...
```


In [18]:
df2.groupby(by = 'group').agg(
      col_name1 = ('value2','nunique')
    #   , col_name2 = ('col2','agg_func')
      ).reset_index()

Unnamed: 0,group,col_name1
0,A,1
1,B,1
2,C,0


# Exercise
- 일시정지 후 스스로 문제를 풀어보고 강의를 수강해 주세요

연습문제: Titanic 데이터셋을 이용한 그룹화 및 집계

- Titanic 데이터셋을 이용하여 다음과 같은 연산을 수행하는 Pandas 코드를 작성하십시오.

  - 데이터를 'Pclass' (객실 등급)별로 그룹화하고, 각 그룹에 대해 다음과 같은 집계 연산을 수행하십시오:
    - Survived 컬럼의 합계 (생존자 수).
    - Fare 컬럼의 평균 (평균 요금).
    - Embarked 컬럼의 고유값 수 (출발한 항구의 종류 수).
  - 결과를 새로운 DataFrame으로 저장하고, 그룹화했던 'Pclass' 컬럼을 다시 DataFrame의 컬럼으로 변환하십시오 (즉, reset_index()를 사용).

In [23]:
import seaborn as sns
df = sns.load_dataset('titanic')

df2 = df.groupby(by="pclass").agg(
          sum_survive = ('survived','sum'),
          mean_fare = ('fare','mean'),
          nunique_Embarked = ('embarked','nunique')
).reset_index()
df2

Unnamed: 0,pclass,sum_survive,mean_fare,nunique_Embarked
0,1,136,84.154687,3
1,2,87,20.662183,3
2,3,119,13.67555,3


---
-  🔒 저작권 및 사용 조건 (중요)
  - **저작권 보호**: 이 강의 노트는 저작권법에 의해 엄격히 보호됩니다.
  - **무단 사용 금지**: 어떠한 형태로든 상업적 사용이 엄격히 금지됩니다.
  - **개인용도 한정**: 이 자료는 교육 목적으로만 사용이 허가되며, 개인적인 학습 외의 목적으로 사용할 수 없습니다.
  - **위반 시 조치**: 저작권법 위반 시 법적 조치가 취해질 수 있습니다.
---

<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>
