1. GroupBy의 개념
groupby는 pandas 라이브러리에서 데이터를 그룹화하여 집계하는 데 사용되는 메소드이다. 데이터를 특정 기준에 따라 그룹으로 묶고, 각 그룹에 대해 통계 계산, 변형 또는 필터링을 수행할 수 있다.

2. GroupBy의 기본 사용법
groupby 메소드는 다음과 같은 기본 구조를 가진다.

-------------------------------------------------------------------
df.groupby(by='column_name')
df: 데이터프레임
by: 그룹화할 열의 이름
--------------------------------------------------------------------

3. GroupBy의 기능
groupby 메소드를 통해 수행할 수 있는 주요 기능은 다음과 같다.

집계(aggregation): 각 그룹에 대해 통계 값을 계산 (예: 합계, 평균 등)
변형(transformation): 각 그룹의 데이터에 대해 변형을 적용
필터링(filtering): 특정 조건을 만족하는 그룹을 선택
4. 기본 예제

In [6]:
import pandas as pd

# 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Values': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)

# 'Category'별로 값의 합계 계산
grouped = df.groupby('Category').sum()
print(grouped)

          Values
Category        
A             30
B             70
C            110


5. GroupBy의 집계 함수 사용
groupby와 함께 다양한 집계 함수를 사용할 수 있다. 예를 들어, mean(), sum(), count(), min(), max() 등이 있다.

In [7]:
# 평균 값 계산
mean_values = df.groupby('Category').mean()
print(mean_values)

          Values
Category        
A           15.0
B           35.0
C           55.0


6. 여러 열로 그룹화
여러 열을 기준으로 그룹화하려면 리스트 형태로 열 이름을 지정하면 된다.

In [8]:
# 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Subcategory': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
    'Values': [10, 20, 30, 40, 50, 60],
    'Values2': [310, 320, 330, 340, 350, 360],
}

df = pd.DataFrame(data)

# 'Category'와 'Subcategory'로 그룹화하여 값의 합계 계산
grouped_multiple = df.groupby(['Category', 'Subcategory']).sum()
print(grouped_multiple)
print(type(grouped_multiple))

                      Values  Values2
Category Subcategory                 
A        X                10      310
         Y                20      320
B        X                30      330
         Y                40      340
C        X                50      350
         Y                60      360
<class 'pandas.core.frame.DataFrame'>


실습 문제
문제 1: 집계 함수 사용
다음 데이터프레임을 사용하여 groupby를 통해 Category별로 Values의 최대값을 계산하세요

data = {
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Values': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)

In [9]:
max_values = df.groupby('Category').max()
print(max_values)


         Subcategory  Values  Values2
Category                             
A                  Y      20      320
B                  Y      40      340
C                  Y      60      360


문제 2: 여러 열로 그룹화
다음 데이터프레임에서 Category와 Subcategory로 그룹화하여 Values의 평균을 계산하세요.

data = {
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Subcategory': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
    'Values': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)


In [10]:
mean_values = df.groupby(['Category', 'Subcategory']).mean()
print(mean_values)


                      Values  Values2
Category Subcategory                 
A        X              10.0    310.0
         Y              20.0    320.0
B        X              30.0    330.0
         Y              40.0    340.0
C        X              50.0    350.0
         Y              60.0    360.0
