`groupby`는 **pandas**에서 제공하는 매우 강력한 함수로, 데이터를 특정 기준으로 그룹화한 후, 각 그룹에 대해 집계 또는 변환 작업을 수행할 수 있도록 도와줍니다. 주로 데이터를 요약하고 분석하는 데 사용됩니다. 이를 통해 데이터의 다양한 부분을 쉽게 분석하고, 특정 조건에 맞는 그룹을 별도로 처리할 수 있습니다.

### 1. **`groupby()`의 기본 동작**
`groupby()`는 다음 3단계로 이루어집니다:
1. **분할(Split)**: 데이터를 특정 기준에 따라 그룹으로 나눕니다.
2. **적용(Apply)**: 각 그룹에 대해 특정 함수를 적용합니다(예: 집계 함수, 변환 함수 등).
3. **결합(Combine)**: 각 그룹에 대해 함수를 적용한 결과를 하나로 합칩니다.

### 2. **기본 사용법**
```python
import pandas as pd

# 예시 데이터프레임 생성
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Values': [100, 200, 150, 300, 200, 100]}
df = pd.DataFrame(data)

# 'Category'를 기준으로 그룹화하고, 각 그룹의 'Values' 합계를 구함
grouped = df.groupby('Category').sum()
print(grouped)
```

**결과**:
```
          Values
Category        
A             450
B             600
```

### 3. **`groupby()`의 주요 파라미터**
- **`by`**: 그룹화 기준이 되는 열(column) 또는 여러 열. 그룹화를 위한 축이 됩니다.
- **`axis`**: 그룹화를 행 기준(`axis=0`, 기본값) 또는 열 기준(`axis=1`)으로 할지 결정합니다.
- **`as_index`**: 기본적으로 그룹화한 컬럼이 결과 데이터프레임의 인덱스가 되지만, 이를 인덱스로 사용하지 않으려면 `as_index=False`로 설정합니다.
- **`group_keys`**: `True`이면 그룹의 키(기준 컬럼 값)를 결과에 포함합니다.

### 4. **다양한 집계 함수 적용**

#### 1) **집계 함수 사용 (`sum()`, `mean()`, `count()` 등)**
`groupby()`는 그룹화한 데이터에 대해 여러 가지 집계 함수를 적용할 수 있습니다.

```python
# 각 그룹의 'Values' 평균을 계산
grouped_mean = df.groupby('Category').mean()
print(grouped_mean)
```

**결과**:
```
          Values
Category        
A      150.000000
B      200.000000
```

#### 2) **여러 집계 함수 적용 (`agg()`)**
`agg()` 함수를 사용하면 한 번에 여러 집계 함수를 적용할 수 있습니다.

```python
# 여러 집계 함수 적용 (합계와 평균)
grouped_agg = df.groupby('Category')['Values'].agg(['sum', 'mean', 'count'])
print(grouped_agg)
```

**결과**:
```
          sum   mean  count
Category                    
A          450  150.0      3
B          600  200.0      3
```

#### 3) **사용자 정의 함수 적용**
`apply()` 또는 `agg()`와 함께 사용자 정의 함수를 사용하여 그룹화된 데이터에 복잡한 연산을 적용할 수 있습니다.

```python
# 각 그룹의 'Values'에 대해 최대값에서 최소값을 뺀 결과 계산
grouped_custom = df.groupby('Category')['Values'].apply(lambda x: x.max() - x.min())
print(grouped_custom)
```

**결과**:
```
Category
A    100
B    200
Name: Values, dtype: int64
```

### 5. **그룹화한 결과에서 특정 값 접근**
그룹화한 결과에서 특정 그룹만 접근하고 싶을 때는 `get_group()`을 사용합니다.

```python
# 'A' 그룹의 데이터를 반환
group_a = df.groupby('Category').get_group('A')
print(group_a)
```

**결과**:
```
  Category  Values
0        A     100
2        A     150
4        A     200
```

### 6. **여러 열을 기준으로 그룹화**
여러 열을 기준으로 그룹화할 수도 있습니다.

```python
# 'Category'와 'Values' 모두를 기준으로 그룹화
data = {'Category': ['A', 'A', 'B', 'B', 'A', 'B'],
        'Subcategory': ['X', 'Y', 'X', 'X', 'Y', 'Y'],
        'Values': [100, 200, 300, 400, 150, 250]}
df = pd.DataFrame(data)

# 두 개의 열을 기준으로 그룹화하고 합계 계산
grouped_multi = df.groupby(['Category', 'Subcategory']).sum()
print(grouped_multi)
```

**결과**:
```
                       Values
Category Subcategory        
A        X               100
         Y               350
B        X               700
         Y               250
```

### 7. **`as_index=False` 사용**
`groupby()`의 기본 동작은 그룹화된 컬럼이 결과 데이터프레임의 인덱스로 사용되는 것입니다. 이를 방지하려면 `as_index=False`를 사용합니다.

```python
# 그룹화 결과를 인덱스로 사용하지 않도록 설정
grouped_no_index = df.groupby('Category', as_index=False).sum()
print(grouped_no_index)
```

**결과**:
```
  Category  Values
0        A     450
1        B     600
```

### 8. **그룹화 후 변환 작업 (`transform()`)**
`groupby()`와 함께 `transform()`을 사용하면 각 그룹에 대해 변환된 값을 원래의 데이터프레임에 다시 적용할 수 있습니다.

```python
# 각 그룹의 평균값을 원래 데이터프레임에 적용
df['Group_Mean'] = df.groupby('Category')['Values'].transform('mean')
print(df)
```

**결과**:
```
  Category  Values  Group_Mean
0        A     100       150.0
1        A     200       150.0
2        B     150       175.0
3        B     200       175.0
```

### 9. **결과를 그룹별로 순회 (`for` 루프 사용)**
`groupby()`로 그룹화한 결과는 반복문을 통해 각 그룹을 순회할 수 있습니다.

```python
for group, group_data in df.groupby('Category'):
    print(f"Group: {group}")
    print(group_data)
```

**결과**:
```
Group: A
  Category  Values
0        A     100
1        A     200
Group: B
  Category  Values
2        B     300
3        B     100
```

### 요약:
- **`groupby()`**는 데이터를 특정 기준으로 그룹화한 후, 각 그룹에 대해 집계, 변환, 필터링 등을 수행할 수 있는 강력한 도구입니다.
- 다양한 집계 함수(`sum()`, `mean()`, `count()`)와 함께 사용할 수 있으며, 여러 집계 함수 적용, 사용자 정의 함수 적용 등도 가능합니다.
- `transform()`을 사용하여 그룹별로 변환된 값을 원래 데이터프레임에 적용하거나, 그룹화된 데이터를 반복문으로 순회하여 처리할 수도 있습니다.