# 데이터 요약

- 그룹화


### (1) Groupby

- 데이터를 그룹화하고, 그룹별로 계산 작업을 할 수 있는 도구.
- 복잡한 데이터 집합에서 특정 기준으로 그룹화하고, 그룹별로 데이터를 요약하거나 통계치를 계산할 수 있다.
- 동작 순서
  1. 분할(Split) : 데이터를 특정 기준에 따라 여러 그룹으로 분할한다.
  2. 적용(Apply) : 각 그룹에 대해 하나 이상의 함수를 적용하여 결과를 얻습니다.
  3. 결합(Combine) : 모든 함수 적용 결과를 하나의 데이터 구조로 결합한다.

### **(2) 기본 사용법**

- **`DataFrmae.groupby("열 이름").집계 함수`**
  - 하나의 열을 기준으로 그룹화 한다.
- **`DataFrmae.groupby(["열 이름 1", "열 이름 2", ...]).집계 함수`**
  - 두 개 이상의 열을 기준으로 그룹화 한다.

💡 집계 함수

- sum() : 합계
- mean() : 평균
- median() : 중앙값
- min() : 최소값
- max() : 최대값
- count() : 그룹 내 데이터 수
- std() : 표준편차
- var() : 분산


In [1]:
import pandas as pd

In [2]:
data = {
    "부서": [
        "영업",
        "IT",
        "인사",
        "IT",
        "IT",
        "인사",
        "영업",
        "IT",
        "인사",
        "IT",
        "인사",
        "IT",
        "마케팅",
        "영업",
        "회계",
        "회계",
    ],
    "이름": [
        "김민수",
        "박수현",
        "이영호",
        "최은지",
        "정우진",
        "김다은",
        "이정호",
        "박지영",
        "정예슬",
        "최성민",
        "한가람",
        "장수진",
        "윤석호",
        "심지혜",
        "이동현",
        "김준호",
    ],
    "나이": [34, 29, 40, 33, 28, 32, 36, 27, 38, 31, 30, 35, 33, 25, 42, 37],
    "연봉": [
        6500,
        5500,
        5000,
        6200,
        6100,
        5200,
        6400,
        5700,
        5600,
        6300,
        6000,
        5800,
        6600,
        6500,
        7100,
        6900,
    ],
    "지역": [
        "서울",
        "부산",
        "대구",
        "서울",
        "서울",
        "대구",
        "부산",
        "서울",
        "대구",
        "서울",
        "대구",
        "서울",
        "부산",
        "부산",
        "서울",
        "부산",
    ],
}

df = pd.DataFrame(data)
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   부서      16 non-null     object
 1   이름      16 non-null     object
 2   나이      16 non-null     int64 
 3   연봉      16 non-null     int64 
 4   지역      16 non-null     object
dtypes: int64(2), object(3)
memory usage: 772.0+ bytes


Unnamed: 0,부서,이름,나이,연봉,지역
0,영업,김민수,34,6500,서울
1,IT,박수현,29,5500,부산
2,인사,이영호,40,5000,대구
3,IT,최은지,33,6200,서울
4,IT,정우진,28,6100,서울
5,인사,김다은,32,5200,대구
6,영업,이정호,36,6400,부산
7,IT,박지영,27,5700,서울
8,인사,정예슬,38,5600,대구
9,IT,최성민,31,6300,서울


In [15]:
# 1. "지역"을 기준을로 그룹화
grouped = df.groupby("지역")

# 2. 집계 함수 적용 : 합계
sum_grouped = grouped.sum()

# idx 이름 확인
sum_grouped.index  # Index(['대구', '부산', '서울'], dtype='object', name='지역')

# idx를 다시 숫자로 사용하고 싶은 경우
# sum_grouped.reset_index()

Index(['대구', '부산', '서울'], dtype='object', name='지역')

In [27]:
# 부서를 기준으로 그룹화
# 연봉에 대해 합계 집계 함수 적용
# df.groupby("부서").sum("연봉")
df.groupby("부서")["연봉"].sum()

부서
IT     35600
마케팅     6600
영업     19400
인사     21800
회계     14000
Name: 연봉, dtype: int64

In [23]:
# 부서를 기준으로 그룹화
# 나이에 대해 평균 집계 함수 적용
# df.groupby("부서").mean("나이")
df.groupby("부서")["나이"].mean()

부서
IT     30.500000
마케팅    33.000000
영업     31.666667
인사     35.000000
회계     39.500000
Name: 나이, dtype: float64

In [24]:
# 지역, 부서를 기준으로 그룹화
# 그룹화 한 데이터의 연봉에 대해 최대 값 집계 함수 적용
# df.groupby(["지역", "부서"]).max("연봉")
df.groupby(["지역", "부서"])["연봉"].max()

지역  부서 
대구  인사     6000
부산  IT     5500
    마케팅    6600
    영업     6500
    회계     6900
서울  IT     6300
    영업     6500
    회계     7100
Name: 연봉, dtype: int64

### **(3) 그룹 필터링**

**`DataFrame.groupby("열 이름").filter(조건 함수)`**

- 특정 조건을 만족하는 그룹을 선택한다.
- **`조건 함수`** 는 각 그룹에 적용되어 **`True`** 를 반환하는 그룹만 선택한다.
- 예시 코드
  - 직원수가 2명보다 많은 부서 필터링


In [29]:
# 부서의 인원 수가 2명 보다 많은 부서를 필터링
# 1. 그룹화
grouped = df.groupby("부서")


# 조건 함수
# 매개 변수 : 그룹화 한 데이터의 개별 행
def greater_cnt_two(group):
    return group["이름"].count() > 2  # 부서의 직원 수가 2명보다 많은 부서


# 2. 필터링
grouped.filter(greater_cnt_two)

Unnamed: 0,부서,이름,나이,연봉,지역
0,영업,김민수,34,6500,서울
1,IT,박수현,29,5500,부산
2,인사,이영호,40,5000,대구
3,IT,최은지,33,6200,서울
4,IT,정우진,28,6100,서울
5,인사,김다은,32,5200,대구
6,영업,이정호,36,6400,부산
7,IT,박지영,27,5700,서울
8,인사,정예슬,38,5600,대구
9,IT,최성민,31,6300,서울


In [34]:
# 평균 연봉이 6000 이상인 부서 필터링 -> 부서의 연봉 평균을 내었을 때 6000 이상
# df.groupby("부서")["연봉"].mean()


def gt_sal(gr):
    return gr["연봉"].mean() >= 6000


df.groupby("부서").filter(gt_sal)

Unnamed: 0,부서,이름,나이,연봉,지역
0,영업,김민수,34,6500,서울
6,영업,이정호,36,6400,부산
12,마케팅,윤석호,33,6600,부산
13,영업,심지혜,25,6500,부산
14,회계,이동현,42,7100,서울
15,회계,김준호,37,6900,부산


In [36]:
df.groupby("부서")["연봉"].mean()

부서
IT     5933.333333
마케팅    6600.000000
영업     6466.666667
인사     5450.000000
회계     7000.000000
Name: 연봉, dtype: float64

## **[2] 데이터 요약**

### **(1) 다중 집계 함수**

**`DataFrame.agg(집계 함수)`**

- 데이터프레임의 여러 열에 여러 개의 집계 함수를 적용한다.
- 예시 코드
  - 연봉의 중위 값과 평균


In [37]:
# 연봉의 평균, 중위 값
df["연봉"].agg(["median", "mean"])

median    6150.0
mean      6087.5
Name: 연봉, dtype: float64

In [38]:
# 나이의 최소, 최대, 평균
df["나이"].agg(["min", "max", "mean"])

min     25.000
max     42.000
mean    33.125
Name: 나이, dtype: float64

- 각 열에 여러개의 아래 함수 적용
  - 이름 : count
  - 나이 : min, max, mean
  - 연봉 : median, mean


In [39]:
# 여러 개의 컬럼에 여러 개의 집계 함수 -> 딕셔너리의 형태로 활용, key : col, value : 집계 함수
# 이름의 개수
# 연봉의 평균, 중위 값
# 나이의 최소, 최대, 평균
df.agg(
    {
        "이름": "count",
        "연봉": ["mean", "median"],
        "나이": ["min", "max", "mean"],
    }
)

Unnamed: 0,이름,연봉,나이
count,16.0,,
mean,,6087.5,33.125
median,,6150.0,
min,,,25.0
max,,,42.0


In [52]:
# 그룹화 된 데이터에도 다중 집계 함수 agg()
# 컬럼이 계층 구조를 갖게 됨
df2 = df.groupby("지역").agg(
    {
        "이름": "count",
        "연봉": ["mean", "median"],
        "나이": ["min", "max", "mean"],
    }
)
df2  # 모든 계층 구조 출력
df2[["연봉"]]  # 연봉의 다중 집계 출력
df2[[("연봉", "mean")]]  # 연봉의 평균 컬럼 출력 -> ()로 묶어야 함

Unnamed: 0_level_0,연봉
Unnamed: 0_level_1,mean
지역,Unnamed: 1_level_2
대구,5450.0
부산,6380.0
서울,6242.857143


In [57]:
df2.loc[:, ("나이", ["min", "max"])]

Unnamed: 0_level_0,나이,나이
Unnamed: 0_level_1,min,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2
대구,30,40
부산,25,37
서울,27,42
