In [36]:
import pandas as pd

# 예제 데이터
data = {
    "Department": ["Sales", "Sales", "HR", "HR", "IT", "IT"],
    "Name": ["John", "Anna", "Peter", "Linda", "James", "Laura"],
    "Age": [34, 29, 40, 33, 28, 32],
    "Salary": [70000, 65000, 60000, 72000, 71000, 62000],
}

df = pd.DataFrame(data)

In [37]:
# 단일 열에 대한 그룹화
group = df.groupby("Department")

# 통계 함수 적용
# group 변수에 대해서 Age 열을 선택하는 코드
# 각 Dpartment 별 최대 Age

print(group["Age"].max())  # 각 부서별 최대 나이 값

# 각 Department 별 최대 Salary 코드
print(group["Salary"].max())

# 각 Department 별 Name의 수 (count /size)
# count : 결측치를 제외하고 카운팀
# size : 행의 수 자체를 카운팅
print(group["Name"].count())
print(group["Name"].size())

"""{
    "mean": 평균
    "sum": 합
    "count":카운팅
    "max" : 최댓값
    "min" : 최솟값
}"""

Department
HR       40
IT       32
Sales    34
Name: Age, dtype: int64
Department
HR       72000
IT       71000
Sales    70000
Name: Salary, dtype: int64
Department
HR       2
IT       2
Sales    2
Name: Name, dtype: int64
Department
HR       2
IT       2
Sales    2
Name: Name, dtype: int64


'{\n    "mean": 평균\n    "sum": 합\n    "count":카운팅\n    "max" : 최댓값\n    "min" : 최솟값\n}'

In [38]:
# 하나의 열에 대해서 여러 통계함수 적용
# agg() , 집계(aggregation)함수

group = df.groupby("Department")
group["Age"].agg(["mean", "sum", "count", "max", "min"])

# Salary 5개의 통계 함수를 적용 코드
group["Salary"].agg(["mean", "sum", "count", "max", "min"])

Unnamed: 0_level_0,mean,sum,count,max,min
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
HR,66000.0,132000,2,72000,60000
IT,66500.0,133000,2,71000,62000
Sales,67500.0,135000,2,70000,65000


In [39]:
# 여러 열에 대해서 1개 이상의 통계 함수
"""그룹.agg({
    "열1" : "통계함수",
    "열2" : "["통계함수", "통계함수2",]
})"""

# Name : count
# Age : median, mean
# Salary : max, min

group.agg(
    {
        "Name": "count",
        "Age": ["median", "mean"],
        "Salary": ["max", "min"],
    }
)

Unnamed: 0_level_0,Name,Age,Age,Salary,Salary
Unnamed: 0_level_1,count,median,mean,max,min
Department,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
HR,2,36.5,36.5,72000,60000
IT,2,30.0,30.0,71000,62000
Sales,2,31.5,31.5,70000,65000


In [40]:
# 사용자가 정의한 함수 적용
# 그룹['열'].apply(사용자 정의 함수)

# def 키워드

group = df.groupby("Department")


def salary_range(group):
    # 급여에 대한 최댓값 - 최솟값
    return group["Salary"].max() - group["Salary"].min()


group.apply(
    salary_range,
    include_groups=False,
)  # include_groups=False를 사용하지 않으면 기준열인 Department도 함수가 적용될 수 있으므로 조심해야 한다.(경고문 발생)


# 급여의 중앙값 - 평균을 반환하는 사용자 정의 함수 적용 코드
def salary_range_mean_median(group):
    return group["Salary"].median() - group["Salary"].mean()


group.apply(
    salary_range_mean_median,
    include_groups=False,
)

Department
HR       0.0
IT       0.0
Sales    0.0
dtype: float64

In [44]:
# 필터링
# 그룹.filter(사용자 정의 함수)

import pandas as pd

data = {
    "Department": ["Sales", "IT", "HR", "IT", "IT", "IT"],
    "Name": ["John", "Anna", "Peter", "Linda", "James", "Laura"],
    "Age": [34, 29, 40, 33, 28, 32],
    "Salary": [75000, 65000, 60000, 72000, 71000, 62000],
}

df = pd.DataFrame(data)


# 사용자 정의 함수 : 반환값이 참(True) / 거짓(False)
def func_1(group):
    # 조건식 : 그룹의 인원수가 2명보다 많은 부서만 True
    condition = group["Name"].count() > 2
    return condition

# 평균 급여(Salary)가 70000 이상인 부서의 데이터만 출력
def func_2(group):
    salary_mean = group['Salary'].mean() >= 70000
    return salary_mean


group = df.groupby("Department")

group.filter(func_1)
group.filter(func_2)

Unnamed: 0,Department,Name,Age,Salary
0,Sales,John,34,75000
