In [1]:
#데이터 변형해보기: 그룹화 및 집계, 피벗테이블

In [3]:
#데이터 그룹화는 데이터를 특정 기준에 따라 그룹으로 나누고, 집계는 각 그룹에 대해 요약 통계를 계산하는 과정.
#pandas에서는 groupby()와 집계함수들을 사용해 이를 손쉽게 수행할 수 있음.

In [12]:
#groupby()를 사용한 그룹화
#groupby() 함수는 데이터를 특정 열을 기준으로 그룹화함.

import pandas as pd

#예시 데이터프레임 생성
data = {
    '이름' : ['철수', '영희', '민수', '지수', '철수', '영희'],
    '과목': ['수학', '수학', '과학', '과학', '영어', '영어'],
    '점수': [90, 85, 95, 80, 75, 88]
}
df = pd.DataFrame(data)

#'이름'을 기준으로 그룹화
grouped = df.groupby('이름')

In [15]:
#집계 함수 사용하기
#그룹화한 데이터에 대해 다양한 집계함수(mean, sum, count 등)를 사용할 수 있습니다.

#각 학생의 평균 점수 계산
mean_scores = grouped['점수'].mean()
print(mean_scores)

이름
민수    95.0
영희    86.5
지수    80.0
철수    82.5
Name: 점수, dtype: float64


In [17]:
#여러 집계 함수를 동시에 사용할 수도 있음.

#각 학생의 점수 합계와 평균 계산
agg_scores = grouped['점수'].agg(['sum', 'mean'])
print(agg_scores)

    sum  mean
이름           
민수   95  95.0
영희  173  86.5
지수   80  80.0
철수  165  82.5


In [19]:
#agg(): 집계 함수(aggregation function)를 적용하는 메서드로, 하나 이상의 함수를 적용할 수 있습니다.

In [21]:
#여러 열을 기준으로 그룹화하기

#'이름'과 '과목'을 기준으로 그룹화하여 점수 합계 계산
grouped_multi = df.groupby(['이름', '과목'])['점수'].sum()
print(grouped_multi)

이름  과목
민수  과학    95
영희  수학    85
    영어    88
지수  과학    80
철수  수학    90
    영어    75
Name: 점수, dtype: int64


In [24]:
#피벗테이블 사용하기

In [26]:
#pivot_table() 기본 사용법
#pivot_table() 함수는 데이터를 요약하고, 특정 기준에 따라 재구조화함.

#피벗테이블 생성: '이름'을 인덱스로, '과목'을 컬럼으로 하여 점수의 평균 계산
pivot = pd.pivot_table(df, index='이름', columns = '과목', values='점수', aggfunc='mean')
print(pivot)

과목    과학    수학    영어
이름                  
민수  95.0   NaN   NaN
영희   NaN  85.0  88.0
지수  80.0   NaN   NaN
철수   NaN  90.0  75.0


In [28]:
#여러 집계 함수 사용하기
#aggfunc에 여러 집계 함수를 지정하면, 다양한 요약 통계를 얻을 수 있음.

#점수의 합게와 평균을 계산하는 피벗테이블 생성
pivot_table = pd.pivot_table(df, index='이름', columns = '과목', values = '점수', aggfunc = ['sum', 'mean'])
print(pivot_table)

     sum              mean            
과목    과학    수학    영어    과학    수학    영어
이름                                    
민수  95.0   NaN   NaN  95.0   NaN   NaN
영희   NaN  85.0  88.0   NaN  85.0  88.0
지수  80.0   NaN   NaN  80.0   NaN   NaN
철수   NaN  90.0  75.0   NaN  90.0  75.0


In [38]:
#margins 옵션을 사용해 전체 합계 추가하기
#margins = True 옵션을 사용하면, 각 행과 열의 합계가 추가된 피벗테이블을 생성할 수 있음.

#각 이름별, 과목별 총합을 포함한 피벗테이블 생성
pivot_with_totals = pd.pivot_table(df, index='이름', columns='과목', values = '점수', aggfunc ='sum', margins = True)
print(pivot_with_totals)

과목      과학     수학     영어  All
이름                           
민수    95.0    NaN    NaN   95
영희     NaN   85.0   88.0  173
지수    80.0    NaN    NaN   80
철수     NaN   90.0   75.0  165
All  175.0  175.0  163.0  513


In [40]:
# margins=False로 설정하면, 행(row)과 열(column)의 총합계를 포함하지 않은 피벗 테이블이 생성
# margins=True로 설정 시, 행(row)과 열(column)의 총합계를 포함된 피벗 테이블이 생성

In [None]:
#요약
#그룹화는 groupby()를 사용해 데이터를 특정 기준에 따라 그룹으로 나누고, 집계함수를 사용해 각 그룹에 대한 통계를 계산 가능
# 피벗테이블은 pivot_tavle()을 사용해 데이터를 요약하고 재구조화할 수 있으며, 여러 집계함수와 margins 옵션을 통해 전체 합계를 포함할 수 있음.