In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.family']='Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus']=False

- pivot_table : 각 구성요소에 적용할 데이터프레임의 열을 각각 함수의 인자로 전달.
    - index : 행 위치에 들어갈 열.
    - columns : 열 위치에 들어갈 열.
    - values : 데이터로 사용할 열.
    - aggfunc : 적용시킬 함수.

In [2]:
# 데이터 읽기.
df = pd.read_csv('data/grade.csv')
df

Unnamed: 0,학년,과목,결과,중간,기말
0,1학년,국어,좋음,80,90
1,1학년,국어,나쁨,50,40
2,1학년,국어,나쁨,20,50
3,1학년,수학,좋음,83,95
4,1학년,수학,좋음,93,86
5,2학년,국어,나쁨,44,65
6,2학년,국어,좋음,95,98
7,2학년,수학,좋음,96,99
8,2학년,수학,나쁨,57,69


In [3]:
# 데이터 정보 확인.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   학년      9 non-null      object
 1   과목      9 non-null      object
 2   결과      9 non-null      object
 3   중간      9 non-null      int64 
 4   기말      9 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 488.0+ bytes


In [4]:
# 학년별 중간 기말 평균 성적을 보여줌.
df.groupby('학년').mean()

Unnamed: 0_level_0,중간,기말
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1학년,65.2,72.2
2학년,73.0,82.75


In [5]:
# Pivot_table을 이용해서도 group by 처럼 만들 수 있음.
# aggfunc : default 값이 mean으로 설정되어 있음.
# aggfunc : 보고자 통계(집계) 함수. 혹은 직접 함수 생성을 통한 적용도 가능.
df.pivot_table(index='학년')[['중간', '기말']]

Unnamed: 0_level_0,중간,기말
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1학년,65.2,72.2
2학년,73.0,82.75


In [6]:
# 학년별 중간 기말 평균 합계를 보여줌.
df.groupby('학년').sum()

Unnamed: 0_level_0,중간,기말
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1학년,326,361
2학년,292,331


In [7]:
# Pivot_table을 이용해서도 group by 처럼 만들 수 있음.
# aggfunc='sum' : 중간 기말 성적 합계를 볼 수 있도록 설정.
df.pivot_table(index='학년', aggfunc='sum')

Unnamed: 0_level_0,기말,중간
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1학년,361,326
2학년,331,292


In [8]:
# by 옵션에 리스트로 넣으면 그에 맞게 한번 더 나눠서 보여줌.
# by를 굳이 안써도 됨.
df.groupby(by=['학년','과목']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,중간,기말
학년,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
1학년,국어,50.0,60.0
1학년,수학,88.0,90.5
2학년,국어,69.5,81.5
2학년,수학,76.5,84.0


In [9]:
# 보고자 하는 col 선택, default 값 전부.
# values 를 통해 보고자 하는 걸 볼 수 있음.
df.pivot_table(index=['학년','과목'], values='중간') 

Unnamed: 0_level_0,Unnamed: 1_level_0,중간
학년,과목,Unnamed: 2_level_1
1학년,국어,50.0
1학년,수학,88.0
2학년,국어,69.5
2학년,수학,76.5


In [10]:
# 중간의 합계와 평균을 구해줌.
df.pivot_table(index='학년', aggfunc=['sum','mean'], values='중간')

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,중간,중간
학년,Unnamed: 1_level_2,Unnamed: 2_level_2
1학년,326,65.2
2학년,292,73.0


In [11]:
# columns : 컬럼명 설정 및 그에 따른 분류하여 볼 수 있음.
df.pivot_table(index=['학년','과목'], values='중간', columns='결과') 

Unnamed: 0_level_0,결과,나쁨,좋음
학년,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
1학년,국어,35.0,80.0
1학년,수학,,88.0
2학년,국어,44.0,95.0
2학년,수학,57.0,96.0


In [12]:
# Pivot_table에 적용시킬 함수 생성.
def f(x):
    print('=======')
    print(x)
    print('=======')
    if x.mean() >= 70:
        return '합격'
    else:
        return '불합격'

In [13]:
df.pivot_table(index=['학년'] , aggfunc=f, values='중간')

0    80
1    50
2    20
3    83
4    93
Name: 중간, dtype: int64
5    44
6    95
7    96
8    57
Name: 중간, dtype: int64


Unnamed: 0_level_0,중간
학년,Unnamed: 1_level_1
1학년,불합격
2학년,합격


In [14]:
# lambda식으로 구현한 pivot_table.
df.pivot_table(index=['학년'] , aggfunc=lambda x : '합격' if x.mean()>=70 else '불합격', values='중간')

Unnamed: 0_level_0,중간
학년,Unnamed: 1_level_1
1학년,불합격
2학년,합격
