# 피봇테이블

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
titanic = sns.load_dataset("titanic")
iris = sns.load_dataset("iris")

## 피봇메소드
피봇테이블(pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것

pivot('행 인덱스', '열 인덱스', '데이터 이름')

In [6]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [7]:
# 행과 열 인덱스만 보면 어떤 도시, 어떤 시점의 인구를 쉽게 알 수 있는 피봇테이블
# index, column, value
df1.pivot('도시','연도','인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [8]:
# 피봇테이블은  set_index 명령과 unstack 명령을 사용해서 만들 수도 있다.
df1.set_index(["도시", "연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


# 그룹분석
키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는 그룹의 특성을 보여주는 그룹분석(group analysis)을 해야 한다.

1. 분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출하여 그룹화를 한다.

2. 그룹 객체에 대해 그룹연산을 수행한다.

## groupby method

: 데이터를 그룹 별로 분류하는 역할

### * groupby 메서드의 인수

    -열 또는 열의 리스트

    -행 인덱스

### * 그룹연산 메소드

- size, count: 그룹 데이터의 갯수

- mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대

- sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수

- first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

- agg, aggregate: 만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달한다. 또는 여러가지 그룹연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트를 전달한다.

- describe: 하나의 그룹 대표값이 아니라 여러개의 값을 데이터프레임으로 구한다.

- apply: describe 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹연산이 없는 경우에 사용한다.

- transform: 그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형한다.

In [11]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [6]:
df2.groupby(df2.key1).sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [16]:
df2.groupby(df2.key2).mean()

Unnamed: 0_level_0,data1,data2
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
one,3,30
two,3,30


In [8]:
df2.groupby(df2.key2).mean()['data2'] # data2만 불러옴

key2
one    30
two    30
Name: data2, dtype: int64

In [9]:
df2.groupby([df2.key1, df2.key2]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


In [14]:
# 1등실에 탄 여성의 나이 평균
titanic.age.groupby([titanic.pclass, titanic.sex]).mean()

pclass  sex   
1       female    34.611765
        male      41.281386
2       female    28.722973
        male      30.740707
3       female    21.750000
        male      26.507589
Name: age, dtype: float64

In [15]:
# 여성 나이의 평균
titanic.age.groupby(titanic.sex).mean()

sex
female    27.915709
male      30.726645
Name: age, dtype: float64

In [17]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [18]:
#각 붓꽃 종별로 가장 큰 값과 가장 작은 값의 비율
def peak_to_peak_ratio(x):
    return x.max()/x.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)
#그룹연산메서드_ agg: 만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달한다. 

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [19]:
iris.groupby(iris.species).agg(lambda x: x.max() - x.min() )

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.5,2.1,0.9,0.5
versicolor,2.1,1.4,2.1,0.8
virginica,3.0,1.6,2.4,1.1


##  pivot_table method
Pandas는 pivot 명령과 groupby 명령의 중간 성격을 가지는 pivot_table 명령도 제공

pivot_table 명령은 groupby 명령처럼 그룹분석을 하지만 최종적으로는 pivot 명령처럼 피봇테이블을 만든다.

pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')

- data: 분석할 데이터프레임 (메서드일 때는 필요하지 않음)

- values: 분석할 데이터프레임에서 분석할 열

- index: 행 인덱스로 들어갈 키 열 또는 키 열의 리스트

- columns: 열 인덱스로 들어갈 키 열 또는 키 열의 리스트

- aggfunc: 분석 메서드

- fill_value: NaN 대체 값

- margins: 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부

- margins_name: 마진 열(행)의 이름

In [20]:
# index, column, value
df1.pivot('도시','연도','인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [21]:
# 순서에 주의할 것
# value, column, index
df1.pivot_table('인구','도시','연도')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [23]:
# 각 열,각 행의 합계 
df1.pivot_table('인구','도시','연도', margins = True, margins_name = '합계')

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
합계,6637546.5,4429292.0,5414500.0,5350809.0


## EX ]

### - tips 데이터 사례

In [18]:
tips = sns.load_dataset('tips')
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [19]:
# 식사대금와 팁의 비율을 나타내는 tip_pct를 추가
tips['tip_percent'] = round(tips['tip'] / tips['total_bill'] * 100 ,2)
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percent
239,29.03,5.92,Male,No,Sat,Dinner,3,20.39
240,27.18,2.0,Female,Yes,Sat,Dinner,2,7.36
241,22.67,2.0,Male,Yes,Sat,Dinner,2,8.82
242,17.82,1.75,Male,No,Sat,Dinner,2,9.82
243,18.78,3.0,Female,No,Thur,Dinner,2,15.97


In [35]:
# 성별 데이터 갯수
tips.groupby(tips.sex).count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_percent
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [36]:
tips.groupby('sex').count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_percent
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [42]:
tips.groupby('sex').mean()

Unnamed: 0_level_0,total_bill,tip,size,tip_percent
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,20.744076,3.089618,2.630573,15.764713
Female,18.056897,2.833448,2.45977,16.648276


In [37]:
# 기준 2 : 성별과 흡연유무에 따른 데이터의 갯수
tips.groupby(['sex','smoker']).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [41]:
# 성별 팁 비율
tips.groupby('sex')[['tip_percent']].mean()

Unnamed: 0_level_0,tip_percent
sex,Unnamed: 1_level_1
Male,15.764713
Female,16.648276


In [43]:
# 흡연유무에 따른 팁 비율
tips.groupby('smoker')[['tip_percent']].mean()

Unnamed: 0_level_0,tip_percent
smoker,Unnamed: 1_level_1
Yes,16.31914
No,15.932318


In [45]:
# 성별/흡연유무에 따른 팁 비율
tips.groupby(['sex','smoker'])[['tip_percent']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_percent
sex,smoker,Unnamed: 2_level_1
Male,Yes,15.276667
Male,No,16.066598
Female,Yes,18.214545
Female,No,15.691111


In [47]:
# 보기좋게 피봇테이블 형식으로도 가능
tips.pivot_table('tip_percent','sex','smoker')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,15.276667,16.066598
Female,18.214545,15.691111


## EX] 연습문제 4.7.3

1. 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴본다.

2. 어떤 요인이 가장 크게 작용하는지 판단할 수 있는 방법이 있는가?

In [50]:
# 요일에 따른 팁비율
tips.groupby('day')[['tip_percent']].mean()

Unnamed: 0_level_0,tip_percent
day,Unnamed: 1_level_1
Thur,16.126452
Fri,16.991579
Sat,15.314598
Sun,16.689605


In [48]:
# 점심/저녁 여부에 따른 팁비율
tips.groupby('time')[['tip_percent']].mean()

Unnamed: 0_level_0,tip_percent
time,Unnamed: 1_level_1
Lunch,16.411765
Dinner,15.951477


In [49]:
# 기준 2: 요일과 점심/저녁 여부 
tips.groupby(['day','time'])[['tip_percent']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_percent
day,time,Unnamed: 2_level_1
Thur,Lunch,16.129016
Thur,Dinner,15.97
Fri,Lunch,18.875714
Fri,Dinner,15.8925
Sat,Lunch,
Sat,Dinner,15.314598
Sun,Lunch,
Sun,Dinner,16.689605


In [51]:
# 기준이 2개일때 피봇테이블을 이용하면 더 가독성이 좋다.
tips.pivot_table('tip_percent','day','time')

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,16.129016,15.97
Fri,18.875714,15.8925
Sat,,15.314598
Sun,,16.689605


In [52]:
# 피벗테이블의 열과 행을 바꾸어 생성
tips.pivot_table('tip_percent','time','day')

day,Thur,Fri,Sat,Sun
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Lunch,16.129016,18.875714,,
Dinner,15.97,15.8925,15.314598,16.689605


In [53]:
#어떤 요인이 가장 크게 작용하는지 판단
# 기준 3개 : 값 = 'tip_percent', 행기준= ['time','size'], 열기준 = 'day'
tips.pivot_table('tip_percent',['time','size'],'day')

Unnamed: 0_level_0,day,Thur,Fri,Sat,Sun
time,size,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Lunch,1,18.17,22.38,,
Lunch,2,16.401277,18.196,,
Lunch,3,14.46,18.77,,
Lunch,4,14.552,,,
Lunch,5,12.14,,,
Lunch,6,17.366667,,,
Dinner,1,,,23.18,
Dinner,2,15.97,16.267273,15.528679,18.08641
Dinner,3,,,15.142222,15.266
Dinner,4,,11.77,13.828462,15.317222
