# 피봇테이블과 그룹 분석

## 피봇테이블

피봇테이블이란 데이터 열 중에서 두 개를 키로 사용하여 데이터를 선택하는 방법을 말한다. 피봇테이블을 사용하기 위해서는 키가 될 수 있는 두 개의 열 혹은 필드를 선택하여 이 두 열을 행 인덱스, 열 인덱스로 변경하고 행 조건과 열 조건에 맞는 데이터를 찾아서 해당 칸에 넣는다. 만약 주어진 데이터가 없으면 NaN 값을 넣는다.

Pandas는 피봇테이블을 만들기 위한 pivot 메서드를 제공한다. 첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을 넣는다.

In [2]:
import numpy as np
import pandas as pd

In [3]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 2.5, 3.0, 2.5, 3.5]
}
df = pd.DataFrame(data, columns=["state", "year", "pop"])
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,2.5
2,Ohio,2002,3.0
3,Nevada,2001,2.5
4,Nevada,2002,3.5


In [4]:
df.pivot("state","year","pop")

year,2000,2001,2002
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nevada,,2.5,3.5
Ohio,1.5,2.5,3.0


In [5]:
df.pivot("year","state","pop")

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.5,2.5
2002,3.5,3.0


In [8]:
df.set_index(["state","year"]).unstack()

Unnamed: 0_level_0,pop,pop,pop
year,2000,2001,2002
state,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Nevada,,2.5,3.5
Ohio,1.5,2.5,3.0


행 인덱스와 열 인덱스가 될 자료는 키의 역할을 해야 한다. 즉, 이 값으로 데이터가 유일하게 결정되어야 한다. 만약 조건에 해당하는 데이터가 2개 이상인 경우에는 에러가 발생한다.

In [10]:
df.pivot("year","pop","state")

ValueError: Index contains duplicate entries, cannot reshape

## 그룹 분석