# 피봇테이블과 그룹 분석

###  피봇 테이블

** - 피봇 테이블(pivot table)이란 데이터 열 중에서 두 개를 키(key)로 사용하여 데이터를 선택하는 방법을 말한다. Pandas는 피봇 테이블을 만들기 위한 pivot 메서드를 제공한다. 첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을 넣는다.**

** - Pandas는 지정된 두 열을 각각 행 인덱스와 열 인덱스로 바꾼 후 행 인덱스의 라벨 값이 첫번째 키의 값과 같고 열 인덱스의 라벨 값이 두번째 키의 값과 같은 데이터를 찾아서 해당 칸에 넣는다. 만약 주어진 데이터가 존재하지 않으면 해당 칸에 NaN 값을 넣는다.**



In [2]:
import pandas as pd
import numpy as np

data = {
    "도시": [
        "서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"
    ],
    "연도": [
        "2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"
    ],
    "인구": [
        9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 2632035
    ],
    "지역": [
        "수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"
    ]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [3]:
df1.pivot("도시", "연도", "인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


** - 이 피봇 테이블의 값 3512547은 "도시"가 부산이고 "연도"가 2005년인 데이터를 "인구"열에서 찾은 값이다. 2005년 인천의 인구는 데이터에 없기 때문에 NaN으로 표시된다.**

** - 사실 피봇 테이블은 다음과 같이 set_index 명령과 unstack 명령을 사용해서 만들 수도 있다.**

In [4]:
df1.set_index(["도시", "연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


** - 행 인덱스와 열 인덱스는 하나의 데이터를 찾는 키(key)의 역할을 한다. 즉, 이 값으로 데이터가 유일하게(unique) 결정되어야 한다. 만약 행 인덱스와 열 인덱스 조건을 만족하는 데이터가 2개 이상인 경우에는 에러가 발생한다. 예를 들어 위 데이터프레임에서 ("지역", "연도")를 키로 하면 ("수도권", "2015")에 해당하는 값이 두 개 이상이므로 다음과 같이 에러가 발생한다.**

In [5]:
df1.pivot("지역", "연도", "인구")

ValueError: Index contains duplicate entries, cannot reshape

### 그룹 분석

** - 이렇게 특정 조건에 맞는 데이터가 하나 이상 즉, 그룹을 이루는 경우는 그룹 분석을 해야 한다.**

** - 그룹 분석은 피봇 테이블과 달리 키에 의해서 결정되는 데이터가 여러개가 있어도 괜찮다. 대신 주어진 연산을 통해 그룹 데이터의 대표값을 정하게 된다. Pandas에서는 groupby 명령과 그룹 연산 메서드를 이용하여 그룹 분석을 한다.**

** - 그룹 연산을 하는 방법은 다음과 같다.**

* 분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출하여 그룹화를 한다.
* 그룹 객체에 대해 그룹 연산을 수행한다.

### groupby 메서드

** - groupby 메서드는 데이터를 그룹 별로 분류하는 역할을 한다. groupby 메서드의 인수로는 다음과 같은 값을 사용한다.**

* 열 또는 열의 리스트
* 행 인덱스

** - 연산 결과로 그룹 데이터를 나타내는 GroupBy 클래스 객체를 반환한다. 이 객체에는 그룹별로 연산을 할 수 있는 그룹 연산 메서드가 있다.**

### 그룹 연산 메서드

** - groupby 결과, 즉 GroupBy 클래스 객체의 뒤에 붙일 수 있는 그룹 연산 메서드는 다양하다. 전체 목록을 보려면 다음 웹사이트를 참조한다.**

In [3]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,data1,data2,key1,key2
0,1,10,A,one
1,2,20,A,two
2,3,30,B,one
3,4,40,B,two
4,5,50,A,one


** - 우선 데이터프레임 전체에 대해 그룹분석을 하자. groupby 명령을 수행하고 그 결과에 대해 각각 합계를 구하기 위해 sum이라는 그룹 연산을 하였다.**

In [4]:
df2.groupby(df2.key1).sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


** - 만약 열 data1에 대해서만 그룹 연산을 하고 싶다면 미리 시리즈를 구하거나 groupby 반환값 또는 최종 그룹연산 결과에서 data1만 뽑아도 된다.**

In [5]:
df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [6]:
df2.groupby(df2.key1)["data1"].sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [7]:
df2.groupby(df2.key1).sum()["data1"]

key1
A    8
B    7
Name: data1, dtype: int64

** - 이번에는 복합 키 (key1, key2) 값에 따른 data1의 합계를 구하자. 이 결과는 피봇 데이블과 유사하다. 분석하고자 하는 키가 복수이면 리스트를 사용한다.**

In [8]:
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

** - 이 결과를 unstack 명령으로 피봇 데이블 형태로 만들면 더 보기가 좋아진다.**

In [9]:
df2.data1.groupby([df2["key1"], df2["key2"]]).sum().unstack("key2")

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


** - 그룹 분석 기능을 사용하면 위의 인구 데이터를 지역별로 합계를 계산할 수 있다.**

In [10]:
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum().unstack("연도")

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,12263517,12794763


** -다음 데이터는 150 송이의 붓꽃(iris)에 대해 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width)을 측정한 데이터이다. (Seaborn 패키지가 설치되어 있어야 한다.**

In [12]:
import seaborn as sns
iris = sns.load_dataset("iris")

** - 각 붓꽃 종별로 가장 큰 값과 가장 작은 값의 비율을 구해보자. 이러한 계산을 하는 그룹 연산 메서드는 없으므로 직접 만든 후 agg 메서드를 적용한다.**

In [13]:
def peak_to_peak_ratio(x):
    return x.max() / x.min()

In [14]:
iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


** - describe 메서드를 사용하면 다양한 기술 통계(descriptive statistics)값을 한 번에 구한다. 그룹별로 하나의 스칼라 값이 아니라 하나의 데이터프레임이 생성된다는 점에 주의하라.**

In [15]:
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
petal_length,count,50.0,50.0,50.0
petal_length,mean,1.462,4.26,5.552
petal_length,std,0.173664,0.469911,0.551895
petal_length,min,1.0,3.0,4.5
petal_length,25%,1.4,4.0,5.1
petal_length,50%,1.5,4.35,5.55
petal_length,75%,1.575,4.6,5.875
petal_length,max,1.9,5.1,6.9
petal_width,count,50.0,50.0,50.0
petal_width,mean,0.246,1.326,2.026


** - apply 메서드를 사용하면 하나의 그룹에 대해 하나의 대표값(스칼라 값)을 구하는 게 아니라 describe 메서드처럼 그룹별로 데이터프레임을 만들 수 있다. 예를 들어 다음처럼 각 붓꽃 종별로 가장 꽃잎길이가 큰 3개의 데이터를 뽑아낼 수도 있다.**

In [16]:
def max3(df):
    return df.sort_values(by="petal_length")[:3]

In [17]:
iris.groupby(iris.species).apply(max3)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,22,4.6,3.6,1.0,0.2,setosa
setosa,13,4.3,3.0,1.1,0.1,setosa
setosa,14,5.8,4.0,1.2,0.2,setosa
versicolor,98,5.1,2.5,3.0,1.1,versicolor
versicolor,93,5.0,2.3,3.3,1.0,versicolor
versicolor,57,4.9,2.4,3.3,1.0,versicolor
virginica,106,4.9,2.5,4.5,1.7,virginica
virginica,126,6.2,2.8,4.8,1.8,virginica
virginica,138,6.0,3.0,4.8,1.8,virginica


** - transform 메서드는 그룹별 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 값 자체를 변화시킨다. 따라서 만들어진 데이터프레임의 크기는 원래 데이터프레임과 같다. 예를 들어 다음처럼 각 붓꽃이 해당 종 중에서 꽃잎길이가 대/중/소 어느 것에 해당되는지에 대한 데이터프레임을 만들 수도 있다.**

In [21]:
def q3cut(s):
    return pd.qcut(s, 3, labels=["small", "middle", "big"])
    
iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(q3cut)
iris[["petal_length", "petal_length_class"]].tail(10)

Unnamed: 0,petal_length,petal_length_class
140,5.6,middle
141,5.1,small
142,5.1,small
143,5.9,big
144,5.7,middle
145,5.2,small
146,5.0,small
147,5.2,small
148,5.4,middle
149,5.1,small


### pivot_table

In [22]:
df2.pivot_table("data1", "key1", "key2")

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,2
B,3,4


In [24]:
df2.pivot_table("data1", "key1", "key2", margins=True, margins_name="SUM")

key2,one,two,SUM
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,3,2,2.666667
B,3,4,3.5
SUM,3,3,3.0


** - 행 인덱스나 열 인덱스에 리스트를 넣으면 다중 인덱스 테이블을 만든다.**

In [25]:
df2.pivot_table("data1", index=["key1", "key2"])

Unnamed: 0_level_0,Unnamed: 1_level_0,data1
key1,key2,Unnamed: 2_level_1
A,one,3
A,two,2
B,one,3
B,two,4
