# pandas 데이터 재구조화(reshape)

- 피봇팅(pivoting)
- 스태킹(stacking)과 언스태킹(unstacking)

In [1]:
import pandas as pd
import numpy as np

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## 피봇팅(pivoting)

- 가지고 있는 데이터원본을 원하는 형태의 가공된 정보를 보여주는 것
    - 자료의 형태를 변경하기 위해 많이 사용하는 방법 

### 예.
**왼쪽표 : 제품이 생산될 때 마다 코드, 크기, 생산 수량을 기록**

- 피벗테이블1(오른쪽 표)
    - **지역과 제품코드별 생산수량 요약**
![](./img/피벗1.png)


- 피벗테이블2(오른쪽 표)
    - **제품크기와 제품코드별로 생산수량 요약**
![](./img/피벗2.png)

### 피보팅을 위한 메소드 : pivot(), pivot_table()

![](./img/pivoting.png)

- 출처 : https://rfriend.tistory.com/275

### pivot( )
- pandas.pivot(data, index=None, columns=None, values=None)
- DataFrame.pivot(index=None, columns=None, values=None)

### pivot_table( )

- 방법 : **두 개의 키를 사용**해서 데이터를 선택



- **pivot_table(data, index=None, columns=None, values=None**,
    aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)
    
    - data : 분석할 데이터 프레임의 메서드 형식일 때는 필요하지 않음 
        - ex1. pandas.pivot_table(df1, )
        - ex2. df1.pivot_table()
    - index :  **행 인덱스**로 들어갈 키열 또는 키열의 리스트
    - columns : **열 인덱스**로 들어갈 키열 또는 키열의 리스트
    - values : 분석할 데이터 프레임에서 분석할 열
    - fill_value : NaN이 표출될 때 대체값 지정
    - margins : 모든 데이터를 분석한 결과를 행으로 표출할 지 여부
    - margins_name : margins가 표출될 때 그 열(행)의 이름`

#### 피봇테이블을 작성할 때 반드시 설정해야 되는 인수
- data : 사용 데이터 프레임
- index : 행 인덱스로 사용할 필드(기준 필드로 작용됨)
- values : 인덱스 명을 제외한 나머지 값(data)은 수치 data 만 사용함
- aggfunc: 기본 함수가 평균(mean)함수 이기 때문에 각 데이터의 평균값이 반환

### 예제1. pivot() 사용

In [3]:
data = {"도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
        "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
        "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
        "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

columns = ["도시", "연도", "인구", "지역"]

df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


**피벗데이블1 : 각 도시에 대한 연도별 평균 인구**

In [5]:
df1.pivot(index='도시',columns='연도',values='인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


**피벗테이블2: 지역별 도시에 대한 연도별 평균 인구**

In [7]:
df1.pivot(index=['지역','도시'],columns='연도',values='인구')

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


### 예제2. 타이타닉 데이터 : pivot_table() 사용

In [8]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')[['age','sex','class','fare','survived']]
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


**피봇테이블1 : 선실등급별 숙박객의 성별 평균 나이**

In [13]:
df.pivot_table(index='class',columns='sex',values='age')

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


**피봇테이블2 : 선실등급별 숙박객의 생존여부에 따른 평균 나이**

In [14]:
df.pivot_table(index='class',columns='survived',values='age')

survived,0,1
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,43.695312,35.368197
Second,33.544444,25.901566
Third,26.555556,20.646118


**피봇테이블3 : 선실등급과 성별에 대해 생존여부에 따른 나이와 티켓값의 평균과 최대값 계산**

In [17]:
df.pivot_table(index=['class','sex'],columns='survived',values=['age','fare'],aggfunc=['mean','max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [18]:
df.pivot_table(index=['class','sex'],columns='survived',values=['age','fare'],aggfunc=['mean','min','max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,min,min,min,min,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3
First,female,25.666667,34.939024,110.604167,105.978159,2.0,14.0,28.7125,25.9292,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,18.0,0.92,0.0,26.2875,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,24.0,2.0,10.5,10.5,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,16.0,0.67,0.0,10.5,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,2.0,0.75,6.75,7.225,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,1.0,0.42,0.0,0.0,74.0,45.0,69.55,56.4958
