In [1]:
import numpy as np
import pandas as pd
import os

# 불필요한 경고 표시 생략
import warnings
warnings.filterwarnings(action = 'ignore')

In [2]:
df = pd.DataFrame({
    '지역': ['서울', '서울', '서울', '경기', '경기', '부산', '서울', '서울', '부산', '경기', '경기', '경기'],
    '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', '월요일', '목요일', '금요일', '화요일', '수요일', '목요일', '금요일'],
    '강수량': [100, 80, 1000, 200, 200, 100, 50, 100, 200, 100, 50, 100],
    '강수확률': [80, 70, 90, 10, 20, 30, 50, 90, 20, 80, 50, 10]
                  })

df

Unnamed: 0,지역,요일,강수량,강수확률
0,서울,월요일,100,80
1,서울,화요일,80,70
2,서울,수요일,1000,90
3,경기,월요일,200,10
4,경기,화요일,200,20
5,부산,월요일,100,30
6,서울,목요일,50,50
7,서울,금요일,100,90
8,부산,화요일,200,20
9,경기,수요일,100,80


#  stack & unstack
 - stack : 컬럼 레벨에서 인덱스 레벨로 dataframe을 변경하는 함수
  - 즉, 데이터를 쌓아올리는 개념으로 이해하면 쉽다.
 - unstack : 인덱스 레벨에서 컬럼 레벨로 dataframe 변경하는 함수
  - stack의 반대
 
 - 둘은 역의 관계에 있음

In [3]:
# df의 지역과 요일을 index로 하여 데이터 정리
new_df = df.set_index(['지역', '요일'])
new_df

# 2개의 index level이 있다.
# 0번째 index level은 '지역'
# 1번째 index level은 '요일'

Unnamed: 0_level_0,Unnamed: 1_level_0,강수량,강수확률
지역,요일,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,월요일,100,80
서울,화요일,80,70
서울,수요일,1000,90
경기,월요일,200,10
경기,화요일,200,20
부산,월요일,100,30
서울,목요일,50,50
서울,금요일,100,90
부산,화요일,200,20
경기,수요일,100,80


## unstack

In [4]:
# 첫번째 레벨의 index(=지역)를 컬럼으로 이동
new_df.unstack(0)

Unnamed: 0_level_0,강수량,강수량,강수량,강수확률,강수확률,강수확률
지역,경기,부산,서울,경기,부산,서울
요일,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
금요일,100.0,,100.0,10.0,,90.0
목요일,50.0,,50.0,50.0,,50.0
수요일,100.0,,1000.0,80.0,,90.0
월요일,200.0,100.0,100.0,10.0,30.0,80.0
화요일,200.0,200.0,80.0,20.0,20.0,70.0


In [5]:
# 두번째 레벨의 인덱스(=요일)를 컬럼으로 이동
new_df.unstack(1)

Unnamed: 0_level_0,강수량,강수량,강수량,강수량,강수량,강수확률,강수확률,강수확률,강수확률,강수확률
요일,금요일,목요일,수요일,월요일,화요일,금요일,목요일,수요일,월요일,화요일
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
경기,100.0,50.0,100.0,200.0,200.0,10.0,50.0,80.0,10.0,20.0
부산,,,,100.0,200.0,,,,30.0,20.0
서울,100.0,50.0,1000.0,100.0,80.0,90.0,50.0,90.0,80.0,70.0


## stack

- unstack한 것을 다시 stack할 수 있다.
- stack함수의 index default값은 '-1' 이다.
- 즉, 맨 마지막 위치에 있는 index가 stack된다.

In [6]:
# 첫번째 레벨의 컬럼(=강수량 & 강수확률)을 인덱스로 이동
new_df.unstack(0).stack(0)

Unnamed: 0_level_0,지역,경기,부산,서울
요일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
금요일,강수량,100.0,,100.0
금요일,강수확률,10.0,,90.0
목요일,강수량,50.0,,50.0
목요일,강수확률,50.0,,50.0
수요일,강수량,100.0,,1000.0
수요일,강수확률,80.0,,90.0
월요일,강수량,200.0,100.0,100.0
월요일,강수확률,10.0,30.0,80.0
화요일,강수량,200.0,200.0,80.0
화요일,강수확률,20.0,20.0,70.0


In [7]:
new_df.unstack(0).stack(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강수량,강수확률
요일,지역,Unnamed: 2_level_1,Unnamed: 3_level_1
금요일,경기,100.0,10.0
금요일,서울,100.0,90.0
목요일,경기,50.0,50.0
목요일,서울,50.0,50.0
수요일,경기,100.0,80.0
수요일,서울,1000.0,90.0
월요일,경기,200.0,10.0
월요일,부산,100.0,30.0
월요일,서울,100.0,80.0
화요일,경기,200.0,20.0


In [8]:
new_df.stack

<bound method DataFrame.stack of          강수량  강수확률
지역 요일             
서울 월요일   100    80
   화요일    80    70
   수요일  1000    90
경기 월요일   200    10
   화요일   200    20
부산 월요일   100    30
서울 목요일    50    50
   금요일   100    90
부산 화요일   200    20
경기 수요일   100    80
   목요일    50    50
   금요일   100    10>