In [None]:
from pandas import DataFrame
import pandas as pd

## Reshaping

### Pivot

In [None]:
data = [
    ["2019", "A", 300, 5],
    ["2019", "B", 200, 4],
    ["2019", "C", 100, 8],
    ["2020", "A", 400, 8],
    ["2020", "B", 230, 3],    
]

columns = ['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,date,item,price,volume
0,2019,A,300,5
1,2019,B,200,4
2,2019,C,100,8
3,2020,A,400,8
4,2020,B,230,3


In [None]:
df.pivot_table(index="date", columns="item", values="price")

item,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,300.0,200.0,100.0
2020,400.0,230.0,


In [None]:
#aggfunc 파라미터 : 중복된 데이터가 있을 떄 어떻게 할 것인지 - default : mean값
df.pivot_table(index="date", columns="item", values="price", aggfunc="min")

item,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,300.0,200.0,100.0
2020,400.0,230.0,


### Melt
컬럼을 variable과 value로 설정해서 데이터를 긴형태로 변환합니다.   
데이터 cleaning에 유리한 형태로 변환합니다. 

In [None]:
import numpy as np

data = [
    ["2019", "A", 300, 5],
    ["2019", "B", np.NaN, 4],
    ["2019", "C", 100, np.NaN],
    ["2020", "A", np.NaN, 8],
    ["2020", "B", 230, np.NaN],    
]

columns = ['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,date,item,price,volume
0,2019,A,300.0,5.0
1,2019,B,,4.0
2,2019,C,100.0,
3,2020,A,,8.0
4,2020,B,230.0,


`melt` 메서드를 호출하면 모든 데이터를 `variable`과 `value`로 구분합니다. 

In [None]:
df.melt()

Unnamed: 0,variable,value
0,date,2019
1,date,2019
2,date,2019
3,date,2020
4,date,2020
5,item,A
6,item,B
7,item,C
8,item,A
9,item,B


`id_vars` 파라미터를 사용하면 남겨놓을 데이터를 지정할 수 있습니다. 

In [None]:
df.melt(id_vars = 'date')

Unnamed: 0,date,variable,value
0,2019,item,A
1,2019,item,B
2,2019,item,C
3,2020,item,A
4,2020,item,B
5,2019,price,300.0
6,2019,price,
7,2019,price,100.0
8,2020,price,
9,2020,price,230.0


In [None]:
df.melt(id_vars = ['date','item'], value_vars='price')

Unnamed: 0,date,item,variable,value
0,2019,A,price,300
1,2019,B,price,200
2,2019,C,price,100
3,2020,A,price,400
4,2020,B,price,230


In [None]:
t = df.melt()

In [None]:
t

Unnamed: 0,variable,value
0,date,2019
1,date,2019
2,date,2019
3,date,2020
4,date,2020
5,item,A
6,item,B
7,item,C
8,item,A
9,item,B


### Unstack / Stack

In [None]:
# 나중에 그래프그릴때 잘 쓸 수 있을듯
# https://kimdingko-world.tistory.com/211

In [None]:
df = DataFrame({
    'city'   : ["서울", "서울", "대구", "대구"],
    'sex'    : ['m', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70]
})
df

Unnamed: 0,city,sex,weight
0,서울,m,76
1,서울,w,88
2,대구,m,54
3,대구,w,70


In [None]:
temp = df.groupby(['city', 'sex']).max()
temp

Unnamed: 0_level_0,Unnamed: 1_level_0,weight
city,sex,Unnamed: 2_level_1
대구,m,54
대구,w,70
서울,m,76
서울,w,88


In [None]:
temp.index

MultiIndex([('대구', 'm'),
            ('대구', 'w'),
            ('서울', 'm'),
            ('서울', 'w')],
           names=['city', 'sex'])

남자와 여자에 대한 데이터를 구분해서 분석하고 싶을 수 있습니다. 

`unstack` 메서드를 사용하면 하나의 높은 level index를 칼럼으로 변경합니다. 

In [None]:
temp2 = temp.unstack()
temp2

Unnamed: 0_level_0,weight,weight
sex,m,w
city,Unnamed: 1_level_2,Unnamed: 2_level_2
대구,54,70
서울,76,88


In [None]:
temp2.index

Index(['대구', '서울'], dtype='object', name='city')

In [None]:
tempp = temp2.unstack()
tempp

        sex  city
weight  m    대구      54
             서울      76
        w    대구      70
             서울      88
dtype: int64

In [None]:
tempp.index

MultiIndex([('weight', 'm', '대구'),
            ('weight', 'm', '서울'),
            ('weight', 'w', '대구'),
            ('weight', 'w', '서울')],
           names=[None, 'sex', 'city'])

In [None]:
type(temp), type(temp2), type(tempp)

(pandas.core.frame.DataFrame,
 pandas.core.frame.DataFrame,
 pandas.core.series.Series)

In [None]:
df_st = tempp.unstack(level=-1)
type(df_st)
df_st

Unnamed: 0_level_0,city,대구,서울
Unnamed: 0_level_1,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
weight,m,54,76
weight,w,70,88


In [None]:
df_st.unstack()

city,대구,대구,서울,서울
sex,m,w,m,w
weight,54,70,76,88


인덱스의 레벨을 지정할 수 있습니다. 

In [None]:
df_st2 = temp.stack(level=-1)
df_st2

city  sex        
대구    m    weight    54
      w    weight    70
서울    m    weight    76
      w    weight    88
dtype: int64

In [None]:
type(df_st2)

pandas.core.series.Series

In [None]:
df_st2[1]

70

In [None]:
df_st2.shape

(4,)

`stack`은 `unstack`의 반대로 동작합니다. 데이터를 길게 쌓아 올립니다. 