In [2]:
#### get example data
import pandas as pd
df = pd.DataFrame({'class':['A','A','D','B','B','C'],
                   'sex':['m','w','m','w','m','m'],
                   'score':[25, 30, 22, 18, 50, 60]})
print(df)

  class sex  score
0     A   m     25
1     A   w     30
2     D   m     22
3     B   w     18
4     B   m     50
5     C   m     60


In [3]:
'''
常用於要將資料重組
觀察所有類別交叉組合下某欄位的值
但 pivot 沒有支援簡易計算（aggregate function:min, sum, mean, ...）
所以當類別交叉組合有重複值時會出錯
'''

df2 = df.pivot(index='class', columns='sex', values='score')
df2

sex,m,w
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25.0,30.0
B,50.0,18.0
C,60.0,
D,22.0,


In [4]:
'''
常用於要將資料重組
觀察所有類別交叉組合的發生次數
pd.crosstab 有支援簡易計算（aggregate function:min, sum, mean, ...）
所以當類別交叉組合有重複值時，必須指定 aggfunc
'''

pd.crosstab(index=df['class'], columns=df['sex'], values=df['score'], aggfunc='sum')

sex,m,w
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25.0,30.0
B,50.0,18.0
C,60.0,
D,22.0,


In [5]:
#### 將資料進行還原
df2.reset_index().melt(id_vars=['class'], var_name='sex', value_name='score')

Unnamed: 0,class,sex,score
0,A,m,25.0
1,B,m,50.0
2,C,m,60.0
3,D,m,22.0
4,A,w,30.0
5,B,w,18.0
6,C,w,
7,D,w,


In [10]:
'''
資料橫幅展開時，將資訊用欄位表示
有點類似 unpivot 的概念
'''

df = pd.DataFrame({'month':list(range(1,13)),
                   'Income 2022':[5000]*12, 'Expense 2022':[2000]*12,
                   'Income 2023':[5500]*12, 'Expense 2023':[2300]*12})
print('原始資料：', df, '', sep='\n')

columns = [[(ym, 'Income'), (ym, 'Expense')] for ym in [2022,2023]]
columns = sum(columns, [])
idx_col = ['month']
df = df.set_index(idx_col)
df.columns = pd.MultiIndex.from_tuples(columns)
print('創造多階層欄位：', df, '', sep='\n')

df = df.stack(level=0)
df.index.names = idx_col + ['year']
df = df.reset_index()
print('unpivot 結果：', df, sep='\n')

原始資料：
    month  Income 2022  Expense 2022  Income 2023  Expense 2023
0       1         5000          2000         5500          2300
1       2         5000          2000         5500          2300
2       3         5000          2000         5500          2300
3       4         5000          2000         5500          2300
4       5         5000          2000         5500          2300
5       6         5000          2000         5500          2300
6       7         5000          2000         5500          2300
7       8         5000          2000         5500          2300
8       9         5000          2000         5500          2300
9      10         5000          2000         5500          2300
10     11         5000          2000         5500          2300
11     12         5000          2000         5500          2300

創造多階層欄位：
        2022           2023        
      Income Expense Income Expense
month                              
1       5000    2000   5500    2300
2       