# 重要知識點

● 在資料中的索引轉欄位、欄位轉索引<br>
● 欄位名稱轉欄位值<br>
● 重新組織資料

# 索引轉欄位、欄位轉索引

在前天學到畫圖、x 軸為索引 (index)，y 軸為欄位 (column)，此時 x 軸與 y 軸被索引以及欄位所限制，想畫出各種不同的圖做分析，就必須用到欄位轉索引或索引轉欄位。

## 欄位轉索引

以下表資料為例，欄位為 subject、type組成，索引為 year、visit 組成<br>
● 欄位轉索引: 將一欄位 (column) 轉成一索引 (index)，使用.stack()即可，可以將 type 這個欄位轉成了索引，索引變成了 year、visit、type。<br>
● 注意 .stack() 會由最外層的欄位開始轉換，原欄位為 subject、type，會先由 type 轉換過去索引，如果再做一次才會把 subject 也轉換過去索引，如左表。

In [10]:
import pandas as pd
import numpy as np

In [11]:
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], names = ['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names = ['subject', 'type'])
# mock some data
data = np.round(np.random.randn(4, 6), 1)
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,1.3,-0.2,0.2,0.1,0.3,-0.9
2013,2,-0.4,-0.2,0.7,-0.3,-1.0,-0.6
2014,1,1.6,-0.9,-0.8,-0.5,0.1,0.7
2014,2,-0.6,1.1,0.8,1.7,0.5,-1.0


In [12]:
# 欄位轉索引: 將一欄位 (column)轉成一索引 (index)，使用 .stack() 即可，可以將 type 這個欄位轉成了索引，所以索引變成了 year、visit、type
df.stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,subject,Bob,Guido,Sue
year,visit,type,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013,1,HR,1.3,0.2,0.3
2013,1,Temp,-0.2,0.1,-0.9
2013,2,HR,-0.4,0.7,-1.0
2013,2,Temp,-0.2,-0.3,-0.6
2014,1,HR,1.6,-0.8,0.1
2014,1,Temp,-0.9,-0.5,0.7
2014,2,HR,-0.6,0.8,0.5
2014,2,Temp,1.1,1.7,-1.0


In [13]:
# 再做一次 .stack() 索引變成了 year、visit、type、subject
df.stack().stack()

year  visit  type  subject
2013  1      HR    Bob        1.3
                   Guido      0.2
                   Sue        0.3
             Temp  Bob       -0.2
                   Guido      0.1
                   Sue       -0.9
      2      HR    Bob       -0.4
                   Guido      0.7
                   Sue       -1.0
             Temp  Bob       -0.2
                   Guido     -0.3
                   Sue       -0.6
2014  1      HR    Bob        1.6
                   Guido     -0.8
                   Sue        0.1
             Temp  Bob       -0.9
                   Guido     -0.5
                   Sue        0.7
      2      HR    Bob       -0.6
                   Guido      0.8
                   Sue        0.5
             Temp  Bob        1.1
                   Guido      1.7
                   Sue       -1.0
dtype: float64

## 索引轉欄位

以下表資料為例，欄位為 subject 、 type 組成，索引為 year、visit組成<br>
● 索引轉欄位: 將一索引(index)轉成一欄位(colmun)，使用.unstack()即可，可以將 visit 這個索引轉成了欄位，索引欄位變成了 subject、type、visit。<br>
● 注意與 .stack() 相同會由最外層開始轉換，原索引為 year、visit，會先由 visit 轉換過去欄位。

In [14]:
df.unstack()

subject,Bob,Bob,Bob,Bob,Guido,Guido,Guido,Guido,Sue,Sue,Sue,Sue
type,HR,HR,Temp,Temp,HR,HR,Temp,Temp,HR,HR,Temp,Temp
visit,1,2,1,2,1,2,1,2,1,2,1,2
year,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
2013,1.3,-0.4,-0.2,-0.2,0.2,0.7,0.1,-0.3,0.3,-1.0,-0.9,-0.6
2014,1.6,-0.6,-0.9,1.1,-0.8,0.8,-0.5,1.7,0.1,0.5,0.7,-1.0


# 欄位名稱轉為欄位值

數據分析的時候經常要規寬數據變成長數據, 有點像你們用 excel 做透視眼逆透視的過程。<br>
例如下表格 (紅框),要將欄位轉成欄位值，也就是說將 Name、Course、Age 轉成欄位值，如下圖，使用 .melt() 就可以做到。<br>

參數
● id_vars: 不需要被轉換的列名
● values_vars: 需要轉換的列名，如果剩下的列全部都要轉換，就不用寫了。

In [15]:
df = pd.DataFrame({'Name':{0:'John', 1:'Bob', 2:'Shiela'},
                  'Coures':{0:'Masters', 1:'Graduate', 2:'Graduate'},
                 'Age':{0:27, 1:23, 2:21}})
df

Unnamed: 0,Name,Coures,Age
0,John,Masters,27
1,Bob,Graduate,23
2,Shiela,Graduate,21


In [16]:
# 保留 Name 欄位其餘轉成欄位值
df.melt()

Unnamed: 0,variable,value
0,Name,John
1,Name,Bob
2,Name,Shiela
3,Coures,Masters
4,Coures,Graduate
5,Coures,Graduate
6,Age,27
7,Age,23
8,Age,21


In [17]:
# 只轉換 Name 欄位
df.melt(id_vars = 'Name')

Unnamed: 0,Name,variable,value
0,John,Coures,Masters
1,Bob,Coures,Graduate
2,Shiela,Coures,Graduate
3,John,Age,27
4,Bob,Age,23
5,Shiela,Age,21


In [18]:
# 保留 Name 欄位其餘轉成欄位值, 之後再留下 value_vars = 'Name'
df.melt(value_vars = 'Name')

Unnamed: 0,variable,value
0,Name,John
1,Name,Bob
2,Name,Shiela
