# 1. Pandas - main classes and structure

In [None]:
%pylab
import pandas as pd
from pandas import Series, DataFrame

---
### Series 和 DataFrame  


<div style="width:200px;height:200px;float:left">
![Series 和 DataFrame](../jpgs/MyPicture1.jpg)
</div>  

---
## Series
Series 由一組 索引標籤+數據 組成，就如同Excel中的單一個 column

In [None]:
# Series 由一組 索引標籤+數據 組成
s = Series([4, 7, -5, 3])
s

Series物件有 index 和 values屬性

In [None]:
# series的 index
# dtype是 int64
s.index

In [None]:
# series的 value
s.values

index如同Excel的 row number，但不一定是數字  
和Excel最大的不同: Series 的 Index 可以有重複的值

In [None]:
s.index = pd.Index([0, 'a', 'a', 2])
s

In [None]:
# 一個index可以對應多個rows
s['a']

#### Series等同是一個 有序 字典####

建構 Series物件的方式，索引不一定是數字

In [None]:
# 指定索引
s = Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
s

Series的index是一個 Index物件

In [None]:
# dtype是 object
s.index

In [None]:
# 用索引取值
s['b']

In [None]:
# 可以取多個值
s[['b', 'c']]

#### 各種運算之後，還是會保留index####

In [None]:
# 各種運算之後，還是會保留index
# 可以使用 陣列式索引
s[s > 3]

In [None]:
# 廣播運算
s * 2

In [None]:
# 用 NumPy的頂級函示對Series做廣播運算
np.exp(s)

In [None]:
# 可以將Series看成是一個有序字典
'b' in s
# 等同是 'b' in s.index

In [None]:
'e' in s

In [None]:
# 可以命名 Series物件
s.name = 'test'
s.name

In [None]:
# 可以用Python字典來創建 Series
dt = {'Ohio' : 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
dt

#### Series等同是一個有序的字典

In [None]:
s1 = Series(dt)
s1
# Series等同是一個有序的字典

In [None]:
s1.index

#### 用 Index物件來設定 Series物件的 index屬性

In [None]:
# 建構Series的時候指定 index
# 其中 index California 在 dt中找不到，因此對應的value就標示為 NaN
states = ['Utah', 'California', 'Ohio', 'Oregon', 'Texas']
s2 = Series(dt, index = states)
s2

#### pandas的頂級函式都可以對Series物件做廣播運算

In [None]:
# isnull, notnull 可用來檢測 NaN
pd.isnull(s2)

In [None]:
pd.notnull(s2)

#### Series物件也自帶很多ufunc

In [None]:
# Series 的 isnull(), notnull()
s2.isnull()

In [None]:
s2.notnull()

#### Series 最重要的功能之一 是能在算術運算中 自動對齊 不同索引的數據####
依據index自動對齊

In [None]:
s1

In [None]:
s2

In [None]:
s1 + s2

In [None]:
s1 * s2

#### 可以直接修改index中索引的標籤，資料不會受到影響

In [None]:
# index可以隨時修改，會依照順序對應來修改
s2.index = ['Utah', 'New York', 'Ohio', 'Oregon', 'Texas']
s2

---
## DataFrame

DataFrame 是一個表格型的數據結構，有一組有序的列，每列可以是不同的資料類型。

DataFrame 既有列索引，也有行索引，
#### DataFrame可以被視為由一個或多個Series所組成的字典，等同是Excel的工作表####
可以由等長的列表或字典 建構 DataFrame，字典頂層的每個item代表一個Series，也就是Excel工作表中的一個 column

由字典建立DataFrame的時候 columns 會自動以字母排序，除非顯式的以 columns參數指定

In [None]:
# 由等長的列表或字典 建構 DataFrame
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

#### 以字典建立DataFrame的時候，可以用columns參數指定 columns名稱與排序

In [None]:
# 可以指定columns的排序
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data, columns = ['state', 'year', 'pop'])
frame

In [None]:
# 找不到的column以NaN表示
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data,
                  columns = ['state', 'year', 'pop', 'debt'],
                  index = ['one', 'two', 'three', 'four', 'five']
                 )
frame

In [None]:
# DataFrame的 columns 索引，也是一個 Index物件
frame.columns

#### DataFrame的一個 column 就是一個 Series物件，可以用 column索引來取出，每個column也是DataFrame的一個屬性

In [None]:
# 將DataFrame的一個column取出成為一個Series
s = frame['state']
s

In [None]:
# s 有 name屬性
s.name

In [None]:
# 和 frame.state是一樣的，是一個Series
frame.state

In [None]:
frame.year

#### 由上可知，DataFrame可以被視為由一個或多個Series所組成的字典，字典的key是各個column索引的名稱####
column索引 和 row索引，可以用'[]'或者'.'交互參照

In [None]:
# row 也可以透過索引取得，返回的是一個視圖，和原本的物件共用資料
frame.state.two

In [None]:
frame['state'].two

In [None]:
frame.state['two']

In [None]:
frame['state']['two']

#### 對整個Series(column)賦值####
是一種廣播

In [None]:
# 對整個Series賦值
frame.debt = 16.5
frame

In [None]:
# 長度相同的情況下，會做 mapping
frame.debt = np.arange(5.)
frame

#### 如果將Series填入DataFrame，會依據index自動對齊

In [None]:
# 使用Series並指定index，並將之填入一個DataFrame, 則DataFrame中空缺的位置都會被填上NaN
s = Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame.debt = s
frame

In [None]:
# 為不存在的column賦值會產生一個新的column
frame['eastern'] = (frame.state == 'Ohio')
frame

In [None]:
frame['eastern']

#### 如果有指定column索引名稱，則該column的名稱就是其索引的名稱
如同Excel的欄位名稱

In [None]:
frame['eastern'].name

#### 可以以雙層的字典，一次性的建立DataFrame

In [None]:
# 以嵌套的字典建立DataFrame，外層的字典作為columns，內層的字典作為rows
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
pop

In [None]:
frame = DataFrame(pop)
frame

In [None]:
# 也可以進行轉置
frame.T

#### 如果使用雙層字典來建立DataFrame，且指定的 row Index中沒有對準字典中的內層key，則以指定的row Index為準，沒對到的會被標示為NaN

In [None]:
# 內層的鍵會被合併、排序，但如果顯示地指定了索引，則不會合併或排序
DataFrame(pop, index = [2001, 2002, 2003])

In [None]:
# 可以設置 rows, columns 的名稱
frame.index.name = 'year'
frame.columns.name = 'state'
frame

In [None]:
# DataFrame 的 values屬性 返回一個二維 np.ndarray
v = frame.values
v

## 索引(Index)物件

#### 建構Series或者DataFrame的時候，所用到的任何數組或其他序列的標籤都會被轉換為一個 Index物件####

In [None]:
obj = Series(range(3), name = 'd', index = ['a', 'b', 'c'])
obj

In [None]:
index = obj.index
index # 是一個 Index物件

In [None]:
index[1:]

In [None]:
# Index物件是 immutable，不可以修改
# index[1] = 'b' # 會出錯

In [None]:
# 建立一個Index物件
index = pd.Index(np.arange(3))
index

In [None]:
# 置換 Series物件的 index
obj.index = index
obj

In [None]:
# 用Index物件來指定Series的index
obj2 = Series([1.5, -2.5, 0], index = index)
obj2

In [None]:
obj2.index is index

In [None]:
# Index 就像一個大小固定的 Set
frame

In [None]:
'Nevada' in frame.columns

In [None]:
2002 in frame.index

## 基本功能##

### 重新索引###

In [None]:
obj = Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

#### reindex()用來移動row或者column的排列

In [None]:
# reindex方法會根據新索引重新排序資料
obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
# 可以指定 空缺資料的填充值 fill_value
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value = 0)

In [None]:
obj = Series(['blue', 'purple', 'yellow'], index = [0, 2, 4])
obj

#### reindex()會依照指定的方式重新排列rows或者columns，可以指定若遇空缺時，插入rows或者columns的方式

In [None]:
# method參數可以以 "method" 指定 插值 的函式
obj.reindex(range(6), method = 'ffill')

In [None]:
# 如果只傳入一個序列，則 .reindex()會優先對 row重新索引
frame = DataFrame(np.arange(9).reshape((3, 3)),
                  index = ['a', 'c', 'd'], 
                  columns = ['Ohio', 'Texas', 'California'])
frame

In [None]:
frame.reindex(['a', 'b', 'c', 'd'])

#### 使用reindex()，最好指定是針對row或者column

In [None]:
# 可以以 columns參數重新索引columns
frame.reindex(columns = ['Texas', 'Ohio', 'California'])

In [None]:
# 可以以 對 rows, columns都重新索引
frame.reindex(index = ['a', 'b', 'c', 'd'], 
              columns = ['Texas', 'Ohio', 'California'])

In [None]:
# 插值
frame.reindex(index = ['a', 'b', 'c', 'd'], 
              columns = ['Texas', 'Ohio', 'California'], 
              method = 'ffill')

#### .ix[ ] 的索引方式很方便，只需傳入rows, columns 方向的索引列表

In [None]:
# 用 ix函式來重新索引
frame.ix[['a', 'b', 'c', 'd'],
         ['Texas', 'Ohio', 'California']]

### 丟棄(drop)指定軸上的項###

In [None]:
# 以一個索引數組指定要刪除的元素
obj = Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
new_obj = obj.drop(['c'])
new_obj

In [None]:
new_obj = obj.drop(['c', 'd'])
new_obj

In [None]:
# 對於 DataFrame，可以刪除任意軸上的索引值
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index = ['Ohio', 'Colorado', 'Utah', 'New York'], 
                 columns = ['one', 'two', 'three', 'four'])
data

In [None]:
# 對於 DataFrame，可以刪除任意軸上的索引值
data.drop(['Colorado', 'Ohio'])

In [None]:
# axis = 0 或省略，可以刪除rows
data.drop(['Colorado', 'Ohio'])

In [None]:
# axis = 1，可以刪除columns
data.drop(['two', 'four'], axis = 1)

### 索引、選取、過濾###

In [None]:
# Series的索引值不只是整數
obj = Series(np.arange(4.), index = ['a', 'b', 'c', 'd'])
obj

In [None]:
# 單一值，不顯示索引
obj['b']

In [None]:
# 單一值，不顯示索引
obj[1]

In [None]:
# 多個值，顯示索引
obj[2:4]

In [None]:
# 多個值，顯示索引，依照指定的順序
obj[['b', 'a', 'd']]

In [None]:
# 多個值，顯示索引，依照指定的順序
obj[[1, 2, 3]]

In [None]:
# 多個值，顯示索引
obj[obj < 2]

In [None]:
# Series, DataFrame的切片算，其末端是包含的
obj['b':'d']

In [None]:
# 賦值的方式也很簡單
obj['b':'c'] = 5
obj

In [None]:
# 對於 DataFrame 索引，其實就是獲取一個或多個列
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index = ['Ohio', 'Colorado', 'Utah', 'New York'], 
                 columns = ['one', 'two', 'three', 'four'])
data

In [None]:
data[['two', 'four']]

In [None]:
data[['four', 'two']]

In [None]:
data[[1, 3]]

In [None]:
# 這是row方向的切片
data[:2]

In [None]:
# 多層次的索引
data[data['three'] > 5]

In [None]:
# 透過 boolean型態的 DataFrame 進行索引
data

In [None]:
# 透過 boolean型態的 DataFrame 進行索引
data < 5

In [None]:
data[data < 5]

#### ix 是重新索引的簡單方法####

In [None]:
# ix 是重新索引的簡單方法
data.ix['Colorado', ['two', 'four']]

In [None]:
# ix 對兩軸重新索引，依照指定的順序
data.ix[['Colorado', 'Utah'], [3, 0, 1]]

In [None]:
# ix 索引，取出第0軸的第2個Series
data.ix[2]

In [None]:
data.ix[: 'Utah', 'two']

In [None]:
data.three > 5

In [None]:
# 對兩個軸索引，取出交集
data.ix[data.three > 5, :3]

### 算數運算和數據對齊###

pandas最重要的一個功能是: 可以對不同所引的對象進行算術運算。

在將對象相加時，若存在不同的索引，則結果的索引就是該索引對的聯集。

In [None]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index = ['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a', 'c', 'e', 'f', 'g'])

In [None]:
s1

In [None]:
s2

In [None]:
# 兩個Series的索引會自動對齊，空缺的值填入NaN
s1 + s2

In [None]:
# 對於 DataFrame，索引自動對齊會發生在row 和 column方向
df1 = DataFrame(np.arange(9.).reshape((3, 3)),
                index = ['Ohio', 'Texas', 'Colorado'], 
                columns = list('bcd'))
df2 = DataFrame(np.arange(12.).reshape((4, 3)),
                index = ['Utah', 'Ohio', 'Texas', 'Oregon'], 
                columns = list('bde'))

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

### 在算術方法中填充值###

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)),
                columns = list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)),
                columns = list('abcde'))

In [None]:
df1

In [None]:
df2

In [None]:
# 以指定的預設值取代 NaN作為自動填充值
# 但是兩個DataFrame都沒有的元素位置，還是會被填入NaN
df1.add(df2, fill_value = 0)

In [None]:
# 重新索引的時候，也可以指定填充值
df1.reindex(columns = df2.columns, fill_value = 0)

### DataFrame 和 Series中間的運算###

In [None]:
arr = np.arange(12.).reshape((3, 4))

In [None]:
arr

In [None]:
arr[0]

In [None]:
# 算術運算 會進行 廣播
arr - arr[0]

In [None]:
# DataFrame 和 Series 之間也是如此
df = DataFrame(np.arange(12.).reshape((4, 3)),
               columns = list("bde"), 
               index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df

In [None]:
s = df.ix[0]
s

In [None]:
# 也是進行廣播
# 會將Series的索引批被盜DataFrame的columns, 然後沿著rows(軸0)的方向一直向下廣播
df + s

In [None]:
# 如果索引不同，則索引會聯集之後自動對齊
df

In [None]:
s2 = df['d']
s2

In [None]:
# 如果希望索引自動匹配且在row方向上廣播，則必須用算術運算方法
# 傳入的軸就是希望匹配的軸
df.add(s2, axis = 0)

### 函數應用和映射###

NumPy的 ufuncs (元素級數組方法) 也可用於操作pandas物件

In [None]:
frame = DataFrame(np.random.randn(4, 3),
                  columns = list('bde'),
                  index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
# NumPy的 ufuncs (元素級數組方法) 也可用於操作pandas物件
np.abs(frame)

In [None]:
# DataFrame 上的 apply方法，可以實現元素級的運算
f = lambda x: x.max() - x.min()
frame.apply(f) # 預設會對每個 column操作

In [None]:
# 沿著軸1
frame.apply(f, axis = 1)

In [None]:
frame

In [None]:
# 返回 由多個值組成的Series
def f(x):
    return Series([x.min(), x.max()], index = ['min', 'max'])
frame.apply(f) # 會對每個column操作 f，每個column傳回一個Series，再重新組合成DataFrame

In [None]:
# DataFrame 也可以透過 applymap(), 使用Python元素級的函式
f = lambda x: "{0:.3f}".format(x)
frame.applymap(f)

In [None]:
# Series 也可以透過 map(), 使用Python元素級的函式
f = lambda x: "{0:.3f}".format(x)
f2 = frame['b']
f2.map(f)

### 排序和排名###

#### 排序####

In [None]:
# 可以使用 sort_index方法 來對軸索引排序
obj = Series(range(4), index = list('dabc'))
obj

In [None]:
# 可以使用 sort_index方法 來對軸索引排序
# 是針對索引來排序，而不是針對資料值
obj.sort_index()

In [None]:
# DataFrame 也可以使用 sort_index 並指定軸來排序索引
frame = DataFrame(np.arange(8).reshape((2, 4)),
                  index = ['three', 'one'],
                  columns = list('dabc')
                 )
frame

In [None]:
frame.sort_index(axis = 0)

In [None]:
frame.sort_index(axis = 1)

In [None]:
# 可以串接
frame.sort_index(axis = 0).sort_index(axis = 1)

In [None]:
# 可以指定 降幕 排序
frame.sort_index(axis = 1, ascending = False)

In [None]:
# 若要以值來排序，可以使用 sort_values()方法
obj['b'] = 4
print(obj)
obj.sort_values()

In [None]:
# 若以sort_values()方法排序，空缺的值會被排到最後面
obj['a'] = None
print(obj)
obj.sort_values()

In [None]:
# 要根據一個或多個column中的值來排序，可以使用 sort_values()
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

In [None]:
# 使用 sort_values() 根據值來排序
frame.sort_values('b')

In [None]:
# 使用 sort_values() 根據多個columns的值來排序
frame.sort_values(['a', 'b'])

## 彙總和計算描述統計##

In [None]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5], 
               [np.nan, np.nan], [0.75, -1.3]], 
               index = list('abcd'), 
               columns = ['one', 'two'])
df

In [None]:
# sum()傳回一個Series
df.sum()

In [None]:
# 指定軸向做 sum()
df.sum(axis = 1)

In [None]:
# NaN會被自動排除(當作0)，可以使用skipna參數改變
df.sum(axis = 1, skipna = False)

In [None]:
# idxmin, idxmax 傳回間接統計，最大值或最小值的索引
df.idxmin()

In [None]:
df.idxmax()

In [None]:
# 累積加總 cumsum()
df.cumsum()

In [None]:
# describe 可以一次性產生多種統計數字
df.describe()

In [None]:
# describe 對非數字資料，產生另外一種統計數字
obj = Series(list('aabc') * 4)
obj

In [None]:
obj.describe()

## 相關係數與協方差##

In [None]:
# 透過 參數對 計算出來的 彙總統計(如 相關係數和協方差)
import pandas.io.data as web
# from pandas_datareader import data, wb

all_data = {}

for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2013', '1/1/2015')
    
price = DataFrame({tic: data['Adj Close'] for tic, data in all_data.items()})
volume = DataFrame({tic: data['Volume'] for tic, data in all_data.items()})

In [None]:
# 百分比變化
returns = price.pct_change()
returns.tail()

In [None]:
# corr() 用來計算相關係數
returns.MSFT.corr(returns.IBM)

In [None]:
# cov()用來計算協方差
returns.MSFT.cov(returns.IBM)

In [None]:
# DataFrame的 corr(), cov() 將會返回相同形狀的矩陣
returns.corr()

In [None]:
returns.cov()

In [None]:
# 利用DataFrame的 corrwith()方法，可以計算列或行 跟另外一個Series或DataFrame之間的相關係數
returns.corrwith(returns.IBM)

In [None]:
returns.corrwith(volume)

### 唯一值、值計數與成員資格###

In [None]:
obj = Series(list('cadaabbcc'))
obj

In [None]:
# uniquie 唯一值
obj.unique()

In [None]:
# 排序之後的唯一值
np.sort(obj.unique())

In [None]:
# value_count()傳回 各值出現的次數，依照出現的次數降幕排序
obj.value_counts()

In [None]:
# value_counts()可以做為頂層函式，依照出現的次數降幕排序
pd.value_counts(obj)

In [None]:
# 可以使用 sort 參數 禁止排序
pd.value_counts(obj, sort = False)

In [None]:
# 用 isin() 判斷成員資格
mask = obj.isin(['b', 'c'])

In [None]:
mask

### 處理缺失數據(missing data)###

In [None]:
# 以NaN標示缺失數據
s = Series(['aardradf', 'asdfasfas', np.nan, 'asdfasfasf'])
s

In [None]:
# 用 isnull()來檢驗NaN
s.isnull()

In [None]:
# None等同於 NaN
s[0] = None
s.isnull()

### 濾除缺失數據###

In [None]:
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data

In [None]:
# 用 dropna()捨棄 NA，index 並不會重新設定
data.dropna()

In [None]:
# 也可透過 boolean型索引過濾
data[data.notnull()]

In [None]:
# 對 DataFrame來說，dropna()預設捨棄任何有NA的row
df = DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA],[NA, 6.5, 3.]])
df

In [None]:
# dropna()預設捨棄任何有NA的row
df.dropna()

In [None]:
# 若傳入 how='all'，則只捨棄 所有數值皆為NA的那個row
df.dropna(how='all')

In [None]:
# 要用這種方式捨棄column，則需傳入 axis=1即可
df[3] = NA
df

In [None]:
# 傳入 axis=1，捨棄整列為NA的column
df.dropna(axis = 1, how = 'all')

In [None]:
# 使用 thresh 參數，只留下一部分觀測數據
df = DataFrame(np.random.randn(7, 3))
df

In [None]:
df.ix[:4, 1] = NA
df.ix[:2, 2] = NA
df

In [None]:
# 用 thresh 參數
df.dropna(thresh = 3)

### 填充缺失數據###

In [None]:
# 使用 fillna()來填充缺失數據
df.fillna(0)

In [None]:
# 依據字典，對不同的column填充不同的值
df.fillna({1: 0.5, 2: -1})

In [None]:
# fillna()預設傳回副本，但也可以用 inplace 參數來就地修改
df.fillna(0, inplace = True)
df

In [None]:
# 差值的方法 ffill, bfill
df = DataFrame(np.random.randn(6, 3))
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA
df

In [None]:
# 'ffill'的插值方式
df.fillna(method = 'ffill')

In [None]:
# 限制插值的次數
df.fillna(method = 'ffill', limit = 2)

In [None]:
# 用 mean 作為插入值
df.fillna(df.mean())

## 層次化索引(hierachical indexing)##

In [None]:
# 使用 MultiIndex 索引的Series的格式化輸出形式
# 可以用一維的方式來表達二維的資料，以低維度的形式來處理高維度的資料
s = Series(np.random.randn(10),
           index = [list('aaabbbccdd'),  [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
s

In [None]:
s.index

In [None]:
# 選取數據 子集合
s['b']

In [None]:
s['b':'c']

In [None]:
s.ix[['b', 'c']]

In [None]:
# 選取 內層 的數據
s[:, 2]

In [None]:
# 數據可以透過 unstack 方法被重新安排到一個 DataFrame中
s.unstack()

In [None]:
# unstack 的逆運算是 stack
s.unstack().stack()

In [None]:
# 對於一個 DataFrame，每條軸都可以有分層索引
df = DataFrame(np.arange(12).reshape((4, 3)), 
               index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]], 
               columns = [['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
df

In [None]:
# 每層的索引都可以有名字
df.index.names = ['key1', 'key2']
df.columns.names = ['state', 'color']
df

In [None]:
# 可以藉由索引來選取列分組
df['Colorado']

In [None]:
# 可以先建構好 MultiIndex 物件，再用來創建 DataFrame物件
mi = pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']], names = ['state', 'color'])
mi

### 重排分級順序###

In [None]:
# 用 swaplevel 互換級別
df.swaplevel('key1', 'key2')

In [None]:
# sortlevel 根據單一個級別中的值對數據進行排序
df.swaplevel('key1', 'key2').sortlevel(0)

In [None]:
df.swaplevel('key1', 'key2').sortlevel(1)

### 根據級別彙總統計###

In [None]:
# 設定 level 參數，用來指定對某個索引級別來操作統計函式
df.sum(level = 'key2')

In [None]:
# 對column上的索引級別來操作統計函式
df.sum(axis = 1, level = 'color')

### 使用DataFrame的列###

In [None]:
# 將 DataFrame的一個或多個列當作行索引來用，或者希望將行索引變成DataFrame的列
df = DataFrame({'a': range(7), 'b': range(7, 0, -1), 
                'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'], 
                'd': [0, 1, 2, 0, 1, 2, 3]})
df

In [None]:
# set_index() 會將其一個或多個columns轉換為 row索引，並創建一個 DataFrame
df2 = df.set_index(['c', 'd'])
df2

In [None]:
# 預設情況下，這些columns會被移除，但也可以設定 drop參數將之保留下來
df2 = df.set_index(['c', 'd'], drop = False)
df2

In [None]:
# reset_index() 會將 row方向上的多層次索引 移動到 column上
df2 = df.set_index(['c', 'd'])
df2

In [None]:
# reset_index() 會將 row方向上的多層次索引 移動到 column上
df2.reset_index()