<a href="https://colab.research.google.com/github/4060E009/AI_and_security/blob/master/%E5%88%86%E5%B1%A4%E7%B4%A2%E5%BC%952020_11_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Join, Combine, and Reshape**

8.1中的操作名

join：连接

combine：合并

reshape：整形

8.2中的操作名

merge：归并

concatenate：串联

8.3中的操作名

pivot：旋转

stack：堆叠

# **8.1 Hierarchical Indexing**

**Hierarchical Indexing是pandas中一個重要的特性，能讓我們在一個軸（axis）上有多個index levels（索引層級）。它可以讓我們在低維格式下處理高維數據。這里給出一個簡單的例子，構建一個series，其index是a list of lists**

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]])

In [3]:
data

a  1   -0.307182
   2   -0.605140
   3   -1.472254
b  1    0.061911
   3    0.671126
c  1   -0.370790
   2    0.038295
d  2   -1.935946
   3   -0.197977
dtype: float64

**我們看到的是把MultiIndex作為index(索引)的，美化過後series。**

In [4]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

**對於這種分層索引對象，partial indexing（部分索引）也是能做到的，這種方法可以讓我們簡潔地選中數據的一部分**

In [5]:
data['b']

1    0.061911
3    0.671126
dtype: float64

In [6]:
data['b': 'c']

b  1    0.061911
   3    0.671126
c  1   -0.370790
   2    0.038295
dtype: float64

In [7]:
data.loc[['b', 'd']]

b  1    0.061911
   3    0.671126
d  2   -1.935946
   3   -0.197977
dtype: float64

**selection（選中）對於一個內部層級（inner level）也是可能的**

In [8]:
data.loc[:, 2]

a   -0.605140
c    0.038295
d   -1.935946
dtype: float64

**分層索引的作用是改變數據的形狀，以及做一些基於組的操作（group-based）比如做一個數據透視表（pivot table）。例子，我們可以用unstack來把數據進行重新排列，產生一個DataFrame**

In [9]:
data.unstack()

Unnamed: 0,1,2,3
a,-0.307182,-0.60514,-1.472254
b,0.061911,,0.671126
c,-0.37079,0.038295,
d,,-1.935946,-0.197977


**相反的操作是stack**

In [10]:
data.unstack().stack()

a  1   -0.307182
   2   -0.605140
   3   -1.472254
b  1    0.061911
   3    0.671126
c  1   -0.370790
   2    0.038295
d  2   -1.935946
   3   -0.197977
dtype: float64

**對於dataframe，任何一個axis(軸)都可以有一個分層索引**

In [11]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],
                              ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


**每一層級都可以有一個名字（字符串或任何python對象）。如果有的話，這些會顯示在輸出中**

In [13]:
frame.index.names = ['key1', 'key2']

In [14]:
frame.columns.names = ['state', 'color']

In [15]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


**這里我們要注意區分行標簽(row label)中索引的名字'state'和'color'。**

**如果想要選中部分列(partial column indexing)的話，可以選中一組列（groups of columns)**

In [16]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


**MultiIndex能被同名函数创建，而且可以重复被使用；在DataFrame中给列创建层级名可以通过以下方式**

In [17]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                      names=['state', 'color'])

MultiIndex([(    'Ohio', 'Green'),
            (    'Ohio',   'Red'),
            ('Colorado', 'Green')],
           names=['state', 'color'])

# ** Reordering and Sorting Levels**

**有時候我們需要在一個axis（軸）上按層級進行排序，或者在一個層級上，根據值來進行排序。swaplevel會取兩個層級編號或者名字，並返回一個層級改變後的新對象（數據本身並不會被改變**

In [18]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


**sort_index則是在一個層級上，按數值進行排序。比如在交換層級的時候，通常也會使用sort_index，來讓結果按指示的層級進行排序）**

In [19]:
frame.sort_index(level=1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [20]:
frame.sort_index(level='color') 
frame.sort_index(level='state') 
# 这两个语句都会报错

KeyError: ignored

**（按照我的理解，level指的是key1和key2，key1是level=0，key2是level=1。可以看到下面的結果和上面是一樣的）**

In [21]:
frame.sort_index(level='key2') 

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [22]:
frame.swaplevel(0, 1).sort_index(level=0) # 把key1余key2交換後，按key2來排序

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


**如果index是按詞典順序那種方式來排列的話（比如從外層到內層按a,b,c這樣的順序），在這種多層級的index對象上，數據選擇的效果會更好一些。這是我們調用sort_index(level=0) or sort_index()**

# **Summary Statistics by Leve**l

**在DataFrame和Series中，一些描述和歸納統計數據都是有一個level選項的，這里我們可以指定在某個axis下，按某個level（層級）來匯總。比如上面的DataFrame，我們可以按 行 或 列的層級來進行匯總**

In [23]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [24]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


# ** Indexing with a DataFrame’s columns**

**把DataFrame里的一列或多列作為行索引（row index）是一件很常見的事；另外，我們可能還希望把行索引變為列。這里有一個例子**

In [25]:
frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1),
                      'c': ['one', 'one', 'one', 'two', 'two',
                            'two', 'two'],
                      'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


**DataFrame的set_index會把列作為索引，並創建一個新的DataFrame**

In [26]:
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


**默認刪除原先的列，當然我們也可以留著**

In [27]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


**另一方面，reset_index的功能與set_index相反，它會把多層級索引變為列**

In [28]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1
