# 數據整理:join, combine, reshape

## 階層式索引
    - 分類欄或列

In [1]:
import numpy as np
import pandas as pd

data = pd.Series(np.random.randn(9),
                index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                       [1, 2, 3, 1, 2, 3, 1, 2, 3]])
data
'''
Out[1]: 
a  1    0.205758
   2    0.914465
   3   -1.129890
b  1    0.841650
   2   -0.571143
c  3    0.215346
   1    0.426410
d  2    0.916470
   3   -1.792631
dtype: float64
'''

#分類化索引,方便透過分類,讓我們取得資料更方便
#標籤索引
data['b']
'''
Out[2]: 
1    0.841650
2   -0.571143
dtype: float64
'''

#標籤slice
data['b':'c']
'''
Out[3]: 
b  1    0.841650
   2   -0.571143
c  3    0.215346
   1    0.426410
dtype: float64
'''

#loc[list]
data.loc[['b', 'd']]
'''
Out[4]: 
b  1    0.841650
   2   -0.571143
d  2    0.916470
   3   -1.792631
dtype: float64
'''

#loc[外部標籤,內部標籤]
data[:,2]
'''
Out[5]: 
a    0.914465
b   -0.571143
d    0.916470
dtype: float64
'''

#階層式索引可以運用在重新塑型資料和使用群組運算
#unstack()
data.unstack()
'''
Out[6]: 
          1         2         3
a  0.205758  0.914465 -1.129890
b  0.841650 -0.571143       NaN
c  0.426410       NaN  0.215346
d       NaN  0.916470 -1.792631
'''

'\nOut[6]: \n          1         2         3\na  0.205758  0.914465 -1.129890\nb  0.841650 -0.571143       NaN\nc  0.426410       NaN  0.215346\nd       NaN  0.916470 -1.792631\n'

In [2]:
import numpy as np
import pandas as pd

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                    index=[['a','a','b','b'],[1, 2, 1, 2]],
                    columns=[['台北','台北','台中'],['Green','Red','Green']])
frame
'''
Out[7]: 
       台北        台中
    Green Red Green
a 1     0   1     2
  2     3   4     5
b 1     6   7     8
  2     9  10    11
'''

#階層式的索引可以命名
frame.index.names = ['key1', 'key2']
frame.columns.names = ['縣市','顏色']
frame
'''
Out[8]: 
縣市           台北        台中
顏色        Green Red Green
key1 key2                
a    1        0   1     2
     2        3   4     5
b    1        6   7     8
     2        9  10    11
'''

#欄位索引
frame['台北']
'''
Out[9]: 
顏色         Green  Red
key1 key2            
a    1         0    1
     2         3    4
b    1         6    7
     2         9   10
'''

#可以使用MultiIndex可以獨自建立
pd.MultiIndex.from_arrays([['台北','台北','台中'],['Green','Red','Green']],
                       names=['縣市','顏色'])
'''
Out[10]: 
MultiIndex([('台北', 'Green'),
            ('台北',   'Red'),
            ('台中', 'Green')],
           names=['縣市', '顏色'])
'''

"\nOut[10]: \nMultiIndex([('台北', 'Green'),\n            ('台北',   'Red'),\n            ('台中', 'Green')],\n           names=['縣市', '顏色'])\n"

### 安排位置和排序
- 重新安排階層位置和依內容排序

In [3]:
import numpy as np
import pandas as pd

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                    index=[['a','a','b','b'],[1, 2, 1, 2]],
                    columns=[['台北','台北','台中'],['Green','Red','Green']])
frame.index.names = ['key1', 'key2']
frame.columns.names = ['縣市','顏色']
frame
'''
Out[11]: 
縣市           台北        台中
顏色        Green Red Green
key1 key2                
a    1        0   1     2
     2        3   4     5
b    1        6   7     8
     2        9  10    11
'''

#使用swaplevel()對調索引
frame.swaplevel('key1','key2')
'''
Out[12]: 
縣市           台北        台中
顏色        Green Red Green
key2 key1                
1    a        0   1     2
2    a        3   4     5
1    b        6   7     8
2    b        9  10    11
'''
#使用sort_index(),依索引內容排序
frame.sort_index(level=0)
'''
Out[13]: 
縣市           台北        台中
顏色        Green Red Green
key1 key2                
a    1        0   1     2
     2        3   4     5
b    1        6   7     8
     2        9  10    11
'''

frame.sort_index(level=1)
'''
Out[14]: 
縣市           台北        台中
顏色        Green Red Green
key1 key2                
a    1        0   1     2
b    1        6   7     8
a    2        3   4     5
b    2        9  10    11


'''

frame.swaplevel(0,1).sort_index(level=0)
'''
Out[15]: 
縣市           台北        台中
顏色        Green Red Green
key2 key1                
1    a        0   1     2
     b        6   7     8
2    a        3   4     5
     b        9  10    11
'''

'\nOut[15]: \n縣市           台北        台中\n顏色        Green Red Green\nkey2 key1                \n1    a        0   1     2\n     b        6   7     8\n2    a        3   4     5\n     b        9  10    11\n'

### 透過level的統計

In [4]:
frame
'''
Out[16]: 
縣市           台北        台中
顏色        Green Red Green
key1 key2                
a    1        0   1     2
     2        3   4     5
b    1        6   7     8
     2        9  10    11
'''

frame.sum(level='key1')
'''
Out[17]: 
縣市      台北        台中
顏色   Green Red Green
key1                
a        3   5     7
b       15  17    19
'''

frame.sum(level='顏色', axis=1)
'''
Out[18]: 
顏色         Green  Red
key1 key2            
a    1         2    1
     2         8    4
b    1        14    7
     2        20   10
'''



'\nOut[18]: \n顏色         Green  Red\nkey1 key2            \na    1         2    1\n     2         8    4\nb    1        14    7\n     2        20   10\n'

### 將DataFrame的欄位變為索引

In [9]:
frame = pd.DataFrame({'a':range(7), 'b':range(7, 0, -1),
                     'c':['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                     'd':[0, 1, 2, 0, 1, 2, 3]})
frame
'''
Out[4]: 
   a  b    c  d
0  0  7  one  0
1  1  6  one  1
2  2  5  one  2
3  3  4  two  0
4  4  3  two  1
5  5  2  two  2
6  6  1  two  3
'''

frame2 = frame.set_index(['c' ,'d'])
frame2
'''
Out[5]: 
       a  b
c   d      
one 0  0  7
    1  1  6
    2  2  5
two 0  3  4
    1  4  3
    2  5  2
    3  6  1
'''

#使用引數名稱drop=False,保留欄位
frame.set_index(['c','d'], drop=False)
'''
Out[6]: 
       a  b    c  d
c   d              
one 0  0  7  one  0
    1  1  6  one  1
    2  2  5  one  2
two 0  3  4  two  0
    1  4  3  two  1
    2  5  2  two  2
    3  6  1  two  3
'''

#使用reset_index(),將索引變為欄位
frame2.reset_index()
'''
Out[7]: 
     c  d  a  b
0  one  0  0  7
1  one  1  1  6
2  one  2  2  5
3  two  0  3  4
4  two  1  4  3
5  two  2  5  2
6  two  3  6  1
'''

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 連接和合併資料集
- 使用下列幾種方法
    1 pandas.merge依照關鍵字增加資料集(類似關連式資料庫的join)  
    2 pandas.concat 依axis連接資料集  
    3 combine_first()實體方法可以將重疊的資料併合在一起 

### DataFrame的Join
- 2個資料集透過key(value)連結在一起

In [25]:
df1 = pd.DataFrame({'key':['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                   'data1':range(7)})
df2 = pd.DataFrame({'key':['a', 'b', 'd'],
                   'data2':range(3)})
df1
'''
Out[8]: 
  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   a      5
6   b      6
'''

df2
'''
Out[9]: 
  key  data2
0   a      0
1   b      1
2   d      2
'''

#多對1的連結
#沒有指定使用那一個欄位連結,則會以相同的欄位名當連結的依據
pd.merge(df1, df2)
'''
Out[10]: 
  key  data1  data2
0   b      0      1
1   b      1      1
2   b      6      1
3   a      2      0
4   a      4      0
5   a      5      0
'''

#有指定欄位的連結
pd.merge(df1, df2, on='key')

'''
Out[11]: 
  key  data1  data2
0   b      0      1
1   b      1      1
2   b      6      1
3   a      2      0
4   a      4      0
5   a      5      0
'''

#如果2個資料集的資料不一樣,可以指定2個資料集的欄位
df3 = pd.DataFrame({'lkey':['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                   'data1':range(7)})

df4 = pd.DataFrame({'rkey':['a', 'b', 'd'],
                   'data2':range(3)})

#inner join
pd.merge(df3, df4, left_on='lkey', right_on='rkey')
'''
Out[12]: 
  lkey  data1 rkey  data2
0    b      0    b      1
1    b      1    b      1
2    b      6    b      1
3    a      2    a      0
4    a      4    a      0
5    a      5    a      0
'''

#outer join
pd.merge(df3, df4, left_on='lkey', right_on='rkey', how='outer')
'''
Out[13]: 
  lkey  data1 rkey  data2
0    b    0.0    b    1.0
1    b    1.0    b    1.0
2    b    6.0    b    1.0
3    a    2.0    a    0.0
4    a    4.0    a    0.0
5    a    5.0    a    0.0
6    c    3.0  NaN    NaN
7  NaN    NaN    d    2.0
'''

#多對多的join
df1 = pd.DataFrame({'key':['b', 'b', 'a', 'c', 'a',  'b'],
                   'data1':range(6)})
df2 = pd.DataFrame({'key':['a', 'b', 'a', 'b', 'd'],
                   'data2':range(5)})
df1
'''
Out[14]: 
  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5
'''

df2
'''
Out[15]: 
  key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4
'''

pd.merge(df1, df2, on='key', how='left')
'''
Out[16]: 
   key  data1  data2
0    b      0    1.0
1    b      0    3.0
2    b      1    1.0
3    b      1    3.0
4    a      2    0.0
5    a      2    2.0
6    c      3    NaN
7    a      4    0.0
8    a      4    2.0
9    b      5    1.0
10   b      5    3.0
'''

#多對多的inner join,沒有的欄位將會被排除
pd.merge(df1, df2, how='inner')
'''
Out[17]: 
  key  data1  data2
0   b      0      1
1   b      0      3
2   b      1      1
3   b      1      3
4   b      5      1
5   b      5      3
6   a      2      0
7   a      2      2
8   a      4      0
9   a      4      2
'''

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,5,1
5,b,5,3
6,a,2,0
7,a,2,2
8,a,4,0
9,a,4,2


### 使用索引merge