## 階層型インデックス
複数(2 つ以上)のインデックスの階層を軸に持たせることができる機能で、 pandas の重要な機能の 1 つです。

In [13]:
import pandas as pd
import numpy as np

In [14]:
data = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],[1, 2, 3, 1, 3, 1, 2, 2, 3]])

In [15]:
data

a  1    1.100724
   2   -0.726044
   3   -1.519950
b  1   -0.611843
   3   -0.514174
c  1    1.397561
   2    0.071644
d  2   -1.283208
   3    0.448329
dtype: float64

In [19]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])

データの部分集合を簡潔に抽出できます。このよ うな参照を、俗に部分インデックス参照などと言うこともあります。例えば次の例を見てください。

階層型インデックスは、データの変形や、ピボットテーブル作成のようなグループベースの操作を行 うときに重要な役割を果たします。例えば、次のように unstack メソッドを使えば、先ほどのデータを データフレームに変形することが可能です。

In [25]:
data.unstack()

Unnamed: 0,1,2,3
a,1.100724,-0.726044,-1.51995
b,-0.611843,,-0.514174
c,1.397561,0.071644,
d,,-1.283208,0.448329


戻す場合はstack()を使います。

## データフレームの列をインデックスに使う

In [35]:
frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1), 'c': ['one', 'one', 'one', 'two', 'two','two', 'two'],'d': [0, 1, 2, 0, 1, 2, 3]})
frame2 = frame.set_index(['c', 'd'])
frame
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


# データセットの結合とマージ

## データフレームをデータベース風に結合する

複数のデータセットに含まれる行同士を、1 つ以上のキーを使ってリンクさせることで、複数のデータセットを結び付ける操作

In [37]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [50]:
df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'data2': range(3)})
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


### 内部結合

In [40]:
pd.merge(df1, df2, on='key')
# , on='key'が無くてもできます明示を推奨

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [53]:
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data1': range(7)})
df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'],'data2': range(3)})
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


### 外部結合

how オプションとして指定できる値をまとめています  
outerだと両方のそう組合せ

In [60]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,data1,key,data2
0,0.0,b,1.0
1,1.0,b,1.0
2,6.0,b,1.0
3,2.0,a,0.0
4,4.0,a,0.0
5,5.0,a,0.0
6,3.0,c,
7,,d,2.0


In [59]:
pd.merge(df1, df2, how='left' )

Unnamed: 0,data1,key,data2
0,0,b,1.0
1,1,b,1.0
2,2,a,0.0
3,3,c,
4,4,a,0.0
5,5,a,0.0
6,6,b,1.0
