# a.10 マルチインデックス

ここでは複数のレベルをもつインデックスについて扱う。

---
## 1. 基本
## 2. 選択
## 3. インデックスの操作
---

In [1]:
import numpy as np
import pandas as pd

---
# 1.　基本

### 入力データ
groupbyした結果はグループに指定した2つの列(key1,key2)が行のmulti-indexとなり、
agg()メソッドで数値列(v1,v2)と統計量(sum, mean, min)が列のmulti-indexを構成する。
multi-indexは階層になっており、行indexでは、key1が外側、key2が内側に表示され、外側が階層の上位となっている。
また、printで表示すると外側の階層は、冗長な値の繰り返しが省略表示されるのがわかる。

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
     'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
     'v1':[1, 2, 3, 4, 5, 6, 7, 8],
     'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
)
d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>入力</th><th>出力</th><th>備考</th></tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.index)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-1data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-1.png"></td>
<td>
indexの内容を見ると、multi-indexは('A', 'X')のようにtuppleであることがわかる。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.columns)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-2data.png"></td>
<td><img width="80%" src="./figures/multiindex/multiindex1-2.png"></td>
<td>
列のindexについては、'index'を'columns'に変えるだけでよい。ここではcolumnsに特有の解説が必要なとき以外は行indexでのみ解説する。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.reset_index())
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-3data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-3.png"></td>
<td>
reset_index()でindexを列としたデータに変換できる。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.index.get_level_values(1))
</pre></td>
<td><img width="80%" src="./figures/multiindex/multiindex1-4data.png"></td>
<td>Index(['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Z'], dtype='object', name='key2')</td>
<td>
それぞれのレベルのindex列を取り出したければget_level_values(level)を使う。
levelは外側(上位)から0,1,2,...となる。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.index.levels)
</pre></td>
<td><img width="80%" src="./figures/multiindex/multiindex1-5data.png"></td>
<td>[['A', 'B', 'C'], ['X', 'Y', 'Z']]</td>
<td>
index.levelsでindexを構成する値集合が確認できる。
</td>
</tr>
  
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd = dd.rename_axis(['k1', 'k2'])
dd = dd.rename_axis(['var', 'stats'], axis=1)
print(dd)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-6data.png"></td>
<td><img width="80%" src="./figures/multiindex/multiindex1-6.png"></td>
<td>
行,列インデックスの名前を変更する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd = dd.rename(index={'B': 'BB', 'C':'CC'}, columns={'mean':'avg'})
print(dd)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex1-7data.png"></td>
<td><img width="80%" src="./figures/multiindex/multiindex1-7.png"></td>
<td>
indexの値を変更する。
行indexのBをBB、CをCCに、列indexのmeanをavgに変更している。
違うlevelの階層に同じ名前があれば、全てが変更対象となることに注意する。
特定のlevelのみ変更したい時はlevel=0のように、変更したいレベルの番号を指定すればよい。
</td>
</tr>

</tbody>
</table>

In [2]:

print('''
# 入力データ
# groupbyした結果はグループに指定した2つの列(key1,key2)が行のmulti-indexとなり、
# agg()メソッドで数値列(v1,v2)と統計量(sum, mean, min)が列のmulti-indexを構成する。
# multi-indexは階層になっており、行indexでは、key1が外側、key2が内側に表示され、外側が階層の上位となっている。
# また、printで表示すると外側の階層は、冗長な値の繰り返しが省略表示されるのがわかる。
>>> d = pd.DataFrame(
        {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
         'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
         'v1':[1, 2, 3, 4, 5, 6, 7, 8],
         'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
    )
>>> d = d.groupby(['key1', 'key2']).agg(['sum', 'mean', 'min'])
>>> print(d)''')
d = pd.DataFrame(
    {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
     'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
     'v1':[1, 2, 3, 4, 5, 6, 7, 8],
     'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
)
d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
print(d)

print('''
# no.1-1
# indexの内容を見ると、multi-indexは('A', 'X')のようにtuppleであることがわかる。
>>> print(d.index)''')
print(d.index)

print('''
# no.1-2
# 列のindexについては、'index'を'columns'に変えるだけでよい。
# 以下、ではcolumnsに特有の解説が必要なとき以外は行indexでのみ解説する。
>>> print(d.columns)''')
print(d.columns)

print('''
# no.1-3
# reset_index()でindexを列としたデータに変換できる。
>>> print(d.reset_index)''')
print(d.reset_index())

print('''
# no.1-4
# それぞれのレベルのindex列を取り出したければget_level_values(level)を使う。
# levelは外側(上位)から0,1,2,...となる。
>>> print(d.index.get_level_values(1))
\n''')
print(d.index.get_level_values(1))

print('''
# no.1-5
# index.levelsでindexを構成する値集合が確認できる。
>>> print(d.index.levels)''')
print(d.index.levels)

print('''
# no.1-6
# 行,列インデックスの名前を変更する。
>>> dd = d.copy()
>>> dd = dd.rename_axis(['k1', 'k2'])
>>> dd = dd.rename_axis(['var', 'stats'], axis=1)
>>> print(dd)''')
dd = d.copy()
dd = dd.rename_axis(['k1', 'k2'])
dd = dd.rename_axis(['var', 'stats'], axis=1)
print(dd)

print('''
# no.1-7
# indexの値を変更する。
# 行indexのBをBB、CをCCに、列indexのmeanをavgに変更している。
# 違うlevelの階層に同じ名前があれば、全てが変更対象となることに注意する。
# 特定のlevelのみ変更したい時はlevel=0のように、変更したいレベルの番号を指定すればよい。
>>> dd = d.copy()
>>> dd = dd.rename(index={'B': 'BB', 'C':'CC'}, columns={'mean':'avg'})
>>> print(dd)''')
dd = d.copy()
dd = dd.rename(index={'B': 'BB', 'C':'CC'}, columns={'mean':'avg'})
print(dd)



# 入力データ
# groupbyした結果はグループに指定した2つの列(key1,key2)が行のmulti-indexとなり、
# agg()メソッドで数値列(v1,v2)と統計量(sum, mean, min)が列のmulti-indexを構成する。
# multi-indexは階層になっており、行indexでは、key1が外側、key2が内側に表示され、外側が階層の上位となっている。
# また、printで表示すると外側の階層は、冗長な値の繰り返しが省略表示されるのがわかる。
>>> d = pd.DataFrame(
        {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
         'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
         'v1':[1, 2, 3, 4, 5, 6, 7, 8],
         'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
    )
>>> d = d.groupby(['key1', 'key2']).agg(['sum', 'mean', 'min'])
>>> print(d)
           v1           v2         
          sum mean min sum mean min
key1 key2                          
A    X      1  1.0   1   2  2.0   2
     Y      2  2.0   2   1  1.0   1
     Z      3  3.0   3   0  0.0   0
B    X      4  4.0   4   1  1.0   1
     Y     11  5.5   5   5  2.5   2
C    Y      7  7.0   7   2  2.0   2
     Z      8  8.0   8   0  0.0   0

# no.1-1
# indexの内容を見ると、multi-indexは('A', 'X')のようにtuppleであることがわかる。
>>> print(d.index)
MultiIn

---
# 2.　選択

### 入力データ
<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
     'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
     'v1':[1, 2, 3, 4, 5, 6, 7, 8],
     'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
)
d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>入力</th><th>出力</th><th>備考</th></tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc[[('A', 'Y'), ('B', 'Y')]])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-1data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-1.png"></td>
<td>
ラベル名で行を選択する場合は、<b>loc[]にtuppleリスト</b>を指定すれば良い。d.loc[]でなくd[]は使えない。なぜなら[]演算子に文字列リストを与えると列名と解釈されるから。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d[[('v1', 'sum'), ('v2', 'min')]])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-2data.png"></td>
<td><img width="80%" src="./figures/multiindex/multiindex2-2.png"></td>
<td>
列の選択であればd[]は使える。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc[[('A', 'Y'),('B', 'Y')], [('v1', 'sum'), ('v2', 'min')]])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-3data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex2-3.png"></td>
<td>
loc[]で行と列を同時に選択するのも基本はsingle-indexと同じ。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc['A', 'v2'])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-4data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex2-4.png"></td>
<td>
それぞれのレベルのindex列を取り出したければ<b>get_level_values(level)</b>を使う。levelは外側(上位)から0,1,2,...となる。
</td>
</tr>
　
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d[:2])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-5data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-5.png"></td>
<td>
整数のスライシングはsingle-indexの場合と同様。0行目から2行目未満(すなわち1行目)まで選択。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc[('A', 'Z'):('B', 'Y')])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-6data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-6.png"></td>
<td>
ラベルによるスライシングはtupleで指定する。(A,Z)行から(B,Y)行までを選択する。
ラベルによるスライシングは、整数スライシングと違い範囲の終端を含むことに注意する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc[('A', 'Y'):'B'])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-7data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-7.png"></td>
<td>
レベルを省略すると最上位レベルのindexとして扱われる。(A,Z)からBまでを選択する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-8</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc[(['A', 'C'], ['Y', 'Z']), :])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-8data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-8.png"></td>
<td>
tuppleにlistを与えれば、tupple内の位置がレベルに対応し、それぞれのレベルのインデックスから選択する値を複数指定できる。
ただし、tuppleの後に",:"を入れることで、2つめのlist['Y','Z']がcolumns条件と解釈されるのを防いでいる。
key1がA,Cでkey2がY,Zの行を選択する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-9</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc[(slice(None), ['Y', 'Z']), :])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-9data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-9.png"></td>
<td>
下位レベルのみ指定したければ、上位にslice(None)を用いる。
slice(None)は全ての値にマッチするスライサである。
key2がY,Zの行を選択する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-10</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.loc(axis=0)['A':'B', ['Y', 'Z']])
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-10data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex2-10.png"></td>
<td>
locにaxis=0を指定すると、スライサの適用を行のみに限定できるので、より自然なスライシングが可能となる。
key1がAからBまでで、key2がY,Zの行を選択する。
slice(None)でなく単に : を書けば全選択となる。
</td>
</tr>

</tbody>
</table>

In [3]:
print('''
# 入力データ(再掲)
>>> d = pd.DataFrame(
        {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
         'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
         'v1':[1, 2, 3, 4, 5, 6, 7, 8],
         'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
    )
>>> d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
>>> print(d)''')
d = pd.DataFrame(
    {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
     'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
     'v1':[1, 2, 3, 4, 5, 6, 7, 8],
     'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
)
d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
print(d)

print('''
# no.2-1
# ラベル名で行を選択する場合は、loc[]にtuppleリストを指定すれば良い。
# d.loc[]でなくd[]は使えない。
# なぜなら[]演算子に文字列リストを与えると列名と解釈されるから。
>>> print(d.loc[[('A', 'Y'), ('B', 'Y')]])''')  # tuppleのlist
print(d.loc[[('A', 'Y'), ('B', 'Y')]])

print('''
# no.2-2
# 列の選択であればd[]は使える。
>>> print(d[[('v1', 'sum'), ('v2', 'min')]]) ''')
print(d[[('v1', 'sum'), ('v2', 'min')]])

print('''
# no.2-3
# loc[]で行と列を同時に選択するのも基本はsingle-indexと同じ。
>>> print(d.loc[[('A', 'Y'),('B', 'Y')], [('v1', 'sum'), ('v2', 'min')]])''')
print(d.loc[[('A', 'Y'),('B', 'Y')], [('v1', 'sum'), ('v2', 'min')]])

print('''
# no.2-4
# 単一の値を指定すると最上位のindexの条件と解釈され、そのindexは出力からは削除される。
# key1がAの行のみを選択し、key1のindexはなくなりkey2のindexのみ残る。
# 同様に、列の上位のindexがv2の列を選択し、上位のindexはなくなる。
>>> print(d.loc['A', 'v2'])''')
print(d.loc['A', 'v2'])

print('''
# no.2-5
# 整数のスライシングはsingle-indexの場合と同様。
# 0行目から2行目未満(すなわち1行目)まで選択。
>>> print(d[:2])''')
print(d[:2])

print('''
# no.2-6
# ラベルによるスライシングはtupleで指定する。
# (A,Z)行から(B,Y)行までを選択する。
# ラベルによるスライシングは、整数スライシングと違い範囲の終端を含むことに注意する。
>>> print(d.loc[('A', 'Z'):('B', 'Y')])''')
print(d.loc[('A', 'Z'):('B', 'Y')])

print('''
# no.2-7
# レベルを省略すると最上位レベルのindexとして扱われる。
# (A,Y)からBまでを選択する。
>>> print(d.loc[('A', 'Y'):'B'])''')
print(d.loc[('A', 'Y'):'B'])

print('''
# no.2-8
# tuppleにlistを与えれば、tupple内の位置がレベルに対応し、それぞれのレベルのインデックスから選択する値を複数指定できる。
# ただし、tuppleの後に",:"を入れることで、2つめのlist['Y','Z']がcolumns条件と解釈されるのを防いでいる。
# key1がA,Cでkey2がY,Zの行を選択する。
>>> print(d.loc[(['A', 'C'], ['Y', 'Z']), :])  # listのtupple''')
print(d.loc[(['A', 'C'], ['Y', 'Z']), :])  # listのtupple

print('''
# no.2-9
# 下位レベルのみ指定したければ、上位にslice(None)を用いる。
# slice(None)は全ての値にマッチするスライサである。
# key2がY,Zの行を選択する。
>>> print(d.loc[(slice(None), ['Y', 'Z']), ])''')
print(d.loc[(slice(None), ['Y', 'Z']), :])

print('''
# no.2-10
# locにaxis=0を指定すると、スライサの適用を行のみに限定できるので、
# より自然なスライシングが可能となる。
# key1がAからBまでで、key2がY,Zの行を選択する。
# slice(None)でなく単に : を書けば全選択となる。
>>> print(d.loc(axis=0)['A':'B', ['Y', 'Z']])''')
print(d.loc(axis=0)['A':'B', ['Y', 'Z']])



# 入力データ(再掲)
>>> d = pd.DataFrame(
        {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'],
         'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
         'v1':[1, 2, 3, 4, 5, 6, 7, 8],
         'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
    )
>>> d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
>>> print(d)
           v1           v2         
          sum mean min sum mean min
key1 key2                          
A    X      1  1.0   1   2  2.0   2
     Y      2  2.0   2   1  1.0   1
     Z      3  3.0   3   0  0.0   0
B    X      4  4.0   4   1  1.0   1
     Y     11  5.5   5   5  2.5   2
C    Y      7  7.0   7   2  2.0   2
     Z      8  8.0   8   0  0.0   0

# no.2-1
# ラベル名で行を選択する場合は、loc[]にtuppleリストを指定すれば良い。
# d.loc[]でなくd[]は使えない。
# なぜなら[]演算子に文字列リストを与えると列名と解釈されるから。
>>> print(d.loc[[('A', 'Y'), ('B', 'Y')]])
           v1           v2         
          sum mean min sum mean min
key1 key2                          
A    Y      2  2.0   2   1  1.0   1
B    Y     11  5.5   5   5  2.5

---
# 3. インデックスの操作
### 入力データ
<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'], 
     'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
     'v1':[1, 2, 3, 4, 5, 6, 7, 8], 
     'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
)
d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>入力</th><th>出力</th><th>備考</th></tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.index = dd.index.swaplevel(0, 1)
print(dd)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-1data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-1.png"></td>
<td>
レベル（階層）の順番を変更する。
第一引数と第二引数に列名またはレベル値を指定すると、ふたつのレベル（階層）が交換される。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.index = dd.index.reorder_levels([1, 0])
print(dd)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-2data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-2.png"></td>
<td>
swaplevelメソッドを一般化して階層的インデックスのレベルを再設定する。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.index = dd.index.droplevel(0)
print(dd)
</pre></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-3data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-3.png"></td>
<td>
インデックスの一部を削除する。
ここでは行ラベルの0番目(key1)を削除している。
droplevel('key1')のようにindexの名前で指定することも可能
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.sort_index(ascending=False)
print(dd)
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-4data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-4.png"></td>
<td>
インデックスを並べ替える。以下では降順に並べ替えている。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.sort_index(level='key2')
print(dd)
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-5data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-5.png"></td>
<td>
インデックスkey2だけで並べ替える。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.columns = dd.columns.swaplevel(0, 1)
dd = dd.sort_index(axis=1, ascending=False)
print(dd)
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-6data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-6.png"></td>
<td>
列のインデックスのレベルを入れ替えて、降順に並べ替える。
</td>
</tr>
  
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.T
print(dd)
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-7data.png"></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-7.png"></td>
<td>
転置すると、行と列のインデックスが総入れ替えになる。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-8</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.groupby(level=0).sum().groupby(level=0, axis=1).mean()
print(dd)
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-8data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-8.png"></td>
<td>
インデックスをキーにしたgroupbyの例。
行インデックスkey1(level=0)別に値を合計し、その結果に対してlevel=0の列インデックス別に平均を計算する。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-9</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.groupby(level=1).sum().groupby(level=1, axis=1).mean()
print(dd)
</pre></td>
<td><img width="100%" src="./figures/multiindex/multiindex3-9data.png"></td>
<td><img width="90%" src="./figures/multiindex/multiindex3-9.png"></td>
<td>
行インデックスkey2(level=1)別に値を合計し、その結果に対してlevel=1の列インデックス別に平均を計算する。
</td>
</tr>
 
</tbody>
</table>

In [4]:
print('''
# 入力データ(再掲)
>>> d = pd.DataFrame(
        {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'], 
         'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
         'v1':[1, 2, 3, 4, 5, 6, 7, 8], 
         'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
    )
>>> d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
>>> print(d)''')

d = pd.DataFrame(
    {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'], 
     'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
     'v1':[1, 2, 3, 4, 5, 6, 7, 8], 
     'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
)
d = d.groupby(['key1', 'key2']).agg(['sum', 'mean', 'min'])
print(d)


print('''
# no.3-1
# レベル（階層）の順番を変更する。
# 第一引数と第二引数に列名またはレベル値を指定すると、ふたつのレベル（階層）が交換される。
>>> dd = d.copy()
>>> dd.index = dd.index.swaplevel(0, 1)
>>> print(dd)''')
dd = d.copy()
dd.index = dd.index.swaplevel(0, 1)
print(dd)

print('''
# no.3-2
# swaplevelメソッドを一般化して階層的インデックスのレベルを再設定する。
>>> dd = d.copy()
>>> dd.index = dd.index.reorder_levels([1, 0])
>>> print(dd)''')
dd = d.copy()
dd.index = dd.index.reorder_levels([1, 0])
print(dd)

print('''
# no.3-3
# インデックスの一部を削除する。
# ここでは行ラベルの0番目(key1)を削除している。
# droplevel('key1')のようにindexの名前で指定することも可能
>>> dd = d.copy()
>>> dd.index = dd.index.droplevel(0)
>>> print(dd)''')
dd = d.copy()
dd.index = dd.index.droplevel(0)
print(dd)

print('''
# no.3-4
# インデックスを並べ替える。以下では降順に並べ替えている。
>>> dd = d.sort_index(ascending=False)
>>> print(dd)''')
dd = d.sort_index(ascending=False)
print(dd)

print('''
# no.3-5
# インデックスkey2だけで並べ替える。
>>> dd = d.sort_index(level='key2')
>>> print(dd)''')
dd = dd.sort_index(level='key2')
print(dd)

print('''
# no.3-6
# 列のインデックスのレベルを入れ替えて、降順に並べ替える。
>>> dd = d.copy()
>>> dd.columns = dd.columns.swaplevel(0, 1)
>>> dd = dd.sort_index(axis=1, ascending=False)
>>> print(dd)''')
dd = d.copy()
dd.columns = dd.columns.swaplevel(0, 1)
dd = dd.sort_index(axis=1, ascending=False)
print(dd)

print('''
# no.3-7
# 転置すると、行と列のインデックスが総入れ替えになる。
>>> dd = d.T
>>> print(dd)''')
dd = d.T
print(dd)

print('''
# no.3-8
# インデックスをキーにしたgroupbyの例。
# 行インデックスkey1(level=0)別に値を合計し、その結果に対してlevel=0の列インデックス別に平均を計算する。
>>> dd = d.groupby(level=0).sum().groupby(level=0, axis=1).mean()
>>> print(dd)''')
dd = d.groupby(level=0).sum().groupby(level=0, axis=1).mean()
print(dd)

print('''
# no.3-9
# 行インデックスkey2(level=1)別に値を合計し、その結果に対してlevel=1の列インデックス別に平均を計算する。
>>> dd = d.groupby(level=1).sum().groupby(level=1, axis=1).mean()
>>> print(dd)''')
dd = d.groupby(level=1).sum().groupby(level=1, axis=1).mean()
print(dd)



# 入力データ(再掲)
>>> d = pd.DataFrame(
        {'key1':['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'], 
         'key2':['X', 'Y', 'Z', 'X', 'Y', 'Y', 'Y', 'Z'],
         'v1':[1, 2, 3, 4, 5, 6, 7, 8], 
         'v2':[2, 1, 0, 1, 2, 3, 2, 0]}
    )
>>> d = d.groupby(['key1','key2']).agg(['sum', 'mean', 'min'])
>>> print(d)
           v1           v2         
          sum mean min sum mean min
key1 key2                          
A    X      1  1.0   1   2  2.0   2
     Y      2  2.0   2   1  1.0   1
     Z      3  3.0   3   0  0.0   0
B    X      4  4.0   4   1  1.0   1
     Y     11  5.5   5   5  2.5   2
C    Y      7  7.0   7   2  2.0   2
     Z      8  8.0   8   0  0.0   0

# no.3-1
# レベル（階層）の順番を変更する。
# 第一引数と第二引数に列名またはレベル値を指定すると、ふたつのレベル（階層）が交換される。
>>> dd = d.copy()
>>> dd.index = dd.index.swaplevel(0, 1)
>>> print(dd)
           v1           v2         
          sum mean min sum mean min
key2 key1                          
X    A      1  1.0   1   2  2.0   2
Y    A      2  2.0   2   1  1.0  