# 階層型インデックス（MultiIndex）

## MultiIndexの生成

In [1]:
import pandas as pd

pd.MultiIndex.from_tuples(
    [
        ["1年", "A組"],
        ["1年", "B組"],
        ["2年", "A組"],
        ["2年", "B組"],
    ],
    names=["学年", "学級"],
)

MultiIndex([('1年', 'A組'),
            ('1年', 'B組'),
            ('2年', 'A組'),
            ('2年', 'B組')],
           names=['学年', '学級'])

In [2]:
ix = pd.MultiIndex.from_product(
    [
        ["1年", "2年", "3年"],
        ["A組", "B組", "C組"],
    ],
    names=["学年", "学級"],
)
ix

MultiIndex([('1年', 'A組'),
            ('1年', 'B組'),
            ('1年', 'C組'),
            ('2年', 'A組'),
            ('2年', 'B組'),
            ('2年', 'C組'),
            ('3年', 'A組'),
            ('3年', 'B組'),
            ('3年', 'C組')],
           names=['学年', '学級'])

In [3]:
import numpy as np

rng = np.random.default_rng(1)
ser = pd.Series(rng.integers(0, 100, size=9), index=ix)
ser

学年  学級
1年  A組    47
    B組    51
    C組    75
2年  A組    95
    B組     3
    C組    14
3年  A組    82
    B組    94
    C組    24
dtype: int64

In [4]:
pd.options.display.multi_sparse = False
ser

学年  学級
1年  A組    47
1年  B組    51
1年  C組    75
2年  A組    95
2年  B組     3
2年  C組    14
3年  A組    82
3年  B組    94
3年  C組    24
dtype: int64

In [5]:
df = pd.DataFrame(
    {
        "国語": rng.integers(0, 100, size=9),
        "数学": rng.integers(0, 100, size=9),
    },
    index=ix,
)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,A組,31,8
1年,B組,86,2
1年,C組,42,86
2年,A組,27,75
2年,B組,82,83
2年,C組,25,53
3年,A組,40,81
3年,B組,64,32
3年,C組,54,45


In [6]:
ix.names

FrozenList(['学年', '学級'])

In [7]:
ix.set_names(["grade", "class"])

MultiIndex([('1年', 'A組'),
            ('1年', 'B組'),
            ('1年', 'C組'),
            ('2年', 'A組'),
            ('2年', 'B組'),
            ('2年', 'C組'),
            ('3年', 'A組'),
            ('3年', 'B組'),
            ('3年', 'C組')],
           names=['grade', 'class'])

In [8]:
ix.get_level_values(0)
# or
ix.get_level_values("学年")

Index(['1年', '1年', '1年', '2年', '2年', '2年', '3年', '3年', '3年'], dtype='object', name='学年')

In [9]:
ix.get_level_values(1)
# or
ix.get_level_values("学級")

Index(['A組', 'B組', 'C組', 'A組', 'B組', 'C組', 'A組', 'B組', 'C組'], dtype='object', name='学級')

In [10]:
ix.set_levels(
    [
        ["1年", "2年", "3年"],
        ["1組", "2組", "3組"],
    ]
)
# or
ix.set_levels(["1組", "2組", "3組"], level=1)

MultiIndex([('1年', '1組'),
            ('1年', '2組'),
            ('1年', '3組'),
            ('2年', '1組'),
            ('2年', '2組'),
            ('2年', '3組'),
            ('3年', '1組'),
            ('3年', '2組'),
            ('3年', '3組')],
           names=['学年', '学級'])

In [11]:
df.rename({"A組": "1組", "B組": "2組", "C組": "3組"})

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,1組,31,8
1年,2組,86,2
1年,3組,42,86
2年,1組,27,75
2年,2組,82,83
2年,3組,25,53
3年,1組,40,81
3年,2組,64,32
3年,3組,54,45


In [12]:
df.rename_axis(index=["grade", "class"])

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
grade,class,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,A組,31,8
1年,B組,86,2
1年,C組,42,86
2年,A組,27,75
2年,B組,82,83
2年,C組,25,53
3年,A組,40,81
3年,B組,64,32
3年,C組,54,45


## MultiIndexをもつオブジェクトへのアクセス

In [13]:
ser.loc["1年"]

学級
A組    47
B組    51
C組    75
dtype: int64

In [14]:
df.loc["1年", :]

Unnamed: 0_level_0,国語,数学
学級,Unnamed: 1_level_1,Unnamed: 2_level_1
A組,31,8
B組,86,2
C組,42,86


In [15]:
ser.loc[("1年", "B組")]

51

In [16]:
df.loc[("1年", "B組"), :]

国語    86
数学     2
Name: (1年, B組), dtype: int64

In [17]:
ser.loc["2年":]

学年  学級
2年  A組    95
2年  B組     3
2年  C組    14
3年  A組    82
3年  B組    94
3年  C組    24
dtype: int64

In [18]:
df.loc[["1年", "3年"], :]

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,A組,31,8
1年,B組,86,2
1年,C組,42,86
3年,A組,40,81
3年,B組,64,32
3年,C組,54,45


In [19]:
ser.loc[(slice(None), slice("B組", None))]

学年  学級
1年  B組    51
1年  C組    75
2年  B組     3
2年  C組    14
3年  B組    94
3年  C組    24
dtype: int64

In [20]:
df.loc[(slice(None), slice("B組", None)), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,B組,86,2
1年,C組,42,86
2年,B組,82,83
2年,C組,25,53
3年,B組,64,32
3年,C組,54,45


In [21]:
ser.loc[
    (
        pd.IndexSlice[:],
        pd.IndexSlice["B組":],
    )
]

学年  学級
1年  B組    51
1年  C組    75
2年  B組     3
2年  C組    14
3年  B組    94
3年  C組    24
dtype: int64

In [22]:
df.loc[
    (
        pd.IndexSlice[:],
        pd.IndexSlice["B組":],
    ),
    :,
]

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,B組,86,2
1年,C組,42,86
2年,B組,82,83
2年,C組,25,53
3年,B組,64,32
3年,C組,54,45


In [23]:
df.loc[
    (
        "3年",
        pd.IndexSlice[df.loc[:, "国語"] > 50],
    ),
    :,
]

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
3年,B組,64,32
3年,C組,54,45


In [24]:
ser.loc[:, "B組":]

学年  学級
1年  B組    51
1年  C組    75
2年  B組     3
2年  C組    14
3年  B組    94
3年  C組    24
dtype: int64

In [25]:
df.loc(axis=0)[:, "B組"]

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,B組,86,2
2年,B組,82,83
3年,B組,64,32


In [26]:
ser.xs("B組", level="学級")

学年
1年    51
2年     3
3年    94
dtype: int64

In [27]:
df.xs("B組", level="学級")

Unnamed: 0_level_0,国語,数学
学年,Unnamed: 1_level_1,Unnamed: 2_level_1
1年,86,2
2年,82,83
3年,64,32


In [28]:
ser.xs(
    ("3年", "B組"),
    level=("学年", "学級"),
    axis=0,
)

学年  学級
3年  B組    94
dtype: int64

In [29]:
ser.xs("1年")

学級
A組    47
B組    51
C組    75
dtype: int64

In [30]:
df.xs(
    "B組",
    level="学級",
    axis=0,
    drop_level=False,
)

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,B組,86,2
2年,B組,82,83
3年,B組,64,32


In [31]:
pd.Series([1, 2, 3], index=["a", "a", "b"]).groupby(level=0).mean()

a    1.5
b    3.0
dtype: float64

## MultiIndexのグルーピング・アライメント

In [32]:
group_by_mean = df.groupby(level="学年").mean()
group_by_mean

Unnamed: 0_level_0,国語,数学
学年,Unnamed: 1_level_1,Unnamed: 2_level_1
1年,53.0,32.0
2年,44.666667,70.333333
3年,52.666667,52.666667


In [33]:
group_by_mean.reindex(ix, level="学年")

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,A組,53.0,32.0
1年,B組,53.0,32.0
1年,C組,53.0,32.0
2年,A組,44.666667,70.333333
2年,B組,44.666667,70.333333
2年,C組,44.666667,70.333333
3年,A組,52.666667,52.666667
3年,B組,52.666667,52.666667
3年,C組,52.666667,52.666667


In [34]:
align1, align2 = df.align(group_by_mean, level="学年")
align1

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,A組,31,8
1年,B組,86,2
1年,C組,42,86
2年,A組,27,75
2年,B組,82,83
2年,C組,25,53
3年,A組,40,81
3年,B組,64,32
3年,C組,54,45


In [35]:
align2

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学年,学級,Unnamed: 2_level_1,Unnamed: 3_level_1
1年,A組,53.0,32.0
1年,B組,53.0,32.0
1年,C組,53.0,32.0
2年,A組,44.666667,70.333333
2年,B組,44.666667,70.333333
2年,C組,44.666667,70.333333
3年,A組,52.666667,52.666667
3年,B組,52.666667,52.666667
3年,C組,52.666667,52.666667


## MultiIndexの階層の変更

In [36]:
df.swaplevel("学年", "学級")
# or
df.swaplevel()

Unnamed: 0_level_0,Unnamed: 1_level_0,国語,数学
学級,学年,Unnamed: 2_level_1,Unnamed: 3_level_1
A組,1年,31,8
B組,1年,86,2
C組,1年,42,86
A組,2年,27,75
B組,2年,82,83
C組,2年,25,53
A組,3年,40,81
B組,3年,64,32
C組,3年,54,45


In [37]:
school = pd.Series(
    [1, 2],
    index=pd.MultiIndex.from_tuples(
        [
            ["小学校", "1年", "A組"],
            ["中学校", "2年", "B組"],
        ],
        names=["学校", "学年", "学級"],
    ),
)
school

学校   学年  学級
小学校  1年  A組    1
中学校  2年  B組    2
dtype: int64

In [38]:
school.reorder_levels(["学年", "学級", "学校"])

学年  学級  学校 
1年  A組  小学校    1
2年  B組  中学校    2
dtype: int64

## MultiIndexのソート

In [39]:
grades = list(ix.get_level_values(0))
classes = list(ix.get_level_values(1))
rng.shuffle(grades)
rng.shuffle(classes)
shuffled_df = df.set_index(pd.MultiIndex.from_tuples(zip(grades, classes)))
shuffled_df

Unnamed: 0,Unnamed: 1,国語,数学
1年,A組,31,8
1年,C組,86,2
3年,A組,42,86
1年,B組,27,75
2年,A組,82,83
3年,C組,25,53
2年,B組,40,81
2年,B組,64,32
3年,C組,54,45


In [40]:
shuffled_df.sort_index()
# or
shuffled_df.sort_index(level=0)

Unnamed: 0,Unnamed: 1,国語,数学
1年,A組,31,8
1年,B組,27,75
1年,C組,86,2
2年,A組,82,83
2年,B組,40,81
2年,B組,64,32
3年,A組,42,86
3年,C組,25,53
3年,C組,54,45


In [41]:
shuffled_df.sort_index(level=1)

Unnamed: 0,Unnamed: 1,国語,数学
1年,A組,31,8
2年,A組,82,83
3年,A組,42,86
1年,B組,27,75
2年,B組,40,81
2年,B組,64,32
1年,C組,86,2
3年,C組,25,53
3年,C組,54,45
