[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/drillan/python-data-analysis/blob/main/docs/pandas/indexer.ipynb)

# インデクサ

pandasのSeriesおよびDataFrameにはインデクサと呼ばれるインデックス（ラベル）にアクセスするためのプロパティ（属性）があります。インデクサを利用することで、データを効率よく抽出したり、書き換えることができます。

.loc
: インデックス（ラベル）による指定

.iloc
: 位置（順序）による指定

.at
: インデックス（ラベル）による指定、値（単一のデータ）が対象

.iat
: 位置（順序）による指定、値（単一のデータ）が対象

## .locインデクサ

.locインデクサはデータのインデックス（ラベル）を添字に指定して、データにアクセスします。

In [1]:
import pandas as pd

ser = pd.Series(list("ABCDE"), index=list("abcde"))
ser

a    A
b    B
c    C
d    D
e    E
dtype: object

In [2]:
ser.loc["b"]

'B'

リストやタプルなどと同様にスライスによる指定ができます。.locインデクサによるスライスは **開始位置と終了位置が含まれます** 。

In [3]:
ser.loc["b":"d"]

b    B
c    C
d    D
dtype: object

In [4]:
ser.loc["c":]

c    C
d    D
e    E
dtype: object

In [5]:
ser.loc[:"c"]

a    A
b    B
c    C
dtype: object

すべての要素にアクセスする場合は、添字に `:` を渡します。

In [6]:
ser.loc[:]

a    A
b    B
c    C
d    D
e    E
dtype: object

添字にリストを渡すことで、リスト内に指定した要素にアクセスできます。

In [7]:
ser.loc[["a", "c"]]

a    A
c    C
dtype: object

### 練習問題1

`ser` オブジェクトからインデックス（ラベル）が `"a"` から `"d"` までを抽出してください。

In [8]:
# 解答セル

### 練習問題2

`ser` オブジェクトからインデックス（ラベル）が `"b"` と `"d"` を抽出してください。

DataFrameの場合は添字に `行のインデックス, 列のインデックス` の形式で指定します。

In [9]:
df = pd.DataFrame(
    [
        ["r1c1", "r1c2", "r1c3"],
        ["r2c1", "r2c2", "r2c3"],
        ["r3c1", "r3c2", "r3c3"],
    ],
    index=["r1", "r2", "r3"],
    columns=["c1", "c2", "c3"]
)
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c1,r3c2,r3c3


In [10]:
df.loc["r1", "c2"]

'r1c2'

Seriesと同様にスライスやリストを利用したアクセスができます。

In [11]:
df.loc["r2":, ["c1", "c3"]]

Unnamed: 0,c1,c3
r2,r2c1,r2c3
r3,r3c1,r3c3


### 練習問題3

`df` オブジェクトから `"r2c1"` を参照してください。

In [12]:
# 解答セル

### 練習問題4

`df` オブジェクトから「r2」以降の行と、「c1, c3」列を参照してください。

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>c1</th>
      <th>c3</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>r2</th>
      <td>r2c1</td>
      <td>r2c3</td>
    </tr>
    <tr>
      <th>r3</th>
      <td>r3c1</td>
      <td>r3c3</td>
    </tr>
  </tbody>
</table>

In [13]:
# 解答セル

## .ilocインデクサ

.ilocインデクサはデータの位置（順序）を添字に指定して、データにアクセスします。

In [14]:
ser

a    A
b    B
c    C
d    D
e    E
dtype: object

In [15]:
ser.iloc[1]

'B'

DataFrameの場合は添字に `行のインデックス, 列のインデックス` の形式で指定します。

In [16]:
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c1,r3c2,r3c3


In [17]:
df.iloc[0, 2]

'r1c3'

リストやタプルなどと同様にスライスによる指定ができます。.locインデクサとは異なり、リストやタプルと同じ挙動をします。

In [18]:
ser.iloc[2:4]

c    C
d    D
dtype: object

In [19]:
"ABCDE"[2:4]

'CD'

.locインデクサと同様に添字にリストを渡すことで、リスト内に指定した要素にアクセスできます。

In [20]:
ser.iloc[[1, 3]]

b    B
d    D
dtype: object

In [21]:
df.iloc[[0, 2], [1, 2]]

Unnamed: 0,c2,c3
r1,r1c2,r1c3
r3,r3c2,r3c3


### 練習問題5

`df` オブジェクトから `.iloc` インデクサを使って「r2」以降の行と、「c1, c3」列を参照してください。

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>c1</th>
      <th>c3</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>r2</th>
      <td>r2c1</td>
      <td>r2c3</td>
    </tr>
    <tr>
      <th>r3</th>
      <td>r3c1</td>
      <td>r3c3</td>
    </tr>
  </tbody>
</table>

In [22]:
# 解答セル

## .atインデクサ、iatインデクサ

SeriesおよびDataFrameのインデクサの添字に単なる値を指定する場合は、.locインデクサの変わりに.atインデクサ、.ilocインデクサの変わりに.iatインデクサを利用すると高速に処理できます。

In [23]:
ser.at["b"]

'B'

In [24]:
ser.iat[0]

'A'

In [25]:
df.loc["r1", "c2"]

'r1c2'

In [26]:
df.iloc[0, 2]

'r1c3'

.atインデクサおよび.iatインデクサに複数の要素（スライス、リスト）を渡すと `InvalidIndexError` や `ValueError` 例外を送出されます。

```python
>>> ser.at["a":]
InvalidIndexError: slice(1, None, None)
>>> df.iat[[0, 1], 1]
ValueError: iAt based indexing can only have integer indexers
```

## 要素の変更

インデックスに指定した要素に値を代入することで、要素が変更できます。

In [27]:
ser

a    A
b    B
c    C
d    D
e    E
dtype: object

In [28]:
ser.loc["b"] = "BB"
ser

a     A
b    BB
c     C
d     D
e     E
dtype: object

In [29]:
df.loc["r2", "c2"] = "R2C2"
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,R2C2,r2c3
r3,r3c1,r3c2,r3c3


インデックスを範囲指定した場合に値を代入した場合は、同じ値で埋められます。

In [30]:
ser.loc["b":"d"] = "BCD"
ser

a      A
b    BCD
c    BCD
d    BCD
e      E
dtype: object

In [31]:
df.loc["r2":, "c2"] = "R2C2-R3C2"
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,R2C2-R3C2,r2c3
r3,r3c1,R2C2-R3C2,r3c3


複数の要素を代入する場合は、インデックスに指定した要素数を合致させます。

In [32]:
ser.loc["b":"d"] = ["b", "c", "d"]
ser

a    A
b    b
c    c
d    d
e    E
dtype: object

In [33]:
df.loc["r2":, "c2"] = ["R2C2", "R3C2"]
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,R2C2,r2c3
r3,r3c1,R3C2,r3c3


インデックスを指定して、複数要素を代入した際に、インデックスと代入した要素数が合致しなかった場合は `ValueError` 例外が送出されます。


```python
>>> ser.loc["d":] = ["D", "E", "F"]
ValueError: cannot set using a slice indexer with a different length than the value
```

### 練習問題6

`ser` オブジェクトの値2を20に、4を40に変更してください。

In [34]:
ser = pd.Series(range(5), index=list("abcde"))
ser

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [35]:
# 解答セル

### 練習問題7

`df` オブジェクトの「c3」列の値を”C3”に変更してください。

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>c1</th>
      <th>c2</th>
      <th>c3</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>r1</th>
      <td>r1c1</td>
      <td>r1c2</td>
      <td>C3</td>
    </tr>
    <tr>
      <th>r2</th>
      <td>r2c1</td>
      <td>r2c2</td>
      <td>C3</td>
    </tr>
    <tr>
      <th>r3</th>
      <td>r3c3</td>
      <td>r3c2</td>
      <td>C3</td>
    </tr>
  </tbody>
</table>

In [36]:
df = pd.DataFrame(
    [
        ["r1c1", "r1c2", "r1c3"],
        ["r2c1", "r2c2", "r2c3"],
        ["r3c3", "r3c2", "r3c3"],
    ],
    index=["r1", "r2", "r3"],
    columns=["c1", "c2", "c3"]
)
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


In [37]:
# 解答セル

## 要素の追加

インデックスに存在しない要素に値を代入することで、要素が追加できます。

In [38]:
ser

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [39]:
ser.loc["f"] = "f"
ser

a    0
b    1
c    2
d    3
e    4
f    f
dtype: object

In [40]:
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


In [41]:
df.loc["r4", :] = ["r4c1", "r4c2", "r4c3"]
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c3,r3c2,r3c3
r4,r4c1,r4c2,r4c3


In [42]:
df.loc[:, "c4"] = ["r1c4", "r2c4", "r3c4", "r4c4"]
df

Unnamed: 0,c1,c2,c3,c4
r1,r1c1,r1c2,r1c3,r1c4
r2,r2c1,r2c2,r2c3,r2c4
r3,r3c3,r3c2,r3c3,r3c4
r4,r4c1,r4c2,r4c3,r4c4
