# 要素のアクセス

本節では `Series` および `DataFrame` の要素にアクセスする方法を学びます。
ここでいう「アクセス」とは要素を参照したり、変更する操作を指します。

**本節の内容はpandasを理解する上でもっとも重要なポイントです。疑問や曖昧な点がありましたらそのままにせず、理解できるまで質問してください。**

## インデクサ

`Series` および `DataFrame` にはインデクサと呼ばれる要素にアクセスするためのプロパティ(属性)があります。
インデクサを利用することで、データを効率よく抽出したり、書き換えることができます。

インデクサ | 役割
--- | ---
loc | ラベル(インデックス)による指定
iloc | 位置(順序)による指定
at | ラベル(インデックス)による指定、値(単一のデータ)が対象
iat | ラベル(インデックス)による指定、値(単一のデータ)が対象

### locインデクサ

`loc` インデクサはデータのラベル(インデックス)を添字に指定して、データにアクセスします。

In [1]:
import pandas as pd

ser = pd.Series(range(5), index=list("abcde"))
ser

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [2]:
ser.loc["c"]

2

リストやタプルなどと同様にスライスによる指定ができます。 
`loc` によるスライスは**開始位置と終了位置が含まれます**。

In [3]:
ser.loc["b":"d"]

b    1
c    2
d    3
dtype: int64

添字にリストを渡すことで、リスト内の要素にアクセスできます。

In [4]:
ser.loc[["a", "c"]]

a    0
c    2
dtype: int64

`DataFrame` から `loc` を利用する場合は、 _行, 列_ の形式でアクセスします。

In [5]:
df = pd.DataFrame(
    [
        ["r1c1", "r1c2", "r1c3"],
        ["r2c1", "r2c2", "r2c3"],
        ["r3c3", "r3c2", "r3c3"],
    ],
    index=["r1", "r2", "r3"],
    columns=["c1", "c2", "c3"]
)
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


In [6]:
df.loc["r1", "c2"]

'r1c2'

すべての行または列にアクセスする場合は、 `:` を指定します。

In [7]:
df.loc["r1", :]

c1    r1c1
c2    r1c2
c3    r1c3
Name: r1, dtype: object

In [8]:
df.loc[:, "c1"]

r1    r1c1
r2    r2c1
r3    r3c3
Name: c1, dtype: object

In [9]:
df.loc[["r1", "r3"], ["c2", "c3"]]

Unnamed: 0,c2,c3
r1,r1c2,r1c3
r3,r3c2,r3c3


### ilocインデクサ

`iloc` インデクサはデータの位置(順序)を添字に指定して、データにアクセスします。

In [10]:
ser

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [11]:
ser.iloc[2]

2

`iloc` のスライスはリストやタプルと同様になります。

In [12]:
ser.iloc[2:4]

c    2
d    3
dtype: int64

In [13]:
df.iloc[1:, :2]

Unnamed: 0,c1,c2
r2,r2c1,r2c2
r3,r3c3,r3c2


locと同様にリストによる指定ができます。

In [14]:
ser.iloc[[2, 4]]

c    2
e    4
dtype: int64

In [15]:
df.iloc[[0, 2], [1, 2]]

Unnamed: 0,c2,c3
r1,r1c2,r1c3
r3,r3c2,r3c3


## 要素の変更

インデックスに指定した要素に値やデータ(list-like)を代入することで、要素が変更できます。

In [16]:
ser

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [17]:
ser.loc["c"] = 20
ser

a     0
b     1
c    20
d     3
e     4
dtype: int64

In [18]:
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


In [19]:
df.loc["r2", "c2"] = "R2C2"
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,R2C2,r2c3
r3,r3c3,r3c2,r3c3


In [20]:
ser.iloc[3:] = [30, 40]
ser

a     0
b     1
c    20
d    30
e    40
dtype: int64

In [21]:
df.loc["r2":, "c3"] = ["R2C3", "R3C3"]
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,R2C2,R2C3
r3,r3c3,r3c2,R3C3


複数の要素を代入する場合は要素数が合致している必要があります。

なお、複数の範囲に値を代入した場合は、同じ値で変更されます。

In [22]:
ser.iloc[3:] = 99
ser

a     0
b     1
c    20
d    99
e    99
dtype: int64

In [23]:
df.loc["r2":, "c2":] = "R2C2:R3C3"
df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2c1,R2C2:R3C3,R2C2:R3C3
r3,r3c3,R2C2:R3C3,R2C2:R3C3


## ブールインデックス

`Series` および `DataFrame` の要素に真理値(array-like)を渡すことで、Trueの条件に合致した要素にアクセスできます。

In [24]:
bool_ser = pd.Series([-3, -2, -1, 0, 1, 2, 3], index=list("abcdefg"))
bool_ser

a   -3
b   -2
c   -1
d    0
e    1
f    2
g    3
dtype: int64

In [25]:
bool_df = pd.DataFrame(
    [
        [-3, 2, 0],
        [1, -1, -2],
        [-4, 4, 3],
    ],
    index=list("abc"),
    columns=list("ABC")
)
bool_df

Unnamed: 0,A,B,C
a,-3,2,0
b,1,-1,-2
c,-4,4,3


In [26]:
bool_ser[[True, False, False, True, True, False, True]]

a   -3
d    0
e    1
g    3
dtype: int64

In [27]:
bool_df.loc[[True, True, False], [True, False, False]]

Unnamed: 0,A
a,-3
b,1


`Series` および `DataFrame` に比較演算をすることにより、真理値が返ります。

In [28]:
bool_ser

a   -3
b   -2
c   -1
d    0
e    1
f    2
g    3
dtype: int64

In [29]:
bool_ser > 0

a    False
b    False
c    False
d    False
e     True
f     True
g     True
dtype: bool

比較演算から得た真理値を指定することで、条件に合致したデータを抽出できます。

In [30]:
bool_ser.loc[bool_ser > 0]

e    1
f    2
g    3
dtype: int64

In [31]:
bool_df

Unnamed: 0,A,B,C
a,-3,2,0
b,1,-1,-2
c,-4,4,3


In [32]:
# B列の値が0より小さい
bool_df.loc[:, "B"] < 0

a    False
b     True
c    False
Name: B, dtype: bool

In [33]:
bool_df.loc[bool_df.loc[:, "B"] < 0, :]

Unnamed: 0,A,B,C
b,1,-1,-2


複数の条件を設定する場合には`()`で括ります。And条件は `&` 演算子、Or条件は `|` 演算子を使います。

In [34]:
bool_ser.loc[(bool_ser > 1) | (bool_ser < -2)]

a   -3
f    2
g    3
dtype: int64