# pandasのデータフレームにおける行と列へのアクセスまとめ
- 文責: 山本 岳洋 <t.yamamoto@sis.u-hyogo.ac.jp>
- 更新日: 2020年6月3日

pandasでデータを扱っていると，特定の行や列の情報だけを抽出したいときが頻繁にあります．　一方で， pandasにおけるデータ抽出の方法は複数の方法があり複雑怪奇です．ここではpandasのDataFrameについて，特定の行や列へアクセスする方法についてまとめておきます．混乱を招く可能性もあるので，pandasに慣れてきてからこの資料を確認すると良いでしょう．

## DataFrame = ラベル名付き2次元配列

pandas では DataFrame という形式でデータが格納されます．

In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [2]:
data = {'ID':['100','101','102','103','104'],
               'City':['Tokyo','Osaka','Kyoto','Hokkaido','Tokyo'],
               'Birth_year':[1990,1989,1992,1997,1982],
               'Name':['Hiroshi','Akiko','Yuki','Satoru','Steve']}

df = DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,ID,City,Birth_year,Name
a,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
c,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
e,104,Tokyo,1982,Steve


In [3]:
type(df) # DataFrameという型

pandas.core.frame.DataFrame

DataFrameは「行」と「列」からなる2次元のデータです．単なる2次元配列との違いは，行と列それぞれに対して「ラベル名」が付与されている点です．
たとえば，この例では'a', 'b', 'c', 'd', 'e' というラベル名が行に付与されており，
 'ID'， 'City'， 'Birth_year'， 'Name'というラベル名が列に付与されています．
「ラベル名の付いた二次元配列」，と思えば良いかもしれません．

また，各行に付与された名前のことをインデックスといいます． 一方で，各列に付与されたラベル名は単に列名と言います．
行名と列名は `.index` と `.clumns` という属性でそれぞれ確認できます．

In [4]:
df.index # 行のラベル名一覧（インデックス）

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
df.columns # 列のラベル名一覧． 

Index(['ID', 'City', 'Birth_year', 'Name'], dtype='object')

なお，インデックスを指定せずにデータフレームを作成すると，0 から始まる数字が自動的にインデックス名として割り当てられます．

In [6]:
data = {'ID':['100','101','102','103','104'],
               'City':['Tokyo','Osaka','Kyoto','Hokkaido','Tokyo'],
               'Birth_year':[1990,1989,1992,1997,1982],
               'Name':['Hiroshi','Akiko','Yuki','Satoru','Steve']}

df = DataFrame(data)
df # 一番左のインデックス名が 0 , 1, .. になっている

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


## DataFrameにアクセスする4つの方法

データフレームを扱う上で特定の行や列の要素にアクセスする方法は大きく分けると4つあります（多いですね）
1. `df[...]`のようにアクセスする方法
2. `df.列名` のようにアクセスする方法
3. `df.loc[行, 列]` のように，locという属性を通してアクセスする方法（おすすめ）
4. `df.iloc[行, 列]` のように，ilocという属性を通してアクセスする方法

それぞれ順番に見ていきましょう． この資料で使うデータをもう一度作成し，表示しておきます．

In [7]:
data = {'ID':['100','101','102','103','104'],
               'City':['Tokyo','Osaka','Kyoto','Hokkaido','Tokyo'],
               'Birth_year':[1990,1989,1992,1997,1982],
               'Name':['Hiroshi','Akiko','Yuki','Satoru','Steve']}

df = DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,ID,City,Birth_year,Name
a,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
c,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
e,104,Tokyo,1982,Steve


In [8]:
df.shape # 5行4列のデータ

(5, 4)

### 方法1. df[] でアクセスする方法
要点
- `df['列名']` で特定の列を抽出できる．結果はSeries．
- `df[['列名1' ... '列名n']]` だと，複数の列を抽出できる．結果は DaraFrame．
- `df[0:3]` のようにスライスを用いると，行に対する抽出になる．結果は DaraFrame．
  - ここでのスライスは文字列でもよい．
- `df[0]` のように数字でアクセスすると，列名に対するアクセスだと解釈されてしまう

df['列名']  のように1つの列名を用いると， その列のデータが抽出できます．

In [9]:
df['ID'] #列名が　'ID' である列だけ抽出 

a    100
b    101
c    102
d    103
e    104
Name: ID, dtype: object

また，結果はSeriesです． Seriesに対するアクセスについては本資料の一番最後に記載しています．

In [10]:
type(df['ID'])

pandas.core.series.Series

`df[['文字列1' ... '文字列n']]` のように，文字列の配列を与えると，複数の列が抽出できます．

In [11]:
df[['ID', 'Name']] #'ID' と 'Name'の列だけ抽出 

Unnamed: 0,ID,Name
a,100,Hiroshi
b,101,Akiko
c,102,Yuki
d,103,Satoru
e,104,Steve


複数列名を指定すると，結果はDataFrameとなります．

In [12]:
type(df[['ID', 'Name']])

pandas.core.frame.DataFrame

1つの列だけ抽出する場合でも，配列として与えるとDataFrameとして結果が得られます．

In [13]:
df[['ID']]

Unnamed: 0,ID
a,100
b,101
c,102
d,103
e,104


In [14]:
type(df[['ID']])

pandas.core.frame.DataFrame

さて，このように `df['列名']` や `df[['列名1', '列名n']]` では特定の列のデータを抽出できます． 

一方で，今説明したものと同じ方法では行を抽出することはできません．たとえば `df['a']` はエラーになります．

In [15]:
df['a'] #インデックスがaである行のデータが欲しい（これはエラーとなる．なぜなら 'a' というラベル名の行がないから．）

KeyError: 'a'

では`df[]`のやり方では特定の行にアクセスできないかというと，方法はあります． `df[0:2]` のように `df[]` の中身がスライスだと，列ではなく**行**に対するアクセスになります． 例を見ていきましょう． スライスについては，「Python スライス」などで検索してみてください．

In [None]:
df[0:2] # 1行目から2行目を抽出

In [None]:
df[1:4] # 2行目から4行目までを抽出

In [None]:
df[0:1] # 1行目を抽出（これも結果はDataFrame)

スライスを組み合わせれば，以下のような抽出も可能ですが，個人的には可読性の観点から個人的にはお勧めしません．後述する `.loc`を使った方が見やすいと思います．

In [None]:
df[0:2][['ID', 'City']] # 1行目から2行目を抽出し，IDとCityの列だけ抽出

なお，スライスは文字列で表現することも可能です．たとえば， インデックスの `a` から `c` に該当する行のデータが欲しければ

In [None]:
df['a':'c']

In [None]:
df['b':'d'] # インデックス 'b' から　'd'のデータが欲しい

スライスの部分を単に数字にしたり，数字の配列にしても行に対するアクセスはできません

In [None]:
# df[0] #エラー． なぜなら 0 という列名を持った列がないから

In [None]:
# df[[0,1]] #やはりエラー． なぜなら 0 や1 という列名を持った列がないから

まとめ
- 要素や配列によるアクセスは列，スライスによるアクセスは行となる
- `df['文字列']` だと，1つの列を抽出できる．また，結果はSeries．
- `df[['文字列1' ... '文字列n']]` だと，複数の列を抽出できる．結果は DaraFrame．
- `df[0:3]` のようにスライスを用いると，行を抽出できる．結果は DaraFrame．
- `df[0]` のように数字でアクセスすると，列名に対するアクセスになってしまう． 
   - `df[0]`はこれで1行目が抽出できると勘違いしてしまうことがよくあります．

### 方法2. `df.列名` のように， `.` でアクセスする方法

1つの列にだけアクセスするのであれば， `df.列名` でアクセスすることが可能です．教科書はこの記法をよく使っています．　結果はSeriesです．

In [None]:
df.City

In [None]:
df.Birth_year

### 方法3. `df.loc[行名， 列名]` のように，locという属性を通してアクセスする方法
要点
- 使い方は `df.loc[行名, 列名]`
- 行か列を省略する場合は `:` と書く．　
  - 特定の行にアクセスする場合は `df.loc[行名, :]`
  - 特定の列にアクセスする場合は `df.loc[:, 列名]`
- 行名や列名を配列やスライスとすることで，複数の行や列にアクセスできる．

In [None]:
df # 今一度 df の中身を表示

`loc`は `loc[行名, 列名]` が基本の使い方です． たとえば，  'b'という行名（つまり，インデックス）の 'City'という列名のデータが欲しければ

In [None]:
df.loc['b', 'City']

なお，この例の用に特定の要素にアクセスする場合は， at を用いることができます． 1つの要素にアクセスしたいことが分かっている場合は，locよりもatの方が高速らしいです．
- 参考: https://stackoverrun.com/ja/q/10259846

In [None]:
df.at['b', 'City']

行名や列名のところを配列とすることで，複数の行や列にアクセスできます．

In [None]:
df.loc['b', ['City', 'Birth_year']]  #'b' 行の， 'City' と 'Birth_year'列の結果だけ抽出

In [None]:
df.loc[['a', 'b'], 'City'] #'a' 行と'b'行の，'City' 列の結果だけ抽出

行と列を両者とも配列とすることもできます．結果はDataFrameとなります．

In [None]:
df.loc[['a', 'b'], ['City', 'Birth_year']] # 結果はDataFrame

また， 特定の行や列でなく，全ての行や列が欲しい場合は， `:` を用います．

In [None]:
df.loc['b', :] # bの行のデータを，全ての列抽出する

なお，　列名が `:`の時は，省略して単に 'loc[行]' とだけ書けます．

In [None]:
df.loc['b'] # b行のデータを，全ての列抽出する

In [None]:
df.loc[['a', 'b'], :] # a行とb行のデータを，全ての列抽出する

行を省略した場合の例

In [None]:
df.loc[:, 'City'] # City列だけ抽出する

In [None]:
df.loc[:, ['City', 'Birth_year']] #CityとBirth_year列だけ抽出する

また，行名や列名にはスライスを指定することも可能です．スライスを大島先生につつく用いることで，こんなアクセスもできます．

In [None]:
df.loc[:, 'City':'Name'] #CityからName列まで抽出

In [None]:
df.loc['a':'c', :] #a行からc行まで抽出

まとめ
- 使い方は df.loc[行名, 列名]
- 行か列を省略する場合は `:` をかく．　
  - 特定の行にアクセスする場合は `df.loc[行名, :]`
  - 特定の列にアクセスする場合は `df.loc[:, 列名]`
- 行名や列名を配列とすることで，複数の行や列にアクセスできる．

### 4. df.iloc[行, 列] のように，ilocという属性を通してアクセスする方法
要点
- locがラベル名でアクセスしていたのに対して，ilocは番号でアクセスする．
- そのほかはlocと一緒

`iloc` は機能としては`loc`と同じです．違いは，ilocでは数字の番号を指定します．

In [None]:
df

たとえば，ここから City（2番目の列）だけ抽出するには

In [None]:
df.iloc[:, 1] # City（2番目）の列だけ抽出． 0始まりなのに注意

In [None]:
df.iloc[0,0] #1行1列目のデータ

In [None]:
df.iloc[0, :] #1行目だけ抽出

In [None]:
df.iloc[:, 0] #1列目だけ抽出

In [None]:
df.iloc[0:3, 0:2] #スライスも使用できます

個人的にはコードの可読性が落ちるので，`loc`が使えるのであればそちらを使うべきだと思います．

まとめ
- `loc`がラベル名でアクセスしていたのに対して，`iloc`は番号でアクセスする．
- そのほかは`loc`と一緒

# Seriesに対するアクセス

最後に，Seriesに対するアクセスについても触れておきます．
DataFrameが複数の列を持っているのに対し，Seriesは1つの列だけを持ったデータです．
上でみてきたように，pandasで様々な処理をした際に，結果が1つの列であったり1つの行であったりすると，多くの場合結果はSeriesとなります．

In [None]:
df

In [None]:
s = df['ID'] # ID列だけ抽出
s #1列なので結果はSeries

In [None]:
type(s)

Seriesと単純な1次元配列との違いは，インデックス名を持っていることです．

In [None]:
s # s を表示

始めに設定した， 'a', 'b' ... 'e'というラベル名が各データに付与されていることが分かります．このラベル名を用いてそれぞれの値を抽出することができます．

また，Seriesでは`index`でインデックス名を，`values`で値を取得できます

In [None]:
s.index

In [None]:
s.values

In [None]:
type(s.values) #  値は Numpyのndarray型として格納されています

それでは， Seriesに対するデータ抽出の方法について見ていきます．  `[]`の中にインデックス名を指定することで，アクセスすることができます．

In [None]:
s['a'] # インデックス名がaに対応するデータの値

In [None]:
s[['a', 'b']] #複数指定できる．結果はSeries

また，　Seriesでは1次元配列と同様に，番号でも抽出することができます

In [None]:
s[0] # 1番目のデータ

In [None]:
s[[0, 1]] # 1番目と2番目のデータ．　結果はSeries

In [None]:
s[0:3] #スライスで抽出．　結果はSeries

In [None]:
s['a':'c'] #インデックス名のスライスも使えます．結果はSeries