※ 本資料は [Software Design 2020年10月号](https://amzn.to/2GG9cce) に寄稿した記事の校正前の内容を抜粋しています。

[![sd202010](https://gihyo.jp/assets/images/cover/2020/thumb/TH160_642010.jpg)](https://amzn.to/2GG9cce)

\[PR\]
pandasについては [改訂版 Pythonユーザのための Jupyter［実践］入門](https://amzn.to/2U9uWQN) の第3章でより詳しく解説しています。

[![jupyterbook2](https://gihyo.jp/assets/images/cover/2020/thumb/TH160_9784297115685.jpg)](https://amzn.to/2U9uWQN)

## pandas入門

pandasはデータを容易にかつ直感的に扱えるライブラリです。pandasの2つの主要なデータ構造であるSeries（1次元のデータ）とDataFrame（2次元のデータ）は、 [numpy.ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) 型のデータにラベルが付いており、このラベルにアクセスすることで、直感的なデータ処理が行えます。

### Series型

[Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) はインデックスと呼ばれるラベルを持った同一のデータ型を持つ1次元のデータです。 ``Series`` オブジェクトを生成するには ``Series`` クラスの引数にリストやタプルなどのデータを渡します。引数 ``index`` にラベルとなるデータを渡すことで、各要素にラベルが付きます。

In [1]:
import pandas as pd

ser = pd.Series([1, 2, 3], index=["a", "b", "c"])
ser

a    1
b    2
c    3
dtype: int64

前述のとおり、``Series`` のデータ部分は ``ndarray`` です。 ``Series`` オブジェクトの ``values`` 属性を参照すると、 ``ndarray`` オブジェクトが返ります。

In [2]:
ser.values

array([1, 2, 3])

### DataFrame型

[DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) は行と列にラベルを持つ2次元のデータです。 ``DataFrame`` オブジェクトを生成するには ``DataFrame`` クラスの引数にリストやタプルなどの2次元のデータを渡します。引数 ``index`` に行ラベルとなるデータを渡すことで、各行にラベルが付き、引数 ``columns`` にデータを渡すことで各列にラベルが付きます。

In [3]:
pd.DataFrame(
    [[1, 10], [2, 20]],
    index=["r1", "r2"],
    columns=["c1", "c2"],
)

Unnamed: 0,c1,c2
r1,1,10
r2,2,20


``DataFrame`` の各列は異なるデータ型をもてます。 ``dtypes`` 属性を参照すると、各列のデータ型を確認できます。

In [4]:
diff_types_df = pd.DataFrame(
    [[0.1, 1], [0.2, 2]]
)
diff_types_df.dtypes

0    float64
1      int64
dtype: object

``Series`` と同様に ``values`` 属性を参照すると、 ``ndarray`` オブジェクトが返ります。

In [5]:
diff_types_df.values

array([[0.1, 1. ],
       [0.2, 2. ]])

列ごとにデータ型が異なる場合には ``values`` 属性は同じデータ型に変換されます。

In [6]:
diff_types_df.values.dtype

dtype('float64')

### 要素へのアクセス

``Series`` および ``DataFrame`` にはインデクサと呼ばれる仕組みがあり、インデクサを利用することでデータを効率よく抽出できます。本項では次のような ``DataFrame`` オブジェクトに対して、インデクサを利用して要素にアクセスします。

In [7]:
rc_df = pd.DataFrame(
    [
        ["r1c1", "r1c2", "r1c3"],
        ["r2r1", "r2c2", "r2c3"],
        ["r3c3", "r3c2", "r3c3"],
    ],
    index=["r1", "r2", "r3"],
    columns=["c1", "c2", "c3"]
)
rc_df

Unnamed: 0,c1,c2,c3
r1,r1c1,r1c2,r1c3
r2,r2r1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


### ラベルからアクセス(locインデクサ)

locインデクサはラベルを指定して要素を特定します。 ``Series`` の場合はインデックスのラベルを指定します。

In [8]:
ser.loc["b"]

2

 DataFrameの場合は ``.loc[行名, 列名]`` の記法で指定します。次のコードでは ``"r2"`` 行 ``"c2"`` 列のデータを参照しています。

In [9]:
rc_df.loc["r2", "c2"]

'r2c2'

次のコードのように、スライスを利用して要素の範囲を指定できます。 ``:`` はすべてのデータを指定しています。

In [10]:
rc_df.loc["r2":"r3", :]

Unnamed: 0,c1,c2,c3
r2,r2r1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


次のコードのように、リストでラベルを指定もできます。

In [11]:
rc_df.loc[["r1", "r3"], ["c1", "c3"]]

Unnamed: 0,c1,c3
r1,r1c1,r1c3
r3,r3c3,r3c3


### 位置からアクセス(ilocインデクサ)

ilocインデクサは要素の位置を指定して要素を特定します。次のコードでは ``Series`` の2番目の要素を参照しています。

In [12]:
ser.iloc[1]

2

``DataFrame`` の場合は ``.iloc[行の位置, 列の位置]`` の記法で指定します。次のコードでは2行3列目のデータを参照しています。

In [13]:
rc_df.iloc[1, 2]

'r2c3'

locインデクサのように、スライスやリストの指定ができます。

In [14]:
rc_df.iloc[1:, [0, 2]]

Unnamed: 0,c1,c3
r2,r2r1,r2c3
r3,r3c3,r3c3


### 要素の変更

データを変更する場合は要素を指定して値を代入します。次のコードではlocインデクサを利用して ``Series`` のインデックスが ``"b"`` の値を22に変更しています

In [15]:
ser.loc["b"] = 22
ser

a     1
b    22
c     3
dtype: int64

次のコードではlocインデクサを利用して ``DataFrame`` の ``"r1"`` 行 ``"c1"`` 列の値を ``"R1C1"`` に変更しています

In [16]:
rc_df.loc["r1", "c1"] = "R1C1"
rc_df

Unnamed: 0,c1,c2,c3
r1,R1C1,r1c2,r1c3
r2,r2r1,r2c2,r2c3
r3,r3c3,r3c2,r3c3


ilocを利用する場合も同様にできます。次のコードでは2行2列目の値を ``"R2C2"`` に変更しています。

In [17]:
rc_df.iloc[1, 1] = "R2C2"
rc_df

Unnamed: 0,c1,c2,c3
r1,R1C1,r1c2,r1c3
r2,r2r1,R2C2,r2c3
r3,r3c3,r3c2,r3c3


### ブロードキャスト

同様のブロードキャスト演算が行えます。本項では次の ``Series`` と ``DataFrame`` に対して演算を行います。

In [18]:
float_ser = pd.Series([1.1, 2.2, 3.3])
int_df = pd.DataFrame(
    [
        [1, 10, 100],
        [2, 20, 200],
        [3, 30, 300]
    ],
)
int_df

Unnamed: 0,0,1,2
0,1,10,100
1,2,20,200
2,3,30,300


演算子の対象に値を渡した場合には、すべてのデータに演算が適用されます。

In [19]:
float_ser + 1

0    2.1
1    3.2
2    4.3
dtype: float64

In [20]:
int_df + 1

Unnamed: 0,0,1,2
0,2,11,101
1,3,21,201
2,4,31,301


``DataFrame`` の要素と同数の要素をもつリスト型や ``Series`` と演算ができます。

In [21]:
int_df + float_ser

Unnamed: 0,0,1,2
0,2.1,12.2,103.3
1,3.1,22.2,203.3
2,4.1,32.2,303.3


### 関数の適用

``Series`` および ``DataFrame`` には任意の関数が適用できます。次のコードでは ``Series`` に対して組込みの ``round`` 関数を適用しています。 ``round`` 関数のように、単一の値（スカラ型）を引数とする関数を適用した場合には、それぞれの要素に対して関数が適用されます。

In [22]:
round(float_ser)

0    1.0
1    2.0
2    3.0
dtype: float64

In [23]:
round(int_df)

Unnamed: 0,0,1,2
0,1,10,100
1,2,20,200
2,3,30,300


次の組込みの ``sum`` 関数のように複数の値（イテラブル）を引数とする関数を適用した場合には、すべてのデータに対して関数が適用されます。

In [24]:
sum(float_ser)

6.6

In [25]:
sum(int_df)

3

次のコードのようにNumPyの関数やユーザが作成した関数も適用できます。

In [26]:
import numpy as np

np.median(float_ser)

2.2

In [27]:
def my_func(x):
    return x ** 2 + 1

In [28]:
my_func(float_ser)

0     2.21
1     5.84
2    11.89
dtype: float64

``apply`` メソッドを利用して関数を適用する方法もあります。 ``Series`` の ``apply`` メソッドに渡す関数は単一の値を引数にとる必要があります。次のコードでは ``floor`` 関数を利用して小数部を切り捨てています。

In [29]:
float_ser.apply(np.floor)

0    1.0
1    2.0
2    3.0
dtype: float64

``DataFrame`` から ``apply`` メソッドを実行すると列ごとに関数を適用します。次のコードでは各列の合計値を算出しています。

In [30]:
int_df.apply(sum)

0      6
1     60
2    600
dtype: int64

``apply`` メソッドを各行に対して適用する場合は引数 ``axis`` に1を渡します。

In [31]:
int_df.apply(sum, axis=1)

0    111
1    222
2    333
dtype: int64

### 基本統計量

``Series`` および ``DataFrame`` には統計に関連したさまざまなメソッドが用意されています。本項では連続一様分布の乱数で生成した ``Series`` と ``DataFrame`` からメソッド利用して統計に関する演算を紹介します。

In [32]:
np.random.seed(1)
random_ser = pd.Series(np.random.rand(100))
random_df = pd.DataFrame(
    np.random.rand(100, 4),
    columns=["A", "B", "C", "D"],
)

``describe`` メソッドは次の基本統計量を算出します。

- count: データ数
- mean: 平均値
- std: 標準偏差
- min,max: 最小値,最大値
- 25%,50%,75%: パーセンタイル値

次のコードは ``Series`` に対して ``describe`` メソッドを実行しています。

In [33]:
random_ser.describe()

count    100.000000
mean       0.485878
std        0.295885
min        0.000114
25%        0.209834
50%        0.470743
75%        0.721743
max        0.988861
dtype: float64

``DataFrame`` から ``describe`` メソッドを実行すると各列ごとの基本統計量を算出します。

In [34]:
random_df.describe()

Unnamed: 0,A,B,C,D
count,100.0,100.0,100.0,100.0
mean,0.512182,0.512229,0.497681,0.533416
std,0.282876,0.299402,0.30968,0.299485
min,0.013952,0.010364,0.000402,0.003018
25%,0.260161,0.264233,0.219065,0.266053
50%,0.53004,0.510404,0.533171,0.559521
75%,0.790094,0.780124,0.771148,0.79788
max,0.97474,0.997323,0.993913,0.990472


次のコードでは分散値を算出しています。ほかの統計的なメソッドについては公式ドキュメントを参照してください。

- [Series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#computations-descriptive-stats)
- [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats)

In [35]:
random_ser.var()

0.08754775517241396

In [36]:
random_df.var()

A    0.080019
B    0.089642
C    0.095902
D    0.089692
dtype: float64