# データの演算

pandasには数値データを高速にかつ効率よく演算・集計する機能が備わっています。

ここでは、数値データを乱数で生成します。乱数はNumPyの `random.randn` 関数を実行して、4行4列からなる標準正規分布に従う乱数を生成します。 `numpy` モジュールは一般的に `np` という別名でインポートされます。

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(2)
ser = pd.Series(np.random.randn(4))
df = pd.DataFrame(np.random.randn(16).reshape(4, 4), columns=list("abcd"))

In [3]:
ser

0   -0.416758
1   -0.056267
2   -2.136196
3    1.640271
dtype: float64

In [4]:
df

Unnamed: 0,a,b,c,d
0,-1.793436,-0.841747,0.502881,-1.245288
1,-1.057952,-0.909008,0.551454,2.292208
2,0.041539,-1.117925,0.539058,-0.59616
3,-0.01913,1.175001,-0.747871,0.009025


## 演算子による演算

`Series` および `DataFrame` に対して演算子による演算を行うと、すべての要素に対して演算されます。

In [5]:
ser + 10

0     9.583242
1     9.943733
2     7.863804
3    11.640271
dtype: float64

In [6]:
df ** 2

Unnamed: 0,a,b,c,d
0,3.216411,0.708539,0.25289,1.550742
1,1.119263,0.826295,0.304102,5.254218
2,0.001726,1.249757,0.290584,0.355406
3,0.000366,1.380628,0.559311,8.1e-05


`Series` と `DataFrame` 同士の演算ができます。この場合、演算対象の要素数が合致している必要があります。

In [7]:
ser + ser * 2

0   -1.250274
1   -0.168800
2   -6.408588
3    4.920812
dtype: float64

In [8]:
df / df

Unnamed: 0,a,b,c,d
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0
3,1.0,1.0,1.0,1.0


## 関数・メソッドによる演算

`Series` および `DataFrame` には関数が適用できます。

次のコードは各要素に関数を適用しています。

In [9]:
abs(ser)

0    0.416758
1    0.056267
2    2.136196
3    1.640271
dtype: float64

In [10]:
round(df)

Unnamed: 0,a,b,c,d
0,-2.0,-1.0,1.0,-1.0
1,-1.0,-1.0,1.0,2.0
2,0.0,-1.0,1.0,-1.0
3,-0.0,1.0,-1.0,0.0


`Series` および `DataFrame` には記述統計のためのメソッドが用意されています。

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th>Function</th>
      <th>Description</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>count</td>
      <td>Number of non-NA observations</td>
    </tr>
    <tr>
      <td>sum</td>
      <td>Sum of values</td>
    </tr>
    <tr>
      <td>mean</td>
      <td>Mean of values</td>
    </tr>
    <tr>
      <td>mad</td>
      <td>Mean absolute deviation</td>
    </tr>
    <tr>
      <td>median</td>
      <td>Arithmetic median of values</td>
    </tr>
    <tr>
      <td>min</td>
      <td>Minimum</td>
    </tr>
    <tr>
      <td>max</td>
      <td>Maximum</td>
    </tr>
    <tr>
      <td>mode</td>
      <td>Mode</td>
    </tr>
    <tr>
      <td>abs</td>
      <td>Absolute Value</td>
    </tr>
    <tr>
      <td>prod</td>
      <td>Product of values</td>
    </tr>
    <tr>
      <td>std</td>
      <td>Bessel-corrected sample standard deviation</td>
    </tr>
    <tr>
      <td>var</td>
      <td>Unbiased variance</td>
    </tr>
    <tr>
      <td>sem</td>
      <td>Standard error of the mean</td>
    </tr>
    <tr>
      <td>skew</td>
      <td>Sample skewness (3rd moment)</td>
    </tr>
    <tr>
      <td>kurt</td>
      <td>Sample kurtosis (4th moment)</td>
    </tr>
    <tr>
      <td>quantile</td>
      <td>Sample quantile (value at %)</td>
    </tr>
    <tr>
      <td>cumsum</td>
      <td>Cumulative sum</td>
    </tr>
    <tr>
      <td>cumprod</td>
      <td>Cumulative product</td>
    </tr>
    <tr>
      <td>cummax</td>
      <td>Cumulative maximum</td>
    </tr>
    <tr>
      <td>cummin</td>
      <td>Cumulative minimum</td>
    </tr>
  </tbody>
</table>

In [11]:
# 合計値
ser.sum()

-0.9689499618952657

In [12]:
df.sum()

a   -2.828979
b   -1.693679
c    0.845523
d    0.459785
dtype: float64

In [13]:
# 算術平均
ser.mean()

-0.24223749047381643

`apply` メソッドを実行すると、引数に渡した任意の関数を適用できます。

In [14]:
ser.apply(abs)

0    0.416758
1    0.056267
2    2.136196
3    1.640271
dtype: float64

In [15]:
df.apply(sum)

a   -2.828979
b   -1.693679
c    0.845523
d    0.459785
dtype: float64

`apply` メソッドは、デフォルトで列に対して演算を行います。行に対して演算を行うにはメソッドの引数 axis に 1 を渡します。

In [16]:
df.apply(sum, axis=1)

0   -3.377590
1    0.876702
2   -1.133487
3    0.417025
dtype: float64

In [17]:
df

Unnamed: 0,a,b,c,d
0,-1.793436,-0.841747,0.502881,-1.245288
1,-1.057952,-0.909008,0.551454,2.292208
2,0.041539,-1.117925,0.539058,-0.59616
3,-0.01913,1.175001,-0.747871,0.009025


次のように、関数を定義して適用できます。

In [18]:
def max_sub_min(x):
    return x.max() - x.min()

In [19]:
df.apply(max_sub_min)

a    1.834975
b    2.292927
c    1.299325
d    3.537496
dtype: float64