# NumPy

## array

このパッケージは，数値計算をする上で重要な役割を果たし，特に，行列計算に威力を発揮する。`NumPy`は「ナンパイ」と読む。

慣例として`np`として読み込む。

基本となる関数が`np.array()`であり，次のコードでは１次元配列を作る。

次に２次元配列、即ち、行列を作る。

`arr`と`mat`は`NumPy`の`ndarray`（`n`次元`array`）というデータ型（クラス）である。`[]`に囲まれた数字が並んでいるがリストとではない。従って，要素を抽出して直接リストとして扱うことはできない。そのためにはリストへの変換が必要になるが，その方法については後述する。

## １次元配列：要素の抽出

`arr`の要素を抽出するには要素のインデックスを使う。

複数の要素を抽出するにはインデックスをリストとして使う。

要素を連続で抽出するスライシング（slicing）も使うことができる。

## ２次元配列：要素の抽出

第$i$行目の第$j$列目要素にアクセスするためには`mat[i,j]`と書く。`[,]`の`,`を挟んで左が行を表し，右が列を示す。
```
[行のインデックス,列のインデックス]
```

コードはキーストロークが少なく，簡単なものが良いと考えられている。一方で，`Python`は初心者に易しい言語だと言われるが，それでも関数・メソッドの数は膨大で，そのオプションとの組み合わせを考えるとまさしく「無数」にあると言っても過言ではない。そのため初心者にとって関数の使い方やオプションの書き方を間違う可能性は小さくない。さらに，自分が書いたコードを数週間・数ヶ月後に読み直すと，何をしようとしているのか分からないという状況が生じることもある。従って，初心者にとっては以下の点が非常に重要になる。

* 間違いにくいコードの書き方を覚える。
* 高い可読性を意識したコードの書き方を覚える。

このスタンスに基づいて以下のルールに従って説明する。

1. `[,]`内の`,`を省略可能な場合であっても省略しない。
2. `[,]`内の`,`の左または右を省略できる場合であっても省略しない。

行または列を連続選択する（slicing）場合を考えよう。以下で説明するように`:`を使うが
```
start:end
```
となる。ここで`start`とは選択する要素の最初インデックスであり，`end`は選択する最後の要素の次のインデックスである（リストの場合と同じ）。上のルールに従うと，

* `,`の左または右が`:`のみの場合，「全て」という意味になる。
* `:`の左を省略すると「最初から」という意味になる。
* `:`の右を省略すると「最後まで」という意味になる。

これを読むだけでは分かりにくいと思うので，以下の例に目を通してもう一度この箇所の説明を読んむことを推奨する。

第$i$行の抽出は`mat[i,:]`で可能である。`:`は「列の全て」という意味になる。

抽出した行は上で説明した１次元配列なのでインデックスやスライシングを使って要素にアクセスすることができる。

複数の行の抽出は次の方法で可能である。

第３行目は含まれないことに注意しよう。リストの要素の取り出し方と同じように`:`の右のインデックスの行は含まれない。

**（注意）**

`,:`を省略して`mat[1:3]`と書いてもエラーは発生せず同じ結果が返されるが，`,:`があることにより，行を抽出しており列は全て選択されていることが明示的になる。


第$i$ 列目を抽出したい場合は次のコードになる。

複数列の抽出は以下のようにする。

`:`の役割を考えると以下は`mat`自体である。

## 行列計算

行列の和と差

行列のスカラー積

要素どうしの積

行列の積

転置行列

逆行列を計算するために'NumPy'の'linalg'（linear algebra, 線形代数）というサブパッケージの中にある`inv`という関数を読み込む。

## NumPy使用時によく使う属性とメソッド

以前も説明したが、メソッドとはオブジェクト特有の関数であり、オブジェクトの属性の１つである。もう１つの属性の種類にデータ属性（例えば，行数）がある。あるオブジェクトにどのような属性があるかは関数`dir()`を使うことにより確認できる。

行と列の数を確認する

属性の場合，`()`がない。一方，メソッドは`()`が必要となる。言い換えると，メソッドの`()`は「実行する」ということを意味する。

次に，抽出した行または列をリストに変換するメソッドについて説明する。

`r0`はNumPyの`ndarray`というデータ型である。これをリストに変換するために`tolist()`というメソッドを使う。

## よく使うNumPy関数

**ルート $\left(\sqrt x\right)$**

**底が$e$の指数関数（$e^x$）**

**自然対数（$\log_ex$または$\ln x$）**

**`0`が$N$個の`array`を作る。**
```
np.zeros(N)
```

**`1`（float）が$N$個の`array`を作る。**
```
np.ones(N)
```

**$a$から$b$までの区間を等間隔に割った$N$個の数字を返す。**
```
np.linspace(a,b,N)
```

**$a$から$b$までの区間で$m$ステップずつ増加し等間隔に割った数字を返す（$b$は含まない）。**

```
np.arange(a,b,m)
```
`m = 1`の場合，組み込み関数の`range(a,b)`と同じ数字を生成するが，返り値が`array`であることが異なる。

**標本平均**

`x`が数字の`array`やリストの場合

`np.mean(x)`$=\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$

**標本中央値**

`x`が数字の`array`やリストの場合

`np.median(x)`

**標本分散**

`x`が数字の`array`やリストの場合

`np.var(x, ddof=0)`$=s_x^2=\dfrac{1}{1-\text{ddof}}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2$（`ddof=0`がデフォルト）

（注意）計量経済学で習う分散の不偏推定量は`ddof=1`が必要！

**標本標準偏差**

`x`が数字の`array`やリストの場合

`np.std(x, ddof=0)`$=s_x=\sqrt{s_x^2}$  （`ddof=0`がデフォルト）

（注意）標本標準偏差の場合，必ずしも`ddof=1`により不偏推定量とはならないが，通常`ddof=1`を用いる。

**標本共分散**

2次元以上の`array`やリストの場合

`np.cov(xy, ddof=0)`$=c_{xy}=\dfrac{1}{1-\text{ddof}}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$（`ddof=0`がデフォルト）

（注意）計量経済学で習う分散の不偏推定量は`ddof=1`が必要！

下の計算結果

* $c_{xy}=-0.6$
* $s_x^2=3.5$  (\[1,2,3,4,5,6\]の分散）
* $s_y^2=4.4$  (\[1,6,2,5,3,1\]の分散）

**標本相関係数**

2次元以上の`array`やリストの場合

`np.(xy)`$=r_{xy}=\dfrac{c_{xy}}{s_x\cdot s_y}$

（注意）`ddof`の影響はない。

下の計算結果
* $r_{xy}=-0.152...$
* $r_{xx}=r_{yy}=1$

## array vs list

ここでは`list`と`NumPy`の`array`の重要な違いについて説明する。
次のリストのそれぞれの要素に`10`を足したいとしよう。

`for`ループを使うと次のようになる。

もう１つの方法として内包標記（list comprehension）がある。

どちらの方法を使ったとしても，複雑さが残る。また次のコードでは`10`を最後に追加するだけである。

より簡単なコードで実行できれば良いが，以下のコードではエラーが発生する。

---
これを実現するのが`NumPy`の`array`である。

まず`array`を作成する。

この機能はベクトル演算（Vectorization）と呼ばれ、ループを使わずに個々の要素に直接働きかけ計算している（ブロードキャスト演算と呼ばれる場合もある）。上記のコードは次の計算を行っている。

裏で`arr0`の長さに合わせて`10`を「拡張」し計算している。この機能により、より高速な計算が可能となるばかりか、より短いコードでそれを実現できる。`+`, `-`, `*`, `**` や他の関数にも同様に使うことができる。以下で例を挙げる。

次の計算も可能である。

この機能は`NumPy`の行列でも有効である。