# NumPy 入門/Introduction to NumPy

* Python で数値計算を高速に行うためのライブラリである NumPy の使い方を学びます.

* 重回帰分析を行うアルゴリズムをNumPy を用いて実装します.

* NumPy による多次元配列（multidimensional array）の扱い方を知ることは, 他の様々なライブラリを利用する際に役立ちます.

* Use NumPy, a library for fast numerical computations in Python.

* Implement an algorithm to perform multiple regression analysis using NumPy.

* Knowing how NumPy handles multidimensional arrays is helpful when using various other libraries.

## NumPy を使う準備/Preparing to use NumPy

* NumPy は Google Colaboratory上のノートブックにはデフォルトでインストールされていますので, インストールは不要です.

* Colab 上ではインストール作業は必要ないものの, ノートブックを開いた時点ではまだ `numpy` モジュールが読み込まれていません.

* ライブラリの機能を利用するには, そのライブラリが提供するモジュールを読み込む必要があります.

* ライブラリとは, 汎用性の高い複数の関数やクラスなどを再利用可能な形でひとまとまりにしたもので, Python の世界では**パッケージ**とも呼ばれます.

* Python で関数やクラスの定義, 文などが書かれたファイルのことを**モジュール**と呼び, パッケージはモジュールが集まったものです.

* 例えば `A` というモジュールを読み込みたいとき, 一番シンプルな記述方法は `import A` です.

* もし `A` というモジュール名が長い場合は, `import A as B` のようにして別名を付けることができます.

* `as` を使って別名が与えられると, 以降そのモジュールはその別名を用いて利用することができます.

* `import A as B` と書くと, `A` というモジュールは `B` という名前で利用することができます.

* `numpy` にはしばしば `np` という別名が与えられます.

* `numpy` を `np` という名前で `import` してみましょう.

* NumPy is installed by default in notebooks on Google Colaboratory, so you do not need to install it.

* On Colab, no installation is required, but the `numpy` module is not yet loaded when you open the notebook.

* To use the library's features, you need to read the modules provided by the library.

* A library is a reusable collection of general-purpose functions and classes, also called a **package** in the Python world.

* In Python, a file containing function and class definitions, statements, etc. is called a **module**, and a package is a collection of modules.

* For example, if you want to read a module called `A`, the simplest way is to write `import A`.

* If the module name `A` is long, you can use an alias like `import A as B`.

* If an alias is given using `as`, the module can be used with that alias from now on.

* If you write `import A as B`, the module `A` will be available under the name `B`.

* `numpy` is often given the alias `np`.

* Let `numpy` be `import` with the name `np`.

In [None]:
import numpy as np

## 多次元配列を定義する/Define multidimensional arrays

* ベクトル・行列・テンソルなどは、プログラミング上は多次元配列により表現でき, NumPy では ndarray というクラスで多次元配列を表現します.

* Vectors, matrices, tensors, etc. can be represented by multidimensional arrays in programming, and NumPy uses a class called ndarray to represent multidimensional arrays.

In [None]:
# ベクトルの定義/Definition of Vector
a = np.array([1, 2, 3])

a

array([1, 2, 3])

* Python リスト `[1, 2, 3]` を `np.array()` に渡すことで, $[1, 2, 3]$ というベクトルを表す ndarray オブジェクトを作ることができます.

* ndarray オブジェクトは `shape` という属性を持っており, その多次元配列の形が保存されています.

* 上で定義した `a` という ndarray オブジェクトの形を調べてみます.

* You can create an ndarray object representing a vector $[1, 2, 3]$ by passing the Python list `[1, 2, 3]` to `np.array()`.

* The ndarray object has an attribute `shape`, which preserves the shape of its multidimensional array.

* Let us examine the shape of the ndarray object `a` defined above.

In [None]:
a.shape

(3,)

* `(3,)` という要素数が 1 の Python のタプルが表示されています.

* ndarray の形は, 要素が整数のタプルで表され, 要素数はその多次元配列の次元数を表します.

* 形は, その多次元配列の各次元の大きさを順に並べた整数のタプルになっています.

* 次元数は, ndarray の `ndim` という属性に保存されています.

* `(3,)`, a Python tuple with 1 element, is shown.

* The ndarray shape is an integer tuple of elements, where the number of elements represents the number of dimensions of the multidimensional array.

* The shape is an integer tuple of the size of each dimension of the multidimensional array in order.

* The number of dimensions is stored in the attribute `ndim` of ndarray.

In [None]:
a.ndim

1

* これは, `len(a.shape)` と同じ値になります.

* `a` という ndarray は 1 次元配列なので, `a.shape` は要素数が 1 のタプルで, `ndim` の値は 1 でした.

* This is the same value as `len(a.shape)`.

* Since the ndarray `a` is a 1-dimensional array, `a.shape` is a tuple of 1 elements and the value of `ndim` is 1.

* 次に、$3 \times 3$ 行列を定義してみましょう。

* Next, let us define a $3 \times 3$ matrix.

In [None]:
# 行列の定義/Matrix Definition
b = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)

b

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

* 形と次元数を調べます。

* Examine the shape and dimensionality.

In [None]:
print('Shape:', b.shape)
print('Rank:', b.ndim)

Shape: (3, 3)
Rank: 2


* `size` という属性も見てみましょう。

* Let's also look at the attribute `size`.

In [None]:
b.size

9

* これは, `b` という ndarray が持つ要素の数を表しています.

* `b` は $3 \times 3$ 行列なので, 要素数は 9 です.

* NumPy の ndarray の作成方法には, `np.array()` を用いて Python のリストから多次元配列を作る方法以外にも色々な方法があります.

* 以下に代表的な例をいくつか紹介します.

* This represents the number of elements in the ndarray `b`.

* `b` is a $3 \times 3$ matrix, so it has 9 elements.

* There are various ways to create a NumPy ndarray other than using `np.array()` to create a multi-dimensional array from a Python list.

* Here are some typical examples.

In [None]:
# 形を指定して、要素が全て 0 で埋められた ndarray を作る
# Create an ndarray whose elements are all filled with zeros by specifying the shape
a = np.zeros((3, 3))

a

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
# 形を指定して、要素が全て 1 で埋められた ndarray を作る
# Create an ndarray whose elements are all filled with 1's by specifying the shape
b = np.ones((2, 3))

b

array([[1., 1., 1.],
       [1., 1., 1.]])

In [None]:
# 形と値を指定して、要素が指定した値で埋められた ndarray を作る
# Specify a form and value to create an ndarray whose elements are filled with the specified values
c = np.full((3, 2), 9)

c

array([[9, 9],
       [9, 9],
       [9, 9]])

In [None]:
# 指定された大きさの単位行列を表す ndarray を作る
# Create an ndarray representing a unit matrix of the specified size
d = np.eye(5)

d

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [None]:
# 形を指定して、 0 ~ 1 の間の乱数で要素を埋めた ndarray を作る
# Create an ndarray with elements filled with random numbers between 0 and 1, specifying the shape
e = np.random.random((4, 5))

e

array([[0.945015  , 0.43016639, 0.29548392, 0.95129474, 0.79083349],
       [0.38302104, 0.81301269, 0.89543488, 0.98794199, 0.07312155],
       [0.28104454, 0.05910526, 0.82286822, 0.80324149, 0.34598631],
       [0.27901198, 0.99971565, 0.80767343, 0.8232321 , 0.53487828]])

In [None]:
# 3 から始まり 10 になるまで 1 ずつ増加する数列を作る（10 は含まない）
# Construct a sequence of numbers starting from 3 and increasing by 1 until it reaches 10 (not including 10)
f = np.arange(3, 10, 1)

f

array([3, 4, 5, 6, 7, 8, 9])

## 多次元配列の要素を選択する/Selecting elements of a multidimensional array

* 作成した ndarray のうちの特定の要素を選択して, 値を取り出す方法を紹介します.

* 最もよく行われる方法は `[]` を使った添字表記による要素の選択です.

* We will show you how to select a specific element of the created ndarray and retrieve its value.

* The most common way is to select elements by subscript notation using `[]`.

### 整数による要素の選択/Element Selection by Integer

* 例えば, 上で作成した `e` という $4 \times 5$ 行列を表す多次元配列から, 1 行 2 列目の値を取り出すには、以下のようにします.

* For example, to retrieve the values of the first row and second column from the multidimensional array representing the $4 \times 5$ matrix named `e` created above, do the following:

In [None]:
val = e[0, 1]

val

0.43016638598041224

* 「1 行 2 列目」を指定するのに, インデックスは `[0, 1]` でした.

* これはNumPy の ndarray の要素は Python リストと同じく, 添字が 0 から始まる**ゼロベースインデックス （zero-based index）** が採用されているためです.

* つまり, この行列の i 行 j 列目の値は, `[i - 1, j - 1]` で取り出すことができます.

* The index `[0, 1]` is used to specify "row 1 column 2".

* This is because NumPy ndarray elements, like Python lists, have **zero-based indexes** starting from 0.

* That is, the value of the i-th row and j-th column of the matrix can be retrieved by `[i - 1, j - 1]`.

### スライスによる要素の選択/Element selection by slicing

* NumPy の ndarray に対しても, Python のリストと同様に**スライス表記 （slicing）** を用いて選択したい要素を範囲指定することができます.

* ndarray はさらにカンマ区切りで複数の次元に対するスライスを指定できます.

* NumPy's ndarray, like Python's list, allows you to specify a range of elements to be selected using **slicing notation**.

* ndarray can further specify slices for multiple dimensions, separated by commas.

In [None]:
# 4 x 5 行列 e の真ん中の 2 x 3 = 6 個の値を取り出す
# Extract the middle 2 x 3 = 6 values of the 4 x 5 matrix e
center = e[1:3, 1:4]

center

array([[0.81301269, 0.89543488, 0.98794199],
       [0.05910526, 0.82286822, 0.80324149]])

* 前節最後にある `e` の出力を見返すと, ちょうど真ん中の部分の $2 \times 3$ 個の数字が取り出せていることが分かります.

* ここで, `e` の中から `[1, 1]` の要素を起点として 2 行 3 列を取り出して作られた `center` の形を, `e` の形と比較してみましょう.

* Looking back at the output of `e` at the end of the previous section, we can see that we have retrieved exactly $2 \times 3$ numbers in the middle part.

* Now compare the shape of `center`, created by taking two rows and three columns from `e` starting from the element `[1, 1]`, with the shape of `e`.

In [None]:
print('Shape of e:', e.shape)
print('Shape of center:', center.shape)

Shape of e: (4, 5)
Shape of center: (2, 3)


* また、インデックスを指定したり、スライスを用いて取り出した ndarray の一部に対し、値を代入することもできます。

* Can also specify an index or assign a value to a portion of the ndarray extracted using slices.

In [None]:
# 先程の真ん中の 6 個の値を 0 にする
# Set the middle six values to 0
e[1:3, 1:4] = 0

e

array([[0.945015  , 0.43016639, 0.29548392, 0.95129474, 0.79083349],
       [0.38302104, 0.        , 0.        , 0.        , 0.07312155],
       [0.28104454, 0.        , 0.        , 0.        , 0.34598631],
       [0.27901198, 0.99971565, 0.80767343, 0.8232321 , 0.53487828]])

### 整数配列による要素の選択/Element selection by integer array

* ndarray の `[]` には, 整数やスライスの他に、整数配列を渡すこともできます.

* 整数配列とは, ここでは整数を要素とする Python リストまたは ndarray のことを指しています.

* $3 \times 3$ 行列を表す `a` という ndarray を定義します.

* You can pass an integer array as well as an integer or a slice to `[]` in ndarray.

* An integer array is a Python list or ndarray whose  elements are integers.

* Define an ndarray called `a` that represents a $3 \times 3$ matrix.

In [None]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)

a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

* この ndarray から

1. 1 行 2 列目：`a[0, 1]`
2. 3 行 2 列目：`a[2, 1]`
3. 2 行 1 列目：`a[1, 0]`

の 3 つの要素を選択して並べ, 形が `(3,)` であるような ndarray を作りたいとします.

これは以下のように, 順に対象の要素を指定して並べて新しい ndarray にすることでももちろん実現できます.

* From this ndarray we get

1. row 1, column 2: `a[0, 1]`
2. row 3, column 2: `a[2, 1]`
3. row 2, column 1: `a[1, 0]`

We want to select an ndarray of three elements of the form `(3,)` and arrange them in such a way that the form `(3,)` is `(3,)`.

This can of course be accomplished by specifying the elements to be targeted in order and arranging them into a new ndarray, as follows.

In [None]:
np.array([a[0, 1], a[2, 1], a[1, 0]])

array([2, 8, 4])

* 同じことが**選択したい行, 選択したい列を, 順にそれぞれリストとして与える**ことでも行えます.

* The same can be done by **giving each list of rows and columns to be selected in sequence**.

In [None]:
a[[0, 2, 1], [1, 1, 0]]

array([2, 8, 4])

* **選択したい 3 つの値がどの行にあるか**だけに着目すると, それぞれ 1 行目、3 行目、2 行目にある要素です.  
ゼロベースインデックスでは, それぞれ 0, 2, 1 行目です.
これが `a` の `[]` に与えられた 1 つ目のリスト `[0, 2, 1]` の意味です.  

* 同様に, **列に着目**すると, ゼロベースインデックスでそれぞれ 1, 1, 0 列目の要素です.  
これが `a` の `[]` に与えられた 2 つ目のリスト `[1, 1, 0]` の意味です.

* Focusing only on **which row the three values you want to select are**, the elements are on rows 1, 3, and 2, respectively.  
For zero-based indexes, they are rows 0, 2, and 1, respectively.  
This is the meaning of the first list `[0, 2, 1]` given in `a`'s `[]`.  

* Similarly, **looking at the columns**, these are the elements of columns 1, 1, and 0, respectively, at zero-based index.  
This is the meaning of the second list `[1, 1, 0]` given to `[]` in `a`.

## ndarray のデータ型/Data type of ndarray

* 1 つの ndarray の要素は, 全て同じ型を持ちます.

* NumPy では様々なデータ型を使うことができますが, ここでは一部だけを紹介します.

* NumPy は Python リストを渡して ndarray を作る際などには, その値からデータ型を推測します.

* ndarray のデータ型は, `dtype` という属性に保存されています.

* The elements of a single ndarray all have the same type.

* NumPy can use a variety of data types, but only a few are shown here.

* When NumPy creates an ndarray by passing a Python list, for example, it infers the data type from the value.

* The data type of an ndarray is stored in an attribute called `dtype`.

In [None]:
# 整数（Python の int 型）の要素をもつリストを与えた場合
# Given a list with integer (Python int type) elements
x = np.array([1, 2, 3])

x.dtype

dtype('int64')

In [None]:
# 浮動小数点数（Python の float 型）の要素をもつリストを与えた場合/Given a list with elements that are floating point numbers (Python's float type)
x = np.array([1., 2., 3.])

x.dtype

dtype('float64')

* 以上のように, **Python の int 型は自動的に NumPy の int64 型**になりました.

* **Python の float 型は自動的に NumPy の float64 型**になりました.

* Python の int 型は NumPy の int_ 型に対応づけられており, Python の float 型は NumPy の float_ 型に対応づけられています.

* この int_ 型はプラットフォームによって int64 型と同じ場合と int32 型と同じ場合があります.

* float_ 型についても同様で、プラットフォームによって float64 型と同じ場合と float32 型と同じ場合があります.

* 特定の型を指定して ndarray を作成するには, 以下のようにします.

* As described above, **Python int types are now automatically NumPy int64 types**.

* **Python floats are now automatically NumPy float64**.

* Python int types now map to NumPy int_ types, and Python float types map to NumPy float_ types.

* The int_ type may be the same as the int64 type or the int32 type, depending on the platform.

* The same is true for the float_ type, which may be the same as the float64 type or the float32 type, depending on the platform.

* To create an ndarray with a specific type, do the following:

In [None]:
x = np.array([1, 2, 3], dtype=np.float32)

x.dtype

dtype('float32')

* このように, `dtype` という引数に NumPy の dtype オブジェクトを渡します.

* これは 32 ビット浮動小数点数型を指定する例です.

* 同じことが文字列で指定することによっても行えます.

* Thus, the argument `dtype` is passed as a NumPy dtype object.

* This is an example of specifying a 32-bit floating-point number type.

* The same can be done by specifying it as a string.

In [None]:
x = np.array([1, 2, 3], dtype='float32')

x.dtype

dtype('float32')

* これはさらに以下のように短く書くこともできます.

* This can be written in short as follows:

In [None]:
x = np.array([1, 2, 3], dtype='f')

x.dtype

dtype('float32')

* 一度あるデータ型で定義した配列のデータ型を別のものに変更するには, `astype` を用いて変換を行います.

* To change the data type of an array once defined with one data type to another, use `astype` to perform the conversion.

In [None]:
x = x.astype(np.float64)

x.dtype

dtype('float64')

## 多次元配列を用いた計算/Calculations using multidimensional arrays

* ndarray を使って行列やベクトルを定義して, それらを用いていくつかの計算を行ってみます.

* ndarray として定義されたベクトルや行列同士の**要素ごとの加減乗除**は, Python の数値同士の四則演算に用いられる `+`、`-`、`*`、`/` という記号を使って行えます.

* 同じ形の行列を 2 つ定義し, それらの**要素ごとの**加減乗除を実行してみます.

* Let's define matrices and vectors using ndarray and perform some calculations with them.

* **Element-wise addition/division** of vectors or matrices defined as ndarray can be done using `+`, `-`, `*`, and `/` symbols used in Python for number-wise arithmetic.

* Let's define two matrices of the same shape, and perform **element-wise** addition, subtraction, multiplication and division of those matrices.

In [None]:
# 同じ形 (3 x 3) の行列を 2 つ定義する
# Define two matrices of the same (3 x 3) form
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

b = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [None]:
# 足し算/addition
c = a + b

c

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [None]:
# 引き算/subtraction
c = a - b

c

array([[-1, -1, -1],
       [-1, -1, -1],
       [-1, -1, -1]])

In [None]:
# 掛け算/multiplication
c = a * b

c

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [None]:
# 割り算/division
c = a / b

c

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

* NumPy では, 与えられた多次元配列に対して要素ごとに計算を行う関数が色々と用意されています.

* 以下にいくつかの例を示します.

* NumPy provides various functions to perform element-by-element calculations on a given multidimensional array.

* Some examples are shown below.

In [None]:
# 要素ごとに平方根を計算する/Calculate the square root for each element
c = np.sqrt(b)

c

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

In [None]:
# 要素ごとに値を n 乗する/n-multiply the value by n for each element
n = 2
c = np.power(b, n)

c

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

* 要素ごとに値を n 乗する計算は, 以下のように書くことができます.

* The computation to multiply the value by n for each element can be written as follows:

In [None]:
c ** n

array([[   1,   16,   81],
       [ 256,  625, 1296],
       [2401, 4096, 6561]])

* はじめに紹介した四則演算は, **同じ大きさの** 2 つの行列同士で行っていました.

* ここで, $3 \times 3$ 行列 `a` と 3 次元ベクトル `b` という大きさのことなる配列を定義して, それらを足してみます.

* The first four arithmetic operations were performed between two matrices of **the same size**.

* Now let us define a $3 \times 3$ matrix `a` and a 3-dimensional vector `b` of different sizes and add them together.

In [None]:
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

b = np.array([1, 2, 3])

c = a + b

c

array([[ 1,  3,  5],
       [ 4,  6,  8],
       [ 7,  9, 11]])

* 形が同じ行列同士の場合と同様に計算することができました.

* これは NumPy が自動的に**ブロードキャスト（broadcast）**と呼ばれる操作を行っているためです.

* The same calculation could be performed as in the case of matrices of the same shape.

* This is because NumPy automatically performs an operation called **broadcast**.

## ブロードキャスト/broadcast

* 行列同士の要素ごとの四則演算は, 通常は行列の形が同じでなければ定義できません.

* しかし, $3 \times 3$ 行列に 3 次元ベクトルを足す計算が実行できました.

* これが要素ごとの計算と同じように実行できる理由は, NumPy が自動的に 3 次元ベクトル `b` を 3 つ並べてできる $3 \times 3$ 行列を想定し, `a` と同じ形に揃える操作を暗黙に行っているからです.

* この操作を、**ブロードキャスト**と呼びます.

* 算術演算を異なる形の配列同士で行う場合, NumPy は自動的に小さい方の配列を**ブロードキャスト**し, 大きい方の配列と形を合わせます.

* ただし, この自動的に行われるブロードキャストでは, 行いたい算術演算が大きい方の配列の一部に対して**繰り返し行われる**ことで実現されるため, 実際に小さい方の配列のデータをコピーして大きい配列をメモリ上に作成することは可能な限り避けられます.

* また, この繰り返しの計算は NumPy の内部の C 言語によって実装されたループで行われるため, 高速です.

* よりシンプルな例で考えてみましょう.

* 以下のような配列 `a` があり, この全ての要素を 2 倍にしたいとします.

* Element-wise quadrature operations between matrices can usually only be defined if the matrices have the same * shape.

* However, we were able to perform a calculation to add a 3-dimensional vector to a $3 \times 3$ matrix.

* The reason why this can be done as well as element-wise computation is that NumPy automatically assumes that the $3 \times 3$ matrix is made up of three 3d vectors `b` and implicitly performs an operation to align it to the same shape as `a`.

* This operation is called **broadcast**.

* When arithmetic operations are performed on arrays of different * shapes, NumPy automatically **broadcasts** the smaller array and aligns it with the larger array.

* However, this automatic broadcast is accomplished by **repeating** the desired arithmetic operation on a part of the larger array, so that the actual creation of the larger array in memory by copying the data of the smaller array is avoided as much as possible.

* Also, this iterative computation is done in a loop implemented by the C language inside NumPy, so it is fast.

* Let's consider a simpler example.

* Suppose you have the following array `a` and you want to double all its elements.

In [None]:
a = np.array([1, 2, 3])

a

array([1, 2, 3])

* このとき, 一つの方法は以下のように同じ形で要素が全て 2 である別の配列を定義し, これと要素ごとの積を計算するやり方です.

* One way to do this is to define another array of the same shape with all elements 2 as shown below, and to compute the element-wise product with this array.

In [None]:
b = np.array([2, 2, 2])

c = a * b

c

array([2, 4, 6])

* しかし, スカラの 2 をただ `a` に掛けるだけでも同じ結果が得られます.

* However, the same result can be obtained by simply multiplying a scalar 2 by `a`.

In [None]:
c = a * 2

c

array([2, 4, 6])

* `* 2` という計算が`c` の 3 つの要素のどの要素に対する計算なのかが明示されていないため, NumPy はこれを全ての要素に対して行うという意味だと解釈して、スカラの 2 を `a` の要素数 3 だけ引き伸ばしてから掛けてくれます.

* 形の異なる配列同士の計算がブロードキャストによって可能になるためにはルールがあります.

* それは、**「2 つの配列の各次元が同じ大きさになっているか, どちらかが 1 であること」**です.

* このルールを満たさない場合、NumPy は "ValueError: operands could not be broadcast together with shapes (1 つ目の配列の形) (2 つ目の配列の形)" というエラーを出します.

* ブロードキャストされた配列の各次元のサイズは, 入力された配列のその次元のサイズの中で最大の値と同じになっています.

* 入力された配列は, 各次元のサイズが入力のうち大きい方のサイズと同じになるようブロードキャストされ, その拡張されたサイズで計算されます.

* もう少し具体例を見てみます.

* 以下のような 2 つの配列 `a` と `b` を定義し, 足します.

* Since the calculation `* 2` does not specify which of the three elements of `c` it is performed on, NumPy interprets it as meaning it is performed on all elements and multiplies the scalar 2 by the number of elements of `a`, 3, after stretching it.

* There is a rule for broadcast to allow computation between arrays of different shapes. 

* **There is a rule that each dimension of two arrays must have the same size, or one of them must be 1.**

* If this rule is not satisfied, NumPy will raise the error "ValueError: operands could not be broadcast together with shapes (shapes of the first array)".

* The size of each dimension of the broadcasted array is the same as the largest value of that dimension in the input array.

* The input array is broadcast so that the size of each dimension is the same as the larger size of the input, and is computed with that expanded size.

* Let's look at a more concrete example.

* Define two arrays `a` and `b` and add them as follows.

In [None]:
# 0 ~ 9 の範囲の値をランダムに用いて埋められた (2, 1, 3) と (3, 1) という大きさの配列を作る
# Create arrays of sizes (2, 1, 3) and (3, 1) filled with random values in the range 0 ~ 9.
a = np.random.randint(0, 10, (2, 1, 3))
b = np.random.randint(0, 10, (3, 1))

print('a:\n', a)
print('\na.shape:', a.shape)
print('\nb:\n', b)
print('\nb.shape:', b.shape)

# 加算/addition
c = a + b

print('\na + b:\n', c)
print('\n(a + b).shape:', c.shape)

a:
 [[[6 2 0]]

 [[1 9 7]]]

a.shape: (2, 1, 3)

b:
 [[6]
 [2]
 [8]]

b.shape: (3, 1)

a + b:
 [[[12  8  6]
  [ 8  4  2]
  [14 10  8]]

 [[ 7 15 13]
  [ 3 11  9]
  [ 9 17 15]]]

(a + b).shape: (2, 3, 3)


* `a` の形は `(2, 1, 3)` で, `b` の形は `(3, 1)` でした.

* この 2 つの配列の末尾次元 (trailing dimension)はそれぞれ 3 と 1 なので, ルールにあった「次元が同じサイズであるか, どちらかが 1 であること」を満たしています.

* 次に各配列の第 2 次元に注目してみます.

* それぞれ 1 と 3 です.

* これもルールを満たしています。

* ここで, `a` は 3 次元配列ですが, `b` は 2 次元配列です.

* つまり, 次元数が異なっています.

* このような場合, `b` は一番上の次元にサイズが 1 の次元が追加された形`(1, 3, 1)` として扱われます.

* そして 2 つの配列の各次元ごとのサイズの最大値をとった形 `(2, 3, 3)` にブロードキャストされ, 足し算が行われます.

* このように, もし 2 つの配列のランクが異なる場合は, 次元数が小さい方の配列が大きい方と同じ次元数になるまでその形の先頭に新たな次元が追加されます.

* サイズが 1 の次元がいくつ追加されても, 要素の数は変わらないことに注意してください.

* 要素数（`size` 属性で取得できる値）は, 各次元のサイズの掛け算になるので, 1 を何度かけても値は変わらないことから, これが成り立つことが分かります.

* NumPy がブロードキャストのために自動的に行う新しい次元の挿入は, `[]` を使った以下の表な表記を用いることで手動で行うこともできます.

* The shape of `a` is `(2, 1, 3)` and the shape of `b` is `(3, 1)`.

* Since the trailing dimension of these two arrays are 3 and 1, respectively, the rule "the dimensions must be of the same size or one of them must be 1" is satisfied.

* Next, let's look at the second dimension of each array.

* They are 1 and 3, respectively.

* This also satisfies the rule.

* Here, `a` is a 3-dimensional array, while `b` is a 2-dimensional array.

* That is, the number of dimensions are different.

* In such a case, `b` is treated as `(1, 3, 1)` with the dimension of size 1 added to the top dimension.

* Then it is broadcasted to `(2, 3, 3)`, which is the maximum size of each dimension of the two arrays, * and added together.

* Thus, if the two arrays have different ranks, a new dimension is added at the beginning of the shape until the smaller array has the same number of dimensions as the larger one.

* Note that the number of elements does not change no matter how many dimensions of size 1 are added.

* This is true because the number of elements (the value you can get from the `size` attribute) is multiplied by the size of each dimension, so * multiplying by 1 many times does not change the value.

* The automatic insertion of a new dimension for broadcast by NumPy can also be done manually by using the following tabular notation with `[]`.

In [None]:
print('Original shape:', b.shape)

b_expanded = b[np.newaxis, :, :]

print('Added new axis to the top:', b_expanded.shape)

b_expanded2 = b[:, np.newaxis, :]

print('Added new axis to the middle:', b_expanded2.shape)

Original shape: (3, 1)
Added new axis to the top: (1, 3, 1)
Added new axis to the middle: (3, 1, 1)


* `np.newaxis` が指定された位置に新しい次元が挿入されます.

* 配列が持つ数値の数は変わっていません.

* そのため, 挿入された次元のサイズは必ず 1 になります.

* A new dimension is inserted at the position where `np.newaxis` is specified.

* The number of numbers in the array remains unchanged.

* Therefore, the size of the inserted dimension will always be 1.

In [None]:
b

array([[6],
       [2],
       [8]])

In [None]:
b_expanded

array([[[6],
        [2],
        [8]]])

In [None]:
b_expanded2

array([[[6]],

       [[2]],

       [[8]]])

* NumPy のブロードキャストは慣れるまで直感に反するように感じる場合があるかもしれません.

* しかし, 使いこなすと同じ計算が Python のループを使って行うよりも高速に行えるため, ブロードキャストを理解することは非常に重要です.

* 一つ具体例を見てみます.

* $5 \times 5$ 行列 `a` に, 3 次元ベクトル `b` を足します.

* まず, `a`、`b` および結果を格納する配列 `c` を定義します.

* NumPy broadcasts may seem counter-intuitive until you get used to them.

* However, once you get the hang of it, it is very important to understand broadcasts, since the same calculations can be done * much faster than using Python loops.

* Let's look at a specific example.

* Add a 3-dimensional vector `b` to a $5 \times 5$ matrix `a`.

* First, define an array `c` to store `a`, `b` and the result.

In [None]:
a = np.array([
    [0, 1, 2, 1, 0],
    [3, 4, 5, 4, 3],
    [6, 7, 8, 7, 6],
    [3, 4, 5, 4, 4],
    [0, 1, 2, 1, 0]
])

b = np.array([1, 2, 3, 4, 5])

# 結果を格納する配列を先に作る/Create the array to store the results first.
c = np.empty((5, 5))

* `%%timeit` という Jupyter Notebook で使用できるそのセルの実行時間を計測するためのマジックを使って, `a` の各行（1 次元目）に `b` の値を足していく計算を Python のループを使って 1 行ずつ処理していくコードの実行時間を測ってみます.

* Using `%%timeit`, a Jupyter Notebook magic to measure the execution time of a cell, we will measure the execution time of the code that processes the calculation of adding the value of `b` to each row of `a` (the first dimension), one row at a time using a Python loop.

In [None]:
%%timeit
for i in range(a.shape[0]):
    c[i, :] = a[i, :] + b

The slowest run took 90.12 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 7.44 µs per loop


In [None]:
c

array([[ 1.,  3.,  5.,  5.,  5.],
       [ 4.,  6.,  8.,  8.,  8.],
       [ 7.,  9., 11., 11., 11.],
       [ 4.,  6.,  8.,  8.,  9.],
       [ 1.,  3.,  5.,  5.,  5.]])

* 次に, NumPy のブロードキャストを活用した方法で同じ計算を行ってみます.

* Next, let's try to perform the same calculation in a way that takes advantage of NumPy's broadcasts.

In [None]:
%%timeit
c = a + b

The slowest run took 32.88 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.13 µs per loop


In [None]:
c

array([[ 1.,  3.,  5.,  5.,  5.],
       [ 4.,  6.,  8.,  8.,  8.],
       [ 7.,  9., 11., 11., 11.],
       [ 4.,  6.,  8.,  8.,  9.],
       [ 1.,  3.,  5.,  5.,  5.]])

* 計算結果は当然同じになります.

* しかし, 実行時間が数倍短くなっています.

* このようにブロードキャストを理解して活用することで, 記述が簡単になるだけでなく, 実行速度という点においても有利になります.

* The result is the same, of course.

* However, the execution time is several times shorter.

* Understanding and utilizing broadcast in this way not only simplifies the description, but also gives an advantage in terms of execution * speed.

## 行列積/matrix product

* 行列の要素ごとの積は `*` を用いて計算できました.

* 一方, 通常の行列同士の積（行列積）の計算は`*` ではなく, 別の方法で行います.

* 方法は 2 種類あります.

* 1つは`np.dot()` 関数を用いる方法です.

* `np.dot()` は 2 つの引数をとり, それらの行列積を計算して返す関数です.

* 今, `A` という行列と `B` という行列があり, 行列積 `AB` を計算したいとします.

* これは `np.dot(A, B)` と書くことで計算できます.

* もし `BA` を計算したい場合は, `np.dot(B, A)` と書きます.

* もう 1 つは, ndarray オブジェクトが持つ `dot()` メソッドを使う方法です.

* これを用いると, 同じ計算が `A.dot(B)` と書くことによって行えます.

* The element-wise product of matrices could be computed using `*`.

* On the other hand, the usual product of matrices (matrix product) is not computed by `*`, but by another method.

* There are two methods.

* One is to use the function `np.dot()`.

* `np.dot()` is a function that takes two arguments and computes and returns the matrix product of them.

* Suppose you have a matrix `A` and a matrix `B`, and you want to compute the matrix product `AB`.

* You can do this by writing `np.dot(A, B)`.

* If you want to compute `BA`, write `np.dot(B, A)`.

* Another way is to use the `dot()` method of the ndarray object.

* With this method, the same computation can be done by writing `A.dot(B)`.

In [None]:
# 行列 A の定義/Definition of matrix A
A = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

# 行列 B の定義/Definition of matrix B
B = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

* 実際にこの $3 \times 3$ の 2 つの行列の行列積を計算してみます.

* We will actually calculate the matrix product of these two matrices of $3 \times 3$.

In [None]:
# 行列積の計算 (1)/Calculate matrix product (1)
C = np.dot(A, B)

C

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

* 同じ計算をもう一つの記述方法で行ってみます.

* Let us try the same calculation with another description.

In [None]:
C = A.dot(B)

C

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [None]:
# データ型の確認（整数値）/Check data type (integer value)
a.dtype

dtype('int64')

## 基本的な統計量の求め方/How to obtain basic statistics

* 多次元配列に含まれる値の平均・分散・標準偏差・最大値・最小値といった統計値を計算する方法を紹介します.

* $8 \times 10$ の行列を作成し, この中に含まれる値全体に渡るこれらの統計値を計算してみます.

* We will show you how to compute statistics such as mean, variance, standard deviation, maximum and minimum of values contained in a multidimensional array.

* We will create a matrix of $8 \times 10$ and compute these statistics over the whole values contained in the matrix.

In [None]:
x = np.random.randint(0, 10, (8, 10))

x

array([[3, 8, 3, 3, 0, 7, 0, 8, 7, 4],
       [7, 0, 8, 4, 3, 1, 7, 7, 4, 3],
       [7, 4, 5, 5, 9, 5, 2, 4, 5, 2],
       [4, 3, 6, 8, 0, 1, 5, 8, 4, 9],
       [1, 8, 1, 0, 6, 7, 1, 2, 8, 3],
       [8, 6, 0, 8, 0, 8, 6, 4, 8, 4],
       [6, 7, 5, 5, 7, 2, 2, 8, 4, 8],
       [4, 4, 2, 3, 8, 8, 1, 6, 1, 9]])

In [None]:
# 平均値/mean value
x.mean()

4.65

In [None]:
# 分散/viriance
x.var()

7.5025

In [None]:
# 標準偏差/standard deviation
x.std()

2.7390691849604676

In [None]:
# 最大値/maximum value
x.max()

9

In [None]:
# 最小値/minimum value
x.min()

0

* `x` は 2 次元配列なので, 各次元に沿ったこれらの統計値の計算も行えます.

* 例えば, 最後の次元内だけで平均をとると, 8 個の平均値が得られるはずです.

* 平均を計算したい軸（何次元目に沿って計算するか）を `axis` という引数に指定します.

* Since `x` is a 2-dimensional array, you can also compute these statistics along each dimension.

* For example, if we take the average in the last dimension only, we will get 8 averages.

* You can specify the axis along which you want to compute the averages (along which dimension) in the argument `axis`.

In [None]:
x.mean(axis=1)

array([4.3, 4.4, 4.8, 4.8, 3.7, 5.2, 5.4, 4.6])

* これは, 以下のように 1 次元目の値の平均を計算していったものを並べているのと同じことです.

* ゼロベースインデックスで考えています.

* `x` の形は `(8, 10)` なので, 0 次元目のサイズが 8, 1 次元目のサイズが 10 です.

* This is the same as the sequence of averages of the first dimension values as follows.

* We are considering zero-based indexing.

* The shape of `x` is `(8, 10)`, so the size of the zero dimension is 8 and the size of the first dimension is 10.

In [None]:
np.array([
    x[0, :].mean(),
    x[1, :].mean(),
    x[2, :].mean(),
    x[3, :].mean(),
    x[4, :].mean(),
    x[5, :].mean(),
    x[6, :].mean(),
    x[7, :].mean(),
])

array([4.3, 4.4, 4.8, 4.8, 3.7, 5.2, 5.4, 4.6])

## NumPy を用いた重回帰分析/Multiple regression analysis using NumPy

* 重回帰分析を NumPy を用いて行います.

* 4 つのデータをまとめた以下のようなデザイン行列が与えられたとします.

* Multiple regression analysis is performed using NumPy.

* Suppose we are given the following design matrix that summarizes the four datasets.

In [None]:
# Xの定義/Definition of X
X = np.array([
    [2, 3],
    [2, 5],
    [3, 4],
    [5, 9],
])

X

array([[2, 3],
       [2, 5],
       [3, 4],
       [5, 9]])

* 切片を重みベクトルに含めて扱うため, デザイン行列の 0 列目に 1 という値を付け加えます.

* To include the intercept in the weight vector, we add a value of 1 to the zeroth column of the design matrix.

In [None]:
# データ数（X.shape[0]) と同じ数だけ 1 が並んだ配列/An array of 1s equal to the number of data (X.shape[0])
ones = np.ones((X.shape[0], 1))

# concatenate を使い、1 次元目に 1 を付け加える/Use concatenate to add 1 to the first dimension
X = np.concatenate((ones, X), axis=1)

# 先頭に 1 が付け加わったデザイン行列/Design matrix with leading 1 appended
X

array([[1., 2., 3.],
       [1., 2., 5.],
       [1., 3., 4.],
       [1., 5., 9.]])

* また, 目標値が以下で与えられたとします.

* Also, suppose that the target value is given by

In [None]:
# t の定義/Definition of t
t = np.array([1, 5, 6, 8])

t

array([1, 5, 6, 8])

* 重回帰分析は, 正規方程式を解くことで最適な 1 次方程式の重みを決定することができます.

* 正規方程式の解は以下のようなものです.

$$
{\bf w} = ({\bf X}^{{\rm T}}{\bf X})^{\rm -1}{\bf X}^{\rm T}{\bf t}
$$

* これを4 つのステップに分けて計算していきます.

* まずは, ${\bf X}^{\rm T}{\bf X}$ の計算です.

* ndarrayに対して `.T` で転置した配列を得られます.

* Multiple regression analysis allows you to determine the optimal linear weights by solving a normal equation.

* The solution of the normal equation is as follows.

$$
{\bf w} = ({\bf X}^{{\rm T}}{\bf X})^{\rm -1}{\bf X}^{\rm T}{\bf t}
$$

* We will calculate this in four steps.

* First, we calculate ${\bf X}^{\rm T}{\bf X}$.

* We can get an array transposed by `.T` for ndarray.

In [None]:
# Step 1
xx = np.dot(X.T, X)

xx

array([[  4.,  12.,  21.],
       [ 12.,  42.,  73.],
       [ 21.,  73., 131.]])

* 次に. この逆行列を計算します.

* Next, this inverse matrix is computed.

In [None]:
# Step 2
xx_inv = np.linalg.inv(xx)

xx_inv

array([[ 1.76530612, -0.39795918, -0.06122449],
       [-0.39795918,  0.84693878, -0.40816327],
       [-0.06122449, -0.40816327,  0.24489796]])

* 逆行列の計算は `np.linalg.inv()` で行うことができます.

* 次に, ${\bf X}^{\rm T}{\bf t}$ の計算をします.

* The inverse can be computed with `np.linalg.inv()`.

* Next, we compute ${\bf X}^{\rm T}{\bf t}$.

In [None]:
# Step 3
xt = np.dot(X.T, t)

xt

array([ 20.,  70., 124.])

* 最後に, 求めた `xx_inv` と `xt` を掛け合わせます.

* Finally, multiply the obtained `xx_inv` by `xt`.

In [None]:
# Step 4
w = np.dot(xx_inv, xt)

w

array([-0.14285714,  0.71428571,  0.57142857])

* 以上の計算は, 以下のように 1 行で行うこともできます.

* The above calculations can also be done in a single line as follows:

In [None]:
w_ = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(t)

w_

array([-0.14285714,  0.71428571,  0.57142857])

* 実際には逆行列を陽に求めることは稀です.

* 連立一次方程式を解く, すなわち逆行列を計算してベクトルに掛けるのに等しい計算をひとまとめに行う関数 `numpy.linalg.solve` を呼ぶ方が速度面でも精度面でも有利です.

* In practice, it is rare to perform the inverse explicitly.

* It is more advantageous in terms of speed and accuracy to call the function `numpy.linalg.solve` which does the equivalent of solving a linear system, i.e., computing the inverse and multiplying it by a vector, all in one call.

In [None]:
w_ = np.linalg.solve(X.T.dot(X), X.T.dot(t))

w_

array([-0.14285714,  0.71428571,  0.57142857])