<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2023/ex01notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2023 ex01notebookB

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023

----
## ［復習］回帰分析

「データ分析」で学んだ **回帰分析** は，$x$ と $y$ という二つの変数の間に
$$
y = ax+b
$$
という関係が成り立つと仮定して，与えられたデータから $a, b$ を推定する方法です．
$x$ に相当する変数を **説明変数**，$y$ に相当する変数を **被説明変数** といいます（注）．
また，この直線を **回帰直線** といい，$a, b$ のことを **回帰係数** といいます．


※注: $y$ の方を **目的変数** と呼ぶこともあります．また，$x$ を **独立変数**，$y$を **従属変数** と呼ぶこともあります．


実際のデータとして，あるバネにいろいろな重さのおもりを吊るしたときのバネの長さを測ったものを考えてみます．


|$n$|$x_n$（おもりの重さ[g]）|$y_n$（バネの長さ[mm]）|
|:----:|----:|----:|
|1|6|119|
|2|8|145|
|3|12|175|
|4|14|191|
|5|18|204|
|6|20|209|
|7|24|244|
|8|26|233|
|9|30|272|
|10|32|268|

「改訂版 日本統計学会公式認定 統計検定3級対応 データ分析」 日本統計学会，東京図書，p.102 より．

「おもりの重さ」を説明変数，「バネの長さ」を被説明変数として，回帰分析を行ってみましょう（データから回帰係数を求める手順の説明は省略します）．
以下，現時点ではコードの詳細を理解する必要はありませんが，コード中のコメントを読んで大まかな流れはつかんでおいてください．


In [None]:
# 各種パッケージのインポートなど
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# おもりの重さの配列を用意
x = np.array([6, 8, 12, 14, 18, 20, 24, 26, 30, 32])
print(x)
print(x.shape)

# バネの長さの配列を用意
y = np.array([119, 145, 175, 191, 204, 209, 244, 233, 272, 268])
print(y)
print(y.shape)

In [None]:
## データの散布図を描く
fig, ax = plt.subplots()
ax.scatter(x, y) # xの各要素をX軸，yの各要素をY軸として散布図を描く
ax.set_xlim(0, 35)   # X軸の範囲
ax.set_ylim(0, 300)  # Y軸の範囲
plt.show()

In [None]:
## 回帰係数を求める
xx = np.vstack([x, np.ones_like(x)]).T
rv = np.linalg.lstsq(xx, y, rcond=None)
a, b = rv[0]
print(f'a = {a:.3f}  b = {b:.3f}')

In [None]:
## 得られた回帰式を使い，様々な x の値に対する y の予測値を算出
xx = np.linspace(0, 50, 11) # 区間 [0, 50] を 10 等分  [0, 5, 10, ..., 50]
yy = a*xx + b              # 回帰式を使って被説明変数の予測値を計算
for n in range(len(xx)):
    print(f'x = {xx[n]}    y = {yy[n]:.3f}')

In [None]:
## 散布図に回帰直線を重ねて描く
xx = np.array([0, 35])
yy = a*xx + b
fig, ax = plt.subplots()
ax.scatter(x, y)
ax.plot(xx, yy, color='red')
ax.set_xlim(0, 35)
ax.set_ylim(0, 300)
plt.show()

----
## Python の初歩


実際のデータに多変量解析の手法を適用しようとすると，計算の手間が大きくて手計算ではとてもやってられません．
この授業では，Google Colab 上で Python のプログラムを動かして多変量解析をやってみることにします．

というわけで Python の初歩を学びましょう（注）．
といっても，授業の主目的は多変量解析を学ぶことですので，一般的な Python プログラミングの話はほんの少しだけ．


※注: Python についてもっと知りたいひとは，以下のリンク先へどうぞ．
この授業では Google Colab 上で Python のコード（の断片）を動かすことしかやりませんが，Python そのものは一般的プログラミング言語ですので，C言語などと同様に自分のPCで動かして様々なことができます．

https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023/info


### とりあえず数値の計算

C言語と同様に四則演算の演算子 `+`,`-`, `*`, `/` が使えます．適当に数値や式を変えて実行し直してみるとよいでしょう．

In [None]:
5963 - 1314

In [None]:
5+9*6-3

整数だけでなく実数も扱えます（C言語の `float`型や`double`型と同様に浮動小数点数が扱える）．

In [None]:
4*1 + 6*0.1 + 4*0.01 + 9*0.001

**要注意** C言語と違い，`/` 演算の結果は浮動小数点数になります．

In [None]:
4/3  # C言語だと整数 4 と整数 3 の除算は整数の範囲で行うので，結果は整数 1 になるはず

In [None]:
2/3  # Cだと 0

C言語の `/` と同じことをさせたい場合は，`//` を使います

In [None]:
4//3

べき乗の演算子 `**` というのもあります．また，C言語の普通の整数型（`int`や`long`など）よりも遥かに桁数の多い数も扱えます．

In [None]:
2**13 - 1  # メルセンヌ素数の一つ

In [None]:
2**127 - 1 # これもメルセンヌ素数

In [None]:
2**607 - 1 # 同じく

### 変数を使う

もちろん変数も使えます．ただし，C言語と使い方に大きな違いがあります．C言語の変数は，
```
int x;      // x という名前の変数を int 型で使うよ，と宣言
double y;  // y は double 型だよ，と宣言

x = 1 + 2 + 3 + 4 + 5;
y = 3.1415
```
のようにあらかじめ型を決めて宣言しておく必要があります．宣言した型と違うものを代入することはできません．

しかし，Python の変数は，宣言不要でいきなり代入して使えます．

In [None]:
x = 1 + 2 + 3 + 4 + 5
print(x)  # x の値を表示

上記の例では変数 `x` は整数を扱う型になっています．ですが，次のようにその変数 `x` に実数値を代入してしまうこともできます．

In [None]:
x = 3.1415
print(x)

上記の例を見ると，「Python の変数には整数型と浮動小数点型の区別がない」と思うかもしれませんが，実際にはそうではありません．「Python の変数は，代入したときに右辺の値に応じた型になる」ということです．

整数と浮動小数点数は，値を表示させてみると区別できます．

In [None]:
x = 5-5+1+9 # 全て整数で演算結果も整数
print(x)  # このときの変数 x は整数型

In [None]:
x = 5/5+1*9 # 5/5 の値が浮動小数点数 1.0 → その後の加算も浮動小数点数として行われるので結果も浮動小数点数
print(x)  # このときの変数 x は浮動小数点数型

当然，変数同士の四則演算もできます．

In [None]:
x = 4649
y = 1314
print(x+y)

In [None]:
x = 4649
y = 1314
print(x+y, x-y, x*y, x/y)  # この場合，除算の結果のみ浮動小数点数

C言語と同様に `+=`, `-=`, `*=`, `/=` などの演算子もあります．

In [None]:
x = 4649
x += 1314
print(x)

In [None]:
x = 128
x *= 2
print(x)

ただし，残念ながら C言語の `++` や `--` 相当の演算子はありません．`+=1`や`-=1`を使うことになります．

In [None]:
# このセルはエラーになる
x = 5962
x++

### for文とかif文とか

Python にも for 文や if 文がありますが，ここでは説明を省略します．
興味のあるひとは自分で調べてみてね．

cf. https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023/info


----
## NumPy の初歩




NumPy は，Python で数値計算を行うためのパッケージです．ベクトルや行列の形で表される数値データの演算・処理を得意とします．
https://numpy.org/


NumPy を使うためには，次のようにして「`numpy` モジュールをインポート」する必要があります．「モジュール」とか「インポート」とかそういったことはここでは説明しませんので，興味を持ったら自分で調べてみてね．



In [None]:
import numpy as np  # numpy モジュールをインポートして np という名前で呼べるようにする

自分のPC等に Python 環境を構築している場合は，事前にNumPyパッケージをインストールすることが必要です．
試してみたいひとは takataka に相談するか，自分で調べてみてください．
Google Colab の環境にはあらかじめインストールされているので，インポートするだけで使えます．


### NumPy の配列 `np.array`

`np.array` に数値を並べたリスト（注）を渡すと，配列を作ることができます．

注: **リスト** は Python の基本的なデータ構造の一つですが，ここでは説明しません．
ものすごく大雑把にいうと，数値や文字列などを `[1, 2, 3.14, 'hoge', '五']` のようにカンマ区切りで並べて `[` と `]` で囲んだものです．

In [None]:
x = np.array([1, 2, 3, 4, 5]) # 整数の配列
print(x)
print(x.shape) # 配列 x の shape（形）．要素数 5 のベクトル（一次元配列）であることがわかる
print(x.dtype) # 配列 x の要素のデータ型．要素は64bitの整数型であることがわかる

In [None]:
y = np.array([1, 2, np.pi, 4.56, 7.89]) # 浮動小数点数の配列． np.pi は円周率
print(y)
print(y.shape)
print(y.dtype)

C言語の配列と同じように，要素にアクセスすることもできます．
以下の例からわかるように，要素番号は 0 からはじまります．

In [None]:
print(x[2])
print(y[2])

In [None]:
x[2] = 999
print(x)

整数の配列に浮動小数点数を代入しようとすると...

In [None]:
x[2] = 123.456789
print(x)

### 配列に対する演算

次の演算が何を行っているか考えよう．

In [None]:
x2 = x + 2
print(x2)

In [None]:
z = x + y
print(x)
print(y)
print(z)

`x2` は，配列`x` の各要素に 2 を加えてできた配列です．
`z` は，配列`x` と `y` の「要素ごとの和」となっています．

当然，二つの配列の要素数が合わなければエラーになります．

In [None]:
x = np.array([1, 2, 3])
y = np.array([11, 12, 13, 14])
print(x + y)

`+`演算子と同じように，`*` 演算子も使えます．

In [None]:
x = np.array([1, 2, np.pi, 4, 5])
x2 = x * 2
print(x2)

In [None]:
y = np.array([10, 5, 10.0/np.pi, 2.5, 2])
z = x * y
print(z)

`-` や `/` も同様に使えますが，説明は省略します．

`@` 演算子でベクトルとベクトルの内積を求めることができます．

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([2, 0, -1, 1, 0])
c = np.array([0, 99, 2, 2, np.pi])
p = a @ b
q = b @ c
print(p, q)

`a @ b` は，`np.dot(a, b)` と書くこともできます．

### 配列に関する補足

配列の作り方いろいろ：

In [None]:
x = np.zeros(3)
y = np.ones(5)
z = np.arange(1, 11)  # 1以上11「未満」の数を1刻みで作る． [1, 2, 3, ..., 10]
print(x)
print(y)
print(z)

関数 `np.sum` で要素の和，`np.mean` で平均，`np.var` で分散を求められます．

In [None]:
print(z)
print(np.sum(z), np.mean(z), np.var(z))

NumPy には他にも様々な機能がありますが，ここでは説明を省略します．

3次元以上の配列も同じように扱えますが，説明は省略します．

### 2次元配列を作る

NumPy の配列 `np.array` は，2次元以上にもできます．
`np.array` の引数の `[` や `]` が二重になっている箇所があることに注意してください．
このように二重のリスト（リストのリスト）を渡すと2次元配列を作ることができます．

In [None]:
X = np.array([[1, 2, 3], [4, 5, 6]]) # 整数の2次元配列
print(X)
print(X.shape) # 配列 X の shape（形）． 2行3列の2次元配列（=行列）であることがわかる
print(X.dtype) # 配列 X の要素のデータ型．要素は整数型であることがわかる

In [None]:
Y = np.array([[1, 2],        # 見やすくするために改行を入れて書いてもよい
              [np.pi, 4.56],  # np.pi は円周率
              [5, 6]])       # 浮動小数点数の配列
print(Y)
print(Y.shape)
print(Y.dtype)

要素にアクセスすることもできます．
要素番号は 0 からはじまります．

In [None]:
print(X[1, 2]) # （0から数えて）1行目の2列目の値
print(X[1][2]) # このような書き方でもよい

次のセルを修正して，`Y` の要素 `3.14...` のみが出力されるようにしよう．

In [None]:
print(Y)

整数の配列に浮動小数点数を代入しようとすると...

In [None]:
X[1, 2] = 123.4567
print(X)

In [None]:
print(X.shape)

配列 `A` に対して，`A.shape` は，その配列の「形」を表します．
上記の `X` は shape が `(2, 3)` ですので，2行3列の2次元配列です．
`X` の0行目は `[1 2 3]` で，1行目は `[4 5 123]` ですね．

次のようにして，特定の行や列を抜き出して扱うこともできます．

In [None]:
print(X[0, :])  # 0行目（「:」は「その軸方向の要素全部」の意味）

In [None]:
print(X[1])  # 1行目（ X[1, :] の「:」は省略することもできる）

In [None]:
print(X[:, 1]) # 1列目（この「:」は省略できませんね）

次のセルを修正して，`Y` の2行目と1列目をそれぞれ `print` させてみましょう．

In [None]:
print(Y)
print(Y)

### 2次元配列に対する演算

次の演算が何を行っているか考えよう．

In [None]:
X2 = X + 2
print(X2)

`X2` は，配列`X` の各要素に 2 を加えてできた,`X`と同じ shape の配列となっています．




In [None]:
print(2*X - 1)

ここでの `2*X` は，配列`X`の各要素を2倍してできた，`X`と同じ shape の配列です．
その配列の各要素から 1 を引いたものが最終的な結果となっています．

「配列 `+` 配列」や「配列 `*` 配列」などはどうなるでしょうか．

In [None]:
A = np.array([[2, 4, 6], [8, 10, 12]])
print(A)
print(A.shape)

In [None]:
b = np.arange(6) # 0 以上 6 未満（1刻み）
print(b)
print(b.shape)

In [None]:
B = b.reshape((2, 3))  # このようにすると，B は b の shape を (2, 3) に変えたものになる
print(B)
print(B.shape)

In [None]:
print(A + B)
print()
print(A * B)

「配列 `+` 配列」は要素ごとの和，「配列 `*` 配列」は要素ごとの積となっています．後者は行列の意味での積とは異なることに注意．
これらの演算では，2つの配列の shape が合っていなければいけません（注）．

<span style="font-size: 75%">
※ 注: 実は同じ shape でなくともエラーにならず計算できる場合があります．詳しくは後ほど．
</span>

先に，ベクトルとベクトルの内積を求めるものとして `@`演算子を紹介しましたが，実は，
「2次元配列 `@` 2次元配列」とした場合，行列の積になります．

In [None]:
A = np.arange(6).reshape((2, 3))
B = np.arange(6).reshape((3, 2))
print(A)
print()
print(B)

$$
A = \begin{pmatrix}
0 & 1 & 2\\
3 & 4 & 5\\
\end{pmatrix}
\quad
B = \begin{pmatrix}
0 & 1 \\
2 & 3 \\
4 & 5 \\
\end{pmatrix}
$$


次のセルに `A.shape` と `B.shape` を print するコードを書いて，`A` と `B` が何行何列になっているかを確認しましょう．

$A$ と $B$ の積 $AB$ を求めてみましょう．

In [None]:
print(A @ B)

$A$ は 2行3列，$B$は 3行2列なので，$AB$は2行2列ですね．

次は $BA$．

In [None]:
print(B @ A)

$BA$は3行3列．

演算子の前後の配列の shape が計算できる組み合わせでなければエラーになります．

In [None]:
print(A @ A)

In [None]:
print(A * B)

次のようにして，行列 $A$ の転置行列 $A^{\top}$ を求めることができます．

In [None]:
print(A.T)

----
## Matplotlib の初歩

Matplotlib は，Python で様々なグラフを描くことができるパッケージです．NumPy の配列などのデータを可視化するのに便利です．
https://matplotlib.org/

すごく多機能なんですが，ここでは詳しい使い方は説明せず，ごく簡単な例を示すだけにとどめます．興味を持ったらいろいろ調べてみてください．

NumPy を使う際は，次のようにインポートするのが基本です．

In [None]:
import matplotlib.pyplot as plt # matplotlib の pyplot モジュールを plt という名前でインポート

In [None]:
x = np.array([0, 1, 2, 5.5, 4])
y = np.array([10, 6, 8, 4, 7])

In [None]:
fig, ax = plt.subplots() # 描画の準備
ax.plot(x, y) # x の要素をX座標の値，y の要素をY座標の値として折れ線グラフを描く
plt.show()  # グラフを表示

In [None]:
fig, ax = plt.subplots()
ax.plot([1, 3, 5], [5, 9, 7]) # 一つ目
ax.plot(x, y)                 # 二つ目
plt.show()

In [None]:
fig, ax = plt.subplots()
ax.plot(x, y, color='red', marker='o')  # 色を変えたりデータ点に印を付けたり
plt.show()

In [None]:
fig, ax = plt.subplots()
ax.scatter(x, y)  # 散布図
plt.show()

In [None]:
fig, ax = plt.subplots()
ax.scatter(x, y)
ax.set_xlim(-5, 10) # X軸の範囲を指定
ax.set_ylim(0, 15)  # Y軸の範囲を指定
plt.show()

余談ですが， seaborn というデータ可視化ライブラリがあります．これを使うと，matplotlib を使ってより素敵なグラフを描けます．
https://seaborn.pydata.org/

次のようにするだけで matplotlib で描画するグラフがよりいい感じ(?)になります．


In [None]:
# このセルを実行したあとで，上の方の matplotlib を使うコードを実行し直してみよう
import seaborn
seaborn.set()