# **Chapter 7**： SciPy入門

SciPy（Scientific Python）は、科学技術計算のためのPythonライブラリであり、NumPyを基盤として構築されています。NumPyが主に多次元配列とその高速な操作を提供するのに対して、SciPyはそれを拡張し、線形代数、統計、最適化、補間、積分などの機能を豊富に備えています。

SciPyは様々な科学計算分野に対応するために、機能別にモジュールが構成されています。主要なモジュールには以下のようなものがあります:

* `scipy.linalg`: 線形代数計算（行列計算、固有値問題など）
* `scipy.stats`: 統計分析と確率分布
* `scipy.integrate`: 数値積分
* `scipy.misc`: 数値微分
* `scipy.optimize`: 最適化問題の解法
* `scipy.interpolate`: 補間処理
* など

本章では、線形代数や行列計算（`scipy.linalg`）、統計分析（`scipy.stats`）、数値積分や微分（`scipy.integrate`・`scipy.misc`）、補間処理（`scipy.interpolate`）、そして最適化手法（`scipy.optimize`）といった代表的なモジュールについて取り上げ、それぞれの基本的な使い方を紹介します。複雑な数値計算を自動化し、実践的な問題を効率よく解決する力を身につけましょう。

## 7.1 線形代数と行列計算（scipy.linalg）

Scipyの`linalg`モジュールは、線形代数（Linear Algebra）に関する高度な計算機能を提供します。特に、連立一次方程式の解法、固有値・固有ベクトルの計算、特異値分解（SVD）などを効率的に行うことができます。

### 7.1.1 連立一次方程式の解法
連立一次方程式とは、複数の一次方程式（1次式）を同時に満たす変数の値を求める問題です。たとえば、次のような2つの方程式があるとします：

$$
\begin{cases}
2x + y = 5 \\
3x - 2y = 4
\end{cases}
$$

このように、複数の式と変数から構成される方程式の集まりが「連立一次方程式」です。この方程式の解（$x, y$）を求めるためには、代入法や加減法のような手計算の方法がありますが、プログラムでは線形代数の手法を用いて高速かつ正確に解くことができます。

連立一次方程式は行列の形で表すことができます：

$$
Ax = b
$$

ここで、

* $A$：係数行列（$n \times n$の正方行列）
* $x$：変数ベクトル（解）
* $b$：定数ベクトル

先ほどの例であれば、以下のようになります：

$$
\begin{bmatrix}
2 & 1 \\
3 & -2
\end{bmatrix}
\begin{bmatrix}
x \\
y
\end{bmatrix}
=
\begin{bmatrix}
5 \\
4
\end{bmatrix}
$$

SciPyの`linalg`モジュールでは、下記のリストのように、`solve`関数を用いることでこのような連立一次方程式を簡単に解くことができます。

```python
リスト 7.1

import numpy as np
from scipy import linalg

# 係数行列A
A = np.array([[2, 1],
              [3, -2]])

# 定数ベクトルb
b = np.array([5, 4])

# 解を求める
x = linalg.solve(A, b)

print("X is:", x)
```

**出力**

```
X is: [2. 1.]
```

この結果は、$x = 2$, $y = 1$ であることを示しています。これは元の方程式に代入すれば確認できます。

**注意点**

* `solve`関数は、係数行列$A$が**正則（逆行列をもつ）**であることを前提としています。そうでない場合、エラーが発生します。
* 解が一意に定まらない場合や、解が存在しない場合もあります。その際は`LinAlgError`が投げられます。


### 7.1.2 固有値・固有ベクトルの計算
線形代数において、**固有値（eigenvalue）**と**固有ベクトル（eigenvector）**は、行列の本質的な性質を捉えるうえで重要な概念です。
ある正方行列 $A$ に対して、次のような関係を満たすスカラー $\lambda$ とベクトル $\mathbf{v}$ を考えます：

$$
A\mathbf{v} = \lambda \mathbf{v}
$$

このとき、

* $\lambda$ を$A$の**固有値**（eigenvalue）
* $\mathbf{v}$ を$A$の**固有ベクトル**（eigenvector）

と呼びます。
つまり、固有ベクトルは行列による変換後も向きが変わらないベクトルであり、固有値はそのベクトルの伸び縮みの度合いを表します。

Pythonでは、SciPyの`linalg`モジュールを使って固有値と固有ベクトルを求めることができます。

#### 使用する関数：

```python
scipy.linalg.eig(a)
```

* 引数：

  * `a`: 固有値を求めたい**正方行列**
* 戻り値：

  * 固有値：1次元の配列
  * 固有ベクトル：2次元配列（列ベクトルとして並ぶ）


**例**：$2×2$の行列の固有値と固有ベクトルを求める

```python
# リスト 7.2

import numpy as np
from scipy.linalg import eig

# 行列Aを定義
A = np.array([[4, -2],
              [1, 1]])

# 固有値と固有ベクトルを計算
eigenvalues, eigenvectors = eig(A)

# 結果を表示
print("eigen values are:")
print(eigenvalues)

print("\neigen vectors are:")
print(eigenvectors)
```

**出力：**

```
eigen values are:
[3.+0.j 2.+0.j]

eigen vectors are:
[[ 0.70710678 -0.4472136 ]
 [-0.70710678  0.89442719]]
```

この出力では、固有値は $\lambda_1 = 3$, $\lambda_2 = 2$, それぞれに対応する固有ベクトルは$(0.7071, -0.7071)$, $(-0.447, 0.894)$ 列ベクトルとして `eigenvectors` に格納されています。



## 7.2 統計分析とデータの記述（scipy.stats）

Scipyの`stats`モジュールは、統計分析と確率論に関連する豊富な機能を提供します。確率分布、統計的検定、記述統計量の計算など、データ解析のための様々なツールが含まれています。

本節では、仮のテスト点数を対象として、`scipy.stats`モジュールを使って、テスト点数が正規分布（ガウス分布）に従っているかを調べる方法や、その分布を記述する方法について紹介します。

あるクラスの学生の英語のテスト結果が以下のように得られました。このデータが正規分布に従っているかを検定し、従っていると判断できれば、その分布を可視化して理解を深めます。

```python
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 仮の英語の点数データ
scores = np.array([72, 65, 78, 80, 67, 70, 75, 85, 77, 69,
                   74, 73, 71, 68, 79, 76, 66, 82, 83, 70])
```

### 7.2.1. データの正規性を確認する（Shapiro-Wilk検定）

正規分布に従っているかどうかを確認するために、`scipy.stats.shapiro()`関数を使用してシャピロ・ウィルク検定を行います。この検定では、帰無仮説が「データは正規分布に従う」、対立仮説が「データは正規分布に従わない」となります。

```python
# リスト 7.3
stat, p_value = stats.shapiro(scores)
print(f"シャピロ・ウィルク検定 - 統計量: {stat:.4f}, p値: {p_value:.4f}")

# 結果の解釈
alpha = 0.05
if p_value > alpha:
    print(f"p値({p_value:.4f}) > {alpha}：データは正規分布に従うという仮説を棄却できません")
else:
    print(f"p値({p_value:.4f}) <= {alpha}：データは正規分布に従わない可能性が高いです")

#出力
#　シャピロ・ウィルク検定 - 統計量: 0.9677, p値: 0.7066
#　p値(0.7066) > 0.05：データは正規分布に従うという仮説を棄却できません
```

* **p値 ≥ 0.05** の場合、「正規分布に従っていないとは言えない」 → 正規分布とみなせる。
* **p値 < 0.05** の場合、「正規分布に従っていない」可能性がある。

### 7.2.2. 平均と標準偏差の推定

正規分布を記述するために、5.5節に説明したのNumPyにより、平均（μ）と標準偏差（σ）を計算できます。また、`scipy.stats.norm.fit()`を使って、正規分布に最も適したパラメータを推定することも可能です：

```python
# リスト 7.3

# Numpy利用する方法
mu, sigma = np.mean(scores), np.std(scores)
print(f"平均: {mu:.2f}, 標準偏差: {sigma:.2f}")
#出力
# 平均: 74.00, 標準偏差: 5.74


# Scipy利用する方法
mu_fit, sigma_fit = stats.norm.fit(scores)
print(f"フィットした平均: {mu_fit:.2f}, フィットした標準偏差: {sigma_fit:.2f}")
#出力
# フィットした平均: 74.00, フィットした標準偏差: 5.74
```

### 7.2.3. ヒストグラムと確率密度関数の可視化
最後に、点数データの分布を視覚的に理解するために、ヒストグラムと確率密度関数（PDF: Probability Density Function）を可視化し、実際のデータの分布と理論上の正規分布の形状を比較できます。

平均を$\mu$, 分散を$\sigma^2$とする正規分布とは、確率密度関数は以下の式で表される、
$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
$$

`scipy.stats.norm.pdf()` 関数を使うと、この確率密度関数の値を簡単に計算できます。たとえば、`norm.pdf(x, mu, sigma)` は、平均 `mu`、標準偏差 `sigma` の正規分布における、各 `x` に対する密度を返します。最後に、ヒストグラムとPDFを同じグラフ上に描画し、際のデータが理想的な正規分布にどの程度近いかを直感的に理解できます。

```python
x = np.linspace(min(scores)-5, max(scores)+5, 100)
pdf = stats.norm.pdf(x, mu_fit, sigma_fit)

plt.hist(scores, bins=10, rwidth=0.9, density=True, alpha=0.6, color='blue', edgecolor='black', label='Histgram')
plt.plot(x, pdf, 'r-', label='Normal Distribution PDF')
plt.xlabel('Scores')
plt.ylabel('PDF')
plt.legend()
plt.grid(True)
plt.show()
```
**描画結果:**

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_07/Fig7_1_hist_vs_pdf.png?raw=1" width="400">
<figcaption align = "center"> Fig 7.1 ヒストグラムと確率密度関数の可視化.</figcaption>
</figure>


## 7.3 数値積分と微分（scipy.integrate・scipy.misc）

私たちはこれまで、積分や微分の基本的な考え方や、簡単な関数に対して解析的（数式による）な解法を学んできました。例えば、
関数 $f(x) = x^2$ の定積分を考えます。

$$
\int_0^1 x^2 \, dx
$$

これは基本的な積分公式を用いて、次のように解析的に計算できます。

$$
\int x^2 \, dx = \frac{x^3}{3} + C
$$

したがって、

$$
\int_0^1 x^2 \, dx = \left[ \frac{x^3}{3} \right]_0^1 = \frac{1}{3}
$$

しかし、実際の応用場面では、積分や微分を解析的に解くことが困難または不可能なケースが多く存在します。

次のような関数の定積分を考えてみましょう：

$$
\int_0^1 e^{-x^2} \, dx
$$

この積分は、初等関数では表すことができないため、解析的な方法では正確な値を求めることができません。同様に、複雑な力学系や生態モデルなどに現れる常微分方程式（ODE: Ordinary Differential Equation）も、解析解を求めるのが難しい場合があります。

このような問題に対して、**数値積分や数値微分、さらに常微分方程式の数値解法**が強力なツールとなります。Pythonでは、`scipy`ライブラリの`integrate`や`misc`モジュールを使って、これらの数値計算を簡単に実行できます。

### 7.3.1 定積分の数値計算：`scipy.integrate.quad`

先ほどのガウス関数の例を、`scipy.integrate`モジュールの`quad`関数を使って数値的に解いてみましょう。

```python
from scipy.integrate import quad
import numpy as np

# 積分対象の関数
def f(x):
    return np.exp(-x**2)

# 数値積分（0から1まで）
result, error = quad(f, 0, 1)

print("積分値:", result)
print("推定誤差:", error)
```

出力例：

```
積分値: 0.746824...
推定誤差: 8.3e-15
```

このように、`quad`関数を使うことで、定積分の近似値とその誤差を得ることができます。

### 7.3.2 常微分方程式の数値解法：`scipy.integrate.solve_ivp`

常微分方程式の数値解法には、`solve_ivp`関数が広く使われています。例えば、以下の1階常微分方程式を考えます：

$$
\frac{dy}{dt} = -2y, \quad y(0) = 1
$$

この方程式は解析的には $y(t) = e^{-2t}$ という解を持ちますが、ここでは数値的に解いてみます。

```python
from scipy.integrate import solve_ivp

# 常微分方程式を定義
def dydt(t, y):
    return -2 * y

# 初期値 y(0)=1, 時間範囲は 0 から 3の数値解を計算
sol = solve_ivp(dydt, [0, 3], [1], t_eval=np.linspace(0, 3, 20))

# 数値解と解析解の比較
plt.plot(sol.t, sol.y[0], 'bo', label='Numerical solution')   # 数値解
plt.plot(sol.t, np.exp(-2 * sol.t), 'r-',  label='Analytical solution') # 解析解

plt.legend()
plt.grid(True)
plt.xlabel('t')
plt.ylabel('y(t)')
plt.show()
```

下の図の示すように、`solve_ivp`を使うことで、常微分方程式の数値解を得ることができます。
**描画結果:**

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_07/Fig7_2_ivp.png?raw=1" width="400">
<figcaption align = "center"> Fig 7.2 常微分方程式の数値解と解析解の比較.</figcaption>
</figure>


## 7.4 補間処理（scipy.interpolate）

実験データや観測データには、計測機器の不具合などの理由により、観測されていない点（欠損値）や異常値が含まれている場合があります。そのような場合には、図7.4に示すように、データの**補間（Interpolation）**を利用して、欠損値の前後の値から適切な値を推定し、置き換えることが一般的です。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_07/Fig7_3_Interpolation.png?raw=1" width="400">
<figcaption align = "center"> Fig 7.3 欠損値や異常値の補間.</figcaption>
</figure>

SciPyライブラリには、さまざまな補間処理を行うためのモジュール`scipy.interpolate`が用意されています。


線形補間（Linear Interpolation）は、最も基本的な補間手法の一つです。図7.4に示すように、2点$(x_0, y_0)$、$(x_1, y_1)$ を通る一次関数（直線）を用いて補間を行います。
このとき、区間 $[x_0, x_1]$ 内の任意の $x$ に対する補間値 $f(x)$ は、次の式によって求められます：
$$
f(x) = y_0 + \frac{y_1 - y_0}{x_1 - x_0} (x - x_0)
$$
この式は、2点間を結ぶ直線上の任意の点の値を求めるためのものであり、補間の中でも計算が簡便でよく用いられます。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_07/Fig7_4_Linear_Interpolation.png?raw=1" width="300">
<figcaption align = "center"> Fig 7.4 線形補間.</figcaption>
</figure>

リスト7.5は、SciPyライブラリの `scipy.interpolate` モジュールに含まれる `interp1d` 関数を用いて、与えられたデータに対して線形補間を行う例です。`interp1d` 関数は、既知のデータ点から補間関数を作成し、任意の位置での値を推定することができます。

```python
import numpy as np
from scipy.interpolate import interp1d
import matplotlib.pyplot as plt

# 補間元となるデータ（x座標とy座標）
x = np.array([0, 1, 2, 3, 4])      # xの値
y = np.array([0, 2, 1, 3, 7])      # yの値（測定値など）

# 線形補間関数を作成（kind='linear' を指定）
f_linear = interp1d(x, y, kind='linear')

# 補間を行うための細かいxの値を作成（0〜4の範囲を20分割）
x_new = np.linspace(0, 4, 20)

# 補間関数を使って新しいyの値を計算
y_new = f_linear(x_new)

# 元のデータ点をプロット（丸印）
plt.plot(x, y, 'ro', label='Original Data')

# 補間されたデータをプロット（ｘ）
plt.plot(x_new, y_new, 'bx', label='Linear Interpolation')
plt.legend()
plt.grid(True)
plt.show()
```
このコードにより、Fig7.5 元のデータ点の間を補間した結果がグラフとして表示されます。これにより、欠損している可能性のある点の値を推定することができます。`interp1d` は線形補間のほかにも、スプライン補間（kind='cubic' など）にも対応しています。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_07/Fig7_5_Linear_Interpolation_plot.png?raw=1" width="300">
<figcaption align = "center"> Fig 7.4 `interp1d` を用いて線形補間の例.</figcaption>
</figure>



## 7.5 最適化手法（scipy.optimize）

最適化（optimization）とは、ある目的を達成するために、最適なパラメータを求める手法です。数学、工学、経済学、さらには機械学習や人工知能（AI）など、さまざまな分野で広く利用されています。特にAIの分野では、大量の学習データを用いてモデルを訓練する際に、予測精度を高めるための最適なパラメータを求めることが重要となります。

Python の `scipy.optimize` モジュールは、こうした最適化問題を解くためのさまざまな関数を提供しています。


### 7.5.1 関数の最小化

最適化の基本問題のひとつは、「ある関数 $f(x)$ の最小値を与える $x$ を求める」というものです。たとえば、以下のような関数の最小値を求める場合：

$$
f(x) = (x - 2)^2 + 1
$$

この関数は、$x = 2$ のときに最小値 $f(2) = 1$ を取ります。

**Pythonでの実装例:**

```python
import numpy as np
from scipy.optimize import minimize

# 最小化したい関数を定義
def f(x):
    return (x - 2)**2 + 1

# 初期値を与えて最小化
result = minimize(f, x0=0)

# 結果を表示
print("最小値をとる x:", result.x)
print("関数の最小値:", result.fun)
```
**結果：**
```
最小値をとる x: [1.99999997]
関数の最小値: 1.0000000000000007
```

**解説：**

* `minimize` 関数は、指定した関数の最小値を求める汎用的な関数です。
* `x0=0` は最適化の開始点（初期値）を表しています。
* `result.x` は最小値を与える $x$ の値、`result.fun` はそのときの関数値です。


### 7.5.2 最小二乗法によるカーブフィッティング

実験や観測データが与えられたとき、それに最もよく合う関数（curve:カーブ）を求めることを **カーブフィッティング(curve fitting)** といいます。このときよく使われるのが **最小二乗法** です。

最小二乗法では、予測値と実測値の差（残差）の2乗和を最小にするパラメータを求めます。

**Pythonでの実装例**

以下の例では、指数関数モデル $y = a e^{b x}$ をデータに当てはめます。

```python
import numpy as np
from scipy.optimize import curve_fit
import matplotlib.pyplot as plt

# 計測データを作成
x_data = np.linspace(0, 4, 20)
y_data = np.array([-3.7, -7.6, -0.5, -7.1, 20.2, 13.6, 13.1, 7.6, 29.9, 32.1,
                  17.4, 30.7, 73.6, 84.8, 102.0, 135.3, 208.3, 272.2, 346.0, 438.7])

# フィットさせたいモデル関数を定義
def model_func(x, a, b):
    return a * np.exp(b * x)

# 最小二乗法でパラメータを推定
params, covariance = curve_fit(model_func, x_data, y_data)

# 推定されたパラメータを表示
print("推定された a:", params[0])
print("推定された b:", params[1])

# フィッティング結果を描画
plt.scatter(x_data, y_data, label="Data")
plt.plot(x_data, model_func(x_data, *params), color='red', label="Fitted Curve")
plt.legend()
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True)
plt.show()
```
**結果：**
```
推定された a: 2.2047594308930183
推定された b: 1.329799138384118
```
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_07/Fig7_6_CurveFittingt.png?raw=1" width="300">
<figcaption align = "center"> Fig 7.5 最小二乗法によるカーブフィッティング.</figcaption>
</figure>

**解説：**
* `curve_fit` 関数は、与えられたモデル関数にデータをフィットさせるための関数です。
* モデル関数 `model_func(x, a, b)` は、フィッティングしたい関数の形を表します。
* `params` に推定されたパラメータ $a$, $b$ が返されます。


