<a href="https://colab.research.google.com/github/yukinaga/numpy_matplotlib/blob/main/section_4/02_polynomial_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPyによる多項式回帰
NumPyのpolyfit関数を使い、シンプルな機械学習である「多項式回帰」を実装します。  


## ●訓練用データの作成
sin関数に乱数でノイズを加えて、訓練用のデータを作成します。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-2*np.pi, 2*np.pi)  # -2πから2πまで
sin_y = np.sin(x)  + 0.2*np.random.randn(len(x))  # sin関数に乱数でノイズを加える
plt.scatter(x, sin_y)  # ノイズ付き
plt.plot(x, np.sin(x))  # ノイズ無し
plt.show()

In [None]:
# 練習用


## ●多項式回帰とは？
「回帰分析」は、データの傾向を学習する機械学習の一種です。  
最もシンプルな「単回帰」では、$y=ax+b$という直線の式でデータの傾向を捉えます。  
今回は、多項式をデータにあてはめる「多項式回帰」を実装します。  
  
$n$次の多項式は、以下の式で表されます。

$$ f(x)  = \sum_{k=0}^n a_kx^k $$

この場合、$a_0, a_1, \cdots, a_n$がパラメータです。  
これらの値をデータに当てはめるように調整することで、多項式によるフィッティングが行われます。

多項式回帰では、フィッティングのために「最小二乗法」がよく使われます。  
最小二乗法とは、以下の二乗和$J$を最小にするように、関数$f(x)$のパラメータを調整することです。

$$ J  = \sum_{j=1}^m \Bigl(f(x_j) - t_j\Bigr)^2$$

上記の式で、$t_j$は各データです。  

## ●多項式回帰
NumPyのpolyfit関数により、多項式ででデータの傾向を捉えます。  
polyfit関数について、詳細は以下の公式ドキュメントに記述があります。  
https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html

In [None]:
print("----- 3次式でフィット -----")
y_fit_3 = np.polyfit(x, sin_y, 3)  # 係数の取得
print(y_fit_3)
p_fit_3 = np.poly1d(y_fit_3)  # 多項式のオブジェクト
plt.plot(x, p_fit_3(x), linestyle="dashed")
plt.scatter(x, sin_y)
plt.show()

print("----- 4次式でフィット -----")
y_fit_4 = np.polyfit(x, sin_y, 4)  # 係数の取得
print(y_fit_4)
p_fit_4 = np.poly1d(y_fit_4)  # 多項式のオブジェクト
plt.plot(x, p_fit_4(x), linestyle="dashed")
plt.scatter(x, sin_y)
plt.show()

print("----- 5次式でフィット -----")
y_fit_5 = np.polyfit(x, sin_y, 5)  # 係数の取得
print(y_fit_5)
p_fit_5 = np.poly1d(y_fit_5)  # 多項式のオブジェクト
plt.plot(x, p_fit_5(x), linestyle="dashed")
plt.scatter(x, sin_y)
plt.show()

print("----- 6次式でフィット -----")
y_fit_6 = np.polyfit(x, sin_y, 6)  # 係数の取得
print(y_fit_6)
p_fit_6 = np.poly1d(y_fit_6)  # 多項式のオブジェクト
plt.plot(x, p_fit_6(x), linestyle="dashed")
plt.scatter(x, sin_y)
plt.show()

In [None]:
# 練習用


多項式により、サインカーブの傾向を捉えることができました。

## ●演習
以下のデータの傾向を、NumPyのpolyfit関数で捉えましょう。   

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-3*np.pi, 3*np.pi)  # -3πから3πまで
cos_y = np.cos(x)  + 0.2*np.random.randn(len(x))  # cos関数に乱数でノイズを加える
plt.scatter(x, cos_y)  # ノイズ付き
plt.plot(x, np.cos(x))  # ノイズ無し
plt.show()

以下のセルにコードを追記し、データの傾向を適切に捉える多項式回帰を実装してください。

In [None]:
y_fit = np.  # ←ここにコードを追記: 係数の取得
print(y_fit)
p_fit = np.poly1d(y_fit)  # 多項式のオブジェクト
plt.plot(x, p_fit(x), linestyle="dashed")
plt.scatter(x, cos_y)
plt.show()

## ●解答例
以下は解答例です。  
どうしても分からない時、もしくは答え合わせ時に参考にしましょう。

In [None]:
y_fit = np.polyfit(x, cos_y, 10)  # ←ここにコードを追記: 係数の取得
print(y_fit)
p_fit = np.poly1d(y_fit)  # 多項式のオブジェクト
plt.plot(x, p_fit(x), linestyle="dashed")
plt.scatter(x, cos_y)
plt.show()