# 多項式回帰（特徴量：ALL）の学習→予測→評価


In [None]:
# # Colabでバージョンを変更するとき、コメントアウトして実行してください
# !pip install pandas==2.0.3
# !pip install numpy==1.25.2
# !pip install matplotlib==3.7.1
# !pip install scikit-learn==1.2.2

In [None]:
# ライブラリのインポート
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [None]:
# バージョンの確認
import matplotlib
import sklearn
print(pd.__version__)
print(np.__version__)
print(matplotlib.__version__)
print(sklearn.__version__)

In [None]:
# データセットの読み込み
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data', header=None, sep='\s+')
df.columns=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df.head()

In [None]:
# 特徴量と目的変数の設定
X = df.drop(['MEDV'], axis=1)
y = df['MEDV']
X.head()

In [None]:
# 学習データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=0)
print('X_trainの形状：', X_train.shape, ' y_trainの形状：', y_train.shape, ' X_testの形状：', X_test.shape, ' y_testの形状：', y_test.shape)

In [None]:
# 特徴量を2次多項式に変換
poly = PolynomialFeatures(degree=2, include_bias=False)

poly.fit(X_train)
X_train_poly = poly.transform(X_train)
X_test_poly = poly.transform(X_test)
print(X_train_poly.shape)
print(X_test_poly.shape)
print(X_train_poly[0]) # 1件目の標準化された学習データの特徴量

In [None]:
# 特徴量の標準化
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() # 変換器の作成
scaler.fit(X_train_poly) # 学習データでの標準化パラメータの計算
X_train = scaler.transform(X_train_poly) # 学習データの変換
X_test = scaler.transform(X_test_poly) # テストデータの変換

print(X_train[0]) # 1件目の標準化された学習データの特徴量

In [None]:
# モデルの学習
from sklearn.linear_model import LinearRegression

model = LinearRegression() # 線形回帰モデル
model.fit(X_train, y_train)
model.get_params()

In [None]:
# テストデータの予測と評価
y_test_pred = model.predict(X_test)
print('RMSE test: %.2f' % (mean_squared_error(y_test, y_test_pred) ** 0.5))

In [None]:
# テストデータの目的関数の統計情報
y_test.describe()

In [None]:
# 正則化無しのパラメータ
print('回帰係数 w = [w1, w2, … , w104]:', model.coef_)
print('定数項 w0:', model.intercept_)

# Lasso回帰（特徴量：ALL）の学習→予測→評価

In [None]:
# モデルの学習
from sklearn.linear_model import Lasso
model2 = Lasso(alpha=0.1)

model2.fit(X_train, y_train)
model2.get_params()

In [None]:
# 正則化有りのパラメータ
print('回帰係数 w = [w1, w2, … , w104]:', model2.coef_)
print('定数項 w0:', model2.intercept_)

In [None]:
# テストデータの予測と評価
y_test_pred = model2.predict(X_test)
print('RMSE test: %.2f' % (mean_squared_error(y_test, y_test_pred) ** 0.5))

# Ridge回帰（特徴量：ALL）の学習→予測→評価

In [None]:
# モデルの学習
from sklearn.linear_model import Ridge
model3 = Ridge(alpha=0.1)

model3.fit(X_train, y_train)
model3.get_params()

In [None]:
# 正則化有りのパラメータ
print('回帰係数 w = [w1, w2, … , w104]:', model3.coef_)
print('定数項 w0:', model3.intercept_)

In [None]:
# テストデータの予測と評価
y_test_pred = model3.predict(X_test)
print('RMSE test: %.2f' % (mean_squared_error(y_test, y_test_pred) ** 0.5))