In [23]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
# 統計モデルを推定するライブラリ
import statsmodels.formula.api as smf
import statsmodels.api as sm
# 機械学習法を適用するためのライブラリ
from sklearn import linear_model
# 表示桁数の指定
%precision 3
# グラフをjupyter Notebook内に表示させるための指定
%matplotlib inline

# 3-2
X = pd.read_csv("7-3-1-large-data.csv")
# X.head(3)
# 3-3
# sp.mean(X.X_1)
# sp.mean(X, axis = 0).head(3)
X -= sp.mean(X, axis = 0)
X /= sp.std(X, ddof = 1, axis = 0)
'''
sp.mean(X, axis = 0).head(3).round(3)
sp.std(X, ddof = 1, axis = 0).head(3)
'''
# 3-4
# 正規分布に従うノイズ
np.random.seed(1)
noise = sp.stats.norm.rvs(loc = 0, scale = 1, size = X.shape[0])
# 正しい係数は5として応答変数を作る
y = X.X_1 * 5 + noise
# 応答変数と説明変数をまとめる
large_data = pd.concat([pd.DataFrame({"y":y}), X], axis = 1)
# 散布図の作成
'''
sns.jointplot(y = "y", x = "X_1", data = large_data,
            color = 'black')
'''
# 3-5
lm_statsmodels = sm.OLS(endog = y, exog = X).fit()
# lm_statsmodels.params.head(3)
# 3-6
# どんなモデルを作るかをまずは指定
# lm_sklearn = linear_model.LinearRegression()
# データを指定して，モデルを推定
# lm_sklearn.fit(X, y)
# 推定されたパラメタ(array)
# lm_sklearn.coef_
# 3-7
n_alphas = 50
'''
ridge_alphas = np.logspace(-2, 0.7, n_alphas)
sp.log10(ridge_alphas)
'''
# 推定された回帰係数を格納するリスト
ridge_coefs = []
# forループで何度もRidge回帰を推定する
for a in ridge_alphas:
    ridge = linear_model.Ridge(alpha = a, fit_intercept = False)
    ridge.fit(X, y)
    ridge_coefs.append(ridge.coef_)

ridge_coefs = np.array(ridge_coefs)
# ridge_coefs.shape
# aを変換
log_alphas = -sp.log10(ridge_alphas)
'''
# 横軸に-log10(α)，縦軸に係数を置いた折れ線グラフ
plt.plot(log_alphas, ridge_coefs, color = 'black')
# 説明変数X_1の係数がわかるように目印を入れる
plt.text(max(log_alphas) - 0.1, np.array(ridge_coefs)[0,0], "X_1")
# X軸の範囲
plt.xlim([min(log_alphas) - 0.1, max(log_alphas) + 0.3])
# 軸ラベル
plt.title("Ridge")
plt.xlabel("- log10(alpha)")
plt.ylabel("Coefficients")
'''
# 3-8
# CVで最適なαを求める
ridge_best = linear_model.RidgeCV(
    cv = 10, alphas = ridge_alphas, fit_intercept = False)
ridge_best.fit(X, y)
# 最適な-log10(α)
# -sp.log10(ridge_best.alpha_)
ridge_best.alpha_
ridge_best.coef_
# 3-9
lasso_alphas, lasso_coefs, _ = linear_model.lasso_path(
    X, y, fit_intercept = False)
# αを変換
log_alphas = -sp.log10(lasso_alphas)
'''
# 縦軸に-log10(α),横軸に係数を置いた折れ線グラフ
plt.plot(log_alphas, lasso_coefs.T, color = 'black')
# 説明変数X_1の係数がわかるように目印を入れる
plt.text(max(log_alphas) + 0.1, lasso_coefs[0, -1], "X_1")
# X軸の範囲
plt.xlim([min(log_alphas) - 0.1, max(log_alphas) + 0.3])
# 軸ラベル
plt.title("Lasso")
plt.xlabel("- log10(alpha)")
plt.ylabel("Coefficients")
'''
# 3-10
# CVで最適なαを求める
lasso_best = linear_model.LassoCV(
    cv = 10, alphas = lasso_alphas, fit_intercept = False)
lasso_best.fit(X, y)
# 最適な-log(α)
-sp.log10(lasso_best.alpha_)
lasso_best.alpha_
lasso_best.coef_

array([ 5.336e+00, -0.000e+00, -0.000e+00, -3.043e-01, -4.121e-02,
       -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00,
       -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00,
       -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00,
       -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00, -0.000e+00,
       -0.000e+00, -0.000e+00, -0.000e+00,  0.000e+00, -0.000e+00,
        0.000e+00,  0.000e+00, -0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00, -0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,
        0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e+00,
        8.425e-03,  0.000e+00,  0.000e+00,  0.000e+00,  0.000e