2025-10-02

# 学習内容
### 書籍/教材:スッキリわかるPythonによる機械学習入門
### 範囲: 第11章 さまざまな教師あり学習：回帰 
### 目的: リッジ回帰、ラッソ回帰、回帰木について学ぶ

 -----------------------------
## <関数まとめ>
・pf = PolynomialFeatures(degree =  整数,include_bias = False)
　作成後データの変数 = pf.fit_transform(データフレーム)

・pf.get_feature_names_out()  

・モデル変数 = Ridge(alpha = 数値) # alphaを大きくすると過学習防止効果が強くなるが、大きくしすぎると予測性能が低下する。


 -----------------------------
## <内容まとめ>

・**リッジ回帰**  
**リッジ回帰**は以下のような回帰式を作ることを目的とする。  

```
(興行収入) = 100×(SNS1のつぶやき数) + 120 × (SNS2のつぶやき数) - 50 
```

リッジ回帰は、係数をできるだけ小さくしつつ、予測と実際の誤差を小さくするというコンセプトの上で成り立っている。  

最小二乗誤差  
$$ 
E = e_{1}^{2} + e_{2}^{2} + e_{3}^{2} + e_{4}^{2}
$$

**正則化項**(係数の二乗の合計)  
$$
F = a^2 + b^2
$$

リッジ回帰は**L = E + F**として、**Lが最小になるような係数aとb**を算出する。リッジ回帰を用いることで、**過学習を防げる可能性が高くなる。**  

・**バイアス・バリアンス分解**  
過学習とは「訓練データでは予測と実際の誤差が少ないのに、未知のテストデータでは、誤差が大きくなる現象」だった。この未知データの誤差は**バイアス、バリアンス、ノイズ**の３つの要素に分解できる。そして、未知データの予測誤差は、  

```
実際と予測の誤差 = バイアス＋バリアンス＋ノイズ
```

と分解でき、これを**バイアス・バリアンス分解**と呼ぶ。 
  
例として、1つのデータセットからランダムサンプリングを5回行い、モデルを5個作ることを考える。回帰式は  
(興行収入) = A × (SNS1) + B  
とする。
ここで、学習データは各モデルで異なるので、各モデルの回帰式の係数Aおよび定数Bも異なる。そしてランダムサンプリングで選ばれなかったデータを正解データとしたとき、同じSNS1 = 170に対する正解データが根本的にばらついていたら、どのような予測値を返したら良い精度なのか判断しようがない。そこで分布の代表値である平均値=100を各モデルが予測すべき値とする。  
そうしたときに誤差が生じる不適切な状況を考えると、次の二通りがある。  
〇予測結果自体は密集しているが、根本的に予測結果の平均値が100から遠く離れたところにある。(**バイアス**が高い。)  
〇予測結果の平均は100に近いが、予測結果自体にばらつきが大きく生じている。(**バリアンス**が高い。)  
未知データにおいて、予測と実際の誤差はこのバイアスが高い状態とバリアンスが高い状態が原因であり、実世界のデータはこの二つの要因が同時に組み合わさっている。  
ノイズは必ず発生してしまうものでありどうしようもないため、**分析者は残りのバイアスとバリアンスを下げるようにモデルチューニングやデータ加工をする。**  

・**バリアンスと過学習**  
バイアスが高い状態は、モデルが訓練データ内の法則を十分に捉えきれてないときに起きる。そのため、重回帰分析のときは特徴量の列を増やしたり、決定木の場合は木の深さを深くする(モデルを複雑にする)ことでバイアスを下げることができる。  
しかし、モデルを複雑にすると過学習が起きてしまう。すなわち、**過学習とは、モデルを必要以上に複雑にした結果、バリアンスが異常に高くなった状態のこと。**  
モデルが複雑なことと、予測結果の分散が大きいことに関して以下のように考えると、モデルが複雑ならば、予測結果のばらつきが大きくなるといえそうである。  
  
1.各ランダムサンプリングで、データセットの選び方に偏りが生じる。  
2.モデルが複雑ならば、偏ったデータセットに対して完璧にフィットするように学習が行われてしまう。  
3.別のランダムサンプリングで得られたデータセットの場合でも同様に、そのデータセットにのみ完璧にフィットするように学習してしまう。そのため、同じ入力データx(未知データ)の予測結果に対して、モデルごとにばらつきが生じる。  
  
よって、バリアンスを低く抑えるためには次の二つのアプローチがある。　　
**A.データの件数を増やす**  
**B.データセットが偏っても、同じような学習結果になる分析手法を選択する。**  
ここでリッジ回帰は、「係数が大きくなりすぎては駄目」という制限を加えた重回帰分析であると考えることができるため、回帰式の係数は同じような値になりやすい。(Bのアプローチに適している。)よってリッジ回帰はバリアンスを低く抑えるのに適しており、過学習を防ぐ可能性が高い手法であるといえる。  

・**多項式項と交互作用特徴量の一括作成**
第８章の特徴量エンジニアリングで行った、2乗列や交互作用特徴量をPolynomialFeaturesメソッドを用いることで一括で作成できる。degreeで追加する次数を指定している。
```python
pf = PolynomialFeatures(degree = 整数, include_bias = False)
作成後データの変数 = pf.fit_transform(データフレーム)
```
列名の確認
```python
pf.get_feature_names_out()
```



・**リッジ回帰モデルの作成**
リッジ回帰モデルはRidge関数を使って作ることができる。alphaを大きくすると過学習防止効果が強くなるが、大きくしすぎると予測性能が低下する。
```python
モデル変数 = Ridge(alpha = 数値)
```

・**ラッソ回帰**  
ラッソ回帰はリッジ回帰と同様に、係数が小さくなるように回帰式を作成する手法である。リッジ回帰では正規化項として「係数の２乗の合計」を用いたが、ラッソ回帰では**「係数の絶対値の合計」を用いる。
$$
\begin{align}
E &= e_1^2 + e_2^2 + e_3^2 \\
F &= |a| + |b| \\
L &= E + F
\end{align}
$$
として、Lが最小になるような係数aとbを算出する。  
ラッソ回帰は「不要な特徴量を削除した上で回帰式を作成するモデル」である。 予測を行う上で不要と判断された列の係数が0になる。   

・**ラッソ回帰の実装**  
alphaの値が大きいほど、正規化項を重要視しようとする。
```python
変数 = Lasso(alpha = 数値)
```

・**回帰木**  
予測するためのフローチャートを作成できる決定木分析は分類だけでなく、回帰の問題でも利用することができる。回帰のためのフローチャートを**回帰木**、分類のためのフローチャートを**分類木**と呼び、両者まとめて「決定木」と呼ぶ。  
回帰木では正解データが数値データとなる。この場合、正解データの平均値を予測値として出力するようなモデルとなる。  


 -----------------------------
## まとめ  

・回帰の手法であるリッジ回帰は、係数が小さくなるような回帰式を作成する。これにより、通常の重回帰に比べ過学習を抑止できる。  

・回帰の手法であるラッソ回帰は、リッジ回帰と同様に係数が小さくなるような回帰式を作る。リッジ回帰とは正規化項の計算が異なり、不要な特徴量の係数を0にする。  

・未知データに対する予測誤差は、バイアス・バリアンス・ノイズの三つに分解できる。  

・過学習とは、「モデルを必要以上に複雑にした結果、バリアンスが異常に高くなった状態のこと」である。  

・バリアンスとは予測結果の分散のこと。  

・バイアスは、予測結果の平均値と正解データの平均値の誤差のこと。  

・ノイズは正解データの分散のこと。  

・決定木は回帰でも利用でき、回帰木と呼ぶ。


--------------------------------------
## 以下は実装例

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

df = pd.read_csv('chap11/Boston.csv')
df = df.fillna(df.mean(numeric_only=True))

df = df.drop([76], axis = 0)

t = df[['PRICE']]
x = df.loc[:,['RM', 'PTRATIO','LSTAT']]

sc = StandardScaler()
sc_x = sc.fit_transform(x)
sc2 = StandardScaler()
sc_t = sc2.fit_transform(t)

In [16]:
from sklearn.preprocessing import PolynomialFeatures

pf = PolynomialFeatures(degree = 2, include_bias = False)
pf_x = pf.fit_transform(sc_x) # 二乗列と交互作用特徴量の追加
pf_x.shape # 行数と列数

(99, 9)

In [17]:
pf.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [18]:
from sklearn.linear_model import LinearRegression
x_train,x_test, y_train, y_test = train_test_split(pf_x, sc_t, test_size = 0.3, random_state = 0)
from sklearn.linear_model import Ridge
ridgeModel = Ridge(alpha = 10)
ridgeModel.fit(x_train, y_train)
print(ridgeModel.score(x_train, y_train))
print(ridgeModel.score(x_test, y_test)):

SyntaxError: invalid syntax (2420892002.py, line 7)

In [None]:
maxScore = 0
maxIndex = 0

for i in range(1, 2001):
    num = i/100
    ridgeModel = Ridge(random_state = 0, alpha = num)
    ridgeModel.fit(x_train, y_train)

    result = ridgeModel.score(x_test, y_test)
    if result > maxScore:
        maxScore = result
        maxIndex = num

print(maxIndex, maxScore)

In [19]:
print(sum(abs(model.coef_)[0])) # 線形回帰の係数の合計

print(sum(abs(ridgeModel.coef_)[0]))


NameError: name 'model' is not defined

In [21]:
from sklearn.linear_model import Lasso
x_train, x_test, y_train, y_test = train_test_split(pf_x, sc_t, test_size = 0.3, random_state = 0)
model = Lasso(alpha = 0.1)
model.fit(x_train, y_train)

print(model.score(x_train, y_train))
print(model.score(x_test, y_test))

0.8224680202036665
0.858846785318774


In [22]:
weight = model.coef_
pd.Series(weight, index = pf.get_feature_names_out())

x0       0.409426
x1      -0.083104
x2      -0.287714
x0^2     0.150001
x0 x1   -0.000000
x0 x2   -0.037450
x1^2    -0.000000
x1 x2    0.000000
x2^2     0.000000
dtype: float64

In [23]:
# 上記の結果よりx0x1列、x1^2列、x1x2列、x2^2列の4列が不要と判断されていることがわかる。

In [26]:
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv('chap11/Boston.csv')
df = df.fillna(df.mean(numeric_only=True))
#df = df.drop([76], axis = 0) # 外れ値の行を削除
x = df.loc[:, 'ZN':'LSTAT']
t = df['PRICE']

x_train, x_test, y_train, y_test = train_test_split(x, t,
    test_size = 0.3, random_state = 0)

In [27]:
# ライブラリインポート(回帰木バージョン)
from sklearn.tree import DecisionTreeRegressor

# 木の深さの最大を10と設定
model = DecisionTreeRegressor(max_depth = 10,
random_state = 0)
model.fit(x_train, y_train)
model.score(x_test, y_test) # テストデータでの決定係数

0.59433275545417

In [28]:
pd.Series(model.feature_importances_, index = x.columns)

ZN         0.000252
INDUS      0.007301
CHAS       0.000000
NOX        0.001967
RM         0.759547
AGE        0.139388
DIS        0.013635
RAD        0.000404
TAX        0.013975
PTRATIO    0.001913
B          0.003331
LSTAT      0.058287
dtype: float64