## 線形回帰モデル

### 要点

線形回帰モデルとは、教師あり学習手法の一つであり、入力とパラメータ（重み）の線形結合を出力するモデルである。学習データから得られる回帰直線には誤差が含まれていると仮定し、その平均二乗誤差を最小化するような回帰係数と切片を求める。平均二乗誤差の最小化は勾配が0になる点を求めることによって求め、本手法を最小二乗法という。

### 実装演習

設定：ボストンの住宅データセットを線形回帰モデルで分析

課題：部屋数が4で犯罪率が0.3の物件はいくらになるか？

部屋数（RM）と犯罪率（CRIM）を用いて住宅価格の線形回帰モデルを作成し、予測を行なったところ物件価格は4,240ドルとなった。下記に実装した際のコードを示す。

<img src = "実装演習_線形回帰.png" width=80%>

## 非線形回帰モデル

### 要点

非線形回帰モデルとは、基底関数と呼ばれる既知の非線形関数を用いて入力データの変換を行い、パラメータ（重み）との線形結合を出力するモデルである。よく使用される基底関数には、多項式関数、ガウス型規定関数、スプライン関数などがある。

学習データに対して十分に小さな誤差が得られないモデルは未学習であると考えられる。一方で、小さな誤差は得られるが、検証データに対して誤差が大きいモデルは過学習であると考えられる。両者の対策として、前者はより表現力の高いモデルを使用すること、後者は学習データ数を増やす、不要な基底関数を削除して表現力を減らす、正則化を用いることなどが挙げられる。

正則化には、L1ノルムを使用するLasso回帰とL2ノルムを使用するRidge回帰がある。Lasso回帰は、いくつかのパラメータが0になるためスパースなモデルが構築できる。

### 実装演習

対象となる実装演習はなかったため、非線形回帰分析においてL1正則化（Lasso）、L2正則化（Ridge）を行なった際のalphaの値とフィッティング度合いについて考察を行なった。

alphaの値を0.0001から1まで10倍刻みに変更した際のフィッティングの結果を以下に示す。その結果、 alphaの値がL1正則化は0.001以下から、 L2正則化は0.1以下から学習データによく適合することがわかった。一方で、alphaの値をさらに小さくしていくと、近似曲線の滑らかさが失われ、訓練データに過学習する傾向が確認できた。

<img src = "実装演習_非線形回帰_Lasso.png" width=75%>

<img src = "実装演習_非線形回帰_Ridge.png" width=75%>

## ロジスティック回帰モデル

### 要点

ロジスティック回帰とは、分類問題を解くための教師あり学習の一つであり、入力とパラメータ（重み）の線形結合をシグモイド関数に入力し、一方のクラス（y=1）に分類される確率を出力するモデルである。パラメータの推定には、尤度関数を最大とするパラメータを探索する最尤推定法を使用する。

分類モデルの評価方法には、精度（Accuracy）がしばしば使用されるが、学習データのクラスに偏りがある場合には有効ではない。そのため、学習データに含まれる陽性クラスのうちどれくらいを正しく正答できたかを表す再現率（Recall）、学習モデルによって陽性クラスだと判定した中でどれくらいを正答できたかを表す適合率（Precision）、RecallとPrecisionの調和平均であるF値などの指標を用いる。

### 実装演習

設定：タイタニックの乗客データを利用しロジスティック回帰モデルを作成

課題：年齢が30歳で男の乗客は生き残れるか？

年齢（Age）と性別（Sex）を用いて乗客が生き残れるかどうかを予測するモデルを作成し、予測を行なったところ生き残れる確率は約21％となり、死亡する確率の方が高いことがわかった。

<img src = "実装演習_ロジスティック回帰.png" width=90%>

## 主成分分析

### 要点

主成分分析とは、線形変換後の変数の分散が最大となるような射影軸を探索し、データを次元削減するための手法である。主成分分析は、元データの分散共分散行列の固有値問題を解くことによって計算され、固有値対応する固有ベクトルを第k主成分という。

固有値の和は元データの分散と一致する。また、

### 実装演習

設定：乳がん検査データを利用しロジスティック回帰モデルを作成

課題：32次元のデータを2次元上に次元圧縮した際に、うまく判別できるかを確認

<img src = "実装演習_PCA1.png" width=80%>

<img src = "実装演習_PCA2.png" width=80%>

## サポートベクターマシーン

### 要点

### 実装演習

対象となる実装演習はなかったため、上記で使用した主成分分析後の乳がんデータに対して、SVMによる分類を実施し、パラメータCの違いによる分類境界について考察を行なった。下記にそのコードと結果の図を示す。

<img src = "実装演習_SVM1.png" width=90%>

<img src = "実装演習_SVM2.png" width=90%>