# 教師あり学習（分類問題、回帰問題）

正解ラベル付きのトレーニングデータからモデルを学習し、未知のデータに対して予測を行う

教師あり学習には分類問題と、回帰問題の２つがある。

分類問題とは、カテゴリ別に分けてあるデータを学習し、未知のデータのカテゴリ(離散値)を予測する。このコンテンツではこの分類問題に対するアルゴリズムの理解や簡単な問題の実装を行う。

回帰問題とは、分類問題と違って、こちらは連続値を予測をする。

# 教師なし学習

正解ラベルのついていないデータや構造が不明なデータに対し、データの構造や関係性を機械が見出すことを指す。



# フィーチャースケーリング

再急降下法では最小二乗法の最小値を求める必要がある。そのとき特徴量に対して、ある幅で最小値に近づいていく(収束する)必要があるが、その特徴量の範囲がそれぞれ異なると時間がかかってしまいまう。そのため、特徴量の範囲を調整することをfeature scaling(フィーチャースケーリング)と言い、それによって処理時間を短くすることができる。

例えば、「特徴数１(x1)：大きさ」の場合、範囲が「1-3000」だったとして、「特徴数２(x2)：部屋数」の場合は、範囲が「1-3」だとしたら、同じ幅で最小値に収束していくには範囲が大きく異なるため、時間がかかってしまう。。正規化の種類として、**Min-Max normalization**と**z-score normalization(標準化)**がある。

## Min-Max normalization

Min-Max normalizationは最小値を０、最大値を１に変換する正規化の手法。

この正規化条件は、データの分布が一様分布であるもの。

$x_{min-max}^{i} = \frac{ x^i - min }{ max - min }$



これを以上の例にあてはめると

$x_1 = \frac{ 大きさ(1～3000) }{ 3000-1 },　  x_2 = \frac{ 部屋数(1～3) }{ 3-1 }$



以上の様な変換を行うことで、$0 \leq {x_1} \leq 1 ,　  0 \leq x_2 \leq 1$

## z-score normalization(標準化)

標準化は、元のデータの平均を０、標準偏差を１に変換する正規化の手法。

$x_{z-score}^{i} = \frac{x^i - \mu}{\sigma}$



## 以上の使い分け

データを得るための仮想的な分布の形状が異なる。

Z-scoreはガウス分布を、Min-Maxは一様分布を仮定している。

ガウス分布は、釣鐘型の形をしていて、平均と分散で分布全体を特徴付けることができる。

また、分布の中心に近い値が観測されやすく、遠い値が観測されにくい。

ガウス分布と異なり、一様分布では分布に含まれる各値が等しい確率で出現することを想定している。サンプルの中心からどんなに離れた値で合っても、それが観察される確率がある程度あるので、サンプルを得る過程でのエラーを検出できない。

標準化は外れ値のあるデータの対して有効。

# メリット

データを一定の方法で変形し、例えば身長と体重みたいな次元が違うものに対しても、なんとかして同じような単位で取り扱えるようにして、計算や比較しやすくする。



# $h_\theta(x) =  \theta_0 x_0 + \theta_1 x_1 + ... +\theta_n x_n   (x_0 = 1)\\ $

# $θ_0$の役割


誤差


# 学習率はどの様な値から選択すべきか

学習率を大きくすると、最適な値の周りで振動して、損失関数が増加する。
![](https://camo.qiitausercontent.com/2a618584f669abf195e2bb2e775a2fa0808632b3/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f3137323235342f37666361646166622d386239342d663939622d326537612d6262613837656237336237382e706e67)  
このような場合は、学習率を徐々に下げて調整していく。
また学習率を小さくすると、計算時間がかかる。
最小の計算時間を追求するのも重要





# 学習曲線









# 正規方程式 
 勾配法では、反復を繰り返しながら、大域的最適を求めようとしていたが、正規方程式を使えば解析的に  $\theta$を解くことが出来る。
・何をしているのかというと、要は接線の傾きが0の$\theta$を求めている
→例1：1次元$(\theta \in \mathbb{R})$の場合、
$J(\theta )=a \theta ^2 + b \theta +c$というコスト関数だった場合、
$\frac{d}{d \theta}J(\theta ) =0$
となる$\theta$を求めればいい

→例2：n+1次元$(\theta \in \mathbb{R}^{n+1})$の場合、(mはデータ数、nは変数の数)
$J(\theta )=\frac{1}{2m} \sum_{i=1}^{m} \left(h_\theta (x^{i})-y^{i} \right)^2
\frac{\partial }{\partial \theta _j} J(\theta )=0 (for every j)$
となる$\theta _0 , \theta _1, \ldots , \theta _n$を求めればいい

・これを行列で表現してみる
・m個の訓練データ$(x^{(1)},y^{(1)}), \ldots ,(x^{(m)},y^{(m)})$、n個の変数（特性）が合った場合、
$x^{(i)}=\left[\begin{array}{c} x_0^{(i)} \\ x_1^{(i)} \\ \vdots \\ x_n^{(i)} \\ \end{array} \right] \in \mathbb{R}^{n+1}
※x_0^{(i)}=1$であることを忘れずに
各訓練データは上記のように示せ、それを転置(Transpose)しながら配置すると、下記のようになる
$X=\left[\begin{array}{ccc} - & (x^{(1)})^T & - \\ - & (x^{(2)})^T & - \\  & \vdots &  \\ - & (x^{(m)})^T & - \\ \end{array} \right]$
※この時、Xはdesign matrixとも呼ばれる
$\theta = (X^T X)^{-1} X^T y$
で各$\theta$の値が求められる
・この正規方程式で求める場合、スケーリングは考えなくても大丈夫

・これだけ聞くと正規方程式が最強に見えてくるが、ケースによっては勾配法の方が良い場合がある
・m個の訓練データ、n個の変数があった場合、それぞれ以下の特徴がある

勾配法の特徴
・学習率を選択する必要がある
・多くの反復が必要
・nが大きくても上手く機能する

正規方程式の特徴
・学習率を選択する必要がない
・反復は不要
・$ (X^T X)^{-1} $を計算する必要がある
→nxnの計算になり、大体$O(n^3)$の計算量になる
・nが大きいと計算に時間がかかってしまう



# 更新式の導出

更新式$\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m}[(h_\theta(x^{(i)} - y^{(i)} )x_{j}^{(i)}]$





この式から導出$\theta_j := \theta_j - \frac{\partial}{\partial \theta_j}J(\theta) \\$







# 局所最適解の問題




ロス関数が平均２乗和なので、下に凸のグラフになり大域的最適解を求めることができる。









In [11]:
import numpy as np
import pandas as pd

In [2]:
class ScratchLinearRegression():
    """
    線形回帰
    ＊コンストラクタ（__init__）のパラメータはここに書いておくと分かりやすい

    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    no_bias : bool
      バイアス項を入れない場合はTrue
    verbose : bool
      学習過程を出力する場合はTrue

    Attributes
    ----------
    self.coef_ : 次の形のndarray, shape (n_features,)
      パラメータ
    self.loss : 次の形のndarray, shape (self.iter,)
      学習用データに対する損失の記録
    self.val_loss : 次の形のndarray, shape (self.iter,)
      検証用データに対する損失の記録

    """
#     num_iter = 3000
#     lr= 0.01

    def __init__(self, num_iter, lr):
        #メソッド内で共有したい変数をおlく
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
#         self.bias = bias
#         self.verbose = verbose
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
        #predictで使う重み
        self.theta =  np.random.rand(2)


    def compute_cost(self,X,y):
        y_hat= np.dot(self.theta,X.T)
        loss = np.sum((y_hat - 2)**2)/(len(X)*2)
        return loss
    
    def  _gradient_descent(self,X,y):
            theta = np.random.rand(X.shape[1])
           #訓練データの誤差
            past_costs = []
            #バリデーションデータの誤差
#             val_past_costs =[]
            #重み
            past_thetas = []
            #平均二乗和誤差を計算する
            loss = self.compute_cost(X,y)
            #バリデーションデータの平均２乗和誤差
#             val_loss = compute_cost(x_val,y_val,theta)
            #追加
            past_costs.append(loss)
#             val_past_costs.append(val_loss)
            #追加
            past_thetas.append(self.theta)

            for i in range(self.iter):
                #仮定関数
                y_hat = np.dot(X, self.theta)
#                 val_y_hat =  np.dot(x_val, theta)
                #パラメータの更新式
                self.theta =self. theta - (self.lr/len(y)) * np.dot(X.T, y_hat - y)
                # 訓練データの誤差を計算する
                self.loss = self.compute_cost(X,y)
                #訓練データの誤差を格納する
                past_costs.append(loss)
                #バリデーションデータの誤差を計算する
#                 val_loss = compute_cost(x_val,y_val,theta)
                #バリデーションデータの誤差を格納する
#                 val_past_costs.append(val_loss)
                past_thetas.append(theta)

            self.loss = past_costs
            self.theta = past_thetas


    
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証用データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            学習用データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            学習用データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証用データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証用データの正解値
        """
        
        self._gradient_descent(X,y)
#         if self.verbose:
#             #verboseをTrueにした際は学習過程を出力
#             print()
        
        
    #返す値は他で使わないのでリターンで返す
    def predict(self, X):
        """
        線形回帰を使い推定する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル

        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
    
        
        return np.dot(self.theta,np.array(X).T)

In [3]:
model = ScratchLinearRegression(num_iter=2000, lr=0.001)

In [4]:
train = pd.read_csv('../train.csv')

In [5]:
X = train.loc[:,['GrLivArea','YearBuilt']]

In [6]:
y = train['SalePrice']

In [7]:
model.fit(X,y)

  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)


Unnamed: 0,GrLivArea,YearBuilt
0,1710,2003
1,1262,1976
2,1786,2001
3,1717,1915
4,2198,2000
5,1362,1993
6,1694,2004
7,2090,1973
8,1774,1931
9,1077,1939
