# 4. normal equation（正规方程）
正规方程是通过求解下面的方程来找出使得代价函数最小的参数的：$\frac{\partial }{\partial {{\theta }_{j}}}J\left( {{\theta }_{j}} \right)=0$ 。
 假设我们的训练集特征矩阵为 X（包含了${{x}_{0}}=1$）并且我们的训练集结果为向量 y，则利用正规方程解出向量 $\theta ={{\left( {{X}^{T}}X \right)}^{-1}}{{X}^{T}}y$ 。
上标T代表矩阵转置，上标-1 代表矩阵的逆。设矩阵$A={{X}^{T}}X$，则：${{\left( {{X}^{T}}X \right)}^{-1}}={{A}^{-1}}$

梯度下降与正规方程的比较：

梯度下降：需要选择学习率α，需要多次迭代，当特征数量n大时也能较好适用，适用于各种类型的模型	

正规方程：不需要进行特征值缩放. 不需要选择学习率α，一次计算得出，需要计算${{\left( {{X}^{T}}X \right)}^{-1}}$，如果特征数量n较大则运算代价大，因为矩阵逆的计算时间复杂度为O(n3)，通常来说当n小于10000 时还是可以接受的，只适用于线性模型，不适合逻辑回归模型等其他模型.

理论上将正规方程是直接求解, 结果是准确的. 而梯度下降算法是不断逼近, 结果是近似值.

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from util import *

  from ._conv import register_converters as _register_converters


In [2]:
# 正规方程
def normalEqn(X, y):
    theta = np.linalg.inv(X.T@X)@X.T@y#X.T@X等价于X.T.dot(X)
    return theta

In [3]:
data = pd.read_csv('ex1data1.txt', names=['population', 'profit'])
X = get_X(data) 
y = get_y(data)
theta = normalEqn(X, y)
theta

array([-3.89578088,  1.19303364])

In [4]:
# read data
raw_data = pd.read_csv('ex1data2.txt', names=['square', 'bedrooms', 'price'])

# prepare data
data = normalize_feature(raw_data)
X = get_X(data)
y = get_y(data)

# start trainning
theta = normalEqn(X, y)

theta

array([-1.04083409e-16,  8.84765988e-01, -5.31788197e-02])