# 线性规划的问题

1. 假设是一条直线，是否合理；
2. 假设误差满足正态分布，是否合理；
3. 使用线性回归的分类的依据在哪里；（预测，分类）
    


# 线性回归的分类的确定与改进

- 新的算法：
    - 专门用来分类的线性回归：逻辑回归
    

## 鸢尾花四维数据分类

In [22]:
%matplotlib inline

import sklearn.datasets as ds
import numpy as np
import numpy.linalg as la

data, target = ds.load_iris( return_X_y=True)
# 1. 训练数据样本：0：50(0)/ 50: 100(1)
# 准备数据X + 1，Y

X =  np.zeros(shape=(100, data.shape[1] + 1 ) ,dtype=np.float)
X[0:50, 0:4] = data[50:100,:]
X[50:100, 0:4] = data[100:150,:]

X[:, 4] =1

Y = target[0:100]
Y = Y.reshape(100, 1)

# 2. 利用上面100个数据（0，1）训练出一条直线（X^T X ）可逆，直线是否对鸢尾花的种类可分。

W =  np.matmul(
            np.matmul(
                la.inv( 
                    np.matmul(
                        X.T, 
                        X) 
                ),
                X.T),
            Y)

# print(W)
# 3. 预测数据

r1 =  np.matmul(X[0:50], W)
r2 =  np.matmul(X[50:100], W)
# 训练出来的的直线，具备分类效果
# 根据已知，直到前面50个都是A类，标签是0，统计<0.5的个数，都是A类
# 统计一个数组大于a的数量，小于b的数量

print((r1<0.5).sum())
print((r1<0.5).sum())

# 线性回归具备分类效果
# 0: 50,100-150

48
48


- $W={(X^TX)}^{-1}X^TY$

问题：
    - 这个分类的依据是什么？
    

### 观察鸢尾花数据

# 误差的正态分布假设的确定与改进

- 使用最小二乘法：
    - 满足条件：$X^TX$可逆

- $X^TX$不可逆

- $W={(X^TX + \lambda I)}^{-1}X^TY$  : 只要$\lambda$取值合适，可以肯定可逆。
    - Ridge回归：岭回归
    
    - 在推导过程中，再改变计算方式：LASSO回归。

- $W={(X^TWX )}^{-1}X^TY$；只要$W$取值合适，可以肯定可逆。
    - 加权回归；（Local Weighted Linear Regression）

- LASSO回归


# 总结回归的问题

1.  线性回归作为分类，使用0.5划分分类标准的数学理论依据；
    - 逻辑回归
    

2. 线性回归，最下二乘法求解需要满足一个条件：
    - $X^TX$可逆
    
    - 使用$\lambda I$ 
    - 岭回归 -> LASSO回归
    

3. 损失函数最小
    - 似然函数的最大->损失最小。


# 局部加权回归

- 解决欠拟合。
    - 损失采用标准高斯分布（正态分布），得到误差不是最理想。
    - 损失函数趋近0。

## 真实值$Y$与训练后的曲线的计算值$\bar{Y}$

- 相关系数
- $R^2$

### 相关系数
    - 方差
    
- $r = \dfrac{Cov(X,Y)}{\sqrt{ Var(X) Var(Y) }}$

In [2]:
import numpy as np
import numpy.random as rd

x = rd.uniform(0, 1, 5)
y = rd.uniform(0, 1, 5)

r = np.corrcoef(x, y)
print(r)


[[1.         0.57430407]
 [0.57430407 1.        ]]


- 矩阵的每个值的函数

```python

[
   x与x的相关性1        x与y的相关性0-1   
   y与x的相关性0-1     y与y的相关性1
]

```

- 误差最小与相关性
    - 绝对值0
    - 相关性相对度量。

## 测试相关系数
    - 鸢尾花
    - 身高与年龄
    - 模拟的数据（使用数据函数 + 模拟误差生成的数据）
    
- 鸢尾花的训练数据 = 手工算法

1. 手工实现


In [None]:
% matplotlib inline
data = np.loadtxt('ex0.txt')
print
                