## 回归与聚类算法

### 3.1 线性回归
* 内容：  
    * 3.1.1 线性回归原理
    * 3.1.2 线性回归的损失与优化原理
    * 3.1.3 线性回归API
    * 3.1.4 波士顿放假预测

#### 3.1.1 线性回归原理
* 回归问题：目标值是一类连续变化的数值，与分类问题相区分。
* 线性回归是利用回归方程对一个或多个自变量（特征值）和因变量（目标值）之间的关系进行建模的一种分析方式
* 线性模型：自变量或者参数为一次幂的模型均可称为线性模型，也就是说线性模型可以是线性关系和非线性关系。

#### 3.1.2 线性回归的损失与优化原理
* 目标：求线性模型的参数
* 方法：先随意指定一个函数，然后不断与真实数据比较来调整参数，以接近真实值。这个函数为：
$$ h_w(x) $$
* 损失函数：可以看成衡量模型函数与真实值差距的一个函数，其定义为(即最小二乘法)：
$$ J(θ) = \sum_{m}^{i=1}{(h_w(x_i) - y_i)^2} $$
* 优化方法：
    * 正规方程（用的较少）:
        $$ w = (X^TX)^{-1}X^Ty $$
        X为特征值矩阵，y为目标值矩阵。直接求到最好的结果  
        缺点：特征值过多时，求解速度太慢
    * 梯度下降：
    $$ w_1 := w_1 - \alpha\frac{\sigma cost(w_0 + w_1x_1)}{\sigma w_1} $$
    $$ w_0 := w_0 - \alpha\frac{\sigma cost(w_0 + w_1x_1)}{\sigma w_1} $$
    理解：$\alpha$为学习率，需要手动指定，$\alpha$旁边的整体表示方向沿着这个函数下降的方向找，最后能找到山谷的最低点，然后更新w值。  
    提示：官网给出，当数据量小于100K时，不要使用梯度下降的方式.

#### 3.1.3 线性回归API
* sklearn.linear_model.LinearRegression(fit_intercept = True)
    * 通过正规方程优化
    * fit_intercept:是否计算偏置
    * LinearRegression.coef:回归系数
    * LinearRegression.intercept:偏置
* sklearn.linear_model.SGDRegressor(loss = "squared_loss",fit_intercept = True,learning_rate = "invascaling",eta0 = 0.01)
    * loss : 损失类型
        * loss = "squared_loss" : 普通最小二乘法
    * eat0:学习步长

#### 3.1.4 波士顿房价预测

In [5]:
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [39]:
#用正规方程进行预测
boston = load_boston()

#划分数据集
x_test,x_train,y_test,y_train = train_test_split(boston.data,boston.target,random_state = 22)#data是特征值，target是目标值

#标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

#预估器
estimator = LinearRegression()
estimator.fit(x_train,y_train)

#得出模型
print("权重系数为:\n",estimator.coef_)
print("偏置为:\n",estimator.intercept_)

权重系数为:
 [-1.12578316  0.45013879  0.93387646  0.4799539  -2.11133734  2.97376984
 -0.0504638  -2.01640809  2.83494393 -2.72563978 -3.15034339  0.88555412
 -2.96940337]
偏置为:
 22.268503937007857


In [40]:
#用梯度下降进行预测

#划分数据集
x_test,x_train,y_test,y_train = train_test_split(boston.data,boston.target,random_state = 22)#data是特征值，target是目标值

#标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

#预估器
estimator = SGDRegressor()
estimator.fit(x_train,y_train)

#得出模型
print("权重系数为:\n",estimator.coef_) #权重系数的数量与特征的数量一致
print("偏置为:\n",estimator.intercept_)

权重系数为:
 [-0.72704618  0.61198468 -0.27106904  0.90488578 -0.40562253  3.12159324
  0.14140806 -1.09406507 -0.08018885 -0.85198514 -2.16786051  0.83628569
 -2.37974412]
偏置为:
 [18.24550809]




#### 3.1.5 回归性能评估
* 均方误差：
$$ MSE = \frac{1}{m}\sum_{m}^{i=1}{(y_i-\overline{y})^2} $$
* API:
    * sklearn.metrics.mean_squard_error(y_true,y_pred)

In [42]:
from sklearn.metrics import mean_squared_error
y_pred = estimator.predict(x_test)
deviation = mean_squared_error(y_test,y_pred)
print(deviation)

51.54507687711635


#### 拓展：关于优化方法GD、SGD、SAG
* GD：随机梯度下降，计算所有的样本的值得出梯度，计算量大
* SGD：随机梯度下降，在一次迭代时只考虑一个训练样本
    * 优点：高效
    * 缺点：需要许多超参数，对于特征标准化敏感。
* SAG:随机平均梯度下降

### 3.2 欠拟合与过拟合
* 欠拟合：学习到的特征过少
* 过拟合：学习到的特征过多
    * 解决方法：正则化

#### 3.2.1 正则化类别
* L2正则化：损失函数 + $\lambda$惩罚项
    * 作用：使得一些参数接近于0，削弱某个特征
    * 优点：越小的参数说明模型越简单，越简单的模型越不容易发生过拟合
    * 加入L2过拟合后的损失函数：
    $$ J(w) = \frac{1}{2m}\sum_{i=1}^{m}{(h_w(x_i) - y_i)^2} + \lambda \sum_{j=1}^{n}{w_j^2} $$
* L1正则化：
    * 作用：使得一些参数直接为0，删除某个特征

### 3.3 线性回归的改进——岭回归
也是一种线性回归，只是在算法建立回归方程的时候，加入了正则化的限制。  
* 3.3.1 API：
    * sklearn.linear_model.Ridge(alpha = 1.0,fit_intercept = True,solver = "auto",normalize = False)
        * alpha : 正则化力度，即上式中的$\lambda$,取值0-1,1-10
        * normalize:是否进行标准化处理
        * Ridge.coef_:回归权重
        * Ridge.intercept_：回归偏置

In [43]:
#加入岭回归对波士顿房价进行预测
from sklearn.linear_model import Ridge
#标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

#预估器
estimator = Ridge()
estimator.fit(x_train,y_train)

#得出模型
print("权重系数为:\n",estimator.coef_) #权重系数的数量与特征的数量一致
print("偏置为:\n",estimator.intercept_)

权重系数为:
 [-1.09924879  0.44394584  0.83569933  0.50271745 -2.00520274  3.00351547
 -0.07298446 -1.98076837  2.5136459  -2.45500777 -3.07932273  0.89076766
 -2.91988303]
偏置为:
 22.268503937007875


In [45]:
y_pred = estimator.predict(x_test)
deviation = mean_squared_error(y_test,y_pred)
print("均方误差为：\n",deviation)

均方误差为：
 25.91828990036059


### 3.4 分类算法-逻辑回归与二分类

#### 3.4.1 逻辑回归原理
* 输入
$$ h(w) = w_1x_1 + w_2x_2 + ... + w_mx_m $$
    逻辑回归的输入就是线性回归的输出
* 激活函数
    * sigmoid函数
    $$ g(\theta ^Tx) = \frac{1}{1 + e^{-\theta ^Tx}} $$
    * 分析
        * 回归的结果输入到sigmoid函数中
        * 输出结果：[0,1]区间中的一个概率值，默认为0.5。大于0.5表示属于这个类别，否则小于
* 损失函数：
    * 对数似然损失：
    $$ cost(h_\theta(x),y) = \sum_{i=1}^{m}{-y_ilog(h_\theta(x)) - (1 - y_i)log(1 - h_\theta(x))} $$
    ![流程演示](http://localhost:8888/view/Pictures/MachineLearning.png "机器学习")
        图片可能查看不了，可以去文件夹的图片中查看MachineLearning.png

#### 3.4.2 逻辑回归API
* sklearn.linear_model.LogisticRegression(solver = "liblinear",penalty = "l2",C = 1.0)
    * C : 正则化力度

#### 3.4.3 案例分析：癌症分类预测

In [48]:
import numpy as np
import pandas as pd

In [49]:
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer/breast-cancer.data"
data = pd.read_csv(path)
data

Unnamed: 0,no-recurrence-events,30-39,premeno,30-34,0-2,no,3,left,left_low,no.1
0,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,right_up,no
1,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,left,left_low,no
2,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,right,left_up,no
3,no-recurrence-events,40-49,premeno,0-4,0-2,no,2,right,right_low,no
4,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,left,left_low,no
5,no-recurrence-events,50-59,premeno,25-29,0-2,no,2,left,left_low,no
6,no-recurrence-events,60-69,ge40,20-24,0-2,no,1,left,left_low,no
7,no-recurrence-events,40-49,premeno,50-54,0-2,no,2,left,left_low,no
8,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,left_up,no
9,no-recurrence-events,40-49,premeno,0-4,0-2,no,3,left,central,no


#### 3.4.3 精确率和召回率
* 混淆矩阵：在分类预测下，真实结果和预测结果组成四种不同的组合：真正例TP、真反例TN、假正例FP、假反例FN。
* 精确率(Precision)：预测结果为正例样本中真实为正例的比例，即TP/(TP+FP)
* 召回率(Recall)：真实为正例中预测为正例的比例，即TP/(TP+FN)
* F1-score：反应了模型的稳健性:
$$ F_1 = \frac{2TP}{2TP + FN + FP} = \frac{2 * Precision * Recall}{Precision + Recall} $$
* API: sklearn.metrics.classificatio_reporty(y_true,y_pred,labels = [],target_names = None)
    * labels:指定类别对应的数字
    * target_names：目标类别名字
    * return : 每个类别的精确率和召回率

#### 3.4.4 ROC曲线和AOC指标
* TPR和FPR ：
    * TPR：所有真实类别为1的样本中，预测类别为1的比例
    * FPR：所有真实类别为0的样本中，预测类别为1的比例
在样本不均衡时，不管怎样都预测正例，是不负责任的模型。因此要引入ROC曲线和AUC指标。
* ROC曲线：横轴为FPR,纵轴为TPR的曲线
* AUC：随机取一对正负样本，正样本得分概率大于负样本得分的概率。最小值为0.5，最大值为1。这个值越大越好
* AUC计算API：
    * sklearn.metrics.roc_auc_scores(y_true,y_score)
        * 计算AOC的值
        * y_true:每个样本的真实类别，必须用0（反例），1（正例）标记
        * y_score:预测得分，可以是分类的估计概率或分类器的返回值

### 3.5 模型的保存与加载
* API
    * from sklearn.externals import joblib
        * 保存：joblib.dump(estimator,'test.pkl')
        * 加载：estimator = joblib.load('test.pkl')

### 3.6 无监督学习K-means算法
* 3.6.1 无监督学习：
    * 没有目标值的机器学习
* 3.6.2 K-means聚类步骤：
    * 1.随机设置K个特征空间内的点作为初始的聚类中心
    * 2.计算其他每个点到K个中心的距离，未知的点选择最近的一个聚类中心点的类别作为标记类别
    * 3.接着对标记的聚类中心之后，计算每个聚类的新中心点（计算平均值）
    * 4.直到计算出的新中心点与原中心点一样
* 3.6.3 API：
    * sklearn.cluster.KMeans(n_clusters = 8,init = 'k-means++')
        * n_clusters:开始的聚类中心点数量
        * init:初始化方法
        * labels:默认标记的类型，可以和真实值比较
* 3.6.4 K-means模型评估
    * 轮廓系数
    $$ SC_i = \frac{b_i - a_i}{max(b_i,a_i)} $$ 
    > 注：对于每个点$i$为已聚类数据中的样本，$b_i$为$i$到其他族群的所有样本的距离的最小值，$a_i$为$i$到本身族群的距离平均值，最终计算出所有样本的轮廓系数平均值.
    轮廓系数取值-1到1,越接近1，说明高内聚低耦合，说明模型越好。反之越差。
* 3.6.5 模型评估API：
    * sklearn.metrics.silhouette_score(X,labels)
        * X:特征值
        * labels：标记类别
* 3.6.6 K-means应用场景：在没有目标值时，利用K-means做一次聚类，再做分类。