# 1. Ordinary Least Squares
>普通最小二乘法

LinearRegression fits a linear model with coefficients w = (w1, w2,......,wn)
to minimize the residual sum of squares between the observed targets in the dataset, and the targets predicted by the linear approximation. 

LinearRegression拟合一个系数w = (w1, w2，......，wn)的线性模型，以最小化数据集中观测目标与线性逼近预测目标之间的残差平方和。


LinearRegression will take in its fit method arrays X, y and will store the coefficients w
 of the linear model in its coef_ member

 LinearRegression的fit方法接收数组X, y，并存储系数 w 线性模型的coef_成员:

In [1]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
reg.coef_

array([0.5, 0.5])

普通最小二乘法的系数估计依赖于特征的独立性。当特征相关时，设计矩阵的列X
具有近似线性依赖性，设计矩阵变得接近奇异，因此，最小二乘估计对观测目标中的随机误差变得非常敏感，产生很大的方差。
例如，在没有实验设计的情况下收集数据时，就会出现这种多重共线性的情况

**Example**
* [Linear Regression Example](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FLinear%20Regression.ipynb)

## 1.2 Non-Negative Least Squares

> 非负最小二乘法

It is possible to constrain all the coefficients to be non-negative, which may be useful when they represent some physical or naturally non-negative quantities (e.g., frequency counts or prices of goods). LinearRegression accepts a boolean positive parameter: when set to True Non-Negative Least Squares are then applied.

可以将所有系数限制为非负，这在它们表示一些物理上或自然上非负的数量(例如频率计数或商品价格)时可能有用。
LinearRegression接受一个布尔值正参数:当设置为True时，应用非负最小二乘

**Example**
* [Non-Negative Least Squares-Examples](http://localhost:8890/notebooks/SKLearn/examples/Non-Negative%20Least%20Squares.ipynb)

### 1.2.1 Ordinary Least Squares Complexity

The least squares solution is computed using the singular value decomposition of X. If X is a matrix of shape (n_samples, n_features) this method has a cost of O(n<sub>simples</sub>n<sup>2</sup><sub>features</sub>) 
,  assuming that n<sub>simples</sub> > n<sub>features</sub>

最小二乘法复杂度

如果X是一个形状为(n_samples, n_features)的矩阵，则该方法的时间复杂度为 O(n<sub>simples</sub>n<sup>2</sup><sub>features</sub>)。
，假设n<sub>simples</sub> > n<sub>features</sub>

# 2. Ridge regression and classification

> Ridge回归与分类

## 2.1 Regression

Ridge regression addresses some of the problems of Ordinary Least Squares by imposing a penalty on the size of the coefficients. The ridge coefficients minimize a penalized residual sum of squares

Ridge回归通过对系数的大小施加惩罚，解决了普通最小二乘法的一些问题。Ridge系数最小化了惩罚后的残差平方和

In [2]:
from sklearn import linear_model
reg = linear_model.Ridge(alpha=.5)
a = reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
print(a)
b = reg.coef_
print(b)
reg.intercept_

Ridge(alpha=0.5)
[0.34545455 0.34545455]


0.1363636363636364

Note that the class Ridge allows for the user to specify that the solver be automatically chosen by setting solver="auto".  When this option is specified, Ridge will choose between the "lbfgs", "cholesky", and "sparse_cg" solvers.  Ridge will begin checking the conditions shown in the following table from top to bottom.  If the condition is true, the corresponding solver is chosen

注意，Ridge类允许用户通过设置solver="auto"来指定自动选择求解器。指定此选项后，Ridge将在"lbfgs"、"cholesky"和"sparse_cg"求解器之间进行选择。Ridge 将开始检查下表所示的条件。如果条件为真，则选择相应的求解器

solver参数枚举含义：
* 'lbfgs'：The positive=True option is specified.(指定了positive=True选项)
* 'cholesky'：The input array X is not sparse.(输入数组X不是稀疏的)
* 'sparse_cg'：None of the above conditions are fulfilled.(以上条件都不满足)

## 2.2 Classification

Ridge回归器有一个分类器变体:RidgeClassifier。该分类器首先将二进制目标转换为{-1,1}，然后将问题视为回归任务，优化与上述相同的目标。预测的类别对应回归器预测的正负号。对于多分类问题，将问题视为多输出回归，预测的类别对应于最高值的输出

使用(惩罚的)最小二乘损失来拟合分类模型，而不是更传统的logistic或hinge损失，似乎有问题。然而，在实践中，所有这些模型都可以在准确率或精度/召回率方面得到相似的交叉验证分数，而RidgeClassifier使用的惩罚最小二乘损失允许使用非常不同的数值求解器，具有不同的计算性能配置

这种分类器有时也称为具有线性核的最小二乘支持向量机

**Example**
* [Plot Ridge coefficients as a function of the regularization(绘制Ridge系数作为正则化的函数)](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FPlot%20Ridge%20coefficients%20as%20a%20function%20of%20the%20regularization.ipynb)
* [Classification of text documents using sparse features(基于稀疏特征的文本分类)](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FClassification%20of%20text%20documents%20using%20sparse%20features.ipynb)
* [Common pitfalls in the interpretation of coefficients of linear models(解释线性模型系数时的常见陷阱)](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FCommon%20pitfalls%20in%20the%20interpretation%20of%20coefficients%20of%20linear%20models.ipynb)

### 2.2.1 Ridge Complexity

This method has the same order of complexity as [Ordinary Least Squares](http://localhost:8890/notebooks/SKLearn/2.LinearModels.ipynb#1.2.1-Ordinary-Least-Squares-Complexity).

### 2.2.2 Setting the regularization parameter: leave-one-out Cross-Validation

RidgeCV implements ridge regression with built-in cross-validation of the alpha parameter. The object works in the same way as GridSearchCV except that it defaults to Leave-One-Out Cross-Validation

RidgeCV通过内置的alpha参数交叉验证实现了Ridge回归。该对象的工作方式与GridSearchCV相同，只是它默认使用一个交叉验证

In [3]:
import numpy as np
from sklearn import linear_model
reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13))
print(reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1]))
reg.alpha_

RidgeCV(alphas=array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
       1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]))


0.01

指定cv属性的值将触发使用GridSearchCV进行交叉验证，例如cv=10表示10-fold cross-validation，而不是Leave-One-Out Cross-Validation

# 3 Lasso

Lasso是一种估计稀疏系数的线性模型。它在某些情况下是有用的，因为它倾向于选择非零系数较少的解，有效地减少了给定解所依赖的特征的数量。因此，Lasso及其变体是压缩感知领域的基础。在一定条件下，它可以恢复精确的非零系数集(见[压缩感知:基于L1先验的断层成像重建(Lasso)](https://scikit-learn.org/stable/auto_examples/applications/plot_tomography_l1_reconstruction.html#sphx-glr-auto-examples-applications-plot-tomography-l1-reconstruction-py))。

在数学上，它由一个附加正则项的线性模型组成。

Lasso类的实现使用坐标下降作为拟合系数的算法。参见最小角度回归的另一种实现:

In [4]:
from sklearn import linear_model
reg = linear_model.Lasso(alpha=0.1)
print(reg.fit([[0, 0], [1, 1]], [0, 1]))
reg.predict([[1, 1]])

Lasso(alpha=0.1)


array([0.8])

lasso_path函数对于较低级别的任务很有用，因为它计算所有可能值的完整路径上的系数

**Examples:**

* [L1-based models for Sparse Signals](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FL1-based%20models%20for%20Sparse%20Signals.ipynb) 稀疏信号的L1模型
* [Compressive sensing: tomography reconstruction with L1 prior (Lasso)](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FCompressive%20sensing%20tomography%20reconstruction%20with%20L1%20prior%20(Lasso).ipynb) 压缩感知:基于L1先验的断层图像重建(Lasso)
* [Common pitfalls in the interpretation of coefficients of linear models](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FCommon%20pitfalls%20in%20the%20interpretation%20of%20coefficients%20of%20linear%20models.ipynb) 解释线性模型系数时的常见陷阱

## 3.1 Setting regularization parameter

The alpha parameter controls the degree of sparsity of the estimated coefficients.

alpha参数控制估计系数的稀疏程度。

**Using cross-validation**

scikit-learn公开了通过交叉验证设置Lasso alpha参数的对象:LassoCV和LassoLarsCV。LassoLarsCV基于最小角度回归算法，如下所述。

对于具有许多共线特征的高维数据集，LassoCV通常是最可取的。然而，LassoLarsCV具有探索alpha参数更多相关值的优势，并且如果样本数量与特征数量相比非常小，它通常比LassoCV更快。

**Information-criteria based model selection**

> 基于信息标准的模型选择

另外，估计器LassoLarsIC建议使用Akaike信息准则(AIC)和Bayes(贝叶斯)信息准则(BIC)。这是一种计算成本更低的方法来找到alpha的最佳值，因为在使用k-fold交叉验证时，正则化路径只计算一次，而不是k+1次。

实际上，这些标准是在样本内训练集上计算的。简而言之，它们通过灵活性惩罚了不同Lasso模型过于乐观的分数(参见下面的“数学细节”部分)。

然而，这种准则需要对解的自由度进行适当的估计，是针对大样本(渐近结果)推导出来的，并假设正确的模型是调查中的候选。当问题条件不好时(例如特征比样本多)，它们也倾向于崩溃。

**Examples:**

* [Lasso model selection: AIC-BIC / cross-validation](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FLasso%20model%20selection%20%20AIC-BIC%20%20cross-validation.ipynb) Lasso模型选择:AIC-BIC /交叉验证
* [Lasso model selection via information criteria](http://localhost:8890/notebooks/SKLearn/examples/Lasso%20model%20selection%20via%20information%20criteria.ipynb) 基于信息准则的Lasso模型选择

**AIC and BIC criteria**

The definition of AIC (and thus BIC) might differ in the literature. In this section, we give more information regarding the criterion computed in scikit-learn.

AIC(以及BIC)的定义在文献中可能不同。在本节中，我们将提供有关scikit-learn中计算的准则的更多信息。

**Comparison with the regularization parameter of SVM**

**与SVM的正则化参数进行比较**

alpha和SVM的正则化参数C之间的等价性由alpha = 1 / C或alpha = 1 / (n_samples * C)给出，这取决于估计器和模型优化的精确目标函数

# 4. Multi-task Lasso

MultiTaskLasso是一个线性模型，可以联合估计多元回归问题的稀疏系数:y是一个二维数组，形状为(n_samples, n_tasks)。约束条件是选择的特征对于所有回归问题(也称为任务)都是相同的。

下图比较了使用简单Lasso和MultiTaskLasso得到的系数矩阵W中非零元素的位置。Lasso估计产生分散的非零值，而MultiTaskLasso的非零值是完整的列。

**Examples**
* [Joint feature selection with multi-task Lasso](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FJoint%20feature%20selection%20with%20multi-task%20Lasso.ipynb)  基于多任务Lasso的联合特征选择

# 5. Elastic-Net

ElasticNet是一个线性回归模型，使用L1和l2范数正则化系数进行训练。这种组合允许学习一个稀疏模型，其中很少有权重非零，如Lasso，同时仍然保持Ridge的正则化属性。我们使用l1_ratio参数控制L1和L2的凸组合。

当有多个特征相互关联时，Elastic-net很有用。Lasso可能随机选择其中一种，而elastic-net可能同时选择两种。

在Lasso和Ridge之间进行权衡的一个实际优势是，它允许Elastic-Net在旋转时继承Ridge的一些稳定性。

The class ElasticNetCV can be used to set the parameters alpha (α) and l1_ratio (β) by cross-validation.

ElasticNetCV类可以通过交叉验证来设置参数alpha (α)和l1_ratio (β)。

**Examples**

* [L1-based models for Sparse Signals](http://localhost:8890/notebooks/SKLearn/examples/L1-based%20models%20for%20Sparse%20Signals.ipynb) 稀疏信号的L1模型
* [Lasso and Elastic Net](http://localhost:8890/notebooks/SKLearn/examples/Lasso%20and%20Elastic%20Net.ipynb)

# 6. Multi-task Elastic-Net

MultiTaskElasticNet是一个弹性网络模型，联合估计多元回归问题的稀疏系数:Y是形状的二维数组(n_samples, n_tasks)。约束条件是选择的特征对于所有回归问题(也称为任务)都是相同的。

在MultiTaskElasticNet类中的实现使用坐标下降作为算法来拟合系数。

MultiTaskElasticNetCV类可以通过交叉验证来设置参数alpha (α)和l1_ratio (β)。

# 7. Least Angle Regression

最小角度回归(Least-angle regression, LARS)是一种用于高维数据的回归算法，由Bradley Efron、Trevor Hastie、Iain Johnstone和Robert Tibshirani开发。LARS类似于逐步前向回归。在每一步，它都会找到与目标最相关的特征。当有多个特征具有相等的相关性时，它不是沿着同一个特征继续前进，而是在特征之间等角的方向前进。

The advantages of LARS are:(LARS的优点)
* 在特征数量显著大于样本数量的情况下，它在数值上是有效的。
* 它的计算速度与前向选择一样快，并具有与普通最小二乘法相同的复杂度。
* 它产生一个完整的分段线性解决路径，这在交叉验证或类似的调整模型的尝试中很有用。
* 如果两个特征与目标几乎相等，那么它们的系数应该以大致相同的速率增加。因此，该算法的行为与直觉预期一致，也更稳定。
* 它很容易修改为其他估计器(如Lasso)提供解决方案。

The disadvantages of the LARS method include:(LARS方法的缺点包括)
* 由于LARS是基于残差的迭代拟合，因此它似乎对噪声的影响特别敏感。Weisberg在Efron et al. (2004) Annals of Statistics一文的讨论部分详细讨论了这个问题。

The LARS model can be used via the estimator Lars, or its low-level implementation lars_path or lars_path_gram

LARS模型可以通过估计器LARS或其底层实现lars_path或lars_path_gram来使用

# 8. LARS Lasso

LassoLars是一个使用LARS算法实现的lasso模型，与基于坐标下降的实现不同，它产生的精确解是其系数范数的分段线性函数。

In [6]:
from sklearn import linear_model
reg = linear_model.LassoLars(alpha=.1)
print(reg.fit([[0, 0], [1, 1]], [0, 1]))
reg.coef_

LassoLars(alpha=0.1)


array([0.6, 0. ])

**Example**
* [Lasso path using LARS](http://localhost:8890/notebooks/SKLearn%2Fexamples%2FLasso%20path%20using%20LARS.ipynb) 使用LARS的Lasso路径

Lars算法几乎是免费地提供了正则化参数中系数的完整路径，因此常见的操作是使用lars_path或lars_path_gram函数之一来检索该路径。

# 9. Orthogonal Matching Pursuit (OMP)

正交匹配追踪(OMP)