## Stochastic Gradient Descent ( 随机梯度下降 )

Stochastic Gradient Descent (SGD) ( 随机梯度下降（ SGD ） ) 是一种简单但非常有效的方法，用于在诸如（线性）支持向量机和 逻辑回归 之类的凸损失函数下的线性分类器的辨别学习。即使 SGD 已经在机器学习社区中长期存在，但最近在大规模学习的背景下已经受到了相当多的关注。
SGD 已成功应用于文本分类和自然语言处理中经常遇到的大规模和稀疏机器学习问题。
SGD 已成功应用于文本分类和自然语言处理中经常遇到的 large-scale and sparse ( 大规模和稀疏 ) 机器学习问题。鉴于数据稀疏，本模块中的分类器容易扩展到具有 10^5 个以上训练样本和超过10^5个特征的问题。<br>
随机梯度下降的优点是：
* 效率。
* 易于实施（很多机会进行代码调优）。<br>
随机梯度下降的缺点包括：
* SGD 需要一些 hyperparameters  ( 超参数 ) ，如 regularization parameter ( 正则化参数 ) 和迭代次数。
* SGD 对特征缩放敏感。

In [1]:
from sklearn.linear_model import SGDClassifier
X = [[0., 0.], [1., 1.]]
y = [0, 1]
clf = SGDClassifier(loss="hinge", penalty="l2")
clf.fit(X, y)



SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='hinge', max_iter=None, n_iter=None,
       n_jobs=1, penalty='l2', power_t=0.5, random_state=None,
       shuffle=True, tol=None, verbose=0, warm_start=False)

具体的 loss function ( 损失函数 ) 可以通过  loss parameter ( 损失参数 ) 设置。 SGDClassifier 支持以下损失函数：
* loss="hinge": (soft-margin) linear Support Vector Machine, ( 线性支持向量机 )
* loss="modified_huber": smoothed hinge loss, ( 平滑的 hinge 损失 )
* loss="log": logistic regression, ( 逻辑回归 )
* and all regression losses below. ( 所有回归损失 )
前两个 loss functions ( 损失函数 ) 是 lazy (  懒惰 )的，如果一个例子违反了 margin constraint ( 边界约束 ) ，则它们仅更新模型参数，这使得训练非常有效，并且即使使用了 L2 penalty ( L2 惩罚 ) ，也可能导致较差的模型。


In [2]:
clf = SGDClassifier(loss="log").fit(X, y)
clf.predict_proba([[1., 1.]]) 



array([[ 0.00459185,  0.99540815]])

** concrete penalty ( 具体惩罚 )** 可以通过 penalty parameter ( 惩罚参数 ) 来设定。 SGD 支持以下处罚：
* penalty="l2": L2 norm penalty on coef_.
* penalty="l1": L1 norm penalty on coef_.
* penalty="elasticnet": Convex combination of L2 and L1; (1 - l1_ratio) * L2 + l1_ratio * L1.
<br>默认设置为 penalty =“l2” 。 L1 惩罚获得 sparse solutions ( 稀疏解 ) ，将大多数系数推到零。在存在高度相关的属性的情况下，Elastic Net ( 弹性网 ) 解决了 L1 惩罚的一些缺陷。参数 l1_ratio 控制 L1 和 L2 惩罚的凸组合。
SGDClassifier 通过在 “one versus all”（OVA） 方案中组合多个二进制分类器来支持多类分类。对于 K 类中的每一个，学习了二进制分类器，以区别于所有其他 K-1 类。在测试时，我们计算每个分类器的置信度分数（即与超平面的有符号距离），并选择具有最高置信度的类。下图显示了虹膜数据集的 OVA 方法。虚线代表三个 OVA 分类器;背景颜色显示由三个分类器引起的决策表面。

## Regression ( 回归 )
SGDRegressor 类实现了一个简单的随机梯度下降学习程序，它支持不同的损失函数和惩罚，以适应线性回归模型。 SGDRegressor 非常适合大量培训样本（> 10.000）的回归问题，对于其他问题，我们建议使用 Ridge ， Lasso 或 ElasticNet 。<br>
具体的损失函数可以通过损失参数设置。 SGDRegressor 支持以下损失函数：<br>
* loss="squared_loss": Ordinary least squares,
* loss="huber": Huber loss for robust regression,
* loss="epsilon_insensitive": linear Support Vector Regression.
* Huber 和 epsilon-insensitive 不敏感损失函数可用于 robust regression (  鲁棒回归 )。不敏感区域的宽度必须通过参数 epsilon 来指定。该参数取决于目标变量的比例。
SGDRegressor 支持平均 SGD 作为 SGDClassifier 。可以通过设置 “average = True” 来启用平均。
对于具有 squared loss ( 平方损失 ) 和 l2 penalty (  l2 惩罚 )的回归，具有平均策略的 SGD 的另一变体可用于随机平均梯度（ SAG ）算法，作为 Ridge 中的求解器。<br>
Stochastic Gradient Descent for sparse data ( 稀疏数据随机梯度下降 )

## Tips on Practical Use ( 实用技巧 )
随机梯度下降对特征缩放很敏感，因此强烈建议您扩展数据。例如，将输入向量 X 上的每个属性缩放到 [0,1] 或 [-1，+ 1] ，或将其标准化为平均值 0 和方差 1 . 
### 注意，必须将相同的缩放应用于测试向量获得有意义的结果。这可以使用 StandardScaler 轻松完成：

In [5]:
import numpy as np
X_train=100*np.random.rand(100,2)+30
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)  # Don't cheat - fit only on training data
X_train = scaler.transform(X_train)
#X_test = scaler.transform(X_test)  # apply same transformation to test data

In [6]:
X_train

array([[-1.00804135, -0.14177623],
       [ 0.50850806, -0.11211407],
       [-0.20080773, -0.88702953],
       [ 0.46508921,  1.16636257],
       [ 1.19985646,  0.51674059],
       [-0.79271408, -1.21601804],
       [-0.32932005, -0.95095443],
       [-0.12723639,  0.84228326],
       [ 1.39927398,  1.11073041],
       [ 0.75213075, -1.10910095],
       [ 1.24036887,  1.45802774],
       [ 1.13353818,  1.46924215],
       [ 1.01408706,  0.98623497],
       [-0.57510198,  1.01810899],
       [-1.10572582,  1.03230095],
       [ 1.19495996, -0.50921504],
       [-0.85023192, -0.20276057],
       [ 0.75998136, -1.49276673],
       [ 0.87620844,  0.15336095],
       [-1.65526066,  0.1364395 ],
       [ 0.61123055,  0.68249384],
       [ 0.76820165,  1.51895256],
       [-0.07324067, -1.34902349],
       [ 0.22170115,  0.45317919],
       [ 0.45023639,  1.6022048 ],
       [-1.15975562,  1.43419277],
       [ 0.37408172, -0.97391246],
       [-1.51179764, -0.82673572],
       [ 1.31815716,

如果您的属性具有内在尺度（例如字频或指标特征），则不需要缩放。
 
* 找到合理的正则化项 最好使用 GridSearchCV ，通常在 10.0 ** - np.arange(1,7) 范围内。
经验性地，我们发现 SGD 在观察大约后收敛。  10^6 训练样本。因此，对于迭代次数的合理的第一猜测是 n_iter = np.ceil(10 ** 6/n) ，其中 n * 是训练集的大小。
* 如果将 SGD 应用于使用 PCA 提取的特征，我们发现将特征值扩展为常数 c 通常是明智的，以使训练数据的平均 L2 范数等于 1 。
* 我们发现平均 SGD 最适合于更多的功能和更高的 eta0 
