## Learn Scikit-learn with Optional Labs and ChatGPT4

## 1. sklearn.linear_model.SGDRegressor
    sklearn.linear_model.SGDRegressor 是 scikit-learn（一个流行的 Python 机器学习库）中的一个类，用于实现随机梯度下降（Stochastic Gradient Descent，简称 SGD）线性回归。
    
    在 scikit-learn 中，SGDRegressor 类提供了一个易于使用的接口，让您可以方便地训练线性回归模型
    
    使用时，先创建一个SGDRegressor对象
    
### SGDRegressor 一些主要的参数有：
        loss (指定损失函数) : str, default=’squared_error’
        
        penalty (指定正则化项) : {‘l2’, ‘l1’, ‘elasticnet’, None}, default=’l2’
        
        alpha (正则化系数): float default=0.0001
        
        max_iter (最大迭代次数): int, default=1000
        
        tol (收敛阈值): float or None, default=1e-3
            如果在连续两次迭代之间的损失之差小于该值，则认为模型已收敛，停止训练。
            
        learning_rate (学习率): str, default=’invscaling’
            'constant': 固定学习率。
            'optimal': 根据一个特定的公式自动调整学习率，该公式与迭代次数有关。
            'invscaling': 随着迭代次数的增加，学习率逐渐减小，按照 eta0 / pow(t, power_t) 进行调整，其中 t 是迭代次数。
            'adaptive': 如果损失没有显著下降，学习率将减小。 
        
        eta0 (初始学习率): float, default=0.01
        
        power_t : float, default=0.25
            用于调整学习率的指数。较小的值导致学习率更快地减小。
            
### fit方法
    在 scikit-learn 中，fit 方法是一个通用的方法，用于训练（拟合）机器学习模型。对于 SGDRegressor，fit 方法将使用随机梯度下降（SGD）算法在给定的训练数据（X_train 和 y_train）上训练线性回归模型。
      
    通过SGDRegressor对象可以调用fit()方法，同时通过此方法训练完成之后，模型也将存储在该对象中，通过 coef_ 和 intercept_ 属性可以分别查看该模型得出的权重与偏执的值
    同时也可以通过 predict 方法，放入新的x的值，来得到通过本模型预测的值

In [1]:
# 此单元内的代码属于例子，无法真正运行

import numpy as np
from sklearn.linear_model import SGDRegressor

# 通过SGDRegressor创建了一个 SGDRegressor对象 叫sgd_1
sgd_1 = SGDRegressor(max_iter=200, eta0=0.01, learning_rate='invscaling', tol=0.001)
# 获得权重与偏执
w = sgd_1.coef_
b = sgd_1.intercept_
# 通过 predict 去预测
y_hat = sgd_1.predict(x)

## 2. sklearn.preprocessing.StandardScaler
    StandardScaler 是 scikit-learn 中的一个类，用于对数据进行特征缩放。特征缩放是预处理步骤的一部分，可以提高某些机器学习算法（特别是基于梯度的算法，如梯度下降）的性能和收敛速度。
    
    使用时，首先需要创造一个StandardScaler对象
    
### fit_transform(X_train)
    scaler.fit_transform(X_train) 首先根据 X_train 计算均值和标准差，然后使用这些统计量将 X_train 标准化。这相当于分别调用 scaler.fit(X_train) 和 scaler.transform(X_train)。
    
    在许多情况下，使用 fit_transform 方法可以提高代码的简洁性。需要注意的是，fit_transform 仅应用于训练数据，而对于测试数据，仍需要使用 transform 方法进行转换。这是因为在预处理时，测试数据应使用与训练数据相同的统计量进行转换，以确保训练和测试数据具有相似的分布。

In [None]:
# 此单元内的代码属于例子，无法真正运行

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

## 3. 下面写一个实例

In [14]:
# 导包
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler

# 导入训练数据
X_train = np.loadtxt('./x_train.txt')
Y_train = np.loadtxt('./y_train.txt')

# 特征缩放
scaler = StandardScaler()
X_train_scalered = scaler.fit_transform(X_train)

# 创建随机梯度下降模型
SGDR = SGDRegressor(max_iter=5000, eta0=0.001)
SGDR.fit(X_train_scalered, Y_train)

# 输出训练后得到的模型参数
w_finnal = SGDR.coef_
b_finnal = SGDR.intercept_
print(w_finnal)
print(b_finnal)

# 比较数据之间的差距
Y_predict = SGDR.predict(X_train_scalered[:4])
print("predict: " ,Y_predict)
print("correct: " ,Y_train[:4])

[109.62028122 -20.86817892 -32.10249594 -38.06051334]
[363.15486334]
predict:  [294.08403505 486.65025414 388.45368771 492.26776009]
correct:  [300.  509.8 394.  540. ]
