In [None]:
import numpy as np
from sklearn import*

 ** 翻译 **
=======
**普通最小二乘线性回归**

线性回归通过拟合一个线性模型，其系数为 w = (w1, ..., wp)，以最小化数据集中观测目标值与线性近似预测目标值之间的残差平方和。   
**参数**

- **fit_intercept** : bool，默认值为 True  
  是否为该模型计算截距。如果设置为 False，则在计算中不使用截距（即假设数据已中心化）。

- **copy_X** : bool，默认值为 True  
  如果为 True，则会复制 X；否则，可能会覆盖 X。

- **tol** : float，默认值为 1e-6  
  解的精度（coef_）由 tol 确定，它为 lsqr 求解器指定了不同的收敛标准。在拟合稀疏训练数据时，tol 被设置为 scipy.sparse.linalg.lsqr 的 atol 和 btol。在拟合密集数据时，此参数无效。
  .. versionadded:: 1.7

- **n_jobs** : int，默认值为 None  
  用于计算的作业数。仅在问题足够大时（即首先 n_targets > 1，其次 X 是稀疏的，或者将 positive 设置为 True 时）才会加速。None 表示 1，除非在 joblib.parallel_backend 上下文中。-1 表示使用所有处理器。更多详情请参见 Glossary <n_jobs>。

- **positive** : bool，默认值为 False  
  当设置为 True 时，强制系数为正。此选项仅支持密集数组。
  .. versionadded:: 0.24

**属性**

- **coef_** : 形状为 (n_features,) 或 (n_targets, n_features) 的数组  
  线性回归问题的估计系数。如果在拟合过程中传递了多个目标（y 是二维的），则这是一个形状为 (n_targets, n_features) 的二维数组；如果仅传递了一个目标，则这是一个长度为 n_features 的一维数组。

- **rank_** : int  
  矩阵 X 的秩。仅在 X 是密集时可用。

- **singular_** : 形状为 (min(X, y),) 的数组  
  X 的奇异值。仅在 X 是密集时可用。

- **intercept_** : float 或形状为 (n_targets,) 的数组  
  线性模型中的独立项。如果 fit_intercept = False，则设置为 0.0。

- **n_features_in_** : int  
  在 fit 期间看到的特征数量。
  .. versionadded:: 0.24

- **feature_names_in_** : 形状为 (n_features_in_,) 的 ndarray  
  在 fit 期间看到的特征名称。仅当 X 的特征名称都是字符串时才定义。
  .. versionadded:: 1.0

**参见**

- **Ridge** : 岭回归通过使用 L2 正则化对系数的大小施加惩罚，解决了普通最小二乘法的一些问题。
- **Lasso** : Lasso 是一个线性模型，通过 L1 正则化估计稀疏系数。
- **ElasticNet** : 弹性网是一个线性回归模型，通过同时使用 L1 和 L2 范数对系数进行正则化。

**注意事项**

从实现角度来看，这只是一个普通的最小二乘法（scipy.linalg.lstsq）或非负最小二乘法（scipy.optimize.nnls）的封装，作为预测器对象。

**示例**

>>> import numpy as np
>>> from sklearn.linear_model import LinearRegression
>>> X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
>>> # y = 1 * x_0 + 2 * x_1 + 3
>>> y = np.dot(X, np.array([1, 2])) + 3
>>> reg = LinearRegression().fit(X, y)
>>> reg.score(X, y)
1.0
>>> reg.coef_
array([1., 2.])
>>> reg.intercept_
np.float64(3.0...)
>>> reg.predict(np.array([[3, 5]]))
array([16.])

## 人话 ：  
参数判断是否需要计算截距，加速，复制等功能  
讲一下数据结构，注意事项等 

In [None]:
class LinearRegression(MultiOutputMixin, RegressorMixin, LinearModel):
    """
    Ordinary least squares Linear Regression.

    LinearRegression fits a linear model with coefficients w = (w1, ..., wp)
    to minimize the residual sum of squares between the observed targets in
    the dataset, and the targets predicted by the linear approximation.

    Parameters
    ----------
    fit_intercept : bool, default=True
        Whether to calculate the intercept for this model. If set
        to False, no intercept will be used in calculations
        (i.e. data is expected to be centered).

    copy_X : bool, default=True
        If True, X will be copied; else, it may be overwritten.

    tol : float, default=1e-6
        The precision of the solution (`coef_`) is determined by `tol` which
        specifies a different convergence criterion for the `lsqr` solver.
        `tol` is set as `atol` and `btol` of `scipy.sparse.linalg.lsqr` when
        fitting on sparse training data. This parameter has no effect when fitting
        on dense data.

        .. versionadded:: 1.7

    n_jobs : int, default=None
        The number of jobs to use for the computation. This will only provide
        speedup in case of sufficiently large problems, that is if firstly
        `n_targets > 1` and secondly `X` is sparse or if `positive` is set
        to `True`. ``None`` means 1 unless in a
        :obj:`joblib.parallel_backend` context. ``-1`` means using all
        processors. See :term:`Glossary <n_jobs>` for more details.

    positive : bool, default=False
        When set to ``True``, forces the coefficients to be positive. This
        option is only supported for dense arrays.

        .. versionadded:: 0.24

    Attributes
    ----------
    coef_ : array of shape (n_features, ) or (n_targets, n_features)
        Estimated coefficients for the linear regression problem.
        If multiple targets are passed during the fit (y 2D), this
        is a 2D array of shape (n_targets, n_features), while if only
        one target is passed, this is a 1D array of length n_features.

    rank_ : int
        Rank of matrix `X`. Only available when `X` is dense.

    singular_ : array of shape (min(X, y),)
        Singular values of `X`. Only available when `X` is dense.

    intercept_ : float or array of shape (n_targets,)
        Independent term in the linear model. Set to 0.0 if
        `fit_intercept = False`.

    n_features_in_ : int
        Number of features seen during :term:`fit`.

        .. versionadded:: 0.24

    feature_names_in_ : ndarray of shape (`n_features_in_`,)
        Names of features seen during :term:`fit`. Defined only when `X`
        has feature names that are all strings.

        .. versionadded:: 1.0

    See Also
    --------
    Ridge : Ridge regression addresses some of the
        problems of Ordinary Least Squares by imposing a penalty on the
        size of the coefficients with l2 regularization.
    Lasso : The Lasso is a linear model that estimates
        sparse coefficients with l1 regularization.
    ElasticNet : Elastic-Net is a linear regression
        model trained with both l1 and l2 -norm regularization of the
        coefficients.

    Notes
    -----
    From the implementation point of view, this is just plain Ordinary
    Least Squares (scipy.linalg.lstsq) or Non Negative Least Squares
    (scipy.optimize.nnls) wrapped as a predictor object.

    Examples
    --------
    >>> import numpy as np
    >>> from sklearn.linear_model import LinearRegression
    >>> X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
    >>> # y = 1 * x_0 + 2 * x_1 + 3
    >>> y = np.dot(X, np.array([1, 2])) + 3
    >>> reg = LinearRegression().fit(X, y)
    >>> reg.score(X, y)
    1.0
    >>> reg.coef_
    array([1., 2.])
    >>> reg.intercept_
    np.float64(3.0...)
    >>> reg.predict(np.array([[3, 5]]))
    array([16.])
    """

    _parameter_constraints: dict = {
        "fit_intercept": ["boolean"],
        "copy_X": ["boolean"],
        "n_jobs": [None, Integral],
        "positive": ["boolean"],
        "tol": [Interval(Real, 0, None, closed="left")],
    }

    def __init__(
        self,
        *,
        fit_intercept=True,
        copy_X=True,
        tol=1e-6,
        n_jobs=None,
        positive=False,
    ):
        self.fit_intercept = fit_intercept
        self.copy_X = copy_X
        self.tol = tol
        self.n_jobs = n_jobs
        self.positive = positive

    @_fit_context(prefer_skip_nested_validation=True)

    

# fit函数
根据参数拟合模型

In [None]:
    def fit(self, X, y, sample_weight=None):
        """
        Fit linear model.

        Parameters
        ----------
        X : {array-like, sparse matrix} of shape (n_samples, n_features)
            Training data.

        y : array-like of shape (n_samples,) or (n_samples, n_targets)
            Target values. Will be cast to X's dtype if necessary.

        sample_weight : array-like of shape (n_samples,), default=None
            Individual weights for each sample.

            .. versionadded:: 0.17
               parameter *sample_weight* support to LinearRegression.

        Returns
        -------
        self : object
            Fitted Estimator.
        """
        n_jobs_ = self.n_jobs

        accept_sparse = False if self.positive else ["csr", "csc", "coo"]

        X, y = validate_data(
            self,
            X,
            y,
            accept_sparse=accept_sparse,
            y_numeric=True,
            multi_output=True,
            force_writeable=True,
        )

检查是否含有样本权重

In [None]:
        has_sw = sample_weight is not None
        if has_sw:
            sample_weight = _check_sample_weight(
                sample_weight, X, dtype=X.dtype, ensure_non_negative=True
            )

预处理， 标准化，去中心化之类的，  
判断是否保留原数据

In [None]:
        # Note that neither _rescale_data nor the rest of the fit method of
        # LinearRegression can benefit from in-place operations when X is a
        # sparse matrix. Therefore, let's not copy X when it is sparse.
        copy_X_in_preprocess_data = self.copy_X and not sp.issparse(X)

        X, y, X_offset, y_offset, X_scale = _preprocess_data(
            X,
            y,
            fit_intercept=self.fit_intercept,
            copy=copy_X_in_preprocess_data,
            sample_weight=sample_weight,
        )

根据是否提供了样本权重再次处理数据

In [None]:
        if has_sw:
            # Sample weight can be implemented via a simple rescaling. Note
            # that we safely do inplace rescaling when _preprocess_data has
            # already made a copy if requested.
            X, y, sample_weight_sqrt = _rescale_data(
                X, y, sample_weight, inplace=copy_X_in_preprocess_data
            )

（非负约束）：处理强制系数为正的情况

In [None]:
        if self.positive:
            if y.ndim < 2:
                self.coef_ = optimize.nnls(X, y)[0]
            else:
                # scipy.optimize.nnls cannot handle y with shape (M, K)
                outs = Parallel(n_jobs=n_jobs_)(
                    delayed(optimize.nnls)(X, y[:, j]) for j in range(y.shape[1])
                )
                self.coef_ = np.vstack([out[0] for out in outs])
        elif sp.issparse(X):
            X_offset_scale = X_offset / X_scale

处理去中心化或截掉奇异值的情况（稀疏矩阵）（稠密矩阵）

In [None]:
            if has_sw:

                def matvec(b):
                    return X.dot(b) - sample_weight_sqrt * b.dot(X_offset_scale)

                def rmatvec(b):
                    return X.T.dot(b) - X_offset_scale * b.dot(sample_weight_sqrt)

            else:

                def matvec(b):
                    return X.dot(b) - b.dot(X_offset_scale)

                def rmatvec(b):
                    return X.T.dot(b) - X_offset_scale * b.sum()

            X_centered = sparse.linalg.LinearOperator(
                shape=X.shape, matvec=matvec, rmatvec=rmatvec
            )

            if y.ndim < 2:
                self.coef_ = lsqr(X_centered, y, atol=self.tol, btol=self.tol)[0]
            else:
                # sparse_lstsq cannot handle y with shape (M, K)
                outs = Parallel(n_jobs=n_jobs_)(
                    delayed(lsqr)(
                        X_centered, y[:, j].ravel(), atol=self.tol, btol=self.tol
                    )
                    for j in range(y.shape[1])
                )
                self.coef_ = np.vstack([out[0] for out in outs])
        else:
            # cut-off ratio for small singular values
            cond = max(X.shape) * np.finfo(X.dtype).eps
            self.coef_, _, self.rank_, self.singular_ = linalg.lstsq(X, y, cond=cond)
            self.coef_ = self.coef_.T

处理截距， 收尾

In [None]:

    if y.ndim == 1:
            self.coef_ = np.ravel(self.coef_)
        self._set_intercept(X_offset, y_offset, X_scale)
        return self

    def __sklearn_tags__(self):
        tags = super().__sklearn_tags__()
        tags.input_tags.sparse = not self.positive
        return tags



##总结
========  
LinearRegression为多种情况作了适配，高效分类处理输入，  
数学上采用$\beta$ = (X<sup>T</sup>X)<sup>-1</sup>X<sup>T</sup>y最小二乘法计算最优参数  
非负约束使用非负最小二乘法（y-$\beta$X加个绝对值）  
对稀疏矩阵进行迭代法求解  
添加偏置列处理截距  
多维拆分求解
奇异值分解或奇异值截断*

对比：区别很大，优化很多

### 关于SVD
来自deep seek

奇异值分解（Singular Value Decomposition, SVD） 是一种重要的矩阵分解方法，广泛应用于数据分析、机器学习、信号处理等领域。它将一个矩阵分解为三个特定结构的矩阵的乘积，从而揭示矩阵的内在结构和性质。以下是 SVD 的数学原理的详细解释。

---

### 1. **SVD 的定义**
对于一个实数矩阵 \( X \)（大小为 \( m \times n \)），其奇异值分解定义为：

\[
X = U \Sigma V^T
\]

其中：
- \( U \) 是一个 \( m \times m \) 的正交矩阵（\( U^T U = I \)），称为**左奇异向量矩阵**。
- \( \Sigma \) 是一个 \( m \times n \) 的矩形对角矩阵，称为**奇异值矩阵**。其对角线上的元素 \( \sigma_i \) 是非负的，且按从大到小排列，称为**奇异值**。
- \( V \) 是一个 \( n \times n \) 的正交矩阵（\( V^T V = I \)），称为**右奇异向量矩阵**。

---

### 2. **奇异值的性质**
- 奇异值 \( \sigma_i \) 是矩阵 \( X^T X \) 的特征值的平方根，即：

\[
\sigma_i = \sqrt{\lambda_i}
\]

其中 \( \lambda_i \) 是 \( X^T X \) 的特征值。
- 奇异值是非负的，且通常按从大到小排列：\( \sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r > 0 \)，其中 \( r \) 是矩阵 \( X \) 的秩。

---

### 3. **几何意义**
SVD 可以看作是对矩阵 \( X \) 的线性变换的分解：
1. \( V^T \) 对输入空间进行旋转。
2. \( \Sigma \) 对旋转后的空间进行缩放。
3. \( U \) 对缩放后的空间进行旋转。

这种分解揭示了矩阵 \( X \) 在输入空间和输出空间中的作用。

---

### 4. **SVD 的计算**
SVD 的计算通常通过以下步骤实现：
1. 计算 \( X^T X \) 和 \( X X^T \) 的特征值和特征向量。
2. \( X^T X \) 的特征向量构成 \( V \)。
3. \( X X^T \) 的特征向量构成 \( U \)。
4. 奇异值 \( \sigma_i \) 是 \( X^T X \) 或 \( X X^T \) 的特征值的平方根。

---

### 5. **截断 SVD（Truncated SVD）**
在实际应用中，通常只保留前 \( k \) 个最大的奇异值及其对应的奇异向量，从而得到一个低秩近似：

\[
X \approx U_k \Sigma_k V_k^T
\]

其中：
- \( U_k \) 是 \( U \) 的前 \( k \) 列。
- \( \Sigma_k \) 是 \( \Sigma \) 的前 \( k \) 个奇异值。
- \( V_k \) 是 \( V \) 的前 \( k \) 列。

截断 SVD 可以用于降维、去噪和数据压缩。

---

### 6. **SVD 的应用**
SVD 在机器学习和数据分析中有广泛的应用，例如：
1. **主成分分析（PCA）**：通过 SVD 计算数据的低维表示。
2. **推荐系统**：通过 SVD 分解用户-物品评分矩阵，预测缺失值。
3. **图像压缩**：通过截断 SVD 减少图像的存储空间。
4. **线性回归**：通过 SVD 求解最小二乘问题，提高数值稳定性。

---

### 7. **SVD 的数学推导**
#### （1）从特征分解出发
对于矩阵 \( X \)（\( m \times n \)），计算 \( X^T X \) 和 \( X X^T \)：
- \( X^T X \) 是一个 \( n \times n \) 的对称矩阵，其特征向量构成 \( V \)。
- \( X X^T \) 是一个 \( m \times m \) 的对称矩阵，其特征向量构成 \( U \)。

#### （2）奇异值与特征值的关系
- \( X^T X \) 的特征值为 \( \lambda_i \)，奇异值为 \( \sigma_i = \sqrt{\lambda_i} \)。
- \( X X^T \) 的特征值也为 \( \lambda_i \)，但可能包含额外的零特征值。

#### （3）构造 \( \Sigma \)
- \( \Sigma \) 是一个 \( m \times n \) 的矩阵，其对角线元素为 \( \sigma_i \)，其余元素为零。

---

### 8. **SVD 的示例**
假设矩阵 \( X \) 为：

\[
X = \begin{bmatrix}
1 & 2 \\
3 & 4 \\
5 & 6
\end{bmatrix}
\]

其 SVD 分解为：

\[
X = U \Sigma V^T
\]

其中：
- \( U \) 是 \( 3 \times 3 \) 的正交矩阵。
- \( \Sigma \) 是 \( 3 \times 2 \) 的对角矩阵。
- \( V \) 是 \( 2 \times 2 \) 的正交矩阵。

通过计算 \( X^T X \) 和 \( X X^T \) 的特征值和特征向量，可以得到 \( U \)、\( \Sigma \) 和 \( V \)。

---

### 总结
奇异值分解（SVD）的核心数学原理是将一个矩阵分解为三个特定结构的矩阵的乘积：
1. 左奇异向量矩阵 \( U \)。
2. 奇异值矩阵 \( \Sigma \)。
3. 右奇异向量矩阵 \( V \)。

SVD 不仅揭示了矩阵的内在结构，还为降维、去噪、数据压缩等任务提供了强大的工具。