# 线性回归

线性回归是统计学中最基础、最常用的回归分析方法之一，它用于描述两个或多个变量之间的线性关系。

## 基本概念

**因变量（响应变量）和自变量（解释变量）**
+ 因变量（Y）：我们想要预测或解释的变量。
+ 自变量（X）：用来预测因变量的变量，可以是多个。

**线性关系**

线性回归假设因变量与自变量之间存在线性关系，即因变量的期望值是自变量的线性组合。

## 回归系数的估计

最小二乘法（Ordinary Least Squares, OLS）

最小二乘法是估计线性回归系数的常用方法。它的目标是找到一组系数，使得模型预测值与实际观测值之间的残差平方和最小。

scikit-learn中糖尿病数据集

    样本数量：442
    特征数量：8
    特征
        年龄（Age）
        性别（Sex）
        胎儿头围（Body mass index）
        胰岛素浓度（Insulin）
        血压（Blood Pressure）
        皮脂厚度（Skin Thickness）
        肚子到脚踝的长度（Pedigree function）
        血糖浓度（Glucose Concentration）
    目标标签
        糖尿病患病情况（0表示未患病，1表示患病）

In [2]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

# 载入糖尿病数据集
dataset = load_diabetes()   # 字典

# 使用train_test_split()函数将数据分为训练用的特征与标签集, 和测试用的特征与标签集
x_train, x_test, y_train, y_test = train_test_split(dataset["data"], dataset["target"], test_size=0.25, random_state=42)

In [3]:
# 从线性模型中使用线性回归创建模型
from sklearn.linear_model import LinearRegression
model = LinearRegression()

# 进行拟合
model.fit(x_train, y_train)

In [5]:
# 在测试特征值上进行预测
y_pred = model.predict(x_test)

# 将预测结果与测试集标签计算均方误差, 以评价模型的准确性
from sklearn.metrics import mean_squared_error, r2_score
mea = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("当前线性回归模型预测结果与实际结果的均方误差为:", mea)
print("当前线性回归模型R2得分为:", r2)

当前线性回归模型预测结果与实际结果的均方误差为: 2848.310650847506
当前线性回归模型R2得分为: 0.4849058889476754
