In [8]:
# 这个示例代码的步骤如下：

# 导入必要的库。
# 创建一个包含经验和薪水数据的字典，并将其转换为 DataFrame。
# 定义特征变量 X（经验）和目标变量 y（薪水）。
# 将数据集拆分为训练集和测试集。
# 创建线性回归模型并训练模型。
# 使用模型对测试集进行预测。
# 计算并打印均方误差（MSE）。
# 打印模型的系数和截距，以及预测结果。
# 通过这段代码，你可以了解如何使用 scikit-learn 库来实现一个简单的线性回归模型。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Create a dictionary with example data
data = {
    'Experience': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Salary': [40000, 45000, 50000, 55000, 60000, 65000, 70000, 75000, 80000, 85000]
}

# Create DataFrame using the dictionary
df = pd.DataFrame(data)

# Define feature variable and target variable
X = df[['Experience']]
y = df['Salary']

# Split the dataset into training set and testing set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create a linear regression model
model = LinearRegression()

# Train the model
model.fit(X_train, y_train)

# Make predictions using the model
y_pred = model.predict(X_test)

# Calculate mean squared error
mse = mean_squared_error(y_test, y_pred)

# Print the model's coefficient and intercept
print(f'Coefficient: {model.coef_[0]}')
print(f'Intercept: {model.intercept_}')
print(f'Mean Squared Error: {mse}')

# Print the predicted results
print(f'x_test value: {X_test}')
print(f'Predicted salaries: {y_pred}')

Coefficient: 4999.999999999999
Intercept: 35000.0
Mean Squared Error: 0.0
x_test value:    Experience
8           9
1           2
Predicted salaries: [80000. 45000.]


线性回归模型中的系数和截距在统计学上有重要的含义。以下是对它们的解释：

### 1. 系数（Coefficient）
系数（也称为斜率）表示自变量（特征变量）对因变量（目标变量）的影响程度。在简单线性回归中，模型的形式为：

\[ y = \beta_0 + \beta_1 x \]

其中：
- \( y \) 是因变量。
- \( x \) 是自变量。
- \( \beta_0 \) 是截距。
- \( \beta_1 \) 是自变量 \( x \) 的系数。

系数 \( \beta_1 \) 表示当自变量 \( x \) 增加一个单位时，因变量 \( y \) 的平均变化量。例如，如果系数为 2，则表示每增加一个单位的 \( x \)，\( y \) 将增加 2 个单位。

### 2. 截距（Intercept）
截距（也称为常数项）表示当所有自变量的值都为零时，因变量的预测值。在上述模型中，截距 \( \beta_0 \) 表示当 \( x = 0 \) 时，\( y \) 的值。它是回归线与 y 轴的交点。

### 统计学含义
- **系数的统计学含义**：系数反映了自变量对因变量的边际效应。它们可以帮助我们理解每个自变量对目标变量的影响大小和方向（正向或负向）。
- **截距的统计学含义**：截距提供了基线值，即在没有任何自变量影响的情况下，因变量的预期值。

### 示例
假设我们有一个线性回归模型来预测员工的薪水（Salary），基于他们的工作经验（Experience）。模型的形式为：

\[ \text{Salary} = \beta_0 + \beta_1 \times \text{Experience} \]

如果我们得到的模型参数为：
- 截距 \( \beta_0 = 30000 \)
- 系数 \( \beta_1 = 5000 \)

这意味着：
- 当工作经验为 0 年时，预期的薪水为 30000 元。
- 每增加一年的工作经验，预期的薪水将增加 5000 元。

通过理解系数和截距的统计学含义，我们可以更好地解释和应用线性回归模型的结果。