# scikit-learn 库示例

本笔记本展示了如何使用 scikit-learn 库实现线性回归、多项式回归等机器学习任务。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
%matplotlib inline

## 1. 线性回归示例

In [None]:
# 生成线性回归数据
def generate_linear_data():
    """
    生成线性回归的模拟数据
    """
    n_samples = 100
    X = 2 * np.random.rand(n_samples, 1)
    y = 4 + 3 * X + np.random.randn(n_samples, 1)
    return X, y

# 生成数据
X, y = generate_linear_data()

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# 评估模型
print("线性回归模型评估:")
print(f"模型参数: 截距={model.intercept_[0]:.4f}, 系数={model.coef_[0][0]:.4f}")
print(f"训练集 MSE: {mean_squared_error(y_train, y_train_pred):.4f}")
print(f"测试集 MSE: {mean_squared_error(y_test, y_test_pred):.4f}")
print(f"训练集 R²: {r2_score(y_train, y_train_pred):.4f}")
print(f"测试集 R²: {r2_score(y_test, y_test_pred):.4f}")

## 2. 可视化线性回归结果

In [None]:
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.scatter(X_train, y_train, alpha=0.6, label='训练数据')
plt.plot(X_train, y_train_pred, 'r-', linewidth=2, label='回归直线')
plt.xlabel('特征 X')
plt.ylabel('目标值 y')
plt.title('训练集拟合效果')
plt.legend()
plt.grid(True)

plt.subplot(1, 2, 2)
plt.scatter(X_test, y_test, alpha=0.6, label='测试数据')
plt.plot(X_test, y_test_pred, 'r-', linewidth=2, label='回归直线')
plt.xlabel('特征 X')
plt.ylabel('目标值 y')
plt.title('测试集预测效果')
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()

## 3. 多特征线性回归示例

In [None]:
# 生成多特征线性回归数据
def generate_multivariate_data():
    """
    生成多特征线性回归的模拟数据
    """
    n_samples = 100
    n_features = 3
    X = 2 * np.random.rand(n_samples, n_features)
    true_theta = np.array([[10], [20], [30]])
    y = X.dot(true_theta) + np.random.randn(n_samples, 1) * 5
    return X, y, true_theta

# 生成数据
X, y, true_theta = generate_multivariate_data()

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# 评估模型
print("多特征线性回归模型评估:")
print(f"真实参数: {true_theta.ravel()}")
print(f"模型参数: 截距={model.intercept_[0]:.4f}, 系数={model.coef_[0]}")
print(f"训练集 MSE: {mean_squared_error(y_train, y_train_pred):.4f}")
print(f"测试集 MSE: {mean_squared_error(y_test, y_test_pred):.4f}")
print(f"训练集 R²: {r2_score(y_train, y_train_pred):.4f}")
print(f"测试集 R²: {r2_score(y_test, y_test_pred):.4f}")

## 4. 多项式回归示例

In [None]:
# 生成非线性数据
def generate_nonlinear_data():
    """
    生成非线性数据，用于多项式回归
    """
    n_samples = 100
    X = 6 * np.random.rand(n_samples, 1) - 3
    y = 0.5 * X**3 + X**2 + X + 2 + np.random.randn(n_samples, 1) * 2
    return X, y

# 生成数据
X, y = generate_nonlinear_data()

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建多项式回归模型
degree = 3
model = Pipeline([
    ('poly', PolynomialFeatures(degree=degree, include_bias=False)),
    ('scaler', StandardScaler()),
    ('linear', LinearRegression())
])

# 训练模型
model.fit(X_train, y_train)

# 预测
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# 评估模型
print(f"{degree}阶多项式回归模型评估:")
print(f"训练集 MSE: {mean_squared_error(y_train, y_train_pred):.4f}")
print(f"测试集 MSE: {mean_squared_error(y_test, y_test_pred):.4f}")
print(f"训练集 R²: {r2_score(y_train, y_train_pred):.4f}")
print(f"测试集 R²: {r2_score(y_test, y_test_pred):.4f}")

## 5. 可视化多项式回归结果

In [None]:
# 生成测试数据用于绘制曲线
X_new = np.linspace(-3, 3, 100).reshape(100, 1)
y_new_pred = model.predict(X_new)

plt.figure(figsize=(10, 6))
plt.scatter(X_train, y_train, alpha=0.6, label='训练数据')
plt.scatter(X_test, y_test, alpha=0.6, c='green', label='测试数据')
plt.plot(X_new, y_new_pred, 'r-', linewidth=2, label=f'{degree}阶多项式')
plt.xlabel('特征 X')
plt.ylabel('目标值 y')
plt.title(f'{degree}阶多项式回归结果')
plt.legend()
plt.grid(True)
plt.show()

## 6. 不同阶数多项式回归对比

In [None]:
degrees = [1, 2, 3, 10]
plt.figure(figsize=(14, 10))

for i, degree in enumerate(degrees):
    # 创建多项式回归模型
    model = Pipeline([
        ('poly', PolynomialFeatures(degree=degree, include_bias=False)),
        ('scaler', StandardScaler()),
        ('linear', LinearRegression())
    ])
    
    # 训练模型
    model.fit(X_train, y_train)
    
    # 预测
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)
    
    # 计算性能指标
    train_mse = mean_squared_error(y_train, y_train_pred)
    test_mse = mean_squared_error(y_test, y_test_pred)
    
    # 生成测试数据用于绘制曲线
    X_new = np.linspace(-3, 3, 100).reshape(100, 1)
    y_new_pred = model.predict(X_new)
    
    # 绘制结果
    plt.subplot(2, 2, i + 1)
    plt.scatter(X_train, y_train, alpha=0.6, label='训练数据')
    plt.scatter(X_test, y_test, alpha=0.6, c='green', label='测试数据')
    plt.plot(X_new, y_new_pred, 'r-', linewidth=2, label=f'{degree}阶多项式')
    plt.xlabel('特征 X')
    plt.ylabel('目标值 y')
    plt.title(f'{degree}阶多项式回归\n训练MSE: {train_mse:.2f}, 测试MSE: {test_mse:.2f}')
    plt.legend()
    plt.grid(True)

plt.tight_layout()
plt.show()

## 7. 特征重要性分析

In [None]:
# 生成多特征数据
X, y, true_theta = generate_multivariate_data()

# 训练线性回归模型
model = LinearRegression()
model.fit(X, y)

# 计算特征重要性（基于系数绝对值）
feature_importance = np.abs(model.coef_[0])
feature_importance = feature_importance / np.sum(feature_importance)  # 归一化

plt.figure(figsize=(10, 6))
plt.bar(range(len(feature_importance)), feature_importance)
plt.xlabel('特征索引')
plt.ylabel('相对重要性')
plt.title('多特征线性回归的特征重要性')
plt.grid(True)
plt.show()

## 8. scikit-learn 优势总结

In [None]:
print("scikit-learn 库的优势:")
print("1. 提供了丰富的机器学习算法实现")
print("2. API 设计一致，易于使用")
print("3. 内置了数据预处理、特征工程工具")
print("4. 支持模型评估和选择")
print("5. 与 NumPy、Pandas 等库无缝集成")
print("6. 文档完善，社区活跃")
print("7. 适合快速原型开发和生产环境部署")

print("\n常用模块:")
- sklearn.linear_model: 线性模型（线性回归、逻辑回归等）
- sklearn.preprocessing: 数据预处理（特征缩放、编码等）
- sklearn.pipeline: 管道（组合多个步骤）
- sklearn.model_selection: 模型选择（交叉验证、网格搜索等）
- sklearn.metrics: 评估指标（MSE、R²、准确率等）