# COMP500827 机器学习在信息安全中的应用 <br> 第一次作业：线性回归 <br> 发布日期：2024年11月14日，截止日期：2024年11月24日24:00

姓名：，学号：

作业提交要求：
- 务必在上面填上自己的姓名和学号
- 提交内容应包括：以jupyter notebook形式编写的Python代码（文件后缀名为.ipynb）、带所有输出结果的jupyter notebook文件对应的PDF文件
- 所有文件须用zip格式打包成一个压缩包，要求解压即可运行
- 压缩包上传至教学系统（https://class.xjtu.edu.cn/course/74005/homework#/ ）

## 单变量线性回归

以下代码生成了一个训练数据集，其实际标签$y$是特征数据$x$的线性函数，数据带有噪声。用以下两种方式完成代码，以找到能最小化均方误差的最优线性回归模型参数：
1. 我们在课堂上学到的解析表达式$y=\theta_0+\theta_1 x$；
2. 使用numpy.polynomial.polynomial类中的“polyfit”和“polyval”函数。

### 生成数据

In [None]:
import numpy as np
import numpy.polynomial.polynomial as poly
import matplotlib.pyplot as plt

nsamp = 100
wstd = 0.2
theta = np.array([2,3])

# 训练集数据点
xd = np.random.uniform(-1,1,nsamp)
y0 = poly.polyval(xd,theta)
yd = y0 + np.random.normal(0,wstd,nsamp)

fig, ax = plt.subplots()
ax.scatter(xd, yd)

### 分析模型

**Q1**: 用线性回归矩阵形式下的最优模型参数闭式解（即$\boldsymbol{\hat{\theta}} = (X^\intercal X)^{-1}X^\intercal y$）确定$\theta_0$，$\theta_1$. （25%）

In [None]:
from numpy.linalg import inv

# 定义训练X矩阵，第0维数据全为1，为什么？
X = np.vstack((np.ones(nsamp),xd))
trainX = X.transpose()

# 计算最优模型参数（使用课堂上学到的闭式解）
[theta0,theta1] = # 填入正确的代码

analyticalModel = np.array([theta0,theta1])

### 评估你的模型

以随机生成的数据为输入，用你的解析模型预测其对应的标签值，并且用numpy内置的polyfit函数做同样的事情。

**解析模型结果**

In [None]:
#评估你的模型

# 为评估生成-1到1之间的均匀点
xplot = np.linspace(-1, 1, nsamp)

# 使用解析模型获取预测值
ypredict = poly.polyval(xplot, analyticalModel)

**Polyfit模型预测**

In [None]:
# 使用numpy的polyfit函数拟合一个一次多项式
polyfitModel = np.polyfit(xd, yd, 1)

# 使用polyval在x = xplot处评估模型
yfit = np.polyval(polyfitModel, xplot)

### 绘图结果

绘制polyfit模型和解析模型的结果。图表应包含(x,y)训练数据点和拟合线。

In [None]:
# 绘制图表
fig, ax = plt.subplots()
ax.scatter(xd, yd, label='Original Data', color='blue', alpha=0.5)

# 绘制polyfit模型结果
ax.plot(xplot, yfit, label='Polyfit Model', color='red', linestyle='--')

# 绘制解析模型结果
ax.plot(xplot, ypredict, label='Analytical Model', color='green', linestyle='-.')

ax.set(xlabel='X', ylabel='Y', title='线性回归')
ax.legend()
ax.grid()
plt.show()

## 线性回归的应用

在这一部分，你将使用线性回归来处理一个真实的数据集。数据集包含了产品销售额，以及其在电视、广播和报纸上对应的广告投放量。试探究这些渠道上的广告开销如何影响该产品的销量。

### 读取数据

将数据分割为训练集和测试集，70%的数据用于训练，其余用于测试。

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

url = './Advertising.csv'
df = pd.read_csv(url, index_col=0)
df.head()

train, test = train_test_split(df, test_size=0.3, random_state=42)

### 线性回归模型

**Q2**: 用numpy内置的线性回归模型分别拟合产品销售额与电视、广播和报纸上广告投放量之间的关系。（25%）

In [None]:
from sklearn.linear_model import LinearRegression

# 电视广告与销售额的线性回归
reg_TV = LinearRegression().fit(train[['TV']], train['sales'])
sales_TV_theta = [reg_TV.intercept_, reg_TV.coef_[0]]

# 报纸广告与销售额的线性回归
reg_newspaper = # 填入正确的代码
sales_newspaper_theta = # 填入正确的代码

# 广播广告与销售额的线性回归
reg_radio = # 填入正确的代码
sales_radio_theta = # 填入正确的代码

sales_TV_theta, sales_newspaper_theta, sales_radio_theta

### 绘制数据

使用模型进行预测，并绘制测试集的数据点和3个模型的预测结果。

In [None]:
fig = plt.figure(figsize=(12,3))

## 销售额与电视广告投放量的关系拟合结果
plt.subplot(1,3,1)
plt.scatter(train['TV'], train['sales'], color='blue', alpha=0.5)
plt.plot(train['TV'], reg_TV.intercept_ + reg_TV.coef_[0]*train['TV'], color='red')
plt.title('TV Spend vs Sales')
plt.xlabel('TV Spend')
plt.ylabel('Sales')

## 销售与报纸广告投放量的关系拟合结果
plt.subplot(1,3,2)
plt.scatter(train['newspaper'], train['sales'], color='blue', alpha=0.5)
plt.plot(train['newspaper'], reg_newspaper.intercept_ + reg_newspaper.coef_[0]*train['newspaper'], color='red')
plt.title('Newspaper Spend vs Sales')
plt.xlabel('Newspaper Spend')

## 销售与广播广告投放量的关系拟合结果
plt.subplot(1,3,3)
plt.scatter(train['radio'], train['sales'], color='blue', alpha=0.5)
plt.plot(train['radio'], reg_radio.intercept_ + reg_radio.coef_[0]*train['radio'], color='red')
plt.title('Radio Spend vs Sales')
plt.xlabel('Radio Spend')

# 图形展示
plt.tight_layout()
plt.show()


## 多元线性回归

**Q3**: 用多元线性回归矩阵形式下的最优模型参数闭式解（即$\boldsymbol{\hat{\theta}} = (X^\intercal X)^{-1}X^\intercal y$）拟合这三种广告投放渠道（特征）的训练数据。（25%）

In [None]:
# 定义训练X矩阵
X = # 填入正确的代码

# 定义训练Y矩阵
trainY = # 填入正确的代码

# 计算最优模型参数（使用课堂上学到的闭式解）
multivariate_theta = # 填入正确的代码

### 评估模型

**Q4**: 使用你的多元线性模型在测试数据上进行预测。（25%）

In [None]:
# 定义测试X矩阵
X = # 填入正确的代码

# 定义测试Y矩阵
testY = # 填入正确的代码

# 使用你的模型multivariate_theta预测结果：\hat{y} = X𝜽
pred = # 填入正确的代码

### 绘制结果

绘制你的预测结果与实际标签的对比图。

In [None]:
fig, ax = plt.subplots()

# 实际销售与预测销售的散点图
ax.scatter(testY, pred, color='blue', alpha=0.5)

# 参考线y=x
ax.plot([min(testY), max(testY)], [min(testY), max(testY)], color='red', linestyle='--')

ax.set(xlabel='Actual Sales', ylabel='Predicted Sales',
       title='Multivariate Linear Regression')
ax.grid()
plt.show()
