### 对波士顿房价数据集进行预处理

#### 一、从excel表格中读取数据内容

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt   #调库
df = pd.read_excel('Poston.xlsx')  #读取数据
boston = pd.DataFrame(df)
boston.head()

查看表的基本信息

In [None]:
print('表的维度查看:')
df.shape

In [None]:
print('表的每一列数据格式查看')
df.info()

各数据间相关性的初步调查

In [None]:
df.corr()

我们知道，最后一行MEDV（自住房屋房价中位数）是我们要注意的标签。通过相关性，我们能发现LSTAT以及RM同MEDV的相关性最大，为主要特征。于是我们着手研究这两个特征与标签间的关系。

#### 利用matplotlib对数据进行可视化

首先研究RM与MEDV的关系

In [None]:
plt.scatter(boston['RM'],boston['MEDV'],alpha=0.5)
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.title('RM VS MEDV')
plt.show

再研究RM与MEDV的关系

In [None]:
plt.scatter(boston['LSTAT'],boston['MEDV'],alpha=0.5)
plt.xlabel('LSTAT')
plt.ylabel('MEDV')
plt.title('LSTAT VS MEDV')
plt.show

接下来利用线性回归绘制拟合图像


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_excel('Poston.xlsx')
boston = pd.DataFrame(df)

# 提取特征和目标变量
X_rm = boston['RM'].values.reshape(-1, 1)
X_lstat = boston['LSTAT'].values.reshape(-1, 1)
y = boston['MEDV'].values.reshape(-1, 1)

# 添加偏置项！！！
X_rm = np.hstack([np.ones((X_rm.shape[0], 1)), X_rm])
X_lstat = np.hstack([np.ones((X_lstat.shape[0], 1)), X_lstat])

# 最小二乘法实现
def least_squares(X, y):
    theta = np.linalg.inv(X.T @ X) @ X.T @ y
    return theta

# 梯度下降法实现
def gradient_descent(X, y, learning_rate=0.01, n_iterations=1000):
    theta = np.zeros((X.shape[1], 1))
    m = len(y)
    for _ in range(n_iterations):
        gradients = 2/m * X.T @ (X @ theta - y)
        theta -= learning_rate * gradients
    return theta

# 最小二乘法
theta_rm_ls = least_squares(X_rm, y)
theta_lstat_ls = least_squares(X_lstat, y)

# 梯度下降法
theta_rm_gd = gradient_descent(X_rm, y)
theta_lstat_gd = gradient_descent(X_lstat, y)

# 打印结果
print("最小二乘法 - RM 和 MEDV 的theta:", theta_rm_ls.flatten())
print("最小二乘法 - LSTAT 和 MEDV 的thera:", theta_lstat_ls.flatten())
print("梯度下降法 - RM 和 MEDV 的theta:", theta_rm_gd.flatten())
print("梯度下降法 - LSTAT 和 MEDV 的theta:", theta_lstat_gd.flatten())

# 绘制结果
plt.figure(figsize=(12, 6))

# RM 和 MEDV 的关系
plt.subplot(1, 2, 1)
plt.scatter(X_rm[:, 1], y, alpha=0.5, color='blue', label='Data')
plt.plot(X_rm[:, 1], X_rm @ theta_rm_ls, color='red', label='Least Squares')
plt.plot(X_rm[:, 1], X_rm @ theta_rm_gd, color='green', label='Gradient Descent')
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.title('RM vs MEDV')
plt.legend()

# LSTAT 和 MEDV 的关系
plt.subplot(1, 2, 2)
plt.scatter(X_lstat[:, 1], y, alpha=0.5, color='blue', label='Data')
plt.plot(X_lstat[:, 1], X_lstat @ theta_lstat_ls, color='red', label='Least Squares')
plt.plot(X_lstat[:, 1], X_lstat @ theta_lstat_gd, color='green', label='Gradient Descent')
plt.xlabel('LSTAT')
plt.ylabel('MEDV')
plt.title('LSTAT vs MEDV')
plt.legend()

plt.show()

通过上面的图象我们可以知道，最小二乘法可以完美的拟合图像，但是对特殊数据比较敏感；而梯度下降法的效率更高，但是如果迭代次数设置不当，可能会出现跑超时的情况（如右图）。通过图像，便可以对房价进行一定程度的预测。

#### 总结

通过对数据的粗略处理，我们知道了和房价最相关的两个数据；再通过线性回归，我们便可以通过这两个数据实现对房价的预测，并提升预测准度