In [37]:
import numpy as np
import pandas as pd 

波士顿房价数据集字段说明
* CRIM 房屋所在镇的犯罪率
* ZN 面积大于25000平方英尺住宅所占的比例
* INDUS 房屋所在镇非零售区所占比例
* CHAS 房屋是否是位于河边的 如果位于河边则值为1 否则值为0
* NOX 一氧化氮的浓度
* RM 平均房间数量
* AGE 1940年前建成房屋所占的比率
* DIS 房屋距离波士顿五大就业中心的加权距离
* RAD 距离房屋最近的公路
* TAX 财产税收额度
* PTRATIO 房屋所在镇师生的比例
* B 是一个计算公式 ： 1000 * （房屋所在镇非美籍人口所占比率 - 0.63） ** 2
* LSTAT 弱势群体人口所占比例
* MDEV 房屋的平均价格

In [43]:


# data
# 查看数据的基本信息 同时 也可以用来查看 各个特征列是否存在缺失值
# data.info() 经过查看 一共506行 所有属性506行都是有值的
# data.duplicated().any() False 没有重复值

In [46]:
class LinearRegression:
    """使用python实现的线性回归 (最小二乘法)"""
    def fit(self, X, y):
        """根据提供的训练数据X 对模型进行训练
        
        Parameters
        ------
        X : 类数组类型 形状 ：[样本数量，特征数量]
            特征矩阵， 用来对模型进行训练
            
        y ：类数组类型 形状 : [样本数量]
        
        """
        # 说明： 如果X是数组对象的一部分 而不是完整的对象数据（例如：X是由其它对象通过切片传递过来的）
        # 则无法完成矩阵的转换
        # 这里创建X的拷贝对象 避免创建转换矩阵的时候失败
        X = np.asmatrix(X.copy())
        # y不需要拷贝 是一维结构 可能是一个行向量或者列向量 可以不用拷贝
        # 注意 ：转换完矩阵还要进行一个reshape 参数 -1 代表该维度的大小由 NumPy 依据数组的总元素数量和其他维度的大小自动计算得出
        y = np.asmatrix(y).reshape(-1, 1)
        # 通过最小二乘公式 求解出最佳的权重值
        self.w_ = (X.T * X).I * X.T * y

    def predict(self, X):
        """根据参数传递的样本X, 对样本数据进行预测
        
        Parameters
        ------
        X : 类数组类型 形状 ：[样本数量，特征数量]
            待预测的样本特征(属性)
        
        Returns
        ------
        result: 数组类型 
               预测的结果
            
        """
        # 将X转换成矩阵 注意 需要对X进行拷贝
        X = np.asmatrix(X.copy())
        result = X * self.w_
        # 将result矩阵转换成ndarray数组 进行扁平化处理 然后返回结果
        # 使用ravel可以将数组进行扁平化处理
        return np.array(result).ravel()

In [50]:
# 不考虑截距
data = pd.read_csv(r"boston.csv")
t = data.sample(len(data),random_state=0)
train_X = t.iloc[:400, :-1]
train_y = t.iloc[:400, -1]
test_X = t.iloc[400:, :-1]
test_y = t.iloc[400:, -1]
lr = LinearRegression()
lr.fit(train_X, train_y)
result = lr.predict(test_X)
result



array([nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan])