In [1]:
# 创建数据集，把数据写入到numpy数组
import numpy as np  # 引用numpy库，主要用来做科学计算
import matplotlib.pyplot as plt   # 引用matplotlib库，主要用来画图
data = np.array([[152,51],[156,53],[160,54],[164,55],
                 [168,57],[172,60],[176,62],[180,65],
                 [184,69],[188,72]])

In [2]:
# 打印大小
x, y = data[:,0], data[:,1]
print (x.shape, y.shape)

(10,) (10,)


In [3]:
# 1. 手动实现一个线性回归算法，具体推导细节参考4.1课程视频
# TODO: 实现w和b参数， 这里w是斜率， b是偏移量
w = (np.mean(x*y)-np.mean(x)*np.mean(y))/(np.mean(x*x)-np.mean(x)*np.mean(x))
b = np.mean(y)-w*np.mean(x)

In [4]:
print ("通过手动实现的线性回归模型参数: %.5f %.5f"%(w,b))

通过手动实现的线性回归模型参数: 0.57576 -38.07879


In [5]:
# 2. 使用sklearn来实现线性回归模型, 可以用来比较一下跟手动实现的结果
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(x.reshape(-1,1),y)
print ("基于sklearn的线性回归模型参数：%.5f %.5f"%(model.coef_, model.intercept_))

基于sklearn的线性回归模型参数：0.57576 -38.07879


### Linear Regression with Multiple Variables

In [6]:
# 生成样本数据， 特征维度为2
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
# y = 1 * x_0 + 2 * x_1 + 3
y = np.dot(X, np.array([1, 2])) + 3

In [7]:
# 先使用sklearn自带的库来解决
model = LinearRegression().fit(X, y)

In [8]:
# 打印参数以及偏移量（bias）
print ("基于sklearn的线性回归模型参数为 coef: ", model.coef_, " intercept: %.5f" %model.intercept_)

基于sklearn的线性回归模型参数为 coef:  [1. 2.]  intercept: 3.00000


In [9]:
# 手动实现参数的求解。先把偏移量加到X里
a = np.ones(X.shape[0]).reshape(-1,1)
X = np.concatenate((a, X), axis=1)

In [10]:
a

array([[1.],
       [1.],
       [1.],
       [1.]])

In [11]:
X

array([[1., 1., 1.],
       [1., 1., 2.],
       [1., 2., 2.],
       [1., 2., 3.]])

In [12]:
# 通过矩阵、向量乘法来求解参数， res已经包含了偏移量
res = np.matmul(np.linalg.inv(np.matmul(X.T, X)),  np.matmul(X.T, y))

In [13]:
# 打印参数以偏移量（bias）
print ("通过手动实现的线性回归模型参数为 coef: ", res[1:], " intercept: %.5f"%res[0])

通过手动实现的线性回归模型参数为 coef:  [1. 2.]  intercept: 3.00000
