# Linear Regression

Author: Richard H. CHEN

## 0. 导入相关模块

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## 1. 随机生成数据

In [None]:
# 指示随机数的个数，设置为 50
# 并随机生成 50 个范围为 0~10 的随机浮点数数组，存放到变量 x 中
point_num=50
x=np.random.rand(point_num)*10
print(x) # 查看结果

In [None]:
# 生成 y
y_real=x+np.sin(x)+np.log(x+0.1)-5
# 为 y 添加正态随机偏移量（符合正态分布的偏移量）
y=y_real+np.random.normal(0.0,2.0,point_num)
print(y) # 查看结果

In [None]:
# 绘制散点图
plt.figure(figsize=(10, 10), dpi=100)
plt.scatter(x, y)
plt.show()

## 2. 最小二乘法

In [67]:
# 输入：自变量X，因变量Y的测量值
# 返回：多项式系数W
def least_square(X,Y):
    '''
    输入：自变量X，因变量Y的测量值
    返回：多项式系数W
    '''
    Xt=np.transpose(X)
    X1=np.matmul(Xt,X)
    X1in=np.linalg.inv(X1)
    W1=np.matmul(X1in,Xt)
    W=np.matmul(W1,Y)
    return W

## 3. 一元一次线性回归

In [None]:
e=np.ones(len(x))
A=np.hstack((x.reshape(-1,1),e.reshape(-1,1))) # 把A转化为矩阵
W=least_square(A,y)
# 绘图
plt.scatter(x,y,color="blue",label="data")
xL=np.linspace(0,10,100) # 在0-10之间取100个点
yL=W[0]*xL+W[1]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a*x+b")


## 4. 一元二次线性回归

In [None]:
x2 = x**2
e = np.ones(len(x))
A = np.hstack((x2.reshape(-1, 1), x.reshape(-1, 1),
               e.reshape(-1, 1)))  # 把A转化为矩阵[x**2,x,1]
W = least_square(A, y)
# 绘图
plt.scatter(x, y, color="blue", label="data")
xL = np.linspace(0, 10, 50)  # 在0-10之间取100个点
yL = W[0]*(xL**2)+W[1]*xL+W[2]
plt.plot(xL, yL, color="red", label="Fitted Line: y=a1*x^2+a0*x+b")
print(W)


## 5. 一元三次线性回归

In [None]:
x3=x**3
e=np.ones(len(x))
A=np.hstack((x3.reshape(-1,1),x2.reshape(-1,1),x.reshape(-1,1),e.reshape(-1,1)))
W=least_square(A,y)
# 绘图
plt.scatter(x,y,color="blue",label="data")
xL=np.linspace(0,10,50) # 在0-10之间取100个点
yL=W[0]*(xL**3)+W[1]*(xL**2)+W[2]*xL+W[3]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a2*x^3+a1*x^2+a0*x+b")
print(W)

## 6. 一元四次线性回归

In [None]:
x4=x**4
e=np.ones(len(x))
A=np.hstack((x4.reshape(-1,1),x3.reshape(-1,1),x2.reshape(-1,1),x.reshape(-1,1),e.reshape(-1,1)))
W=least_square(A,y)
# 绘图
plt.scatter(x,y,color="blue",label="data")
xL=np.linspace(0,10,50) # 在0-10之间取100个点
yL=W[0]*(xL**4)+W[1]*(xL**3)+W[2]*(xL**2)+W[3]*xL+W[4]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a3*x^4+a2*x^3+a1*x^2+a0*x+b")
print(W)

## 7. 一元五次线性回归

In [None]:
x5=x**5
e=np.ones(len(x))
A=np.hstack((x5.reshape(-1,1),x4.reshape(-1,1),x3.reshape(-1,1),x2.reshape(-1,1),x.reshape(-1,1),e.reshape(-1,1)))
W=least_square(A,y)
# 绘图
plt.scatter(x,y,color="blue",label="data")
xL=np.linspace(0,10,50) # 在0-10之间取100个点
yL=W[0]*(xL**5)+W[1]*(xL**4)+W[2]*(xL**3)+W[3]*(xL**2)+W[4]*xL+W[5]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a4*x^5+a3*x^4+a2*x^3+a1*x^2+a0*x+b")
print(W)

## 8. 减少样本规模
把上面制作随机数据时的样本点数量减少到10 ，重新执行上述步骤，观察样本规模的减少带来的过拟合现象。

In [None]:
# 对x与y每隔5个抽取一个数据
x1=x[0:point_num:5]
print(x1)
y1=y[0:point_num:5]
print(y1)

# 画散点图
plt.figure(figsize=(10, 10), dpi=100)
plt.scatter(x1, y1)
plt.show()

### 8.1 一元一次线性回归

In [None]:
e=np.ones(len(x1))
A=np.hstack((x1.reshape(-1,1),e.reshape(-1,1))) # 把A转化为矩阵
W=least_square(A,y1)
# 绘图
plt.scatter(x1,y1,color="blue",label="data")
xL=np.linspace(0,10,100) # 在0-10之间取100个点
yL=W[0]*xL+W[1]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a*x+b")

### 8.2 一元二次线性回归

In [None]:
x12=x1**2
e=np.ones(len(x1))
A=np.hstack((x12.reshape(-1,1),x1.reshape(-1,1),e.reshape(-1,1))) # 把A转化为矩阵
W=least_square(A,y1)
# 绘图
plt.scatter(x1,y1,color="blue",label="data")
xL=np.linspace(0,10,100) # 在0-10之间取100个点
yL=W[0]*(xL**2)+W[1]*xL+W[2]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a1*x^2+a0*x+b")

### 8.3 一元三次线性回归

In [None]:
x13=x1**3
e=np.ones(len(x1))
A=np.hstack((x13.reshape(-1,1),x12.reshape(-1,1),x1.reshape(-1,1),e.reshape(-1,1)))
W=least_square(A,y1)
# 绘图
plt.scatter(x1,y1,color="blue",label="data")
xL=np.linspace(0,10,50) # 在0-10之间取100个点
yL=W[0]*(xL**3)+W[1]*(xL**2)+W[2]*xL+W[3]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a2*x^3+a1*x^2+a0*x+b")
print(W)

### 8.4 一元四次线性回归

In [None]:
x14=x1**4
e=np.ones(len(x1))
A=np.hstack((x14.reshape(-1,1),x13.reshape(-1,1),x12.reshape(-1,1),x1.reshape(-1,1),e.reshape(-1,1)))
W=least_square(A,y1)
# 绘图
plt.scatter(x1,y1,color="blue",label="data")
xL=np.linspace(0,10,50) # 在0-10之间取100个点
yL=W[0]*(xL**4)+W[1]*(xL**3)+W[2]*(xL**2)+W[3]*xL+W[4]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a3*x^4+a2*x^3+a1*x^2+a0*x+b")
print(W)

### 8.5 一元五次线性回归

In [None]:
x15=x1**5
e=np.ones(len(x1))
A=np.hstack((x15.reshape(-1,1),x14.reshape(-1,1),x13.reshape(-1,1),x12.reshape(-1,1),x1.reshape(-1,1),e.reshape(-1,1)))
W=least_square(A,y1)
# 绘图
plt.scatter(x1,y1,color="blue",label="data")
xL=np.linspace(0,10,50) # 在0-10之间取100个点
yL=W[0]*(xL**5)+W[1]*(xL**4)+W[2]*(xL**3)+W[3]*(xL**2)+W[4]*xL+W[5]
plt.plot(xL,yL,color="red",label="Fitted Line: y=a4*x^5+a3*x^4+a2*x^3+a1*x^2+a0*x+b")
print(W)