# 线性回归

In [3]:
import numpy

# 准备餐厅套餐价格数据
# 每行为一条数据
# 各列分别是座位数量、食材价格、员工薪资和套餐价格
food_price_data = numpy.array([
    [100, 7.2, 3000, 20],
    [120, 7.3, 3500, 21],
    [500, 7.2, 3100, 18],
    [80, 6.5, 2900, 17],
    [80, 7.9, 4500, 25],
    [500, 7.0, 3000, 16],
    [250, 7.2, 3100, 19],
    [250, 7.5, 4000, 22],
    [150, 7.8, 5000, 24],
    [300, 7.2, 3500, 20],
    [400, 7.1, 3200, 18],
    [200, 7.3, 3600, 21]
], dtype=numpy.float64)

In [4]:
# 自变量维度为1的线性回归
# 输入自变量x，因变量y
def linear_regression_single_dimension(x, y):
    # 计算样本数量
    n = len(x)
    # 计算x的和
    sum_x = numpy.sum(x)
    # 计算y的和
    sum_y = numpy.sum(y)
    # 计算x方平的和
    sum_xx = numpy.sum(x * x)
    # 计算xy乘积的和
    sum_xy = numpy.sum(x * y)
    # 计算参数
    w = (sum_x*sum_y - n*sum_xy)/(sum_x*sum_x - n*sum_xx)
    b = (sum_y - w*sum_x)/n
    return w, b

In [5]:
print(linear_regression_single_dimension(
    food_price_data[:,0],
    food_price_data[:,3]))
# 输出：(-0.010467620118913707, 22.639177245701433)
# 表示 预测套餐价格 约等于 -0.01 * 座位数量 + 22.64


(-0.010467620118913707, 22.639177245701433)


In [7]:
# 最小二乘法
# 计算 w = (X^T X)^-1 X^T y
# X^T 表示X的转置
# ()^-1 表示求逆矩阵
def least_square(X, y):
    # 确保y是列向量
    y = numpy.array(y).reshape([-1,1])
    # 计算X的转置
    XT = numpy.transpose(X)
    # 计算逆矩阵
    XTX_inv = numpy.linalg.inv(numpy.matmul(XT, X))
    w = numpy.matmul(XTX_inv, numpy.matmul(XT, y))
    return w

# 多维线性回归
def linear_regression(X, y):
    # 在矩阵X的右侧添加一列1
    ones = numpy.ones((X.shape[0],1), dtype=y.dtype)
    X = numpy.concatenate((X, ones), axis=1)
    return least_square(X, y)

print(linear_regression(
    food_price_data[:,0:1],
    food_price_data[:,3]))
# 输出：
# [[-1.04676201e-02]
#  [ 2.26391772e+01]]

[[-1.04676201e-02]
 [ 2.26391772e+01]]


In [8]:
print(linear_regression(
    food_price_data[:,0:3],
    food_price_data[:,3]))
# 输出：
# [[-6.55022066e-03]
#  [ 4.72864843e+00]
#  [ 8.69974343e-04]
#  [-1.57527424e+01]]

[[-6.55022066e-03]
 [ 4.72864843e+00]
 [ 8.69974343e-04]
 [-1.57527424e+01]]


In [9]:
from sklearn.linear_model import LinearRegression
lr_model = LinearRegression()
lr_model.fit(
    food_price_data[:,0:3],
    food_price_data[:,3])
print('自变量各维度对应的权重：{}'.format(lr_model.coef_))
print('偏置：{}'.format(lr_model.intercept_))
# 输出：
# 自变量各维度对应的权重：[-6.55022066e-03  4.72864843e+00  8.69974343e-04]
# 偏置：-15.752742372192568

自变量各维度对应的权重：[-6.55022066e-03  4.72864843e+00  8.69974343e-04]
偏置：-15.75274237219256


## 学习使用numpy

In [10]:
import numpy

a = numpy.array([1,2,3,4])
b = numpy.array([[1.0,2.0,3.0],[4.0,5.0,6.0]])
print('a的形状：{}，类型：{}'.format(a.shape, a.dtype))
print('b的形状：{}，类型：{}'.format(b.shape, b.dtype))
# 输出：
# a的形状：(4,)，类型：int32
# b的形状：(2, 3)，类型：float64

a的形状：(4,)，类型：int64
b的形状：(2, 3)，类型：float64


In [11]:
a = numpy.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
# 取第2行（索引是1），所有列
# 输出 [5 6 7 8]
print(a[1,:])
# 取第3列（索引是2），所有行
# 输出 [3 7 11]
print(a[:,2])
# 取第1到3列（索引大于等于0，小于3），所有行
# 输出 [[1 2 3][5 6 7][9 10 11]]
print(a[:,0:3])

[5 6 7 8]
[ 3  7 11]
[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]]


In [12]:
a = numpy.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

# 取第2列（索引是1），所有行，返回一维向量
# 输出：[2 6 10] 形状为(3,)
print(a[:,1])
print('形状为{}'.format(a[:,1].shape))

# 取第2列（索引是1），所有行，返回矩阵
# 输出：
# [[2]
#  [6]
#  [10]]
# 形状为(3,1)
print(a[:,1:2])
print('形状为{}'.format(a[:,1:2].shape))


[ 2  6 10]
形状为(3,)
[[ 2]
 [ 6]
 [10]]
形状为(3, 1)


In [13]:
a = numpy.array([[1,2,3],[4,5,6]])

# 数组元素和标量分别运算
# 输出：
# [[3 4 5][6 7 8]]
# [[2 4 6][8 10 12]]
print(a + 2)
print(a * 2)

# 相同形状的数组间运算
# 数组元素按照对应位置分别运算
# 输出：
# [[2 4 6][8 10 12]]
# [[1 4 9][16 25 36]]
print(a + a)
print(a * a)

# 不同形状的数组间运算
# a的形状为(2,3)，b的形状为(2,1)
# b的值被广播到3列于a进行运算
# 相当于b=[[1,1,1],[2,2,2]]
b = numpy.array([[1],[2]])
# 输出：
# [[1 2 3][8 10 12]]
# [[2 3 4][6 7 8]]
print(a * b)
print(a + b)


[[3 4 5]
 [6 7 8]]
[[ 2  4  6]
 [ 8 10 12]]
[[ 2  4  6]
 [ 8 10 12]]
[[ 1  4  9]
 [16 25 36]]
[[ 1  2  3]
 [ 8 10 12]]
[[2 3 4]
 [6 7 8]]
