# Linear Regression
supervised learning - regression - loss function based on Euclidean Distance

## 从机器学习的角度看这个问题

1. 确定场景类型
2. 定义损失函数：L = sum(pow(y_org - y_pre))
3. 提取特征
4. 确定模型并估计参数：y_pre = a * x + b
5. 评估模型效果：
    - 均方差：MSE = 1/n * sum(pow(y_pre - y_org), 2)
    - y_org_avg = 1/n * sum(y_org)
    - ss_tot = sum(pow(y_org - y_org_avg), 2)
    - ss_res = sum(pow(y_org - y_pre, 2))
    - R_squared = 1 - ss_res/ss_tot // 未被解释的成本变化占原成本变化的比例越小越好，即决定系数越接近1越好

In [8]:
# 读入数据
import numpy as np
import pandas as pd

# 确保读入数据
path = 'https://github.com/GenTang/intro_ds/blob/master/ch04-linear/simple_example/data/simple_example.csv'
data = pd.read_csv(path)
data = pd.read_csv(path, delimiter=',', header=0)

# 选择列
data["x"]
data[["x", "y"]]

# 选择行
data[:10]
data[10:]
data[2:3]

ParserError: Error tokenizing data. C error: Expected 1 fields in line 49, saw 2


In [2]:
def linearModel(data):
    """
    线性回归模型建模步骤展示
    -------------------
    
    参数
    ----
    data: DataFrame, 建模数据
    """
    features = ["x"]
    labels = ['y']
    
    # 划分训练集和测试集
    train_data = data[:15]
    test_data = data[15:]
    
    # 产生并训练模型
    model = train_model(train_data, features, labels)
    
    # 评价模型效果
    mse, r_squared = evaluate_model(model, test_data, features, labels)
    
    # 图形化模型结果
    visualizeModel(model, data, features, labels, mse, r_squared)

In [3]:
from sklearn import linear_model
def train_model(train_data, features, labels):
    """
    利用训练数据， 估计模型参数
    -----------------------
    
    参数
    ----
    train_data: DataFrame, 训练数据集，包含特征和标签
    features: 特征名列表
    labels: 标签名列表
    
    返回
    ----
    model: LinearRegression, 训练好的线性模型
    """
    # 创建一个线性回归模型
    model = linear_model.LinearRegression
    # 训练模型，估计模型参数
    model.fit(train_data[features], train_data[labels])
    return model

In [4]:
def evaluate_model(model, test_data, features, labels):
    """
    计算线性模型的均方差和决定系数
    
    参数
    ----
    model: LinearRegression， 训练完成的线性模型
    test_data: DataFrame， 测试数据
    features: list[str]， 特征名列表
    labels: list[str]，标签名列表
    
    返回
    ----
    mse: np.float64，均方差
    r_squared: np.float64，决定系数
    """
    # 均方差MSE(The mean squared error)，均方差越小越好
    mse = np.mean((model.predict(test_data[features])-test_data[labels]) ** 2)
    
    # 决定系数(Coefficient of determination)，决定系数越接近1越好
    r_squared = model.score(test_data[features], test_data[labels])
    return mse, r_squared

## 从统计学的角度看这个问题
1. 假设条件概率
2. 估计参数
3. 推导参数的分布
4. 假设检验与置信区间

- 注意b的估计值(const)，如果在P-value下b=0的情况下概率高毓5%，则为不显著，应该舍弃此参数，（小于5%为显著，小于1%为极显著）
- 同理，如果参数a(x)，P-value小于1%，为极显著，该纳入模型
- 注意置信区间，通常为[0.025, 0.0975]，置信度95%
- f test同样可以输出p-value值


In [11]:
import statsmodels.api as sm

def linearModel(data):
    """
    线性回归统计性质分析步骤展示
    -----------------------
    
    参数
    ----
    data： DataFrame， 建模数据
    """
    features = ['x']
    labels = ['y']
    
    Y = data[labels]
    
    # 加入常量变量
    X = sm.add_constant(data[features])
    
    # 构建模型
    re = TrainModel(X, Y)
    
    # 分析模型效果
    modelSummary(re)

def trainModel(X, Y):
    # 训练模型
    model = sm.OLS(Y, X)
    re = model.fit()
    return re

def modelSummary(re):
    # 分析线性回归模型的统计性质
    
    # 整体统计分析结果
    print(re.summary())
    
    # 用f test检验x对应的系数a是否显著
    print(re.f_test('x'))
    
    # 用f test检验b是否显著
    print(re.f_test('const=0'))
    
    # 用f test检验a=1，b=0同时成立的显著性
    print(re.f_test(["x","const=0"]))

In [6]:
import statsmodels.api as sm

def linearModel(data):
    """
    线性回归统计性质分析步骤展示
    -----------------------
    
    参数
    ----
    data： DataFrame， 建模数据
    """
    features = ['x']
    labels = ['y']
    
    Y = data[labels]
    
    # 加入常量变量
    X = sm.add_constant(data[features])
    
    # 构建模型
    re = TrainModel(X, Y)
    
    # 分析模型效果
    modelSummary(re)

def trainModel(X, Y):
    # 训练模型
    model = sm.OLS(Y, X)
    re = model.fit()
    return re

def modelSummary(re):
    # 分析线性回归模型的统计性质
    
    # 整体统计分析结果
    print(re.summary())
    
    # 用f test检验x对应的系数a是否显著
    print(re.f_test('x'))
    
    # 用f test检验b是否显著
    print(re.f_test('const=0'))
    
    # 用f test检验a=1，b=0同时成立的显著性
    print(re.f_test(["x","const=0"]))

In [7]:
# 可视化
def visualizeModel(re, data, features, labels):
    """
    模型可视化
    """
    # 计算预测结果的标准差，预测下界，预测上界
    prstd, preLow, preUp = wls_prediction_std(re, alpha=0.05)
    
    # 为在Matplotlib中显示中文，设置特殊字体
    plt.rcParams['font.sans-serif']=['SimHei']
    
    # 创建一个图形框
    fig = plt.figure(figsize=(6, 6), dpi=80)
    
    # 在图形框里只画一幅图
    ax = fig.add_subplot(111)
    
    # 在Matplotlib中显示中文，需要使用unicode
    # 在Python3中，str不需要decode
    if sys.version_info[0] == 3:
        ax.set_title(u'%s' % "线性回归统计分析示例")
    else:
        ax.set_title(u'%s' % "线性回归统计分析示例".decode("utf-8"))
    ax.set_xlabel('$x$')
    ax.set_ylabel('$y$')
    
    # 画点图，用蓝色圆点表示原始数据
    # 在Python3中，str不需要decode
    if sys.version_info[0] == 3:
        ax.scatter(data[features], data[labels], color='b',
            label=u'%s: $y = x + \epsilon$' % "真实值")
    else:
        ax.scatter(data[features], data[labels], color='b',
            label=u'%s: $y = x + \epsilon$' % "真实值".decode("utf-8"))
        
    # 画线图，用红色虚线表示95%置信区间
    # 在Python3中，str不需要decode
    if sys.version_info[0] == 3:
        ax.plot(data[features], preUp, "r--", label=u'%s' % "95%置信区间")
        ax.plot(data[features], re.predict(data[features]), color='r',
            label=u'%s: $y = %.3fx$'\
            % ("预测值", re.params[features]))
    else:
        ax.plot(data[features], preUp, "r--", label=u'%s' % "95%置信区间".decode("utf-8"))
        ax.plot(data[features], re.predict(data[features]), color='r',
            label=u'%s: $y = %.3fx$'\
            % ("预测值".decode("utf-8"), re.params[features]))
    ax.plot(data[features], preLow, "r--")
    legend = plt.legend(shadow=True)
    legend.get_frame().set_facecolor('#6F93AE')
    plt.show()

In [13]:
# 重建模型，不用const常变量
from statsmodels.sandbox.regression.predstd import wls_prediction_std

def linearModel(data):
    # const不显著，去掉这个常变量
    resNew = trainModel(data[features], Y)
    # 输出新模型的分析结果
    print(resNews.summary())
    # 将模型结果可视化
    visualizeModel(res, data, featurs, labels)