# 1. 导入包

In [1]:
# -*- coding: utf-8 -*-
"""
Python 3.7.7
sklearn 0.23.1
不同回归模型对医疗费用预测的对比分析
"""

# 导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# 2. 导入数据集

In [2]:
# 导入数据集
data = pd.read_csv('insurance.csv')

# 3. 数据预处理

## 3.1 检测缺失值

In [3]:
# 检测缺失值
null_df = data.isnull().sum()

## 3.2 标签编码&独热编码

In [4]:
# 标签编码&独热编码
data = pd.get_dummies(data, drop_first = True) 

## 3.3 得到自变量和因变量

In [5]:
# 得到自变量和因变量
y = data['charges'].values
data = data.drop(['charges'], axis = 1)
x = data.values

## 3.4 拆分训练集和测试集

In [6]:
# 拆分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 1)

## 3.5 特征缩放

In [7]:
# 特征缩放
sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
sc_y = StandardScaler()
y_train = np.ravel(sc_y.fit_transform(y_train.reshape(-1, 1)))

# 4. 构建不同参数的回归模型

## 4.1 LASSO回归模型

In [8]:
# 构建不同参数的回归模型
# 模型1：构建LASSO回归模型
regressor_lasso = Lasso(alpha = 1e-9, fit_intercept = True)
regressor_lasso.fit(x_train, y_train)

Lasso(alpha=1e-09)

In [9]:
# 使用LASSO回归模型预测测试集
y_pred_lasso = regressor_lasso.predict(x_test)
y_pred_lasso = sc_y.inverse_transform(y_pred_lasso) # y_pred变回特征缩放之前的

## 4.2 多元线性回归模型

In [10]:
# 模型2：构建多元线性回归模型
regressor_multiple = LinearRegression(normalize = False, fit_intercept = True)
regressor_multiple.fit(x_train, y_train)

LinearRegression()

In [11]:
# 使用多元线性回归模型预测测试集
y_pred_multiple = regressor_multiple.predict(x_test)
y_pred_multiple = sc_y.inverse_transform(y_pred_multiple) # y_pred变回特征缩放之前的

## 4.3 岭回归模型

In [12]:
# 模型3：构建岭回归模型
regressor_ridge = Ridge(alpha = 0.0001, fit_intercept = True)
regressor_ridge.fit(x_train, y_train)

Ridge(alpha=0.0001)

In [13]:
# 使用岭回归模型预测测试集
y_pred_ridge = regressor_ridge.predict(x_test)
y_pred_ridge = sc_y.inverse_transform(y_pred_ridge) # y_pred变回特征缩放之前的

# 5. 评估模型性能

## 5.1 调用R^2库

In [14]:
# 评估模型性能
r2_score_lasso = r2_score(y_test, y_pred_lasso)
print('LASSO回归模型的R^2是：%.6f' %(r2_score_lasso))
r2_score_multiple = r2_score(y_test, y_pred_multiple)
print('多元线性回归模型的R^2是：%.6f' %(r2_score_multiple))
r2_score_ridge = r2_score(y_test, y_pred_ridge)
print('岭回归模型的R^2是：%.6f' %(r2_score_ridge))

LASSO回归模型的R^2是：0.762331
多元线性回归模型的R^2是：0.762331
岭回归模型的R^2是：0.762331


## 5.2 手写R^2

In [15]:
# 手写R^2
# SS residual
def get_s_s_residual(y_pred):
    return len(y_test) * mean_squared_error(y_test, y_pred)
# SS total
def get_s_s_total():
    final_result = 0
    y_avg = np.mean(y_test)
    for i in y_test:
        final_result += np.power((i-y_avg) ,2)
    return final_result
# R Squared
def get_r2(y_pred):
    return 1 - get_s_s_residual(y_pred)/get_s_s_total()

print('LASSO回归模型的R^2是：%.6f' %(get_r2(y_pred_lasso)))
print('多元线性回归模型的R^2是：%.6f' %(get_r2(y_pred_multiple)))
print('岭回归模型的R^2是：%.6f' %(get_r2(y_pred_ridge)))

LASSO回归模型的R^2是：0.762331
多元线性回归模型的R^2是：0.762331
岭回归模型的R^2是：0.762331


#### 结论：
我们可以通过R^2评估模型性能。本例子中3个模型的R^2恰好完全一致，说明3个模型的性能相同。