In [171]:
# Carregando bibliotecas de uso geral
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [233]:
# Carregando conjunto de dados
df = pd.read_csv('bases/insurance/insurance.csv', sep=',')

#
#  Sex, smoker e region são características categóricas, portando precisam ser convertidas para numéricas
#
#  sex e smoker serão convertidas diretamente, pois são binárias
#
from sklearn.preprocessing import LabelEncoder

# Característica sex
sex_encoder = LabelEncoder()
df['sex'] = sex_encoder.fit_transform(df['sex'].values)

# Característica smoker
smoker_encoder = LabelEncoder()
df['smoker'] = smoker_encoder.fit_transform(df['smoker'].values)

# Rodando one-hot-enconding na característica region e removendo a primeira opção via drop_first
df = pd.get_dummies(df, drop_first=True)

# Pegando conjunto (X, y)
X = df[['age', 'sex', 'bmi', 'children', 'smoker', 'region_northwest', 'region_southeast', 'region_southwest']].values
y = df['charges'].values

# Vamos usar uma regressão linear (SGD) com características polinomiais
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import PolynomialFeatures

# Características polinomiais
poly = PolynomialFeatures(degree=2)
X    = poly.fit_transform(X)

# Dividindo conjunto
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=1)

# Normalizando as características
zscore_x = StandardScaler()
X_train = zscore_x.fit_transform(X_train)
X_test  = zscore_x.transform(X_test)

# Normalizando a saída (em problemas de regressão pode auxiliar na convergência)
zscore_y = StandardScaler()
y_train = zscore_y.fit_transform(y_train[:, np.newaxis]).flatten()
y_test  = zscore_y.transform(y_test[:, np.newaxis]).flatten()

#
# Vamos rodar um Grid Search com validação cruzada
#
from sklearn.model_selection import GridSearchCV

# Parâmetros do grid
grid_params = {'alpha': [0.0001, 0.001, 0.01, 0.1], 
               'max_iter':[1000, 10000], 
               'learning_rate':['adaptive', 'invscaling'],
               'tol':[1e-3, 1e-5, 1e-6, 1e-7],
               'early_stopping':[True, False]}

# A implementação de GridSearch da sklearn maximiza, então precisamos 
# usar a inversa do MSE (por isso usamos neg_mean_squared_error)
gs = GridSearchCV(SGDRegressor(), 
                  grid_params, 
                  cv=5, 
                  scoring='neg_mean_squared_error') 

gs.fit(X_train, y_train)
print('MSE de validação %.5f' % (gs.best_score_*-1))
print('MSE de teste %.5f' % mean_squared_error(gs.predict(X_test), y_test))

0.16634069869599238
0.13981779877056666


In [249]:
# Mostrando o preço para uma dada amostra (usando a inversa do zscore na saída)
yp = zscore_y.inverse_transform(gs.predict(np.asarray([X_test[0, :]])))
print('O preço do plano de saúde predito para o paciente 0 é $%.3f' % (yp))

O preço do plano de saúde predito para o paciente 0 é $3085.721
