# Regressão com vetores de suporte

# Base plano de saúde

In [92]:
# Importações

import pickle
import plotly.express as px
import numpy as np

from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR

In [48]:
with open('/content/drive/MyDrive/variaveis treino/saude.pkl', 'rb') as f:
    x_plano_saude,  y_plano_saude = pickle.load(f)

In [49]:
x_plano_saude.shape, y_plano_saude.shape

((10, 1), (10,))

In [50]:
# Kernel linear

regressor_svr_saude_linear = SVR(kernel='linear')
regressor_svr_saude_linear.fit(x_plano_saude, y_plano_saude)

In [51]:
# Gerando gráfico para verificar como fica a regressão com kernel linear usando SVR

grafico = px.scatter(x = x_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = x_plano_saude.ravel(), y = regressor_svr_saude_linear.predict(x_plano_saude), name = 'Regressão')
grafico.show()

In [52]:
# Kernel polinominal

regressor_svr_saude_poly = SVR(kernel='poly', degree=3) # degree = 3, eleva ao cubo
regressor_svr_saude_poly.fit(x_plano_saude, y_plano_saude)

In [53]:
# Gerando gráfico para verificar como fica a regressão com kernel polinominal usando SVR

grafico = px.scatter(x = x_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = x_plano_saude.ravel(), y = regressor_svr_saude_poly.predict(x_plano_saude), name = 'Regressão')
grafico.show()

In [54]:
# Kernel rbf

regressor_svr_saude_rbf = SVR(kernel='rbf')
regressor_svr_saude_rbf.fit(x_plano_saude, y_plano_saude)

In [55]:
# Gerando gráfico para verificar como fica a regressão com kernel rbf usando SVR

grafico = px.scatter(x = x_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = x_plano_saude.ravel(), y = regressor_svr_saude_rbf.predict(x_plano_saude), name = 'Regressão')
grafico.show()

In [56]:
# Fazendo a normalização

scaler_x = StandardScaler()
scaler_y = StandardScaler()

x_plano_saude_scaled = scaler_x.fit_transform(x_plano_saude)
y_plano_saude_scaled = scaler_y.fit_transform(y_plano_saude.reshape(-1, 1)) # variável y está no formato vetor e precisa ser convertida para matriz

In [57]:
# Kernel rbf

regressor_svr_saude_rbf = SVR(kernel='rbf')
regressor_svr_saude_rbf.fit(x_plano_saude_scaled, y_plano_saude_scaled.ravel())

In [58]:
# Gerando gráfico para verificar como fica a regressão com kernel rbf usando SVR

grafico = px.scatter(x = x_plano_saude_scaled.ravel(), y = y_plano_saude_scaled.ravel())
grafico.add_scatter(x = x_plano_saude_scaled.ravel(), y = regressor_svr_saude_rbf.predict(x_plano_saude_scaled), name = 'Regressão')
grafico.show()

In [59]:
# Fazendo previsão

novo = [[40]]
novo = scaler_x.transform(novo)
novo

array([[-0.03481553]])

In [60]:
scaler_y.inverse_transform(regressor_svr_saude_rbf.predict(novo).reshape(-1, 1))

array([[1333.85650748]])

# Base de preço das casas

In [65]:
# Importando as variáveis do arquivo pkl

with open('/content/drive/MyDrive/variaveis treino/casas.pkl', 'rb') as f:
    x_casas_treinamento, y_casas_treinamento, x_casas_teste, y_casas_teste = pickle.load(f)

In [66]:
print(f'O tamanho das variáveis de treinamento é: {x_casas_treinamento.shape, y_casas_treinamento.shape}')
print(f'O tamanho das variáveis de teste é: {x_casas_teste.shape, y_casas_teste.shape}')

O tamanho das variáveis de treinamento é: ((15129, 16), (15129,))
O tamanho das variáveis de teste é: ((6484, 16), (6484,))


In [77]:
# Fazendo a padronização dos dados de treino

scaler_x_casas = StandardScaler()
scaler_y_casas = StandardScaler()

x_casas_treinamento_scaled = scaler_x_casas.fit_transform(x_casas_treinamento)
y_casas_treinamento_scaled = scaler_y_casas.fit_transform(y_casas_treinamento.to_numpy().reshape(-1, 1))

In [78]:
x_casas_treinamento_scaled.shape, y_casas_treinamento_scaled.shape

((15129, 16), (15129, 1))

In [83]:
# Fazendo a padronização dos dados de teste

x_casas_teste_scaled = scaler_x_casas.fit_transform(x_casas_teste)
y_casas_teste_scaled = scaler_y_casas.fit_transform(y_casas_teste.to_numpy().reshape(-1, 1))
# estava no formato series do pandas e nele não existe reshape, então modifiquei o tipo para numpy

In [84]:
x_casas_teste_scaled.shape, y_casas_teste_scaled.shape

((6484, 16), (6484, 1))

In [86]:
# Criando regressor e fazendo treinamento

regressor_svr_casas = SVR(kernel = 'rbf')
regressor_svr_casas.fit(x_casas_treinamento_scaled, y_casas_treinamento_scaled.ravel())

In [88]:
# Visualizando o score com a base de treinamento

regressor_svr_casas.score(x_casas_treinamento_scaled, y_casas_treinamento_scaled)

0.8123339130852082

In [89]:
# Visualizando o score com a base de teste

regressor_svr_casas.score(x_casas_teste_scaled, y_casas_teste_scaled)

0.7339174500752227

In [90]:
# Fazendo previsões para fazer o mean absolute error

previsoes = regressor_svr_casas.predict(x_casas_teste_scaled)

In [97]:
# Fazendo inversão das variáveis

y_casas_teste_inverse = scaler_y_casas.inverse_transform(y_casas_teste_scaled) # criando uma variável para guardar os dados originais
previsoes_inverse = scaler_y_casas.inverse_transform(previsoes.reshape(-1, 1))

In [98]:
# Vendo a média de valor absoluta

print(f'A média de valor absoluta das previsões foi de: {mean_absolute_error(y_casas_teste_inverse, previsoes_inverse)}')

A média de valor absoluta das previsões foi de: 83083.39111494907
