In [1]:
# importação de bibliotecas

import pandas as pd                                             # importação de biblioteca para manipulação de dados
import numpy as np                                              # importação de biblioteca para manipulação de numeros
import seaborn as sns                                           # importação de biblioteca para visualização de dados graficamente
import plotly.express as px                                     # importação de biblioteca para visualização de dados graficamente
from sklearn.svm import SVR                                     # importação de biblioteca sklearn para aplicação de regressão SVR(suport vector regressor)
from sklearn.preprocessing import StandardScaler                # importação de biblioteca sklearn para normalização de dados

In [2]:
# carregamento de dados

plano_saude = pd.read_csv('./data/plano_saude2.csv')

In [3]:
# exploração da base de dados visualizando os registros

plano_saude

Unnamed: 0,idade,custo
0,18,470
1,23,520
2,28,630
3,33,830
4,38,1150
5,43,1530
6,48,2040
7,53,3080
8,58,5100
9,63,10100


In [4]:
# separação de dados

X_plano_saude = plano_saude.values[ :, 0:1]
y_plano_saude = plano_saude.values[ :, 1]

In [5]:
# visualização das bases de dados

X_plano_saude

array([[18],
       [23],
       [28],
       [33],
       [38],
       [43],
       [48],
       [53],
       [58],
       [63]], dtype=int64)

In [6]:
# visualização das bases de dados

y_plano_saude

array([  470,   520,   630,   830,  1150,  1530,  2040,  3080,  5100,
       10100], dtype=int64)

In [7]:
# criando um range entre o valor minimo e o maximo da base de treino
# 18 - 63 anos

X_teste_arvore = np.arange(min(X_plano_saude), max(X_plano_saude), 0.1)
X_teste_arvore

array([18. , 18.1, 18.2, 18.3, 18.4, 18.5, 18.6, 18.7, 18.8, 18.9, 19. ,
       19.1, 19.2, 19.3, 19.4, 19.5, 19.6, 19.7, 19.8, 19.9, 20. , 20.1,
       20.2, 20.3, 20.4, 20.5, 20.6, 20.7, 20.8, 20.9, 21. , 21.1, 21.2,
       21.3, 21.4, 21.5, 21.6, 21.7, 21.8, 21.9, 22. , 22.1, 22.2, 22.3,
       22.4, 22.5, 22.6, 22.7, 22.8, 22.9, 23. , 23.1, 23.2, 23.3, 23.4,
       23.5, 23.6, 23.7, 23.8, 23.9, 24. , 24.1, 24.2, 24.3, 24.4, 24.5,
       24.6, 24.7, 24.8, 24.9, 25. , 25.1, 25.2, 25.3, 25.4, 25.5, 25.6,
       25.7, 25.8, 25.9, 26. , 26.1, 26.2, 26.3, 26.4, 26.5, 26.6, 26.7,
       26.8, 26.9, 27. , 27.1, 27.2, 27.3, 27.4, 27.5, 27.6, 27.7, 27.8,
       27.9, 28. , 28.1, 28.2, 28.3, 28.4, 28.5, 28.6, 28.7, 28.8, 28.9,
       29. , 29.1, 29.2, 29.3, 29.4, 29.5, 29.6, 29.7, 29.8, 29.9, 30. ,
       30.1, 30.2, 30.3, 30.4, 30.5, 30.6, 30.7, 30.8, 30.9, 31. , 31.1,
       31.2, 31.3, 31.4, 31.5, 31.6, 31.7, 31.8, 31.9, 32. , 32.1, 32.2,
       32.3, 32.4, 32.5, 32.6, 32.7, 32.8, 32.9, 33

In [8]:
# tamanho da amostra

X_teste_arvore.shape

(450,)

In [9]:
# criando uma base de dados com os valores do range
# transformando a base de dados em uma matriz

X_teste_arvore = X_teste_arvore.reshape(-1, 1)
X_teste_arvore

array([[18. ],
       [18.1],
       [18.2],
       [18.3],
       [18.4],
       [18.5],
       [18.6],
       [18.7],
       [18.8],
       [18.9],
       [19. ],
       [19.1],
       [19.2],
       [19.3],
       [19.4],
       [19.5],
       [19.6],
       [19.7],
       [19.8],
       [19.9],
       [20. ],
       [20.1],
       [20.2],
       [20.3],
       [20.4],
       [20.5],
       [20.6],
       [20.7],
       [20.8],
       [20.9],
       [21. ],
       [21.1],
       [21.2],
       [21.3],
       [21.4],
       [21.5],
       [21.6],
       [21.7],
       [21.8],
       [21.9],
       [22. ],
       [22.1],
       [22.2],
       [22.3],
       [22.4],
       [22.5],
       [22.6],
       [22.7],
       [22.8],
       [22.9],
       [23. ],
       [23.1],
       [23.2],
       [23.3],
       [23.4],
       [23.5],
       [23.6],
       [23.7],
       [23.8],
       [23.9],
       [24. ],
       [24.1],
       [24.2],
       [24.3],
       [24.4],
       [24.5],
       [24

In [10]:
# implementação de SVR

In [11]:
# treinamento com kernel = 'linear'

regressor_plano_svr_lin = SVR(kernel = 'linear')
regressor_plano_svr_lin.fit(X_plano_saude, y_plano_saude)

SVR(kernel='linear')

In [12]:
# grafico de dispersão com o treinamento do kernel = 'linear'

grafico = px.scatter(x = X_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = X_teste_arvore.ravel(), y = regressor_plano_svr_lin.predict(X_teste_arvore), name = 'Previsões')
grafico.show()

In [13]:
# treinamento kernel = 'polinomial'

regressor_plano_svr_pol = SVR(kernel = 'poly', degree = 4)
regressor_plano_svr_pol.fit(X_plano_saude, y_plano_saude)

SVR(degree=4, kernel='poly')

In [14]:
# grafico de dispersão com o treinamento do kernel = 'poly' degree = 3

grafico = px.scatter(x = X_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = X_teste_arvore.ravel(), y = regressor_plano_svr_pol.predict(X_teste_arvore), name = 'Previsões')
grafico.show()

In [15]:
# treinamento kernel = 'rbf'

regressor_plano_svr_rbf = SVR(kernel = 'rbf')
regressor_plano_svr_rbf.fit(X_plano_saude, y_plano_saude)

SVR()

In [16]:
# grafico de dispersão com o treinamento do kernel = 'rbf' 

grafico = px.scatter(x = X_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = X_teste_arvore.ravel(), y = regressor_plano_svr_rbf.predict(X_teste_arvore), name = 'Previsões')
grafico.show()

In [17]:
# necessario a normalização dos dados para o treinamento do kernel = 'rbf'

In [18]:
# normalizando os dados para o treinamento

scaler_x = StandardScaler()
X_plano_saude_scaled = scaler_x.fit_transform(X_plano_saude)

In [19]:
# visualização dos dados normalizados

X_plano_saude_scaled

array([[-1.5666989 ],
       [-1.21854359],
       [-0.87038828],
       [-0.52223297],
       [-0.17407766],
       [ 0.17407766],
       [ 0.52223297],
       [ 0.87038828],
       [ 1.21854359],
       [ 1.5666989 ]])

In [20]:
# normalizando os dados para o treinamento

scaler_y = StandardScaler()
y_plano_saude_scaled = scaler_y.fit_transform(y_plano_saude.reshape(-1, 1))

In [21]:
# visualização dos dados normalizados

y_plano_saude_scaled

array([[-0.72401136],
       [-0.7065653 ],
       [-0.66818397],
       [-0.59839975],
       [-0.48674498],
       [-0.35415495],
       [-0.17620517],
       [ 0.18667281],
       [ 0.8914935 ],
       [ 2.63609918]])

In [22]:
# treinamento kernel = 'rbf' com dados normalizados

regressor_plano_svr_rbf = SVR(kernel = 'rbf')
regressor_plano_svr_rbf.fit(X_plano_saude_scaled, y_plano_saude_scaled.ravel())

SVR()

In [23]:
# grafico de dispersão com o treinamento do kernel = 'rbf' e dados normalizados

grafico = px.scatter(x = X_plano_saude_scaled.ravel(), y = y_plano_saude_scaled.ravel())
grafico.add_scatter(x = X_plano_saude_scaled.ravel(), y = regressor_plano_svr_rbf.predict(X_plano_saude_scaled), name = 'Previsões')
grafico.show()

In [24]:
# registro para teste da previsão

novo = [[40]]

In [25]:
# normalizando os dados para o previsão 

novo = scaler_x.transform(novo)
novo

array([[-0.03481553]])

In [26]:
# previsão do preço para o novo registro de uma pessoa com 40 anos

scaler_y.inverse_transform([regressor_plano_svr_rbf.predict(novo)])

array([[1333.85650748]])