In [1]:
# importação de bibliotecas

import pandas as pd                                             # importação de biblioteca para manipulação de dados
import numpy as np                                              # importação de biblioteca para manipulação de numeros
import seaborn as sns                                           # importação de biblioteca para visualização de dados graficamente
import plotly.express as px                                     # importação de biblioteca para visualização de dados graficamente
from sklearn.linear_model import LinearRegression               # importação de biblioteca sklearn para aplicação de regressão linear
from yellowbrick.regressor import ResidualsPlot                 # importação de biblioteca yellowbrick para visualização de dados graficamente
from sklearn.preprocessing import PolynomialFeatures            # importação de biblioteca sklearn para aplicação de regressão polinomial

In [2]:
# carregamento de dados

plano_saude = pd.read_csv('./data/plano_saude2.csv')

In [3]:
# exploração da base de dados visualizando os registros

plano_saude

Unnamed: 0,idade,custo
0,18,470
1,23,520
2,28,630
3,33,830
4,38,1150
5,43,1530
6,48,2040
7,53,3080
8,58,5100
9,63,10100


In [4]:
# separação de dados

X_plano_saude = plano_saude.values[ :, 0:1]
y_plano_saude = plano_saude.values[ :, 1]

In [5]:
# visualização das bases de dados

X_plano_saude

array([[18],
       [23],
       [28],
       [33],
       [38],
       [43],
       [48],
       [53],
       [58],
       [63]], dtype=int64)

In [6]:
# visualização das bases de dados

y_plano_saude

array([  470,   520,   630,   830,  1150,  1530,  2040,  3080,  5100,
       10100], dtype=int64)

In [15]:
# aplicação de função para aumentar a dimensão da base de dados ^2

poly = PolynomialFeatures(degree=4)
X_plano_poly = poly.fit_transform(X_plano_saude)

In [16]:
# visualização da dimencionalidade da base de dados

X_plano_saude.shape

(10, 1)

In [17]:
# visualização da dimencionalidade da base de dados após aplicação da função

X_plano_poly.shape

(10, 5)

In [18]:
# visualização dos dados

X_plano_poly

array([[1.0000000e+00, 1.8000000e+01, 3.2400000e+02, 5.8320000e+03,
        1.0497600e+05],
       [1.0000000e+00, 2.3000000e+01, 5.2900000e+02, 1.2167000e+04,
        2.7984100e+05],
       [1.0000000e+00, 2.8000000e+01, 7.8400000e+02, 2.1952000e+04,
        6.1465600e+05],
       [1.0000000e+00, 3.3000000e+01, 1.0890000e+03, 3.5937000e+04,
        1.1859210e+06],
       [1.0000000e+00, 3.8000000e+01, 1.4440000e+03, 5.4872000e+04,
        2.0851360e+06],
       [1.0000000e+00, 4.3000000e+01, 1.8490000e+03, 7.9507000e+04,
        3.4188010e+06],
       [1.0000000e+00, 4.8000000e+01, 2.3040000e+03, 1.1059200e+05,
        5.3084160e+06],
       [1.0000000e+00, 5.3000000e+01, 2.8090000e+03, 1.4887700e+05,
        7.8904810e+06],
       [1.0000000e+00, 5.8000000e+01, 3.3640000e+03, 1.9511200e+05,
        1.1316496e+07],
       [1.0000000e+00, 6.3000000e+01, 3.9690000e+03, 2.5004700e+05,
        1.5752961e+07]])

In [19]:
# primeiro registro
# 1.0, registro 1^1, registro^2, registro^3, registro^n

X_plano_poly[0]

array([1.00000e+00, 1.80000e+01, 3.24000e+02, 5.83200e+03, 1.04976e+05])

In [20]:
# outro registro

X_plano_poly[3]

array([1.000000e+00, 3.300000e+01, 1.089000e+03, 3.593700e+04,
       1.185921e+06])

In [21]:
# aplicação de regressão multipla

regressor_poly = LinearRegression()
regressor_poly.fit(X_plano_poly, y_plano_saude)

LinearRegression()

In [22]:
# b0

regressor_poly.intercept_

16561.9746520688

In [23]:
# b1

regressor_poly.coef_

array([ 0.00000000e+00, -2.12242253e+03,  9.90404200e+01, -1.95058276e+00,
        1.40792541e-02])

In [25]:
# novo registro para previsão, 40 anos de idade
# necessário aplicar a função de aumentação de dimensão

novo_registro = [[40]]
novo_registro = poly.fit_transform(novo_registro)
novo_registro

array([[1.00e+00, 4.00e+01, 1.60e+03, 6.40e+04, 2.56e+06]])

In [26]:
# previsão do novo registro, custo do plano de saude para uma pessoa com 40 anos

regressor_poly.predict(novo_registro)

array([1335.33958083])

In [27]:
# analise das previsões

previsoes_reg = regressor_poly.predict(X_plano_poly)
previsoes_reg

array([ 549.65035541,  345.85081604,  616.53846024,  975.83916004,
       1249.06759921, 1472.72727331, 1894.51048965, 2973.29836731,
       5379.16083712, 9993.35664167])

In [28]:
# grafico de dispersão

grafico = px.scatter(x = X_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = X_plano_saude.ravel(), y = previsoes_reg, name = 'Previsões')
grafico.show()