# Regressão Polinomial - Previsão plano de saúde

**Regressão polinomial** é um tipo de modelo de aprendizado de máquina usado para prever relações entre variáveis, especialmente quando os dados seguem um padrão curvo ou não-linear. É uma extensão da **regressão linear**, mas em vez de ajustar uma linha reta, ajusta uma curva ao conjunto de dados.

### Como funciona:
1. **Transformação dos dados**:
   - O algoritmo converte a variável de entrada (por exemplo, \( x \)) em termos polinomiais, como \( x^2, x^3, \dots, x^n \).
   - Por exemplo, se o grau do polinômio for 2, os termos serão \( [1, x, x^2] \).

2. **Modelo linear ajustado**:
   - O modelo ainda usa regressão linear para encontrar os coeficientes (\( b_0, b_1, b_2, \dots \)) que minimizam o erro entre as previsões e os dados reais.
   - Apesar de o gráfico ser curvo, matematicamente é tratado como uma combinação linear desses termos polinomiais.

3. **Previsões**:
   - Após o treinamento, o modelo usa os coeficientes aprendidos para prever novos valores com base nos termos polinomiais da entrada.

### Exemplo:
Se a relação real é \( y = 2 + 3x + x^2 \), o modelo ajusta uma curva baseada nesses termos (\( 1, x, x^2 \)) para capturar o padrão.

Em resumo, a **regressão polinomial** é útil para problemas onde a relação entre as variáveis não é bem representada por uma linha reta, mas por uma curva. O algoritmo ajusta essa curva usando regressão linear em termos polinomiais transformados.

In [2]:
!pip install plotly --upgrade



In [3]:
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [14]:
base_plano_saude2 = pd.read_csv("plano_saude2.csv")
base_plano_saude2.head()

Unnamed: 0,idade,custo
0,18,470
1,23,520
2,28,630
3,33,830
4,38,1150


### Definir variáveis X (atributos previsores) e Y (Label esperada)

In [26]:
X_plano_saude2 = base_plano_saude2.iloc[:, 0:1].values
y_plano_saude2 = base_plano_saude2.iloc[:, 1].values #values transforma em numpy array

In [16]:
# ATRIBUTO PREVISORES
X_plano_saude2

array([[18],
       [23],
       [28],
       [33],
       [38],
       [43],
       [48],
       [53],
       [58],
       [63]])

In [27]:
# lABELS DOS PREÇOS
y_plano_saude2

array([  470,   520,   630,   830,  1150,  1530,  2040,  3080,  5100,
       10100])

### REGRESSÃO POLINOMIAL

Pega cada atributo e eleva ao quadrado

In [24]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

In [19]:
poly = PolynomialFeatures(degree=2) #parametro - degree = 2 significa que o numero será elevado ao quadrado
X_plano_saude2_poly = poly.fit_transform(X_plano_saude2)

In [21]:
# visualizar shape
print(X_plano_saude2_poly.shape)

(10, 3)


In [23]:
# dados que serão enviados ao algoritmo
X_plano_saude2_poly

array([[1.000e+00, 1.800e+01, 3.240e+02],
       [1.000e+00, 2.300e+01, 5.290e+02],
       [1.000e+00, 2.800e+01, 7.840e+02],
       [1.000e+00, 3.300e+01, 1.089e+03],
       [1.000e+00, 3.800e+01, 1.444e+03],
       [1.000e+00, 4.300e+01, 1.849e+03],
       [1.000e+00, 4.800e+01, 2.304e+03],
       [1.000e+00, 5.300e+01, 2.809e+03],
       [1.000e+00, 5.800e+01, 3.364e+03],
       [1.000e+00, 6.300e+01, 3.969e+03]])

In [22]:
# observar registro (de valor inicial ao elevado)
#[[1.000e+00, 1.800e+01, 3.240e+02] < - valor em notação

X_plano_saude2_poly[0]

array([  1.,  18., 324.])

## Regressão Polinomial

In [28]:
regressor_saude_polinomial = LinearRegression()
regressor_saude_polinomial.fit(X_plano_saude2_poly, y_plano_saude2)

In [29]:
#b0 -
regressor_saude_polinomial.intercept_

7133.836363636174

A linha de código `regressor_saude_polinomial.intercept_` retorna o valor do coeficiente \( b_0 \), ou seja, o intercepto do modelo de regressão polinomial treinado, que representa o ponto em que a linha ou curva ajustada cruza o eixo \( y \).

In [30]:
#b1 vai até (n)
regressor_saude_polinomial.coef_

array([   0.        , -469.89393939,    7.82121212])

A linha de código `regressor_saude_polinomial.coef_` retorna os coeficientes \( b_1 \) até \( b_n \) do modelo de regressão polinomial, que representam a influência de cada termo (incluindo os termos elevados a potências maiores) na predição do modelo.

### TESTE - Predição para um elemento

In [43]:
novo = [[40]]  # formato de matriz [[valor]]
novo_transformado = poly.transform(novo)  # Transformação única
predicao = regressor_saude_polinomial.predict(novo_transformado)  # Predição
print(predicao)

[852.01818182]


## PREVISÃO PARA TODA A BASE DE DADOS

In [45]:
previsoes = regressor_saude_polinomial.predict(X_plano_saude2_poly)
print(previsoes)

[1209.81818182  463.6969697   108.63636364  144.63636364  571.6969697
 1389.81818182 2599.         4199.24242424 6190.54545455 8572.90909091]


## Gerar grafico da curva polinomial

In [47]:
grafico = px.scatter(x = X_plano_saude2[:,0], y = y_plano_saude2, labels={'x':'Idade', 'y':'Custo'}, title='Regressão Polinomial')
grafico.add_traces(go.Scatter(x=X_plano_saude2[:,0], y=previsoes, name='Regressão Polinomial'))
grafico.show()