# Regressão Polinominal


# Base plano de saúde

In [143]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures # import que deixa as colunas em forma polinominal
from sklearn.linear_model import LinearRegression

In [144]:
# Lendo base de dados

base_plano_saude2 = pd.read_csv('/content/drive/MyDrive/datasets/plano_saude2.csv')
base_plano_saude2

Unnamed: 0,idade,custo
0,18,470
1,23,520
2,28,630
3,33,830
4,38,1150
5,43,1530
6,48,2040
7,53,3080
8,58,5100
9,63,10100


In [145]:
# Previsor e classe

x_plano_saude = base_plano_saude2.iloc[:, 0:1].values
y_plano_saude = base_plano_saude2.iloc[:, 1].values

In [146]:
x_plano_saude, y_plano_saude

(array([[18],
        [23],
        [28],
        [33],
        [38],
        [43],
        [48],
        [53],
        [58],
        [63]]),
 array([  470,   520,   630,   830,  1150,  1530,  2040,  3080,  5100,
        10100]))

In [147]:
# Criando variável de polinomação

poly = PolynomialFeatures(degree=2) # Ele vai criar um novo atributo para cada coluna

In [148]:
# Transformando o previsor

x_plano_saude_poly = poly.fit_transform(x_plano_saude)

In [149]:
# Comparando a diferença das variáveis

print(f'Estrutura da variável sem fazer a polinomação: {x_plano_saude.shape}')
print(f'Estrutura da variável com a polinomação feita: {x_plano_saude_poly.shape}')

Estrutura da variável sem fazer a polinomação: (10, 1)
Estrutura da variável com a polinomação feita: (10, 3)


In [150]:
x_plano_saude_poly[0]

array([  1.,  18., 324.])

In [151]:
x_plano_saude_poly[1]

array([  1.,  23., 529.])

In [152]:
# Criando regressor e fazendo treinamento

regressor_saude_polinominal = LinearRegression()
regressor_saude_polinominal.fit(x_plano_saude_poly, y_plano_saude) # realizando treinamento

In [153]:
# b0

regressor_saude_polinominal.intercept_

7133.836363636174

In [154]:
# b1

regressor_saude_polinominal.coef_

array([   0.        , -469.89393939,    7.82121212])

In [155]:
# Fazendo o predict

novo = [[40]] # anos
novo = poly.transform(novo)
print(f'Uma pessoa de 40 anos vai pagar: R${regressor_saude_polinominal.predict(novo)}')

Uma pessoa de 40 anos vai pagar: R$[852.01818182]


In [156]:
previsoes = regressor_saude_polinominal.predict(x_plano_saude_poly)
previsoes

array([1209.81818182,  463.6969697 ,  108.63636364,  144.63636364,
        571.6969697 , 1389.81818182, 2599.        , 4199.24242424,
       6190.54545455, 8572.90909091])

In [157]:
# Gráfico para visualizar as previsões

grafico = px.scatter(x = x_plano_saude[:, 0], y = y_plano_saude)
grafico.add_scatter(x = x_plano_saude[:, 0], y = previsoes, name = 'Regressão')
grafico.show()

# a linha laranja representa o valor previsto
# os pontos azuis são os valores reais

# Base preço das casas

In [158]:
# Fazendo a leitura da base de preço

base_casas = pd.read_csv('/content/drive/MyDrive/datasets/house_prices.csv')
base_casas

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,20140521T000000,360000.0,3,2.50,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.50,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.50,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


In [159]:
base_casas.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

In [160]:
# Separando previsores e classe

x_casas = base_casas.iloc[:, 3:19]  # pegando da coluna 3 até a coluna 18
y_casas = base_casas['price'] # Pegando somente a coluna alvo que é 'price'

In [161]:
x_casas.shape, y_casas.shape

((21613, 16), (21613,))

In [162]:
# Dividindo entre base de treinamento e teste

x_casas_treinamento, x_casas_teste, y_casas_treinamento, y_casas_teste = train_test_split(x_casas, y_casas, test_size=0.3, random_state=0)

In [163]:
# Verificando o tamanho das colunas

print(x_casas_treinamento.shape, y_casas_treinamento.shape)
print(x_casas_teste.shape, y_casas_teste.shape)

(15129, 16) (15129,)
(6484, 16) (6484,)


In [164]:
# Gerando as características polinominais

x_casas_treinamento_poly = poly.fit_transform(x_casas_treinamento)
x_casas_teste_poly = poly.fit_transform(x_casas_teste)

In [165]:
# Verificando tamanho das variáveis após fazer o fit transform

x_casas_treinamento_poly.shape, x_casas_teste_poly.shape

((15129, 153), (6484, 153))

In [166]:
# Criando regressor e fazendo treinamento

regressor_casas_poly = LinearRegression()
regressor_casas_poly.fit(x_casas_treinamento_poly, y_casas_treinamento)

In [167]:
# Vendo o score das bases de treinamento e teste

print(f'O score na base de treinamento foi de: {regressor_casas_poly.score(x_casas_treinamento_poly, y_casas_treinamento)}')
print(f'O score na base de teste foi de: {regressor_casas_poly.score(x_casas_teste_poly, y_casas_teste)}')

O score na base de treinamento foi de: 0.8179232870746764
O score na base de teste foi de: 0.8152794736736874


In [168]:
# Fazendo as previsões

previsoes = regressor_casas_poly.predict(x_casas_teste_poly)
previsoes

array([ 386125.93736267, 1990545.15264893,  578956.99684906, ...,
        433101.52619934,  234034.0341568 ,  123888.63271332])

In [169]:
# Vendo a taxa de erro do algoritmo

mean_absolute_error(y_casas_teste, previsoes)

101238.08202969447