# Regressão com Árvore de decisão

# Base plano de saúde

In [63]:
# Importações

import pickle
import pandas as pd
import plotly.express as px
import numpy as np

from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

In [35]:
# Lendo base de dados

base_plano_saude2 = pd.read_csv('/content/drive/MyDrive/datasets/plano_saude2.csv')
base_plano_saude2

Unnamed: 0,idade,custo
0,18,470
1,23,520
2,28,630
3,33,830
4,38,1150
5,43,1530
6,48,2040
7,53,3080
8,58,5100
9,63,10100


In [36]:
# Previsor e classe

x_plano_saude = base_plano_saude2.iloc[:, 0:1].values
y_plano_saude = base_plano_saude2.iloc[:, 1].values

In [37]:
# Criando regressor e fazendo o treinamento

regressor_arvore_saude = DecisionTreeRegressor()
regressor_arvore_saude.fit(x_plano_saude, y_plano_saude)

In [38]:
# Fazendo previsoes

previsoes = regressor_arvore_saude.predict(x_plano_saude)
previsoes

array([  470.,   520.,   630.,   830.,  1150.,  1530.,  2040.,  3080.,
        5100., 10100.])

In [39]:
# Verificando o score

regressor_arvore_saude.score(x_plano_saude, y_plano_saude)

1.0

In [40]:
grafico = px.scatter(x = x_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = x_plano_saude.ravel(), y = previsoes, name= 'Regressão árvore')
grafico.show()

In [41]:
# Criando valores aleatórios para fazer o teste no algoritmo

x_teste_arvore = np.arange(min(x_plano_saude), max(x_plano_saude), step=0.1)
x_teste_arvore

array([18. , 18.1, 18.2, 18.3, 18.4, 18.5, 18.6, 18.7, 18.8, 18.9, 19. ,
       19.1, 19.2, 19.3, 19.4, 19.5, 19.6, 19.7, 19.8, 19.9, 20. , 20.1,
       20.2, 20.3, 20.4, 20.5, 20.6, 20.7, 20.8, 20.9, 21. , 21.1, 21.2,
       21.3, 21.4, 21.5, 21.6, 21.7, 21.8, 21.9, 22. , 22.1, 22.2, 22.3,
       22.4, 22.5, 22.6, 22.7, 22.8, 22.9, 23. , 23.1, 23.2, 23.3, 23.4,
       23.5, 23.6, 23.7, 23.8, 23.9, 24. , 24.1, 24.2, 24.3, 24.4, 24.5,
       24.6, 24.7, 24.8, 24.9, 25. , 25.1, 25.2, 25.3, 25.4, 25.5, 25.6,
       25.7, 25.8, 25.9, 26. , 26.1, 26.2, 26.3, 26.4, 26.5, 26.6, 26.7,
       26.8, 26.9, 27. , 27.1, 27.2, 27.3, 27.4, 27.5, 27.6, 27.7, 27.8,
       27.9, 28. , 28.1, 28.2, 28.3, 28.4, 28.5, 28.6, 28.7, 28.8, 28.9,
       29. , 29.1, 29.2, 29.3, 29.4, 29.5, 29.6, 29.7, 29.8, 29.9, 30. ,
       30.1, 30.2, 30.3, 30.4, 30.5, 30.6, 30.7, 30.8, 30.9, 31. , 31.1,
       31.2, 31.3, 31.4, 31.5, 31.6, 31.7, 31.8, 31.9, 32. , 32.1, 32.2,
       32.3, 32.4, 32.5, 32.6, 32.7, 32.8, 32.9, 33

In [42]:
# Verificando o tamanho da variavel

x_teste_arvore.shape # a variável está no formato de vetor

(450,)

In [43]:
# Convertendo para matriz

x_teste_arvore = x_teste_arvore.reshape(-1, 1)

In [44]:
# Previsões mostrando os splits

grafico = px.scatter(x = x_plano_saude.ravel(), y = y_plano_saude)
grafico.add_scatter(x = x_teste_arvore.ravel(), y = regressor_arvore_saude.predict(x_teste_arvore), name= 'Regressão árvore')
grafico.show()

In [45]:
# Testando na margem de 40 anos

regressor_arvore_saude.predict([[40]])

array([1150.])

# Base de preço das casas

In [46]:
# Fazendo a leitura da base de preço

base_casas = pd.read_csv('/content/drive/MyDrive/datasets/house_prices.csv')
base_casas

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,20140521T000000,360000.0,3,2.50,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.50,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.50,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


In [47]:
base_casas.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

In [48]:
# Separando previsores e classe

x_casas = base_casas.iloc[:, 3:19]  # pegando da coluna 3 até a coluna 18
y_casas = base_casas['price'] # Pegando somente a coluna alvo que é 'price'

In [49]:
x_casas.shape, y_casas.shape

((21613, 16), (21613,))

In [50]:
# Dividindo entre base de treinamento e teste

x_casas_treinamento, x_casas_teste, y_casas_treinamento, y_casas_teste = train_test_split(x_casas, y_casas, test_size=0.3, random_state=0)

In [51]:
# Verificando o tamanho das colunas

print(x_casas_treinamento.shape, y_casas_treinamento.shape)
print(x_casas_teste.shape, y_casas_teste.shape)

(15129, 16) (15129,)
(6484, 16) (6484,)


In [53]:
# Salvando as variáveis de treinamento e teste da base de casas

with open('casas.pkl', mode='wb') as f:
    pickle.dump([x_casas_treinamento, y_casas_treinamento, x_casas_teste, y_casas_teste], f)

In [56]:
# Salvando as variáveis da base de plano de saúde

with open('saude.pkl', mode='wb') as f:
    pickle.dump([x_plano_saude, y_plano_saude], f)

In [58]:
# Criando regressor e fazendo o treinamento

regressor_arvores_casas = DecisionTreeRegressor()
regressor_arvores_casas.fit(x_casas_treinamento, y_casas_treinamento)

In [59]:
# Visualizando o score na base de dados de treinamento

regressor_arvores_casas.score(x_casas_treinamento, y_casas_treinamento)

0.9992712177726063

In [60]:
# Visualizando o score na base de dados de teste

regressor_arvores_casas.score(x_casas_teste, y_casas_teste)

0.7227919893896593

In [62]:
# Previsões com a base de teste

previsoes = regressor_arvores_casas.predict(x_casas_teste)
previsoes

array([ 288000., 1835000.,  483000., ...,  289000.,  197400.,  205000.])

In [65]:
# Verificando a média de erro absoluta com base nas previsões

print(f'A média de erro é de: {mean_absolute_error(y_casas_teste, previsoes)}') # primeiro os valores reais depois as previsões

A média de erro é de: 99540.7648827884
