# **APRENDIZAGEM SUPERVISIONADA: REGRESSÃO**

Este projeto tem por objetivo desenvolver um algoritmo de Machine Learning para prever o valor do preço médio de casas em Boston. 

Os dados foram extraídos do site do Kaggle:

https://www.kaggle.com/schirmerchad/bostonhoustingmlnd

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv('/content/housing.csv',
                    sep=',', encoding='iso-8859-1')

In [None]:
df.head()

**Atributos previsores**

RM: é o número médio de cômodos entre os imóveis no bairro.

LSTAT: é a porcentagem de proprietários no bairro considerados de "classe baixa" (proletariado).

PTRATIO: é a razão entre estudantes e professores nas escolas de ensino fundamental e médio no bairro.

**Variável alvo**

MEDV: valor médio das casas

In [None]:
df.shape

## **EXPLORAÇÃO E TRATAMENTO DOS DADOS**

Valores Missing (NAN)

In [None]:
# RELAÇÃO DA QUANTIDADE
df.isnull().sum()

**Análise dos tipos de atributos.**

In [None]:
# object: strings
# int64: inteiros
# float64: reais
# complex: complexos
df.dtypes

**Dados Estatísticos**

In [None]:
df.describe()

**Análise dos outliers**

In [None]:
import plotly.express as px

In [None]:
boxplot = px.box(df, y="RM")
boxplot.show()

In [None]:
boxplot = px.box(df, y="LSTAT")
boxplot.show()

In [None]:
boxplot = px.box(df, y="PTRATIO")
boxplot.show()

In [None]:
boxplot = px.box(df, y="MEDV")
boxplot.show()

## **CORRELAÇÃO LINEAR**

In [None]:
df.head(2)

**Atributos previsores**

RM: é o número médio de cômodos entre os imóveis no bairro.

LSTAT: é a porcentagem de proprietários no bairro considerados de "classe baixa" (proletariado).

PTRATIO: é a razão entre estudantes e professores nas escolas de ensino fundamental e médio no bairro.

**Variável alvo**

MEDV: valor médio das casas

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(df.RM, df.MEDV)
plt.title('Correlação Linear')
plt.xlabel('Quantidade Média de Cômodos')
plt.ylabel('Valor Médio')
plt.grid(False)

In [None]:
plt.scatter(df.LSTAT, df.MEDV)
plt.title('Correlação Linear')
plt.xlabel('Quantidade Classe Baixa (%)')
plt.ylabel('Valor Médio')
plt.grid(True)


In [None]:
plt.scatter(df.PTRATIO, df.MEDV)
plt.title('Correlação Linear')
plt.xlabel('Estudantes/Professores')
plt.ylabel('Valor Médio')
plt.grid(False)

In [None]:
import seaborn as sns

In [None]:
sns.pairplot(df);

### Análise da Normalidade

Gráfico QQ-Plot

In [None]:
import scipy.stats as stats

In [None]:
stats.probplot(df['MEDV'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

In [None]:
import plotly.express as px

In [None]:
hist =  px.histogram (df,  x = "MEDV", nbins=60) 
hist.update_layout(width=800,height=500,title_text='Média dos valores') 
hist.show()

In [None]:
stats.probplot(df['RM'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

In [None]:
hist =  px.histogram (df,  x = "RM", nbins=40) 
hist.update_layout(width=800,height=500,title_text='Quantidade de cômodos') 
hist.show()

In [None]:
stats.probplot(df['LSTAT'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

In [None]:
hist =  px.histogram (df,  x = "LSTAT", nbins=60) 
hist.update_layout(width=800,height=500,title_text='Quantidade de Classe Baixa (%)') 
hist.show()

In [None]:
stats.probplot(df['PTRATIO'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

In [None]:
hist =  px.histogram (df,  x = "PTRATIO", nbins=60) 
hist.update_layout(width=800,height=500,title_text='Relação Estudantes/Professores') 
hist.show()

Teste Shapiro-Wilk

Ho = distribuição normal : p > 0.05

Ha = distribuição != normal : p <= 0.05

In [None]:
stats.shapiro(df.MEDV)

In [None]:
estatistica, p = stats.shapiro(df.MEDV)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
estatistica, p = stats.shapiro(df.RM)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
estatistica, p = stats.shapiro(df.LSTAT)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
estatistica, p = stats.shapiro(df.PTRATIO)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

Teste Lilliefors (Kolmogorov_Sminorv)

Ho = distribuição normal : p > 0.05

Ha = distribuição != normal : p <= 0.05

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(df.MEDV, dist = 'norm')
print('Estatística de teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(df.RM, dist = 'norm')
print('Estatística de teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

### Correlação Linear

Pearson (distribuição normal)

Spearman (distribuição não normal)

Kendall (distribuição não normal com quantidade pequena de amostras)

Ho = não há corrrelação linear: p > 0,05

Ha = existe correlação linear: p <= 0,05

In [None]:
# Pearson
#coef,p = stats.pearsonr(df.MEDV, df.RM)
#print('Coeficiente de correlação: {}'.format(coef))
#print('p-valor: {}'.format(p))

In [None]:
# Spearman
coef,p = stats.spearmanr(df.MEDV, df.PTRATIO)
print('Coeficiente de correlação: {}'.format(coef))
print('p-valor: {}'.format(p))

In [None]:
# Kendall
#coef,p = stats.kendalltau(df.MEDV,df.RM)
#print('Coeficiente de correlação: {}'.format(coef))
#print('p-valor: {}'.format(p))

In [None]:
correlacoes = df.corr(method='spearman')
correlacoes

In [None]:
plt.figure()
sns.heatmap(correlacoes, annot=True);

## **REGRESSÃO LINEAR SIMPLES**

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html 

### Valor médio (MEDV) em função do número de cômodos (RM)

In [None]:
df.head(2)

In [None]:
x1 = df.iloc[:,0:1].values
x1

In [None]:
y = df.iloc[:, 3].values
y

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(x1, y, test_size = 0.3, random_state = 10)

In [None]:
x_treino.shape, y_treino.shape

In [None]:
x_teste.shape, y_teste.shape

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
reg_linear1 = LinearRegression()
reg_linear1.fit(x_treino, y_treino)

In [None]:
# Intercepto (coeficiente linear)
reg_linear1.intercept_

In [None]:
# Coeficiente Angular
reg_linear1.coef_

**Equação: Valor = -626510,27 + 173771,45.número_cômodos**

In [None]:
# Coeficiente de Determinação dados de treino
reg_linear1.score(x_treino, y_treino)

In [None]:
# Coeficiente de Determinação dados de teste
reg_linear1.score(x_teste, y_teste)

In [None]:
previsoes_treino = reg_linear1.predict(x_treino)
previsoes_treino

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(y=y_treino, x=x_treino, color='blue', s=10, alpha=0.9)
X_plot = np.linspace(3, 9)
plt.plot(X_plot, X_plot*reg_linear1.coef_ + reg_linear1.intercept_, color='r')
plt.title('Reta de regressão')
plt.ylabel('Valor Médio')
plt.xlabel('Quantidade Média de Cômodos')
plt.show()

In [None]:
previsoes_teste = reg_linear1.predict(x_teste)
previsoes_teste

In [None]:
y_teste

In [None]:
plt.scatter(y=y_teste, x=x_teste, color='blue', s=10, alpha=0.9)
X_plot = np.linspace(4, 9)
plt.plot(X_plot, X_plot*reg_linear1.coef_ + reg_linear1.intercept_, color='r')
plt.title('Reta de regressão')
plt.ylabel('Valor Médio')
plt.xlabel('Quantidade de Cômodos')
plt.show()

In [None]:
# Fazendo previsões para valores distintos
valor_casa = reg_linear1.predict([[4]])
valor_casa

**Métricas de Desempenho**

In [None]:
# Erro absoluto
abs(y_teste - previsoes_teste).mean()

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### Valor médio (MEDV) em função da classe social (LSTAT)

In [None]:
df.head(2)

In [None]:
x2 = df.iloc[:,1:2].values
x2

In [None]:
y = df.iloc[:, 3].values
y

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(x2, y, test_size = 0.3, random_state = 10)

In [None]:
x_treino.shape, y_treino.shape

In [None]:
x_teste.shape, y_teste.shape

In [None]:
from sklearn.linear_model import LinearRegression
reg_linear2 = LinearRegression()
reg_linear2.fit(x_treino, y_treino)

In [None]:
# Intercepto (coeficiente linear)
reg_linear2.intercept_

In [None]:
# Coeficiente Angular
reg_linear2.coef_

**Equação: Valor = 681977,75 - 17263,75.LSTAT**

In [None]:
# Coeficiente de Determinação dados de treino
reg_linear2.score(x_treino, y_treino)

In [None]:
previsoes_treino = reg_linear2.predict(x_treino)
previsoes_treino

In [None]:
plt.scatter(y=y_treino, x=x_treino, color='blue', s=10, alpha=0.9)
X_plot = np.linspace(0, 40)
plt.plot(X_plot, X_plot*reg_linear2.coef_ + reg_linear2.intercept_, color='r')
plt.title('Reta de regressão')
plt.ylabel('Valor Médio')
plt.xlabel('Quantidade de Proprietários de Classe Média Baixa (%)')
plt.show()

In [None]:
previsoes_teste = reg_linear2.predict(x_teste)
previsoes_teste

In [None]:
y_teste

In [None]:
# Coeficiente de Determinação dados de teste
reg_linear2.score(x_teste, y_teste)

In [None]:
plt.scatter(y=y_teste, x=x_teste, color='blue', s=10, alpha=0.9)
X_plot = np.linspace(2, 35)
plt.plot(X_plot, X_plot*reg_linear2.coef_ + reg_linear2.intercept_, color='r')
plt.title('Reta de regressão')
plt.ylabel('Valor Médio')
plt.xlabel('Quantidade de Proprietários de Classe Média Baixa (%)')
plt.show()

In [None]:
# Fazendo previsões para valores distintos
valor_casa = reg_linear2.predict([[25]])
valor_casa

**Métricas de Desempenho**

In [None]:
# Erro absoluto
abs(y_teste - previsoes_teste).mean()

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from sklearn.linear_model import LinearRegression
modelo = LinearRegression()
resultado = cross_val_score(modelo, x2, y, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coef. determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

## **REGRESSÃO LINEAR MÚLTIPLA**

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values
dependente

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
multipla = LinearRegression()
multipla.fit(x_treino, y_treino)

In [None]:
multipla.intercept_

In [None]:
multipla.coef_

In [None]:
print("Equação: Valor = {:.2f} + ({:.2f})*RM + ({:.2f})*LSTAT + ({:.2f})*PTRATIO".format(multipla.intercept_, multipla.coef_[0], multipla.coef_[1], multipla.coef_[2]))

In [None]:
# Coeficiente de Determinação
multipla.score(x_treino, y_treino)

**TESTE**

In [None]:
previsoes = multipla.predict(x_teste)
previsoes

In [None]:
y_teste

In [None]:
# Coeficiente de Determinação
multipla.score(x_teste, y_teste)

In [None]:
# Fazendo previsões para valores distintos
valor_casa = multipla.predict([[6,20,12]])
valor_casa

**MÉTRICAS**

In [None]:
# Erro absoluto
abs(y_teste - previsoes).mean()

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes)

In [None]:
# Raiz do erro quadrático médio
np.sqrt(mean_squared_error(y_teste, previsoes))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from sklearn.linear_model import LinearRegression
modelo = LinearRegression()
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

## **REGRESSÃO POLINOMIAL**

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html 

Valor médio (MEDV) em função do número de cômodos (RM)

In [None]:
df.head(2)

In [None]:
x1 = df.iloc[:,0:1].values
x1

In [None]:
y = df.iloc[:, 3].values
y

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(x1, y, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, y_treino.shape

In [None]:
x_teste.shape, y_teste.shape

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

In [None]:
# Pré Processamento
grau_polinomial =PolynomialFeatures(degree=2)

In [None]:
x_poly = grau_polinomial.fit_transform(x_treino)
x_poly

In [None]:
polinomial = LinearRegression()

In [None]:
polinomial.fit(x_poly, y_treino)

In [None]:
previsoes_treino = polinomial.predict(x_poly)

In [None]:
polinomial.coef_

In [None]:
polinomial.intercept_

**Equação:**

Valor = 1640107 - 568528.11*RM + 60092.59*RM^2

In [None]:
numeros = np.linspace(3,9.84,342)
numeros

In [None]:
numeros.shape

In [None]:
valor = 1640107 -568528.11*numeros + 60092.59*numeros**2

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(x_treino, y_treino, c = "gray")
plt.xlabel("Quantidade Cômodos")
plt.ylabel("Valores das Casas")
plt.title("Previsão dos valores das casas: dados de treino")
plt.plot(numeros, valor);

In [None]:
# Fazendo previsões para valores distintos
comodos = 6
valor = 1640107 -568528.11*comodos + 60092.59*comodos**2
valor

In [None]:
# Coeficiente de Determinação dados de treino
polinomial.score(x_poly, y_treino)

**TESTE**

In [None]:
numeros2 = np.linspace(3,8.88,147)
numeros2

In [None]:
numeros2.shape

In [None]:
valor2 = 1640107 -568528.11*numeros2 + 60092.59*numeros2**2

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(x_teste, y_teste, c = "gray")
plt.xlabel("Quantidade Cômodos")
plt.ylabel("Valor Casas")
plt.title("Previsão dos valores das casas: dados de teste")
plt.plot(numeros2, valor2);

In [None]:
x_poly_teste = grau_polinomial.fit_transform(x_teste)
x_poly_teste

In [None]:
polinomial_teste = LinearRegression()

In [None]:
polinomial_teste.fit(x_poly_teste, y_teste)

In [None]:
# Coeficiente de Determinação dados de teste
polinomial.score(x_poly_teste, y_teste)

In [None]:
previsoes_teste = polinomial_teste.predict(x_poly_teste)

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

## **REGRESSÃO POR VETORES DE SUPORTE**

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html 

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values
dependente

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
# kernel = rbf, linear, polinomial (poly)
from sklearn.svm import SVR
SVR = SVR(kernel='rbf')
SVR.fit(x_treino,y_treino)

In [None]:
SVR.score(x_treino, y_treino)

In [None]:
SVR.score(x_teste, y_teste)

**Padronização de escala**

In [None]:
from sklearn.preprocessing import StandardScaler
x_scaler = StandardScaler()
x_treino_scaler = x_scaler.fit_transform(x_treino)

In [None]:
x_treino_scaler

In [None]:
y_scaler = StandardScaler()
y_treino_scaler = y_scaler.fit_transform(y_treino.reshape(-1,1))

In [None]:
y_treino_scaler

In [None]:
x_teste_scaler = x_scaler.transform(x_teste)
x_teste_scaler

In [None]:
y_teste_scaler = y_scaler.transform(y_teste.reshape(-1,1))
y_teste_scaler

In [None]:
from sklearn.svm import SVR
SVR2 = SVR(kernel='rbf')
SVR2.fit(x_treino_scaler, y_treino_scaler.ravel())

# .ravel() é para retornar matriz 1D

In [None]:
SVR2.score(x_treino_scaler, y_treino_scaler)

**TESTE**

In [None]:
SVR2.score(x_teste_scaler, y_teste_scaler)

In [None]:
previsoes_teste = SVR2.predict(x_teste_scaler)
previsoes_teste

In [None]:
y_teste_scaler

**Revertendo a transformação**

In [None]:
y_teste_inverse = y_scaler.inverse_transform(y_teste_scaler)
previsoes_inverse = y_scaler.inverse_transform(previsoes_teste.reshape(-1, 1))

In [None]:
y_teste_inverse

In [None]:
previsoes_inverse

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste_inverse, previsoes_inverse)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste_inverse, previsoes_inverse)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste_inverse, previsoes_inverse))

### **Validação Cruzada**

**Padronização de escala**

In [None]:
from sklearn.preprocessing import StandardScaler
x = StandardScaler()
independente_scaler = x.fit_transform(independente)

In [None]:
independente_scaler

In [None]:
y = StandardScaler()
dependente_scaler = y.fit_transform(dependente.reshape(-1,1))

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from sklearn.svm import SVR
modelo = SVR(kernel='rbf')
resultado = cross_val_score(modelo, independente_scaler, dependente_scaler.ravel(), cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação médio: %.2f%%" % (resultado.mean() * 100.0))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

**REGRESSÃO SVR:** R^2 = 0,87/0,81; RMSE = 73422,7. R^2 Validação Cruzada: 82,37%.

## **REGRESSÃO COM ÁRVORE DE DECISÃO**

https://scikit-learn.org/stable/modules/tree.html#regression 

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values
dependente

In [None]:
dependente.shape

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
y_treino.shape, y_teste.shape

In [None]:
from sklearn.tree import DecisionTreeRegressor
arvore = DecisionTreeRegressor(max_depth=5, random_state=10)
arvore.fit(x_treino, y_treino)

In [None]:
arvore.score(x_treino, y_treino)

**TESTE**

In [None]:
arvore.score(x_teste, y_teste)

In [None]:
previsoes_teste = arvore.predict(x_teste)
previsoes_teste

In [None]:
y_teste

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from sklearn.tree import DecisionTreeRegressor
modelo = DecisionTreeRegressor(max_depth=5, random_state=10)
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

**REGRESSÃO SVR:** R^2 = 0,87/0,81; RMSE = 73422,7. R^2 Validação Cruzada: 82,37%.

**REGRESSÃO ÁRVORE DE DECISÃO:** R^2 = 0,91/0,83; RMSE = 71114,5. R^2 Validação Cruzada: 74,60%.

## **REGRESSÃO COM RANDOM FOREST**

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html 

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values
dependente

In [None]:
dependente.shape

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
y_treino.shape, y_teste.shape

In [None]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
random = RandomForestRegressor(n_estimators=60, criterion='squared_error', max_depth=5, random_state = 10)
random.fit(x_treino, y_treino)

In [None]:
random.score(x_treino, y_treino)

**TESTE**

In [None]:
random.score(x_teste, y_teste)

In [None]:
previsoes_teste = random.predict(x_teste)
previsoes_teste

In [None]:
y_teste

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from sklearn.ensemble import RandomForestRegressor
modelo = RandomForestRegressor(n_estimators=60, criterion='squared_error', max_depth=5, random_state = 10)
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

**REGRESSÃO SVR:** R^2 = 0,87/0,81; RMSE = 73422,7. R^2 Validação Cruzada: 82,37%.

**REGRESSÃO ÁRVORE DE DECISÃO:** R^2 = 0,91/0,83; RMSE = 71114,5. R^2 Validação Cruzada: 74,60%.

**REGRESSÃO COM RANDOM FOREST:** R^2 = 0,92/0,85; RMSE = 66729,3. R^2 Validação Cruzada: 82,85%.

## **REGRESSÃO COM XGBOOST**

https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBRegressor 

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values

In [None]:
dependente.shape

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
from xgboost import XGBRegressor

In [None]:
xgboost = XGBRegressor(n_estimators=180, max_depth=3, learning_rate=0.05, objective="reg:squarederror", random_state=10)
xgboost.fit(x_treino, y_treino)

In [None]:
xgboost.score(x_treino, y_treino)

**TESTE**

In [None]:
xgboost.score(x_teste, y_teste)

In [None]:
previsoes_teste = xgboost.predict(x_teste)

In [None]:
# Fazendo previsões para valores distintos
valor_casa = xgboost.predict([[6,20,12]])
valor_casa

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from xgboost import XGBRegressor
modelo = XGBRegressor(n_estimators=180, max_depth=3, learning_rate=0.05, objective = "reg:squarederror")
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

**REGRESSÃO SVR:** R^2 = 0,87/0,81; RMSE = 73422,7. R^2 Validação Cruzada: 82,37%.

**REGRESSÃO ÁRVORE DE DECISÃO:** R^2 = 0,91/0,83; RMSE = 71114,5. R^2 Validação Cruzada: 74,60%.

**REGRESSÃO COM RANDOM FOREST:** R^2 = 0,92/0,85; RMSE = 66729,3. R^2 Validação Cruzada: 82,85%.

**REGRESSÃO COM XGBOOST:** R^2 = 0,93/0,84; RMSE = 67788,8. R^2 Validação Cruzada: 83,22%.

## **REGRESSÃO COM LIGHT GBM**

https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMRegressor.html 

In [None]:
# Instalação do Algoritmo
!pip install lightgbm

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values

In [None]:
dependente.shape

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
import lightgbm as lgb

In [None]:
lgbm = lgb.LGBMRegressor(num_leaves=50, max_depth=3, learning_rate=0.1, n_estimators=50, random_state=10)
lgbm.fit(x_treino, y_treino)

In [None]:
lgbm.score(x_treino, y_treino)

**TESTE**

In [None]:
lgbm.score(x_teste, y_teste)

In [None]:
previsoes_teste = lgbm.predict(x_teste)

In [None]:
# Fazendo previsões para valores distintos
valor_casa = lgbm.predict([[8,12,25]])
valor_casa

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
import lightgbm as lgb
modelo = lgb.LGBMRegressor(num_leaves=50, max_depth=3, learning_rate=0.1, n_estimators=50)
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

**REGRESSÃO SVR:** R^2 = 0,87/0,81; RMSE = 73422,7. R^2 Validação Cruzada: 82,37%.

**REGRESSÃO ÁRVORE DE DECISÃO:** R^2 = 0,91/0,83; RMSE = 71114,5. R^2 Validação Cruzada: 74,60%.

**REGRESSÃO COM RANDOM FOREST:** R^2 = 0,92/0,85; RMSE = 66729,3. R^2 Validação Cruzada: 82,85%.

**REGRESSÃO COM XGBOOST:** R^2 = 0,93/0,84; RMSE = 67788,8. R^2 Validação Cruzada: 83,22%.

**REGRESSÃO COM LIGHT GBM:** R^2 = 0,88/0,82; RMSE = 71906,4. R^2 Validação Cruzada: 82,38%.

## **REGRESSÃO COM CATBOOST**

https://catboost.ai/en/docs/concepts/python-reference_catboostregressor 

In [None]:
#Instalação
!pip install catboost

In [None]:
df.head(2)

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
independente.shape

In [None]:
dependente = df.iloc[:, 3].values

In [None]:
dependente.shape

In [None]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape, x_teste.shape

In [None]:
from catboost.core import CatBoostRegressor

In [None]:
catboost = CatBoostRegressor (iterations=100, learning_rate=0.08, depth = 5, random_state = 10)
catboost.fit(x_treino, y_treino)

In [None]:
catboost.score(x_treino, y_treino)

**TESTE**

In [None]:
catboost.score(x_teste, y_teste)

In [None]:
previsoes_teste = catboost.predict(x_teste)

In [None]:
# Fazendo previsões para valores distintos
valor_casa = catboost.predict([[5,18,20]])
valor_casa

**MÉTRICAS**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

In [None]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
from catboost.core import CatBoostRegressor
modelo = CatBoostRegressor (iterations=100, learning_rate=0.08, depth = 5, random_state = 10)
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

**RESULTADOS:**

**REGRESSÃO LINEAR SIMPLES:** R^2 = 0,57/0,60; RMSE = 99315,5; R^2 Validação Cruzada: 55,97%

**REGRESSÃO LINEAR MÚLTIPLA:** R^2 = 0,73/0,68; RMSE = 96087,3; R^2 Validação Cruzada: 69,25%

**REGRESSÃO POLINOMIAL:** R^2 = 0,59/0,54; RMSE = 114670,6.

**REGRESSÃO SVR:** R^2 = 0,87/0,81; RMSE = 73422,7. R^2 Validação Cruzada: 82,37%.

**REGRESSÃO ÁRVORE DE DECISÃO:** R^2 = 0,91/0,83; RMSE = 71114,5. R^2 Validação Cruzada: 74,60%.

**REGRESSÃO COM RANDOM FOREST:** R^2 = 0,92/0,85; RMSE = 66729,3. R^2 Validação Cruzada: 82,85%.

**REGRESSÃO COM XGBOOST:** R^2 = 0,93/0,84; RMSE = 67788,8. R^2 Validação Cruzada: 83,22%.

**REGRESSÃO COM LIGHT GBM:** R^2 = 0,88/0,82; RMSE = 71906,4. R^2 Validação Cruzada: 82,38%.

**REGRESSÃO COM CATBOOST:** R^2 = 0,90/0,84; RMSE = 69053,3 R^2 Validação Cruzada: 83,40%.

# **Salvando dados para Deploy**

In [None]:
independente = df.iloc[:, 0:3].values
independente

In [None]:
dependente = df.iloc[:, 3].values
dependente

In [None]:
np.savetxt('independente.csv', independente, delimiter=',')

In [None]:
np.savetxt('dependente.csv', dependente, delimiter=',')