<a href="https://colab.research.google.com/github/diogoferraz/ai-mba/blob/main/regression_algorithm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importação das bibliotecas e funções (regressão)

In [None]:
import warnings
warnings.filterwarnings("ignore") # O programa irá ignorar os warnings

# Primeiro passo, devemos fazer as importações necessárias
import pandas as pd # importando o Pandas
import numpy as np  # importando o NumPy
import matplotlib.pyplot as plt  # importando o MatPlotlib

#Importação de todas as funções do Scikit-learn

#Funções que executam a montagem do modelo

from sklearn.model_selection import train_test_split # função que executa o split em bases de treino e teste (holdout)
from sklearn.model_selection import KFold # função que faz as divisões dos subgrupos para a validação cruzada
from sklearn.model_selection import cross_val_score # função que executa a validação cruzada

#Funções que implementam os algoritmos de Machine Learning para problemas de regressão

from sklearn.neighbors import KNeighborsRegressor # algoritmo KNN para problemas de regressão
from sklearn.tree import DecisionTreeRegressor # algoritmo Árvore de decisão para problemas de regressão
from sklearn.svm import SVR # algoritmo SVR
from sklearn.linear_model import LinearRegression # algoritmo que implementa a regressão linear

from sklearn.metrics import mean_squared_error # métrica Erro Quadrático Médio

# funções de regularização
from sklearn.linear_model import Lasso # algoritmo regularização Lasso (L1)
from sklearn.linear_model import Ridge # algoritmo regularização Ridge (L2)

# Importação do dataset

# Importando dados de um arquivo ".csv" local ao google colab

# Devemos fazer a carga do dataset a partir do conteúdo do arquivo ".csv"

In [None]:
nomearq = '/content/sample_data/california_housing_test.csv' # este arquivo está dentro da aba "content/sample_data" do  Google Colab

# carga do dataset através do csv
mercearia = pd.read_csv(nomearq, header=0)

# Vamos preparar os dados para rodar os algoritmos
# Precisamos separar o dataset em um grupo de treino e outro de teste.

# Vamos separar em dois grupos (holdout)



In [None]:
array = mercearia.values # retorna uma representação do dataframe
x = array[:,1:7] # pega os 6 atributos exceto o primeiro
y = array[:,0] # atributo índice 0 (é o primeiro - 0) (target) - canal de vendas

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=7) # faz a divisão do dataset

# Para melhorar a performance vamos aplicar a validação cruzada

In [None]:
num_particoes = 10 # número de folds da validação cruzada
kfold = KFold(n_splits=num_particoes, shuffle=True, random_state=5) # faz o particionamento em 10 folds

# Modelagem dos dados (regressão)

In [None]:
# Definindo uma seed global para esta célula de código
np.random.seed(5)

# Listas para armazenar os modelos, os resultados e os nomes dos modelos
modelos = []
resultados = []
nomes = []

# Preparando os modelos e adicionando-os em uma lista

modelos.append(('KNN', KNeighborsRegressor()))    # versão do KNN para problemas de regressão
modelos.append(('CART', DecisionTreeRegressor())) # algoritmo de árvore de decisão para problemas de regressão
                                                  # a biblioteca Scikit-learn tem uma função de árvore de decisão
                                                  # para os problemas de classificação e regressão (CART - Classification
                                                  # And Regression Trees)
modelos.append(('LR', LinearRegression()))        # algoritmo de regressão linear
modelos.append(('SVR', SVR()))                    # algoritmo SVR - Support Vector Regression

# Algoritmos de regularização
modelos.append(('Lasso', Lasso()))                # L1
modelos.append(('Ridge', Ridge()))                # L2

# Execução dos modelos (regressão)
# Vamos fazer uma iteração e avaliar um algoritmo por vez


In [None]:
for nome, modelo in modelos:
  resultados_cv = cross_val_score(modelo, x_train, y_train, cv=kfold, scoring='neg_mean_squared_error') # buscamos o erro quadrático médio (MSE)
  resultados.append(resultados_cv)
  nomes.append(nome)
  # imprime MSE, desvio padrão do MSE e RMSE dos 10 resultados da validação cruzada
  msg = "%s: MSE %0.2f (%0.2f) - RMSE %0.2f" % (nome, abs(resultados_cv.mean()), resultados_cv.std(), np.sqrt(abs(resultados_cv.mean())))
  print(msg)

KNN: MSE 4.49 (0.31) - RMSE 2.12
CART: MSE 0.56 (0.11) - RMSE 0.75
LR: MSE 0.49 (0.05) - RMSE 0.70
SVR: MSE 4.19 (0.38) - RMSE 2.05
Lasso: MSE 0.73 (0.07) - RMSE 0.86
Ridge: MSE 0.49 (0.05) - RMSE 0.70


# Criando um modelo com todo o conjunto de treino


In [None]:
modelo = SVR()
modelo.fit(x_train, y_train)

# Fazendo as predições com o conjunto de teste
predic = modelo.predict(x_test)

# Estimando o MSE e o RMSE no conjunto de teste
mse = mean_squared_error(y_test, predic)
print("MSE %0.2f" % mse)
print("RMSE %0.2f" % np.sqrt(abs(mse)))


MSE 4.07
RMSE 2.02
