In [None]:
# Carregando Bibliotecas Python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from scipy import stats
from scipy.stats import norm
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import StackingRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline 

# <font color='blue'>Etapa 1 - Coletando os dados</font>

### Observações
<details><summary>CLICK</summary>
<p>
Existem diversas considerações ao se carregar dados para o processo de Machine Learning. Por exemplo: seus dados possuem um header (cabeçalho)? Caso negativo, você vai precisar definir o título para cada coluna. Seus arquivos possuem comentários? Qual o delimitador das colunas? Alguns dados estão entre aspas, simples ou duplas?    

Link com os datasets do scikit learn
https://scikit-learn.org/stable/datasets/toy_dataset.html
</p>
</details>

In [None]:
# Leitura de arquivo CSV
dados = pd.read_csv('despesas.csv', sep = ',', encoding = 'utf-8')
#ficar atento ao separador de colunas (atributo "sep") pode ser ";", "," "|"

In [None]:
# Leitura de arquivo EXCELL
dados = pd.read_excel("dados\df_2020.xlsx", sheet_name="nome da planilha")

In [None]:
# Carregando o Dataset Boston Houses
from sklearn.datasets import load_boston
boston = load_boston() 

# Convertendo o dataset em um dataframe com Pandas
dados = pd.DataFrame(boston.data, columns = boston.feature_names)
dados['target'] = boston.target

In [None]:
# Outra forma de converter o dataset do Scikit Learning em um dataframe com Pandas

X, y = load_boston(return_X_y=True)

# Convertendo o dataset em um dataframe com Pandas
dados = pd.DataFrame(X)
dados.columns = boston.feature_names

# Adiciona uma coluna ao dataset
dados["target"] = y

# Visualizando os dados
dados

# <font color='blue'>Etapa 2: Explorando e Preparando os Dados</font>

### Observações
<details><summary>CLICK</summary>
<p>
Também conhecido como Data Mungig, ETL, Manipulação de Dados, Data Wrangling 
O processo é cíclico. Ou seja, deve-se voltar ao início após o processamento dos dados.
É sempre importante salvar os dados antes das transformações para comparações futuras.
Perguntas:
Os dados representam a população ou uma amostra?
A fonte dos dados é primária ou secundária? <br>
    A análise exploratória permite perceber novas relações entre as variáveis que antes não tinam sido percebida. Usar o scatter plot e a matriz de correlação para verificar a relação entre as variáveis
</p>
</details>

In [None]:
# Visualizando os dados
dados

In [None]:
# Visualizando algumas linhas. O atributo "n" define a quantidade de linhas
#dados.head()
dados.head(n=20)

In [None]:
# Verificar se as variáveis estão nas colunas e se os registros estão nas linhas:
#   1 - Converter linha em coluna: 
dados.T

### Verificar os tipos de variáveis:
<details><summary>CLICK</summary>
<p>
    # Separar variáveis categóricas de variáveis numéricas <br>
1 - qualitativas/categóricas: <br>
    a) nominais -  Não existe uma ordem implícita (Ex.: sexo, religião, profissão) <br>
    b) ordinais - Possuem uma ordem natural (Ex.: Escolaridade, classe social)<br>
2 - quantitativas: <br>
    a) discretas - pode ser obtida através de uma contagem simples (idade, ano, quantidade) <br>
    b) contínuas - precisa de um processo para ser obtida (peso, altura, tamanho) - representadas por valores decimais <br> 
    Verificar se existe duplicação nas linhas e colunas <br>
    Verificar se as variáveis numéricas possuem muitos valores únicos. Caso isso aconteça, talvez seja interessante converter essa variável para categórica.
</p>
</details>

In [None]:
# Visualizar qual o tipo de dado a variável foi classificada no momento da leitura do arquivo 
dados.dtypes

In [None]:
# Exibir resumo do data set
dados.describe()

In [None]:
# Quantitativo da variável alvo 
dados["target"].value_counts()

In [None]:
# countplot
# variáveis com com até 6 seis valores diferentes podem ser variáveis categóricas.
import seaborn as sns
ax = sns.countplot(x = "target", data = dados, palette = "Greens_d");
for p in ax.patches:
    ax.annotate(str(p.get_height()), (p.get_x() + 0.15, p.get_height() + 1))

In [None]:
# Checar se exite IDs duplicados. Comparar o resultado com a quantidade linhas do dataframe. "id" é o nome da coluna
dados.id.value_counts().count()

In [None]:
# Verifica o total de valores únicos por coluna
dados.nunique()

### Tratando dados missing
<details><summary>CLICK</summary>
<p>
    O tratamento de dados missing é obrigatório. A presença dados NA prejudica o modelo. <br>
    Verificar se a variável com valor NA tem relação com outras variáveis antes de qualquer Modificação. <br>
    A imputação é realizada somente em variáveis quantitativas numéricas. Para variáveis qualitativas é melhor excluir a linha.<br>
    Quando o data set apresenta uma quantidade maior ou igual a 5%  de valores missing é melhor aplicar uma regra de imputação. Por outro lado, uma quantidade menor do que 5% é melhor apagar os dados missing.
</p>
</details>

In [None]:
# Verificar se existem dados missing NA
#dados.values.any()
#dados.isna() 
dados.isnull().sum() # Retorna a quantida de NA por coluna

In [None]:
# Tratando os dados missing
# Retornando somente as linhas com valores NA
dados[dados.isnull().any(axis=1)]

In [None]:
# Imputation 1
# A função fillna percorre todo o dataset substituindo todos os valores NA com o valor desejado
n = 0
dados = dados.fillna(n)

In [None]:
# Imputation 2
# Substitui todos os valores NA com a média da respectiva coluna
dados = dados.fillna(dados.mean())

In [None]:
# Apaga todas as linhas do dataset com valores NA
dados = dados.dropna()

### Explorando relacionamento entre as variáveis: Matriz de Correlação
<details><summary>CLICK</summary>
<p>
Observar principalmente o coeficiente de correlação da variável alvo com as outras variáveis <br>
A correlação tem o mesmo conceito de grandezas diretamente e inversamente proporcionais. <br> 
Obs.: a correlação não gera causalidade. <br>
Visualizando relacionamento entre as variáveis: Scatterplot (analisa a relação entre duas variáveis x (independente) e y (dependente). <br>
    A análise exploratória permite perceber novas relações entre as variáveis que antes não tinham sido percebidas. Isso pode ajudar bastante a área de negócio.
</p>
</details>

In [None]:
# Criando um Correlation Plot
def visualize_correlation_matrix(data, hurdle = 0.0):
    R = np.corrcoef(data, rowvar = 0)
    R[np.where(np.abs(R) < hurdle)] = 0.0
    heatmap = plt.pcolor(R, cmap = mpl.cm.coolwarm, alpha = 0.8)
    heatmap.axes.set_frame_on(False)
    heatmap.axes.set_yticks(np.arange(R.shape[0]) + 0.5, minor = False)
    heatmap.axes.set_xticks(np.arange(R.shape[1]) + 0.5, minor = False)
    heatmap.axes.set_xticklabels(variables, minor = False)
    plt.xticks(rotation=90)
    heatmap.axes.set_yticklabels(variables, minor = False)
    plt.tick_params(axis = 'both', which = 'both', bottom = 'off', top = 'off', left = 'off', right = 'off') 
    plt.colorbar()
    plt.show()

In [None]:
# retorna os nomes das colunas que serão utilizados no gráfico
variables = dados.columns

# Visualizando o Plot
visualize_correlation_matrix(dados)

In [None]:
dados.corr()

### Verificar se os dados estão com uma distribuição normal
<details><summary>CLICK</summary>
<p>
Construir histograma (analisa apenas uma variável). <br>
O histograma deve está simetrico  e com a curtose próxima de zero para ser utilizado no aprendizado de máquina <br>

    Análise do coeficiente de assimetria: 
- skewness < 0 => simetria negativa (curva do histograma mais para esquerda)  média < mediana
- skewness > 0 => simetria positiva (curva do histograma mais para direita) média > mediana
- skewness aproximadmente igual a 0 => dados simétricos (curva do histograma simétrica para ambos os lados)
   
Análise da curtose:
- kurtosis < 0 => curtose negativa (curva do histograma mais para baixo)
- kurtosis > 0 => curtose positiva (curva do histograma mais para cima)
- kurtosis aproximadamente igual a 0 => distribuição normal dos dados (curva no formato de sino)
</p>
</details>

In [None]:
# Histograma com a curva nromal
df = norm.rvs(dados.variavelAlvo) 
sns.distplot(df)

In [None]:
# calcular o coeficiente de assimetria em todas as variáveis
df.skew() 

# apenas uma variável
df['variavelAlvo'].skew()

In [None]:
# Calcular a curtose em todas as variáveis
df.kurt()

# apenas uma variável
df['variavelAlvo'].kurt()

### Seleção de variáveis (Feature Selection)
<details><summary>CLICK</summary>
<p>
Nessa etapa são escolhidas as melhores variáveis que farão parte do modelo.
</p>
</details>

In [None]:
# Utilizando o modelo de Regressão Linear do Stats Model para analisar o Valor-p e identificar as melhores variáveis
# as variáveis com Valor-p < 0,05 são consideradas relevantes para o modelo

# Coletando x e y
X = dados.iloc[:,:-1]
y = dados['target'].values

# Criando e treinando modelo de Regressão Linear do Stats Model e por fim exibindo o sumário
Xc = sm.add_constant(X)
modeloOLS = sm.OLS(y, Xc)
modeloOLS_v2 = modeloOLS.fit()
modeloOLS_v2.summary()

## Autovalores (Eigenvalues) e Autovetores (Eigenvectors)
Uma forma ainda mais automática de detectar associações multicolineares (e descobrir problemas numéricos em uma inversão de matriz) é usar autovetores. Explicados em termos simples, os autovetores são uma maneira muito inteligente de recombinar a variância entre as variáveis, criando novos recursos acumulando toda a variância compartilhada. Tal recombinação pode ser obtida usando a função NumPy linalg.eig, resultando em um vetor de autovalores (representando a quantidade de variância recombinada para cada nova variável) e autovetores (uma matriz nos dizendo como as novas variáveis se relacionam com as antigas).

In [None]:
# Gerando eigenvalues e eigenvectors
corr = np.corrcoef(X, rowvar = 0)
eigenvalues, eigenvectors = np.linalg.eig(corr)

Depois de extrair os autovalores, imprimimos em ordem decrescente e procuramos qualquer elemento cujo valor seja próximo de zero ou pequeno em comparação com os outros. Valores próximos a zero podem representar um problema real para equações normais e outros métodos de otimização baseados na inversão matricial. Valores pequenos representam uma fonte elevada, mas não crítica, de multicolinearidade. Se você detectar qualquer um desses valores baixos, anote a posição no vetor (lembre-se que os índices em Python começam por zero). 

O menor valor está na posição 8. Vamos buscar a posição 8 no autovetor.

In [None]:
eigenvaluesPD = pd.DataFrame(eigenvalues)
eigenvaluesPD.columns = ["eigenvalues"]
# Exibe em ordem crescente
eigenvaluesPD.sort_values(by='eigenvalues', ascending = True)

Usando a posição do índice na lista de autovalores, podemos encontrar o vetor específico nos autovetores que contém as variáveis carregadas, ou seja, o nível de associação com os valores originais. No eigenvector, observamos valores nas posições de índice 8 e 9, que estão realmente em destaque em termos de valor absoluto.

In [None]:
eigenvectorsPD = pd.DataFrame(eigenvectors[:,8])
eigenvectorsPD.columns = ["eigenvectors"]
# Exibe em ordem Decrescente
eigenvectorsPD.sort_values(by="eigenvectors", ascending = False)

Agora nós imprimimos os nomes das variáveis para saber quais contribuem mais com seus valores para construir o autovetor. Associamos o vetor de variáveis com o eigenvector.

Tendo encontrado os culpados da multicolinearidade, o que devemos fazer com essas variáveis? A remoção de algumas delas é geralmente a melhor solução.

In [None]:
print (variables[8], variables[9])

In [None]:
# Outra alternativa para verificar as melhores variáveis é aplicar o modelo de Reressão Linear com os dados PADRONIZADOS e depois verificar os coeficientes 

# Criando um modelo
modelo = linear_model.LinearRegression(normalize = False, fit_intercept = True)

# Treinando o modelo com dados não padronizados (em escalas diferentes)
modelo.fit(X,y)

# Imprimindo os coeficientes e as variáveis
# O resultado exibe os coeficientes em ordem de mais importância para o de menos importância
for coef, var in sorted(zip(map(abs, modelo.coef_), dadosPadronizados.columns[:-1]), reverse = True):
    print ("%6.3f %s" % (coef,var))

### Feature Scaling

<details><summary>CLICK</summary>
<p>
Podemos aplicar Feature Scaling através de Padronização ou Normalização. Normalização aplica escala aos dados com intervalos entre 0 e 1. A Padronização divide a média pelo desvio padrão para obter uma unidade de variância. Vamos usar a Padronização (StandardScaler) pois nesse caso esta técnica ajusta os coeficientes e torna a superfície de erros mais "tratável".

The Machine Learning algorithms that require the feature scaling are mostly KNN (K-Nearest Neighbours), Neural Networks, Linear Regression, and Logistic Regression.

The machine learning algorithms that do not require feature scaling is mostly non-linear ML algorithms such as Decision trees, Random Forest, AdaBoost, Naïve Bayes, etc.
    
    O treinamento do modelo é mais rápido quando todos os dados estão com a mesma quantidade de casas decimais.
</p>
</details>

### Normalização - Método 1

<details><summary>CLICK</summary>
<p>
E uma das primeiras tarefas dentro do pré-processamento, é colocar seus dados na mesma escala. Muitos algoritmos de Machine Learning vão se beneficiar disso e produzir resultados melhores. Esta etapa também é chamada de normalização e significa colocar os dados em uma escala com range entre 0 e 1. Isso é útil para a otimização, sendo usado no core dos algoritmos de Machine Learning, como gradient descent. Isso também é útil para algoritmos como regressão e redes neurais e algoritmos que usam medidas de distância, como KNN. O scikit-learn possui uma função para esta etapa, chamada MinMaxScaler().
</p>
</details>

Ao entregar novos dados para realizar as previsões com o modelo treinado, os dados também devem ser normalizados. Para fazer isso basta utilizar a média encontrada no método de normalização e subtratir os novos dados por essa média.

In [None]:
# Normalização dos dados pela Média

# Cálculo da média do dataset de treino
X_norm = np.mean(X, axis = 0)

# Normalização dos dados de treino e de teste
X_treino_norm = treinoData - X_norm
X_valid_norm = validData - X_norm
X_teste_norm = testeData - X_norm

In [None]:
# Transformando os dados para a mesma escala (entre 0 e 1)

dadosNormalizados = dados.copy()

# Gerando a nova escala (normalizando os dados)
scaler = MinMaxScaler(feature_range = (0, 1))
dadosNormalizados = scaler.fit_transform(dadosNormalizados)

dadosNormalizados = pd.DataFrame(dadosNormalizados, columns=['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'target'])
dadosNormalizados.head()

### Normalização - Método 2

<details><summary>CLICK</summary>
<p>
No scikit-learn, normalização se refere a ajustar a escala de cada observação (linha) de modo que ela tenha comprimento igual a 1 (chamado vetor de comprimento 1 em álgebra linear). Este método de pré-processamento é útil quando temos datasets esparsos (com muitos zeros) e atributos com escala muito variada. Útil quando usamos algoritmos de redes neurais ou que usam medida de distância, como KNN. O scikit-learn possui uma função para esta etapa, chamada Normalizer().
</p>
</details>

In [None]:
# Normalizando os dados (comprimento igual a 1)

dadosNormalizados2 = dados.copy()

# Gerando os dados normalizados
scaler = Normalizer().fit(dadosNormalizados2)
dadosNormalizados2 = scaler.transform(dadosNormalizados2)

dadosNormalizados2 = pd.DataFrame(dadosNormalizados2, columns=['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'target'])
dadosNormalizados2.head()

### Padronização

<details><summary>CLICK</summary>
<p>
Padronização é a técnica para transformar os atributos com distribuição Gaussiana (normal) e diferentes médias e desvios padrão em uma distribuição Gaussiana com a média igual a 0 e desvio padrão igual a 1. Isso é útil para algoritmos que esperam que os dados estejam com uma distribuição Gaussiana, como regressão linear, regressão logística e linear discriminant analysis. Funciona bem quando os dados já estão na mesma escala. O scikit-learn possui uma função para esta etapa, chamada StandardScaler().
</p>
</details>

In [None]:
# Padronizando os dados (0 para a média, 1 para o desvio padrão)

dadosPadronizados = dados.copy()

# Aplicando Padronização
scaler = StandardScaler().fit(dadosPadronizados)
dadosPadronizados = scaler.transform(dadosPadronizados)

# Salvando a média e o desvio padrão
original_means = scaler.mean_
originanal_stds = scaler.scale_

dadosPadronizados = pd.DataFrame(dadosPadronizados, columns=['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'target'])
dadosPadronizados.head()

In [None]:
# Desfazendo a Padronização
# -1 indica que a variável alvo não está incluída
unstandardized_betas = w[:-1] / originanal_stds
unstandardized_bias  = w[-1]-np.sum((original_means / originanal_stds) * w[:-1])

In [None]:
# Construir um histograma
# Verificar se os dados estão com uma distribuição normal

# Histograma com estimativa de densidade de kernel - Distribuição univariada
sns.distplot(dados["CRIM"],  rug = True, fit = stats.gausshyper);

In [None]:
# Colocar os dados em distribuição normal utilizando transformação de log
# Muito importante para Linear Regression e Ridge Regression. Comparar o resultado aplicando aos dados originais e aos dados normalizados
# tratar os dados NA antes de aplicar a transformação
dados =  np.log1p(dados)
dadosNormalizados =  np.log1p(dadosNormalizados)
dadosPadronizados =  np.log1p(dadosPadronizados)

# <font color='blue'>Etapa 3 - Dividir os dados em amostras </font>

In [None]:
# Separando os dados de treino e dados de teste usando Cross Validation
# Separando os valores do dataset em um vetor
array = dadosNormalizados.values

# Separando o array em componentes de input e output, considerando todas as variáveis
X = array[:,0:12]
Y = array[:,13]

# Definindo os valores para os folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True, random_state = seed)

# Quanto menor o tamanho do dataset maior deve ser o tamanho dos dados de treino

In [None]:
# Separando os dados utilizando dados de treino e dados de teste PADRONIZADOS 
num_observ = len(dadosPadronizados)
X = dadosPadronizados[['CRIM', 'ZN', 'INDUS', 'NOX', 'RM', 'AGE', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']].values.reshape((num_observ, 11)) # X deve sempre ser uma matriz e nunca um vetor
Y = dadosPadronizados['target'].values # y pode ser um vetor

# o random_state é útil durante os teste para reproduzir os mesmos resultados após fechar  e abrir o Jupyter Lab. Pode ser retirando na versão final do modelo.
# Divide os dados em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)

In [None]:
# Separando os dados utilizando dados de treino e dados de teste SEM NORMALIZAR OS DADOS
# Separando o array em componentes de input e output, SELECIONANDO as variáveis
num_observ = len(dados)
# 11 é o número de variáveis (colunas)
X = dados[['CRIM', 'ZN', 'INDUS', 'NOX', 'RM', 'AGE', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']].values.reshape((num_observ, 11)) # X deve sempre ser uma matriz e nunca um vetor
Y = dados['target'].values # y pode ser um vetor

# Divide os dados em treino e teste
# o random_state é útil durante os teste para reproduzir os mesmos resultados após fechar  e abrir o Jupyter Lab. Pode ser retirando na versão final do modelo.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)

In [None]:
# Separando os dados utilizando dados de treino e dados de teste com os DADOS NORMALIZADOS
# Separando o array em componentes de input e output, SELECIONANDO as variáveis
num_observ = len(dadosNormalizados)
# 11 é o número de variáveis (colunas)
X = dadosNormalizados[['CRIM', 'ZN', 'INDUS', 'NOX', 'RM', 'AGE', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']].values.reshape((num_observ, 11)) # X deve sempre ser uma matriz e nunca um vetor
Y = dadosNormalizados['target'].values # y pode ser um vetor

# Divide os dados em treino e teste
# o random_state é útil durante os teste para reproduzir os mesmos resultados após fechar  e abrir o Jupyter Lab. Pode ser retirando na versão final do modelo.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)

# <font color='blue'>Etapa 4 - Criando, treinando e avaliando os Modelos </font>

### Regressão Linear

<details><summary>CLICK</summary>
<p>
Assume que os dados estão em Distribuição Normal e também assume que as variáveis são relevantes para a construção do modelo e que não sejam colineares, ou seja, variáveis com alta correlação (cabe a você, Cientista de Dados, entregar ao algoritmo as variáveis realmente relevantes).

Funciona melhor com os dados Padronizados do que Normalizados
</p>
</details>

In [None]:
# Criando modelo com cross validation

X = dados[['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']]
Y = dados["target"]

# Definindo os valores para os folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True, random_state = seed)

# Criando o modelo
modelo = LinearRegression()

# Cross Validation
resultado =  cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Score: %.3f%%" % (resultado.mean() * 100))

In [None]:
# Criando modelo com dados de treino e teste

# Criando o modelo
modelo2 = LinearRegression()

# Treinando o modelo
modelo2.fit(X_train, Y_train)

# Fazendo previsões
y_pred = modelo2.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_pred)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_pred, Y_test))

In [None]:
# Visualizando a linha de regressão do algoritmo

fig = px.scatter(x=Y_test, y=y_pred, title="Linha de regressão do algoritmo", labels={'x': 'Variável alvo dos dados de teste', 'y': 'Valor Previsto pelo modelo'})
fig.add_shape(
    type="line", line=dict(dash='dash'), 
    x0=Y.min(), y0=Y.min(),
    x1=Y.max(), y1=Y.max()
)
fig.show()

In [None]:
# Imprime os coeficientes
print (modelo2.coef_)
print (modelo2.intercept_)

In [None]:
# Imprime as previsões
previsoes = pd.DataFrame(Y_pred)
previsoes

In [None]:
# Compara as saídas de Teste com as previsões 
targetTest = pd.DataFrame(Y_test)
targetTest["previsões"] = Y_pred
# renomeia a primeira coluna
targetTest.rename(columns = {0:"Target teste"}, inplace = True)
targetTest

In [None]:
# Fazendo previsões com o modelo treinado SEM NORMALIZAR OS DADOS
CRIM = 0.00632; ZN = 18; INDUS = 2.31; NOX = 0.538; RM =  6.575; AGE =  65.2; RAD = 1; TAX = 296; PTRATIO = 15.3; B = 396.9; LSTAT = 4.98

# Lista com os novos valores das variáveis
dadosDeEntrada = [CRIM, ZN, INDUS, NOX, RM, AGE, RAD, TAX, PTRATIO, B, LSTAT]
Xp = np.array(dadosDeEntrada).reshape(1, -1)

# Previsão
print("Taxa Média de Ocupação Para a Casa:", modelo2.predict(Xp))

In [None]:
# Fazendo previsões com o modelo treinado
# Como os dados de treino foram NORMALIZADOS, os dados de entrada também devem ser normalizados
# Apresentar ao modelo a mesma quantidade de variáveis utilizadas para testar o modelo
CRIM = 0.000000; ZN = 0.18; INDUS = 0.067815; CHAS = 0.0; NOX = 0.314815; RM = 0.577505; DIS = 0.641607;AGE = 0.269203; RAD =0.000000; TAX = 0.208015; PTRATIO = 0.287234; B = 1.000000; LSTAT =0.089680

# Lista com os novos valores das variáveis
dadosDeEntrada = [CRIM, ZN, INDUS, CHAS, NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT]
dadosDeEntrada = np.array(dadosDeEntrada).reshape(1, -1) # reshape transforma um vetor em uma linha com várias colunas

# Previsão
print("Taxa Média de Ocupação Para a Casa:", modelo2.predict(dadosDeEntrada))
#print("Taxa Média de Ocupação Para a Casa:", modeloSVRDadosNorm.predict(dadosDeEntrada))



### Ridge Regression

<details><summary>CLICK</summary>
<p>
Extensão para a regressão linear onde a loss function é modificada para minimizar a complexidade do modelo.
</p>
</details>

In [None]:
# Criando o modelo
modeloRidge = Ridge()

# Treinando o modelo
modeloRidge.fit(X_train, Y_train)

# Fazendo previsões
Y_predRidge = modeloRidge.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predRidge)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predRidge, Y_test))

In [None]:
# Compara as saídas de Teste com as previsões 

targetTest = pd.DataFrame(Y_test)
targetTest["previsões"] = Y_predRidge
# renomeia a primeira coluna
targetTest.rename(columns = {0:"Target teste"}, inplace = True)
targetTest

### Lasso Regression

<details><summary>CLICK</summary>
<p>
Lasso (Least Absolute Shrinkage and Selection Operator) Regression é uma modificação da regressão linear e assim como a Ridge Regression, a loss function é modificada para minimizar a complexidade do modelo.
</p>
</details>

In [None]:
# Criando o modelo
modeloLasso = Lasso()

# Treinando o modelo
modeloLasso.fit(X_train, Y_train)

# Fazendo previsões
Y_predLasso = modeloLasso.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predLasso)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predLasso, Y_test))

### CART
<details><summary>CLICK</summary>
<p>
Funciona melhor com os dados Padronizados do que Normalizados
</p>
</details>

In [None]:
# Criando o modelo
modeloCART = DecisionTreeRegressor()

# Treinando o modelo
modeloCART.fit(X_train, Y_train)

# Fazendo previsões
Y_predCART = modeloCART.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predCART)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predCART, Y_test))

### KNN
<details><summary>CLICK</summary>
<p>
Os dados devem estar Normalizados.
Os outliers devem ser tratados, pois influenciam bastante no algoritmo.
É muito importante definir a quantidade de k (número de vizinhos).
</p>
</details>

In [None]:
# Criando o modelo
modeloKNN = KNeighborsRegressor()

# Treinando o modelo
modeloKNN.fit(X_train, Y_train)

# Fazendo previsões
Y_predKNN = modeloKNN.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predKNN)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predKNN, Y_test))

### SVM
<details><summary>CLICK</summary>
<p>
    É mais eficiente para problemnas de classificação. <br>
    SVM é muito sensível aos outliers. <br>
    SVM foram criadas para trabalhar com dados linearmente separáveis(as classes são separados por uma linha reta) e não linearmente separáveis (grade maioria dos dados). <br>
    Não funciona bem com conjutos de dados muito grandes. <br>
    Muito sensível aos ruídos dos dados. Por essa razão Exige a padronização dos dados. <br>
    Parâmetros mais importante:<br>
    - kernel<br>
    - C<br>
    - gamma
</p>
</details>

In [None]:
# Criando o modelo
modeloSVR = SVR()

# Treinando o modelo
modeloSVR.fit(X_train, Y_train)

# Fazendo previsões
Y_predSVR = modeloSVR.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predSVR)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predSVR, Y_test))

In [None]:
# Visualizando a linha de regressão do algoritmo

fig = px.scatter(x=Y_test, y=Y_predSVR, title="Linha de regressão do algoritmo", labels={'x': 'Variável alvo dos dados de teste', 'y': 'Valor Previsto pelo modelo'})
fig.add_shape(
    type="line", line=dict(dash='dash'), 
    x0=Y.min(), y0=Y.min(),
    x1=Y.max(), y1=Y.max()
)
fig.show()

### Random Forest Regressor
<details><summary>CLICK</summary>
<p>
Os 4 principais parâmetros em Modelos de Random Forest são: <br>
    
    criterion{“gini”, “entropy”}, default=”gini” <br>

n_estimators - número de árvores na floresta, quanto maior, melhor! Cada árvore é um modelo. No final é escolhido o melhor modelo <br>

max depth - o padrão é 'none' e nesse caso árvores completas são criadas. Ajustando esse parâmetro pode ajudar a evitar overfitting. <br>

max_features - diferentes valores devem ser testados, pois este parâmetro impacta na forma como os modelos RF distribuem os atributos pelas árvores. <br>

criterion - define a forma como o algoritmo fará a divisão dos atributos e a classificação dos nós em cada árvore. <br>
    
</p>
</details>

In [None]:
# Criando o modelo
modeloRandForest = RandomForestRegressor()

# Treinando o modelo
modeloRandForest.fit(X_train, Y_train)

# Fazendo previsões
Y_predRandForest = modeloRandForest.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predRandForest)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predRandForest, Y_test))

### Bagging
<details><summary>CLICK</summary>
<p>
    Bagging é usado para construção de múltiplos modelos (normalmente do mesmo tipo) a partir de diferentes subsets no dataset de treino. <br>
    Um regressor Bagging é um meta-estimador ensemble que faz o fit de regressores base, cada um em subconjuntos aleatórios do conjunto de dados original e, em seguida, agrega suas previsões individuais (por votação ou por média) para formar uma previsão final.<br>
    Tal meta-estimador pode tipicamente ser usado como uma maneira de reduzir a variância de um estimador (por exemplo, uma árvore de decisão), introduzindo a randomização em seu procedimento de construção e fazendo um ensemble (conjunto) a partir dele.<br>
    
</p>
</details>

In [None]:
# Criando o modelo
modeloBagging = BaggingRegressor()
# É possível especificar qual algoritmo utilizar para criar os modelos
#modeloBagging = BaggingRegressor(KNeighborsRegressor())

# Treinando o modelo
modeloBagging.fit(X_train, Y_train)

# Fazendo previsões
Y_predBagging = modeloBagging.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predBagging)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predBagging, Y_test))

### Extremely Randomized Trees (ExtraTrees)
<details><summary>CLICK</summary>
<p>
    Método esemble com funcionamento muito parecido ao Randon Forest, com a diferença que as árvores são criadas de forma randômica
    
</p>
</details>

In [None]:
# Criando o modelo
modeloExtraTreesRegressor = ExtraTreesRegressor()

# Treinando o modelo
modeloExtraTreesRegressor.fit(X_train, Y_train)

# Fazendo previsões
y_pred = modeloExtraTreesRegressor.predict(X_test)

# Resultado
r2 = r2_score(Y_test, y_pred)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(y_pred, Y_test))

In [None]:
# Visualizando a linha de regressão do algoritmo

fig = px.scatter(x=Y_test, y=y_pred, title="Linha de regressão do algoritmo", labels={'x': 'Variável alvo dos dados de teste', 'y': 'Valor Previsto pelo modelo'})
fig.add_shape(
    type="line", line=dict(dash='dash'), 
    x0=Y.min(), y0=Y.min(),
    x1=Y.max(), y1=Y.max()
)
fig.show()

### Adaboost
<details><summary>CLICK</summary>
<p>
    Um regressor AdaBoost é um meta-estimador que começa ajustando um regressor no conjunto de dados original e depois ajusta cópias adicionais do regressor no mesmo conjunto de dados, mas onde o peso das instâncias são ajustados para que os regressores subsequentes se concentrem mais em casos difíceis. <br>
    Utiliza o peso do modelos.
    
</p>
</details>

In [None]:
# Criando o modelo
modeloAdaBoostReg = AdaBoostRegressor()

# Treinando o modelo
modeloAdaBoostReg.fit(X_train, Y_train)

# Fazendo previsões
Y_predAdaBoostReg = modeloAdaBoostReg.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_predAdaBoostReg)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(Y_predAdaBoostReg, Y_test))

In [None]:
# Compara as saídas de Teste com as previsões 

targetTest = pd.DataFrame(Y_test)
targetTest["previsões"] = Y_predSVR
# renomeia a primeira coluna
targetTest.rename(columns = {0:"Target teste"}, inplace = True)
targetTest

### Stacking Regressor
<details><summary>CLICK</summary>
<p>
    A generalização empilhada é um método para combinar estimadores para reduzir seus vieses. Mais precisamente, as previsões de cada estimador individual são empilhadas e usadas como entrada para um estimador final para calcular a previsão. Este estimador final é treinado por meio de validação cruzada.
    
</p>
</details>

In [None]:
# Criando o modelo
# Definir os algoritmos que serão empilhados
estimators = [('rf', RandomForestRegressor(n_estimators=10)), ('svr', SVR())]

modeloStacking = StackingRegressor(estimators=estimators, final_estimator=RandomForestRegressor())

# Treinando o modelo
modeloStacking.fit(X_train, Y_train)

# Fazendo previsões
previsoes = modeloStacking.predict(X_test)

r2 = modeloStacking.score(X_test, Y_test)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(previsoes, Y_test))

### Gradient Boosting Regressor
<details><summary>CLICK</summary>
<p>
    
    
</p>
</details>

In [None]:
# Cria o regressor
modeloGr = GradientBoostingRegressor(n_estimators = 100, learning_rate = 0.1, max_depth = 1, random_state = 0, loss = 'ls')

# Treina o regressor
modeloGr.fit(X_train, Y_train)

# Fazendo previsões
previsoesGr = modeloGr.predict(X_test)

# Resultado
r2 = modeloGr.score(X_test, Y_test)
print("O R2 do modelo é:", r2*100)

# Cáculo do erro
print("O erro do modelo é:", mean_squared_error(previsoesGr, Y_test)) 

### Automação dos algoritmos
<details><summary>CLICK</summary>
<p>
Opção para executar todos os algoritmos e depois comparar a performance de cada um.
</p>
</details>

In [None]:
# Criando uma tabela
comparativeTable = {"Algoritmo": ["Linear Regression", "Ridge Regression", "Lasso  Regression", "CART", "KNN", "SVN"],
                   "Dados Originais": ["-", "-", "-", "-", "-","-"],
                   "Dados Padronizados": ["-", "-", "-", "-", "-","-"],
                   "Dados Normalizados": ["-", "-", "-", "-", "-","-"]}

pdComparativeTable = pd.DataFrame(comparativeTable)
pdComparativeTable

In [None]:
variables = ['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'PTRATIO', 'B', 'LSTAT']
#variables = ['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
amountVariable = len(variables)  # número de variáveis (colunas)
num_observ = len(dados)
counter = 1

while counter <= 3:
    algoritm = 0
    
    # Separando os dados em dados de treino e dados de teste
    if counter == 1: # DADOS ORIGINAIS
        X = dados[variables].values.reshape((num_observ, amountVariable)) # X deve sempre ser uma matriz e nunca um vetor
        Y = dados['target'].values # y pode ser um vetor
        X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)
        
    elif counter == 2: # Dados PADRONIZADOS 
        X = dadosPadronizados[variables].values.reshape((num_observ, amountVariable)) # X deve sempre ser uma matriz e nunca um vetor
        Y = dadosPadronizados['target'].values # y pode ser um vetor
        X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)
        
    elif counter == 3: # DADOS NORMALIZADOS
        X = dadosNormalizados[variables].values.reshape((num_observ, amountVariable)) # X deve sempre ser uma matriz e nunca um vetor
        Y = dadosNormalizados['target'].values # y pode ser um vetor
        X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)
    
    # Criando os modelos
    while algoritm <= 5: 
        if algoritm == 0 and counter == 1: #Linear Regression e Dados Originais 
            modelo = LinearRegression()
        elif algoritm == 0 and counter == 2: #Linear Regression e Dados Padronizados 
            modelo = LinearRegression()
        elif algoritm == 0 and counter == 3: #Linear Regression e Dados Normalizados 
            modelo = LinearRegression()
            
        elif algoritm == 1 and counter == 1: #Ridge Regression e Dados Originais
            modelo = Ridge()
        elif algoritm == 1 and counter == 2: #Ridge Regression e Dados Padronizados
            modelo = Ridge()
        elif algoritm == 1 and counter == 3: #Ridge Regression e Dados Normalizados
            modelo = Ridge()  
            
        elif algoritm == 2 and counter == 1: #Lasso Regression e Dados Dados Originais
            modelo = Lasso()
        elif algoritm == 2 and counter == 2: #Lasso Regression e Dados Padronizados
            modelo = Lasso()
        elif algoritm == 2 and counter == 3: #Lasso Regression e Dados Normalizados
            modelo = Lasso()   
            
        elif algoritm == 3 and counter == 1: #CART e Dados Dados Originais
            modelo = DecisionTreeRegressor()
        elif algoritm == 3 and counter == 2: #CART e Dados Dados Padronizados
            modelo = DecisionTreeRegressor()       
        elif algoritm == 3 and counter == 3: #CART e Dados Dados Normalizados
            modelo = DecisionTreeRegressor()   
            
        elif algoritm == 4 and counter == 1: #KNN e Dados Dados Originais
            modelo = KNeighborsRegressor()
        elif algoritm == 4 and counter == 2: #KNN e Dados Dados Padronizados
            modelo = KNeighborsRegressor()
        elif algoritm == 4 and counter == 3: #KNN e Dados Dados Normalizados
            modelo = KNeighborsRegressor() 
            
        elif algoritm == 5 and counter == 1: #SVR e Dados Dados Originais
            modelo = SVR()   
        elif algoritm == 5 and counter == 2: #SVR e Dados Dados Padronizados
            modelo = SVR()   
        else: #SVR e Dados Dados Normalizados
            modelo = SVR()   
            
        # Treinando o modelo
        modelo.fit(X_train, Y_train)

        # Fazendo previsões
        Y_pred = modelo.predict(X_test)

        # Resultado
        r2 = r2_score(Y_test, Y_pred)
        
        # FALTA SALVAR CADA MODELO CRIADO
        # Atualizando a tabela comparativa
        if algoritm == 0 and counter == 1: #Linear Regression e Dados Originais  
            pdComparativeTable.iloc[0,1] = r2
        elif algoritm == 0 and counter == 2: #Linear Regression e Dados Padronizados
            pdComparativeTable.iloc[0,2] = r2
        elif algoritm == 0 and counter == 3: #Linear Regression e Dados Normalizados
            pdComparativeTable.iloc[0,3] = r2
            
        elif algoritm == 1 and counter == 1: #Ridge Regression e Dados Originais
            pdComparativeTable.iloc[1,1] = r2
        elif algoritm == 1 and counter == 2: #Ridge Regression e Dados Padronizados
            pdComparativeTable.iloc[1,2] = r2
        elif algoritm == 1 and counter == 3: #Ridge Regression e Dados Normalizados
            pdComparativeTable.iloc[1,3] = r2 
            
        elif algoritm == 2 and counter == 1: #Lasso Regression e Dados Dados Originais
            pdComparativeTable.iloc[2,1] = r2
        elif algoritm == 2 and counter == 2: #Lasso Regression e Dados Padronizados
            pdComparativeTable.iloc[2,2] = r2
        elif algoritm == 2 and counter == 3: #Lasso Regression e Dados Normalizados
            pdComparativeTable.iloc[2,3] = r2     
            
        elif algoritm == 3 and counter == 1: #CART e Dados Dados Originais
            pdComparativeTable.iloc[3,1] = r2
        elif algoritm == 3 and counter == 2: #CART e Dados Dados Padronizados
            pdComparativeTable.iloc[3,2] = r2
        elif algoritm == 3 and counter == 3: #CART e Dados Dados Normalizados
            pdComparativeTable.iloc[3,3] = r2            
            
        elif algoritm == 4 and counter == 1: #KNN e Dados Dados Originais
            pdComparativeTable.iloc[4,1] = r2
        elif algoritm == 4 and counter == 2: #KNN e Dados Dados Padronizados
            pdComparativeTable.iloc[4,2] = r2
        elif algoritm == 4 and counter == 3: #KNN e Dados Dados Normalizados
            pdComparativeTable.iloc[4,3] = r2 
            
        elif algoritm == 5 and counter == 1: #SVR e Dados Dados Originais
            pdComparativeTable.iloc[5,1] = r2   
        elif algoritm == 5 and counter == 2: #SVR e Dados Dados Padronizados
            pdComparativeTable.iloc[5,2] = r2   
        else: #SVR e Dados Dados Normalizados
            pdComparativeTable.iloc[5,3] = r2
        algoritm += 1
    counter += 1  

pdComparativeTable

In [None]:
# Salvar o resultados dos modelos com todas as variáveis para comparar com os modelos sem as variáveis com multicolinearidade
todasVariaveis = pdComparativeTable
todasVariaveis

In [None]:
# Criando os modelos utilizando Cross Validation
variables = ['CRIM', 'ZN', 'INDUS', "CHAS", 'NOX', 'RM', 'AGE', "DIS", 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
amountVariable = len(variables)  # número de variáveis (colunas)
num_observ = len(dados)
counter = 1

# Definindo os valores para os folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True, random_state = seed)

while counter <= 3:
    algoritm = 0
    
    # Separando a variável alvo das variáveis explanatórias
    if counter == 1: # DADOS ORIGINAIS
        X = dados[variables]
        Y = dados['target']
                
    elif counter == 2: # Dados PADRONIZADOS 
        X = dadosPadronizados[variables]
        Y = dadosPadronizados['target']
        
    elif counter == 3: # DADOS NORMALIZADOS
        X = dadosNormalizados[variables]
        Y = dadosNormalizados['target']
            
    # Criando os modelos
    while algoritm <= 5: 
        if algoritm == 0 and counter == 1: #Linear Regression e Dados Originais 
            modelo = LinearRegression()
        elif algoritm == 0 and counter == 2: #Linear Regression e Dados Padronizados 
            modelo = LinearRegression()
        elif algoritm == 0 and counter == 3: #Linear Regression e Dados Normalizados 
            modelo = LinearRegression()
            
        elif algoritm == 1 and counter == 1: #Ridge Regression e Dados Originais
            modelo = Ridge()
        elif algoritm == 1 and counter == 2: #Ridge Regression e Dados Padronizados
            modelo = Ridge()
        elif algoritm == 1 and counter == 3: #Ridge Regression e Dados Normalizados
            modelo = Ridge()  
            
        elif algoritm == 2 and counter == 1: #Lasso Regression e Dados Dados Originais
            modelo = Lasso()
        elif algoritm == 2 and counter == 2: #Lasso Regression e Dados Padronizados
            modelo = Lasso()
        elif algoritm == 2 and counter == 3: #Lasso Regression e Dados Normalizados
            modelo = Lasso()   
            
        elif algoritm == 3 and counter == 1: #CART e Dados Dados Originais
            modelo = DecisionTreeRegressor()
        elif algoritm == 3 and counter == 2: #CART e Dados Dados Padronizados
            modelo = DecisionTreeRegressor()       
        elif algoritm == 3 and counter == 3: #CART e Dados Dados Normalizados
            modelo = DecisionTreeRegressor()   
            
        elif algoritm == 4 and counter == 1: #KNN e Dados Dados Originais
            modelo = KNeighborsRegressor()
        elif algoritm == 4 and counter == 2: #KNN e Dados Dados Padronizados
            modelo = KNeighborsRegressor()
        elif algoritm == 4 and counter == 3: #KNN e Dados Dados Normalizados
            modelo = KNeighborsRegressor() 
            
        elif algoritm == 5 and counter == 1: #SVR e Dados Dados Originais
            modelo = SVR()   
        elif algoritm == 5 and counter == 2: #SVR e Dados Dados Padronizados
            modelo = SVR()   
        else: #SVR e Dados Dados Normalizados
            modelo = SVR()   
            
        # Cross Validation
        resultado =  cross_val_score(modelo, X, Y, cv = kfold)
        
        # Atualizando a tabela comparativa
        if algoritm == 0 and counter == 1: #Linear Regression e Dados Originais  
            pdComparativeTable.iloc[0,1] = resultado.mean() * 100
            modeloLinearRegresDadosOrig = modelo
        elif algoritm == 0 and counter == 2: #Linear Regression e Dados Padronizados
            pdComparativeTable.iloc[0,2] = resultado.mean() * 100
            modeloLinearRegresDadosPadro = modelo
        elif algoritm == 0 and counter == 3: #Linear Regression e Dados Normalizados
            pdComparativeTable.iloc[0,3] = resultado.mean() * 100
            modeloLinearRegresDadosNorm = modelo
            
        elif algoritm == 1 and counter == 1: #Ridge Regression e Dados Originais
            pdComparativeTable.iloc[1,1] = resultado.mean() * 100
            modeloRidgeRegresDadosOrig = modelo
        elif algoritm == 1 and counter == 2: #Ridge Regression e Dados Padronizados
            pdComparativeTable.iloc[1,2] = resultado.mean() * 100
            modeloRidgeRegresDadosPadro = modelo
        elif algoritm == 1 and counter == 3: #Ridge Regression e Dados Normalizados
            pdComparativeTable.iloc[1,3] = resultado.mean() * 100 
            modeloRidgeRegresDadosNorm = modelo
            
        elif algoritm == 2 and counter == 1: #Lasso Regression e Dados Dados Originais
            pdComparativeTable.iloc[2,1] = resultado.mean() * 100
            modeloLassoRegresDadosOrig = modelo
        elif algoritm == 2 and counter == 2: #Lasso Regression e Dados Padronizados
            pdComparativeTable.iloc[2,2] = resultado.mean() * 100
            modeloLassoRegresDadosPadro = modelo
        elif algoritm == 2 and counter == 3: #Lasso Regression e Dados Normalizados
            pdComparativeTable.iloc[2,3] = resultado.mean() * 100     
            modeloLassoRegresDadosNorm = modelo
            
        elif algoritm == 3 and counter == 1: #CART e Dados Dados Originais
            pdComparativeTable.iloc[3,1] = resultado.mean() * 100
            modeloCARTDadosOrig = modelo
        elif algoritm == 3 and counter == 2: #CART e Dados Dados Padronizados
            pdComparativeTable.iloc[3,2] = resultado.mean() * 100
            modeloCARTDadosPadro = modelo
        elif algoritm == 3 and counter == 3: #CART e Dados Dados Normalizados
            pdComparativeTable.iloc[3,3] = resultado.mean() * 100 
            modeloCARTDadosNorm = modelo
            
        elif algoritm == 4 and counter == 1: #KNN e Dados Dados Originais
            pdComparativeTable.iloc[4,1] = resultado.mean() * 100
            modeloKNNDadosOrig = modelo
        elif algoritm == 4 and counter == 2: #KNN e Dados Dados Padronizados
            pdComparativeTable.iloc[4,2] = resultado.mean() * 100
            modeloKNNDadosPadro = modelo
        elif algoritm == 4 and counter == 3: #KNN e Dados Dados Normalizados
            pdComparativeTable.iloc[4,3] = resultado.mean() * 100
            modeloKNNDadosNorm = modelo
            
        elif algoritm == 5 and counter == 1: #SVR e Dados Dados Originais
            pdComparativeTable.iloc[5,1] = resultado.mean() * 100
            modeloSVRDadosOrig = modelo
        elif algoritm == 5 and counter == 2: #SVR e Dados Dados Padronizados
            pdComparativeTable.iloc[5,2] = resultado.mean() * 100
            modeloSVRDadosPadro = modelo
        else: #SVR e Dados Dados Normalizados
            pdComparativeTable.iloc[5,3] = resultado.mean() * 100
            modeloSVRDadosNorm = modelo
        algoritm += 1
    counter += 1  

pdComparativeTable

In [None]:
outra = pdComparativeTable
outra

In [None]:
import plotly.graph_objs as go
# Criando o gráfico
bar1 = go.Bar(x = pdComparativeTable['Algoritmo'],
              y = pdComparativeTable['Dados Originais'],
              name ='Dados Originais'
             )
bar2 = go.Bar(x = pdComparativeTable['Algoritmo'],
              y = pdComparativeTable['Dados Padronizados'],
              name ='Dados Padronizados'
             )
bar3 = go.Bar(x = pdComparativeTable['Algoritmo'],
              y = pdComparativeTable['Dados Normalizados'],
              name ='Dados Normalizados'
             )

data = [bar1, bar2, bar3]

# Criando Layout
layout = go.Layout(title='Pontuação dos Algoritmos',
                   yaxis={'title':'Pontuação'},
                   xaxis={'title': 'Algoritmo'})
# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
# Exibindo figura/gráfico
fig.show()

In [None]:
# Treinar o modelo escolhido
X = dadosNormalizados[variables].values.reshape((num_observ, amountVariable)) # X deve sempre ser uma matriz e nunca um vetor
Y = dadosNormalizados['target'].values # y pode ser um vetor
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 5)

modeloSVRDadosNorm.fit(X_train, Y_train)

In [None]:
# Fazer as previsões com o modelo escolhido
Y_pred = modeloSVRDadosNorm.predict(X_test)

In [None]:
# Compara as saídas de Teste com as previsões 
targetTest = pd.DataFrame(Y_test)
targetTest["previsões"] = Y_pred
# renomeia a primeira coluna
targetTest.rename(columns = {0:"Target teste"}, inplace = True)
targetTest

# <font color='blue'>Etapa 5 - Otimizando a Performance do Modelo</font>

In [None]:
# otimizando o algoritmo de Regerssão Logistica

# Import dos módulos
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

# Definindo os valores que serão testados
valores_grid = {'penalty': ['l1','l2'], 'C': [0.001,0.01,0.1,1,10,100,1000]}

# Criando o modelo
modelo = LogisticRegression()

# Criando o grid
modelo_LR = GridSearchCV(estimator = modelo, param_grid = valores_grid)
modelo_LR.fit(dadosNormalizadosPadronizados, variavelAlvo)

# Print do resultado
print("Acurácia: %.3f" % (modelo_LR.best_score_ * 100))
print("Melhores Parâmetros do Modelo:\n", modelo_LR.best_estimator_)

# <font color='blue'>Etapa 6 -  Salvando/Carregando o modelo</font>

In [None]:
import pickle

# Salvando o modelo
arquivo = 'modelos/modelo_classificador_final.sav'
pickle.dump(modelo_LR, open(arquivo, 'wb'))
print("Modelo salvo!")


In [None]:
# Carregando o arquivo
modelo_classificador_final = pickle.load(open(arquivo, 'rb'))
#modelo_producao = modelo_classificador_final.score(X_teste, Y_teste)
print("Modelo carregado!")

# Print do resultado
#print("Acurácia: %.3f" % (modelo_producao.mean() * 100))