# Instruções gerais

Para executar uma CÉLULA, pressione o botão "Run" no topo, com a CÉLULA selecionada, ou pressione:
    
    Shift + Enter

EXECUTE APENAS UMA CÉLULA POR VEZ

-Caso deseje apagar a saída de uma célula carregada, mas não deseje carregar uma nova saída, vá à aba superior, escolha o ícone
do teclado (open the command palette/ jupyter-notebook command group) e selecione clear cell output.

@author: Marco César Prado Soares, MSc.
Especialista Lean Six Sigma Master Black Belt, Eng. Químico, MSc. Eng. Mecatrônica (instrumentação) 
Marco.Soares@br.ey.com; marcosoares.feq@gmail.com

# Redes Neurais Artificiais (Artificial Neural Networks, ANN)
## Problema de Regressão/Predição
### Template 1: Apartment Price Analysis

As redes neurais foram inspiradas na biologia, onde o termo “rede neural” também pode ser aplicado aos neurônios (“neurons”). Portanto, o cérebro humano é um exemplo de rede neural formada por múltiplos neurônios.

Como sabemos, o cérebro humano é capaz de realizar operações bastante complexas. Daí surgiu a inspiração de utilizá-lo como modelo para criar uma rede que, em conjunto, atue como uma poderosa ferramenta de modelagem.

As redes neurais são uma classe de algoritmos que tenta encontrar padrões para os dados. Elas podem ser utilizadas tanto em problemas de regressão quanto de classificação. Na realidade, trata-se de um enorme campo do Machine Learning formado por centenas de algoritmos e por suas variações, que permitem a sua adaptação à solução de toda sorte de problemas.

O Deep Learning, em particular, tem experimentado enorme crescimento e ganho de popularidade, podendo já ser considerado outro subcampo do aprendizado de máquina. Uma rede neural de um único neurônio é chamada Perceptron.

##### Multi-Layer Perceptrons (MLP)

Redes de perceptrons, as redes neurais, são perceptrons multi-camadas (“multi-layer”). São algoritmos mais complexos, uma vez que consistem em vários perceptrons organizados em camadas. O número de camadas é geralmente limitado a duas ou três, mas, teoricamente, não existe limite para este número.

As camadas atuam de forma semelhante aos neurônios biológicos que vimos anteriormente: as saídas de uma camada servem como entrada da camada seguinte. Dentre as camadas, podemos distinguir a camada de entrada (“input layer”), as camadas ocultas (“hidden layers”), e uma camada de saída (“output layer”). Comumente, as redes são completamente conectadas, o que significa que existe uma conexão entre cada neurônio de uma camada e cada neurônio da camada seguinte. Embora a conexão total não seja um requisito, é o caso típico nas ANNs. Isto é representado na imagem a seguir, da documentação da Scikit-learn, para o caso de saída única (um único neurônio na camada de saída) e escalar.

Na figura a seguir, do portal Towards Data Science, uma rede neural com duas camadas ocultas e duas variáveis de saída é representada. Note que a camada de entrada (“input layer”) é mostrada em azul (4 variáveis de entrada); as camadas ocultas (“hidden layers”) estão em preto; e a camada de saída (“output layer”) é mostrada em verde (2 variáveis de saída). O portal resume o MLP como uma “rede de operações matemáticas”: um conjunto de uma ou mais variáveis de entrada passa pela rede de operações matemáticas dos neurônios, resultando em uma ou mais variáveis de saída.

![ANN.PNG](attachment:ANN.PNG)
https://towardsdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a 

Repare que, embora o perceptron só possa representar separações lineares entre as classes, as redes neurais superam esta limitação e são capazes de representar limites relacionados a decisões complexas.

Assim, o MLP é um algoritmo supervisionado que aprende uma função que correlaciona a saída a um padrão de entrada por meio do treinamento em um dataset. Ao contrário do perceptron, que possuía saída única, as redes neurais podem ter múltiplas saídas, correspondentes a cada um dos neurônios na camada de saída (“output layer”). O MLP pode aprender uma função não-linear (ativação) tanto para o caso de classificação quanto para o de regressão.

Assim, as redes neurais classificatórias se diferenciam da regressão logística no sentido que admitem uma ou mais camadas não-lineares (as “hidden layers”).

Considere a figura acima, que representa uma rede neural com saída única e escalar. A camada mais à esquerda (input layer) consiste em um conjunto de neurônios x_1, x_2, ..., x_n que representam cada uma das entradas. Cada neurônio em uma hidden layer possui seu próprio bias w_0, e transforma os valores de entrada nele (resultados que provêm do neurônio da camada anterior) em um novo valor de soma ponderada w_0+(∑_(i=1)^n)〖w_i x_i 〗, onde w_i são os pesos. A seguir, o neurônio aplica a função de ativação não-linear, por exemplo a função logística ou a função tangente hiperbólica. A camada de saída (output layer) recebe as saídas da última hidden layer e as converte em um ou mais valores de saída. 

No caso da figura acima, existe um único neurônio na última camada, correspondendo a um valor de saída único. Porém, no caso geral, como afirmado, a output layer pode conter mais neurônios.

Assim, note que a lista dos coeficientes do modelo (comando coefs_, no caso do algoritmo sklearn) será uma matriz com os pesos correspondentes a cada um dos neurônios das múltiplas camadas, enquanto que a lista dos “intercepts” (comando intercepts_, no caso do algoritmo sklearn) mostrará os vieses (biases) correspondentes a cada um dos neurônios.

As vantagens de uso das redes neurais incluem:
- Capacidade de aprendizado de modelos não-lineares;
- Capacidade de aprendizado de modelos em tempo real (“on-line learning”). No caso da sklearn, isto é feito por meio do comando partial_fit (ao invés do fit).

Logicamente, utilizar o MLP também apresenta desvantagens:
- As hidden layers apresentam funções de perda/erro (“loss function”) não-convexas nas quais pode existir mais de um mínimo local. Portanto, diferentes inicializações aleatórias dos pesos podem resultar em diferentes precisões de validação.
- O algoritmo MLP requer a sintonia/ajuste/definição de vários parâmetros, como o número de neurônios nas hidden layers, número de camadas e número de iterações. Alguns parâmetros podem ser mantidos de acordo com o padrão (default), mas, como já mencionado, é muito comum precisar ajustar manualmente o número de iterações para possibilitar a convergência. 
- Como dito, isto é feito informando-se um valor max_iter nos argumentos da função de chamamento das redes neurais.
- Assim como ocorre com os perceptrons, as redes neurais classificadoras são extremamente sensíveis aos fatores de escala. Portanto, é altamente recomendável proceder à normalização dos dados antes da análise.
	
Neste caso, o algoritmo da sklearn será o MLPClassifier (sklearn.neural_network.MLPClassifier). As informações sobre ele se encontram em: https://scikit-learn.org/stable/modules/neural_networks_supervised.html?highlight=back e em https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier. 

Para o problema de regressão, o algoritmo utilizado para implementação de redes neurais na scikit-learn é o MLPRegressor (sklearn.neural_network.MLPRegressor). Além dos dois links anteriores, informações sobre este algoritmo estão disponíveis em: https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html?highlight=hidden%20layer. 

O MLPRegressor implementa uma rede neural que treina utilizando o algoritmo da retropropagação (“backpropagation”) sem função de ativação nos neurônios da camada de saída (“output layer”). Isto equivale a utilizar a função identidade nas saídas e o erro quadrado como função de perda/erro, com uma saída representada por valores contínuos.

O MLPRegressor também admite regressão com múltiplas saídas. Neste caso, cada valor de entrada possui mais de um alvo (saída desejada).

##### Aprendizado supervisionado

A maior parte dos problemas práticos de Machine Learning envolvem o aprendizado supervisionado. Utilizamos o aprendizado supervisionado quando temos tanto um conjunto de variáveis de entrada X_train quanto as suas correspondentes saídas y_train, e desejamos criar um algoritmo que aprenda como mapear uma função que correlacione uma entrada X à saída y:

    f(X)=y

Onde f(X) será a função aprendida pelo algoritmo. O objetivo, então, é construir uma função de mapeamento tão próxima da realidade que se fornecermos um X correspondente a dados cuja resposta é desconhecida, obteremos um y predito que realmente corresponde à realidade (ou seja, ocorre aquilo que o método prevê).

O método se chama aprendizado supervisionado porque o processo de o algoritmo aprender a partir de um dataset de treino (X_train, y_train) pode ser entendido como um professor (dataset) que supervisiona o aprendizado de seu aluno (o algoritmo): o professor conhece de antemão as respostas do seu exercício (y_train), e o aluno deve aprender como obtê-las. O processo é iterativo: o algoritmo realiza predições, gerando erros relacionados ao quão distantes suas respostas estão em relação às respostas corretas. Este erro é utilizado pelo “professor” para corrigir o algoritmo (atualizar seus pesos). O processo de aprendizado termina quando o algoritmo alcança um nível de desempenho considerável aceitável: dada uma tolerância (imagine como “a média mínima para ser aprovado nos exames”), os erros do algoritmo são baixos o suficiente para que ele seja considerado “aprovado”.

- Por sua vez, os problemas de aprendizado supervisionado podem ser agrupados em problemas de regressão e de classificação. A regressão logística lida com problemas de classificação binários. Um problema de classificação existe sempre que a variável de saída é uma categoria, como “vermelho” ou “azul”, “doente”, ou “sadio”. Quando existem apenas duas classificações possíveis, a regressão logística é uma ferramenta adequada, inclusive pelo rigor estatístico com que é definida. Porém, problemas que podem resultar em mais de duas classificações (num exemplo trivial: “vermelho”, “azul”, “verde”, “laranja”) exigem ferramentas mais poderosas, como as redes neurais classificatórias.

- O problema de regressão, por sua vez, ocorre sempre que a variável de saída é um número real qualquer, como o preço total, o peso de um indivíduo, ou o total produzido por uma fábrica.

Assim, alguns tipos de problemas clássicos e de grande interesse prático que podem ser desenvolvidos em termos de classificação e de regressão são, respectivamente: a realização de recomendações (comprar ou não comprar; pagar ou não pagar; classificar como “verde”, “amarelo”, ou azul”); e a predição a partir de séries temporais. Ou seja, os problemas de escolha e recomendação são tipicamente problemas de classificação; enquanto que prever um valor numérico a partir de dados históricos é tipicamente um problema de regressão.

##### Situação estudada: Machine Learning aplicado ao cálculo de valor de imóvel

Possuímos uma base de dados com diversos apartamentos de uma determinada cidade. Várias informações caracterizam estes apartamentos: área do apartamento (m²); idade do prédio (anos); andar do prédio em que o apartamento se encontra; quantidade de quartos no apartamento; quantidade de vagas na garagem disponíveis; bairro em que o apartamento se localiza; e se o apartamento/prédio possui ou não piscina. Para cada apartamento, o preço de aquisição do imóvel (em milhares de reais) é conhecido.

Com estas informações, deseja-se um modelo de redes neurais artificiais capaz de calcular o preço de um imóvel para os quais estas informações são conhecidas. Uma vez que se deseja um valor real qualquer, temos um problema de regressão.

Pergunta: Precisamos avaliar um imóvel com as seguintes características:

•	Área: 102 m²
•	Idade do prédio: 7,2 anos
•	Andar do apartamento: 8º andar
•	Número de quartos: 3
•	Número de vagas: 1
•	Bairro: B
•	Apartamento/prédio sem piscina
 
Use o modelo construído para prever o valor deste apartamento.

- Pergunta: Avalie a importância das variáveis do modelo.

In [None]:
#Carregar as bibliotecas e o dataset

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import metrics
#Step 1. Import the model you want to use
#In sklearn, all machine learning models are implemented as Python classes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from sklearn.neural_network import MLPRegressor

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 2 - ANN regression\ANN.1 - Apartment price analysis\prices_apartments.xlsx"
dataset = pd.read_excel(caminho)

In [None]:
"""Outra questão importante na etapa de limpeza e preparação dos dados 
é a necessidade de eliminar linhas com entradas nulas, as quais impediriam a 
construção do modelo de Machine Learning. Para isso:"""

#It is important to clean the dataset before analyzing it, eliminating
#possible null entries - the Machine Learning model cannot work with such
#null values
dataset = dataset.dropna(axis=0)

# NOTA: 

Caso houvesse colunas em particular com várias entradas nulas, sendo que essas colunas não são realmente relevantes para o modelo que se deseja construir, o ideal seria: selecionar apenas as colunas desejadas para o modelo e, somente então, fazer a limpeza dos dados. Isto evitaria que várias linhas com informações relevantes fossem eliminadas pelo processo de limpeza (dropna). Repare que fazemos isso antes de selecionar os dataframes X e y (próxima etapa) para garantir que as mesmas entradas (linhas) de X e y sejam removidas e para que não haja discordância entre os números de entradas e índices das linhas dos dois dataframes.

Clicando sobre cada uma das variáveis (nome das colunas) duas vezes, podemos verificar os limites de variação de cada uma das variáveis (podemos também ir ao Console e digitar min(variável) ou max(variável), como visto). Para o modelo poder ser aplicado, as variáveis do apartamento desconhecido devem se encontrar dentro destes intervalos:

- Área: 71 a 138 m²;
- Idade do prédio: 4,5 a 15,3 anos;
- Andar: 1 a 17;
- Quartos: 2 a 4;
- Vagas: 0 a 2;
- Bairro: A, B, C;
- Piscina: Sim ou Não;

Note que possuímos duas variáveis categóricas: bairro (expressa por três classificações diferentes, A, B e C); e piscina (binária, “Sim” ou “Não”). Como visto, a aplicação do modelo de redes neurais exige que todas as variáveis sejam numéricas. Portanto, devemos converter estes valores em variáveis numéricas associadas.

Para os bairros, associamos números inteiros de 1 a 3; para a piscina, associamos o valor zero ao apartamento sem piscina, e o valor 1 ao apartamento com piscina. Primeiramente, criamos as novas colunas que receberão estes valores, fornecendo o valor zero que garante que as colunas serão numéricas.

In [None]:
"""
Selecionar colunas para o modelo e preparar os dados
"""
#as variaveis classificatorias devem ser convertidas em numericas:
#as redes neurais trabalham apenas com variaveis numericas
"""
Bairro A = 1
Bairro B = 2
Bairro C = 3

Com piscina ("Sim") = 1
Sem piscina ("Não") = 0
"""
dataset['Bairro'] = 0
dataset['Piscina'] = 0
#garante variaveis numericas no dataset

total = len(dataset)
i = 0

while (i < total):
    
    #definicao da variavel numerica correspondente ao bairro
    if (dataset.iloc[i,6] == "A"):
        dataset.loc[i,'Bairro'] = 1
    if (dataset.iloc[i,6] == "B"):
        dataset.loc[i,'Bairro'] = 2
    if (dataset.iloc[i,6] == "C"):
        dataset.loc[i,'Bairro'] = 3
    
    #definicao da variavel numerica binaria da presenca de piscina
    if (dataset.iloc[i,7] == "Sim"):
        dataset.loc[i,'Piscina'] = 1
    else:
        dataset.loc[i,'Piscina'] = 0
    
    i = i + 1

#dataframe com as variaveis do modelo: area, idade do predio, andar, quartos
#vagas, bairro, piscina
X = dataset[['área (m2)', 'idade do prédio', 'andar', 'quartos', 'vagas', 'Bairro', 'Piscina']]

#variavel resposta: preco do imovel
y = dataset['preço (R$mil)']

NOTA: Podemos selecionar agora o dataframe que receberá as variáveis preditoras do modelo, eliminando tanto a coluna “Apto” quanto as duas colunas com variáveis classificatórias. Definimos também a variável resposta do modelo supervisionado como a coluna dos valores dos apartamentos.

# 1. Divisão e aleatorização dos dados 

Vamos agora dividir os dados em dados de treino e dados de teste, como feito no primeiro módulo de regressão logística. O modelo de inteligência artificial deve ser treinado. Isso significa que fornecemos um determinado conjunto de dados ao algoritmo. O algoritmo, então, “aprende” com aqueles dados, buscando encontrar um padrão (o modelo), y = f(X).

Para avaliar se o modelo é satisfatório, precisamos testar o algoritmo. Logicamente, se usarmos todos os dados disponíveis para regredir o modelo, não sobrarão dados para testá-lo. Sendo assim, precisamos dividir os dados da variável de predição (X), juntamente com os dados da variável resposta correspondente (y) em dois conjuntos:
•	Um conjunto, geralmente com maior volume de dados, que será usado para treinar o algoritmo, de modo que ele encontre o padrão desejado;
•	Um segundo conjunto que será utilizado para testar se aquele modelo é confiável.

In [None]:
#Funcao para dividir os dados (split em treino e teste)
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
#test_size: proportion: 0.25 used for test
#test_size = 0.25 = 25% of data used for tests 
#-> then, 0.75 = 75% of data used for training the Machine Learning model

###### Vemos que os dados foram divididos de forma aleatória, reservando 25% dos dados (test_size) para os testes do modelo

# 2. Definir e treinar o modelo de redes neurais: 
Esta é a etapa mais sensível. Devemos:

- Definir se vamos trabalhar com o problema de classificação ou de regressão. A documentação para o classificador Multilayer Perceptron (rede neural, MLP) da scikit-learn se encontra em: https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html. 
- Definir o solver utilizado. Mantenha o ‘adam’ como padrão, ou selecione um outro, de acordo com a documentação da scikit-learn (https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.htm).
- Definir o número de camadas ocultas (hidden layers) e de neurônios por camada oculta. Isto é informado em hidden_layer_sizes. Caso forneça apenas um valor numérico, existirá uma única camada oculta, com um total de neurônios igual ao valor fornecido. Por exemplo: hidden_layer_sizes=100 indica que a rede será formada por uma única hidden layer contendo 100 neurônios. Caso deseje testar mais camadas ocultas, deve ser fornecida uma lista. O total de elementos desta lista será o total de hidden layers, e cada elemento da lista representará o número de neurônios de cada hidden layer. Por exemplo: hidden_layer_sizes= [100, 100] indica a existência de duas camadas ocultas, com 100 neurônios por camada. Já hidden_layer_sizes= [100, 100, 100] define a presença de 3 camadas ocultas, com 100 neurônios por camada.
- Assim, vamos utilizar uma única hidden layer com 100 neurônios, definindo: hidden_layer_sizes=100.
- Definir a função de ativação dos neurônios. Como você pode ver na documentação do MLPRegressor da sklearn, quatro funções de ativação estão disponíveis: ‘identity’, ‘logistic’, ‘tanh’, ‘relu’, sendo ‘relu’ a função de ativação padrão. Vamos utilizar a função tangente hiperbólica, fornecendo caráter não-linear aos nossos neurônios, e possibilitando a obtenção de curvas suaves (‘tanh’).
- Definir o número máximo de iterações do modelo. Vamos iniciar com max_iter=20000 (máximo de 20 mil iterações até a convergência). Caso o sistema apresente a mensagem de erro dizendo que, embora tenha sido atingido o número máximo de iterações, a convergência ainda não foi obtida, aumente este valor. À medida que o máximo de iterações aumenta, o custo computacional cresce, e o sistema leva mais tempo para fornecer a saída.
- Definir quais conjuntos de dados serão ajustados pelo modelo. Uma vez que o modelo é supervisionado, devemos fornecer as respostas y_train (já conhecidas) correspondentes aos dados usados para treinamento da rede neural (x_train).

In [None]:
#for small datasets, you may use solver = 'lbfgs'
#for large datasets, use solver = 'adam'

ann_reg = MLPRegressor(solver='adam', hidden_layer_sizes=100, activation='tanh', max_iter=20000).fit(x_train, y_train)
#hidden_layer_sizes : tuple, length = n_layers - 2, default=(100,)
#The ith element represents the number of neurons in the ith hidden layer.

#hidden_layer_sizes is the NUMBER OF NEURONS in the hidden layer.
#if only one value is provided, there will be only one hidden layer
#for more hidden layers, provide a list in hidden_layer_sizes. Each element
#of this list will be the number of neurons in each layer. Examples:
# hidden_layer_sizes  = 100 - a single hidden layer with 100 neurons
# hidden_layer_sizes=[100, 100] - 2 hidden layers with 100 neurons per layer
# hidden_layer_sizes=[100, 100, 100] - 3 hidden layers with 100 neurons per layer.

Aqui, você nota que a variável “ann_reg” é, na verdade, o próprio modelo de ANN utilizado para a regressão, que foi chamado anteriormente. Não mude este nome, a não ser que esteja trabalhando com outro modelo (note que esta variável corresponde ao termo logisticRegr que utilizamos nos modelos de regressão logística. Como mudamos o modelo, mudamos a nomenclatura para evitar confusões). É fundamental manter a coerência da nomenclatura, ou surgirão mensagens de erro.

# 3. Calcular os resultados preditos pelo modelo 

Agora que o modelo aprendeu a relação entre as entradas e as saídas, vamos checar o que ele aprendeu. Para isso, vamos fornecer novamente os valores x de treino, e avaliar qual a resposta y que ele obtém (esperamos que ela seja o mais próxima possível de y de treino).

In [None]:
y_pred = ann_reg.predict(x_train)

#number of iterations
print(ann_reg.n_iter_)
#number of layers
print(ann_reg.n_layers_)
#n_iter_no_change int, default=10
#Maximum number of epochs to not meet tol improvement.
#Only effective when solver=’sgd’ or ‘adam’ (stochastic solvers) 
#epochs: how many times each data point will be used
#epochs: numero de vezes que todo o dataset sera utilizado na backpropagation
#default: 10

Também geramos mensagens que confirmarão o total de iterações realizadas pelo modelo: print(ann_reg.n_iter_); e o número total de camadas da rede neural: print(ann_reg.n_layers_).

- Para o primeiro valor, um exemplo de saída é a informação de que foram necessárias 13211 iterações para atingir a convergência, menos que o valor máximo de 20 mil, de modo que não precisamos modificar o valor max_iter. 
- Se o total de iterações realizadas fosse exatamente igual a 20 mil, significaria que: ou o total max_iter não é suficiente para a convergência (surgiria a mensagem de erro); ou a convergência foi atingida exatamente na última iteração. Seria interessante, então, aumentar levemente o máximo de iterações para verificar se há melhora no modelo.
- O segundo resultado mostrado será o número 3, correspondente a uma camada de entrada (input layer), uma camada de saída (output layer), e uma camada oculta (hidden layer). É exatamente o que definimos quando criamos uma única camada oculta de 100 neurônios.

Note que criamos uma variável y_pred que armazena os resultados que o modelo de redes neurais gera para cada variável de treino x_train. A importância disso está no seguinte fato: nenhum modelo é perfeito, e todos os modelos estão sujeitos a falhas, assim como ocorre na regressão linear (pode haver vários pontos fora da reta). O armazenamento dos valores preditos e dos valores de treino, então, nos permitirá avaliar nas etapas seguintes o desempenho do modelo. Note nos comentários que nosso modelo já está funcional:
 
- Podemos tomar um elemento (um apartamento, no caso) com um conjunto de características X (variáveis preditoras) e aplicar a regressão.
- O resultado será um valor que representa o preço previsto para o apartamento.

# 4. Avaliação de desempenho do modelo 

No caso do problema de regressão, não faz sentido pensarmos em precisão: enquanto que na classificação o elemento pertence a uma ou a outra classe, na regressão ele pode assumir qualquer valor real. Devemos fazer como na regressão linear tradicional, na qual avaliamos a distância entre o valor predito e o valor real.

Assim, as métricas que devemos usar são outras. Aplicaremos aqui o erro quadrado médio (“mean squared error”, MSE), a sua raiz quadrada (“root mean squared error”, RMSE), o erro médio absoluto (“mean absolute error”, MAE), e o R² ajustado. O MSE é dado por:

    MSE=1/N ∑_(i=1)^N〖(y_i-y_(i,pred))²〗

Onde N é o total de dados, y_i são os valores reais de saída, e y_(i,pred) são os valores preditos pelo modelo. O RMSE, por sua vez é:

    RMSE=√MSE

Repare que o MSE é equivalente à variância, enquanto o RMSE é equivalente ao desvio-padrão populacional. 

Já o erro absoluto é dado pelo módulo da diferença entre o valor predito e o valor real. Portanto, o MAE consiste na média dos erros absolutos:
 
    MAE=1/N ∑_(i=1)^N|y_i-y_(i,pred) | 

O R² é o já conhecido coeficiente de correlação ajustado, o qual varia entre zero a 1 para o caso de um ajuste perfeito. Vimos ele no curso Green Belt, e sua definição é dada por:

    R²=1-〖SS〗_res/〖SS〗_tot 

Onde o valor médio experimental de y é:

    y ̅=1/n ∑_i^n y_i 

〖SS〗_res=SQ é a soma dos quadrados dos desvios (soma dos resíduos):

    SQ=〖SS〗_res=∑_i^n (y_i-y_(i,pred) )²

E 〖SS〗_tot é a soma total dos quadrados, proporcional à variância:

    〖SS〗_tot=∑_i^n (y_i-y ̅ )²

Para um número n de pontos na amostra (ou seja, número de dados utilizados para a regressão, o mesmo n utilizado nos cálculos anteriores); e um número k de regressores independentes, i.e., número de variáveis do modelo (excluindo-se o termo independente constante), o R² ajustado será definido como:

    〖R_adj〗^2=1-[(1-R^2 )(n-1)/(n-k-1)]

A importância deste ajuste está no fato de que cada variável independente adicionada ao modelo sempre aumenta o valor do R². Isto faz com que um modelo com múltiplas variáveis independentes aparente ter um melhor ajuste, mesmo que isso não seja verdade. Assim, o R² ajustado tem a função de compensar os efeitos de cada variável independente. Seu valor só aumentará se cada uma das variáveis efetivamente melhorar o modelo além do que é probabilisticamente possível pelo simples aumento do número de preditores.

In [None]:
#METRICS FOR TRAINING
#mean squared error- MSE
mse_train = mean_squared_error(y_train, y_pred)
#Root mean squared error - RMSE
rmse_train = np.sqrt(mse_train)
print(rmse_train)

#mean absolute error - MAE
mae_train = mean_absolute_error(y_train, y_pred)
print(mae_train)

#R²
val_r2 = r2_score(y_train, y_pred)

# n_size_train = number of sample size
# k_model = number of independent variables of the defined model

k_model = 7
#numer of X columns (variables)
n_size_train = len(y_train)
#numer of rows

Adj_r2_train = 1-(1-val_r2)*(n_size_train-1)/(n_size_train-k_model-1)
print(Adj_r2_train)

#METRICS FOR THE TESTS
y_pred_test = ann_reg.predict(x_test)
mse_test = mean_squared_error(y_test, y_pred_test)
rmse_test = np.sqrt(mse_test)
print(rmse_test)
mae_test = mean_absolute_error(y_test, y_pred_test)
print(mae_test)
val_r2_test = r2_score(y_test, y_pred_test)
n_size_test = len(y_test)
Adj_r2_test = 1-(1-val_r2_test)*(n_size_test-1)/(n_size_test-k_model-1)
print(Adj_r2_test)
#WARNING: DO NOT CALL THE VARIABLE WHICH IS SUPPOSED TO SAVE THE R2 VALUES OF
#r2_score SINCE THIS IS THE NAME OF THE COMMAND. THEY WERE NAMED AS val TO
#PREVENT ERRORS OF CALLING A NUMPY OBJECT .FLOAT64
print(val_r2_test)
#If the number of rows is lower than the number of parameters, R²adj < 0
#That happens because there are few information used (low number of data)
#use only the R²

## NOTA: k_model = número de variáveis utilizadas no modelo (requer ajuste manual)
##### Este parâmetro deve ser fornecido a cada caso para cálculo do R² ajustado 

- Repare que um único parâmetro do código acima tem que ser modificado quando você aplicar estas métricas a outros modelos. Trata-se de k_model, o qual deve ter seu valor ajustado para o número de variáveis preditoras do modelo que está sendo avaliado. 
- Neste exercício, k_model = 7, pois o modelo utiliza 7 variáveis para prever o valor do imóvel. O restante do código pode ser copiado integralmente em outros problemas: basta que os nomes das variáveis utilizadas para treino e teste sejam os mesmos.


### Exemplos de resultados e interpretações

- Para os dados de treino, o RMSE calculado é baixo, 1,86. O MAE é ainda menor, 1,07. Já o ajuste da curva é virtualmente perfeito, com R²adj igual a 0,9990.

- Para os dados de teste, o desempenho é inferior, mas se mantém alto. O RMSE calculado sobe para 59,24 e o MAE vai a 49,12. Logicamente, existe a questão da quantidade de dados utilizada nos testes, que é muito pequena, menor que o número de variáveis preditoras. Assim, o R² ajustado mostra valor negativo, e a única métrica que pode ser calculada é o R², igual a 0,58.

- NOTA: Os valores que você obterá para as métricas são ligeiramente diferentes a estes. O mesmo se dará se você reiniciar a memória e repetir o processo (i.e, você dificilmente obterá valores iguais aos anteriores). Isto ocorre como consequência do processo de divisão em dados de treino e dados de teste, pois esta etapa divide a amostra aleatoriamente.

# 5. Considerações finais e realização de previsões

Agora que já construímos o modelo e avaliamos seu desempenho, podemos utilizá-lo para precificar um imóvel. O enunciado pede, então, que façamos a precificação do seguinte apartamento:

- Área: 102 m²
- Idade do prédio: 7,2 anos
- Andar do apartamento: 8º andar
- Número de quartos: 3
- Número de vagas: 1
- Bairro: B
- Apartamento/prédio sem piscina.

Vamos seguir os mesmos passos utilizados para a regressão logística com múltiplas variáveis. As informações de entrada consistirão em uma lista, de modo que precisamos aplicar a função numpy.array() para modificar o seu formato, e obter um formato de entrada compatível com o exigido pela Scikit-learn.

Note, ainda, que todas as variáveis preditoras estão dentro dos intervalos de variáveis utilizados para a construção do modelo de redes neurais. Isto nos permite aplicar o modelo a este apartamento.

In [None]:
#If you are willing to obtain the fitting curve y_fit for the dataset, simply 
#apply the ANN to the whole dataset:
#y_fit = ann_reg.predict(X)
#X is the whole dataset

#PREDICT THE PRICE OF A GIVEN APARTMENT
#INPUT: X = dataset[['área (m2)', 'idade do prédio', 'andar', 'quartos', 'vagas', 'Bairro', 'Piscina']]
#Bairro A = 1; Bairro B = 2; Bairro C = 3
#Com piscina ("Sim") = 1; Sem piscina ("Não") = 0

area_apartamento = 102
idade_predio = 7.2
andar_apartamento = 8
n_quartos = 3
n_vagas = 1
bairro = 2
#bairro B
piscina_apart = 0
#Sem piscina

apart_analyzed = [area_apartamento, idade_predio, andar_apartamento, n_quartos, n_vagas, bairro, piscina_apart]
apart_analyzed = np.array(apart_analyzed).reshape(1, -1)
#Reshape your data either using array.reshape(-1, 1) if your data has a single 
#feature (one predictor) or array.reshape(1, -1) if it contains a single sample.
#Now we are in the case of a single sample, not a single predictor

predicted_val = ann_reg.predict(apart_analyzed)
print(predicted_val)

# Exemplo de resultado mostrado

Vemos que o valor predito para o apartamento é de 565,93 mil reais.

# 6. Análise dos fatores mais importantes para o modelo

Vamos ampliar nossa análise com base na biblioteca Shap, que utiliza a teoria dos jogos para explicar o impacto das variáveis. Assim, a análise se torna mais refinada que a simples comparação dos parâmetros da regressão logística, e é possível realizar a avaliação simultânea de interações entre os fatores. 

Isto é particularmente importante quando temos múltiplos fatores envolvidos; ou quando as ordens de grandeza das variáveis são diferentes (imagine, por exemplo, que uma variável muito elevada pode multiplicar um fator muito baixo, de modo que o efeito se torna comparável aos demais). Este recurso também possibilita avaliarmos a importância das variáveis em modelos de redes neurais. Estes modelos possuem uma quantidade muito grande de parâmetros ajustáveis e que interagem uns com os outros, o que torna inviável a simples comparação paramétrica.

Colocamos a importação da biblioteca ao fim do código para separá-la das análises anteriores.

In [None]:
import shap
from shap import KernelExplainer

shap.initjs()
explainer = KernelExplainer(ann_reg.predict, X)

shap_vals = explainer.shap_values(X)
shap_df = pd.DataFrame(shap_vals)
shap.summary_plot(shap_vals, X)

"""
Note no código acima que utilizamos todo o dataframe original X das variáveis preditoras, 
antes deste ser separado em treino e teste. Geramos um conjunto de dados shap_vals e um dataframe que armazena estes dados, 
shap_df. Por fim, geramos um gráfico correspondente, o qual é mostrado abaixo:
"""

# 7. Salvar e Carregar (Futuramente) o modelo Machine Learning

A célula a seguir é utilizada para salvar o modelo aprendido, o qual poderá ser utilizado em situações futuras.
O arquivo será salvo no endereço definido em file_address:

file_address = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 1 - Regressão Logística\Save and Load ML Models\obtained_model.pmml"

file_address armazena o local em que sera salvo o modelo. Note que o arquivo gerado se chama obtained_model.pmml

O dill permite salvar em qualquer extensao (pkl, sav, pmml, ...)

Este trecho/célula pode ser aplicado a qualquer um dos modelos a serem utilizados, regressão logística, redes neurais para regressão, e redes neurais para classificação.

In [None]:
import dill

#Definicao da pasta na qual sera salvo o arquivo:
file_address = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 1 - Regressão Logística\Save and Load ML Models\obtained_model.pmml"
#file_address armazena o local em que sera salvo o modelo
#note que o arquivo gerado se chama obtained_model.pmml
#o dill permite salvar em qualquer extensao (pkl, sav, pmml, ...)

dill.dump(ann_reg, open(file_address, 'wb'))
#aqui, modifique ann_reg pelo nome do modelo declarado. O ann_reg foi
#utilizado aqui apenas para ilustrar como salvar o modelo gerado a partir de
#um comando como ann_reg = MLPRegressor(solver='adam', hidden_layer_sizes=100, activation='tanh', max_iter=20000).fit(x_train, y_train)


# Agora vamos carregar o modelo de ML salvo
 
# supondo que o endereco do arquivo continua o mesmo, ou seja,
# file_address = 'D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 1 - Regressão Logística\finalized_model.pmml'

loaded_model = dill.load(open(file_address, 'rb'))
#Agora o modelo carregado  recebe o nome de loaded_model

# 8. Interpretação do gráfico Shap

![Capturar.PNG](attachment:Capturar.PNG)

Vamos à interpretação deste gráfico. Cada linha do gráfico representa uma das variáveis preditoras do modelo. Como temos 7 variáveis preditoras, o gráfico mostra 7 linhas. As variáveis são mostradas em ordem de importância, da mais importante para a menos importante. Sendo assim, a ordem de importância é: bairro > idade do prédio > área (m²) > andar > vagas > piscina > quartos. Note que há interações entre os fatores, o que pode aumentar a importância mesmo de variáveis que, isoladamente, aparentam resultar em menor impacto.

O impacto absoluto das variáveis é mostrado pela escala de cores: quanto mais próximo ao vermelho, mais significativa é a variável. Quanto mais azul, menos significativa ela é. Já o impacto relativo, i.e., se o efeito é positivo ou negativo, é mostrado pelo lado da barra SHAP value = 0. Valores à direita da barra representam impacto positivo, enquanto que os valores à esquerda representam impactos negativos.

##### No caso do modelo de regressão, isto representa o impacto sobre o valor final da variável prevista. Aqui, um impacto positivo representa aumento de custo do imóvel, enquanto que o impacto negativo significa queda do preço de aquisição.

1. Bairro: vários pontos possuem impacto elevado positivo (pontos vermelhos ao lado direito) sobre o modelo, e também existe um conjunto grande de dados com impacto positivo mediano (pontos roxos ao lado direito). Os pontos com impacto negativo (lado esquerdo) apresentam baixo impacto (tons azuis). Assim, dependendo do bairro onde o apartamento está situado, esta variável pode causar um grande ou médio impacto sobre o custo final de aquisição.

2. Idade do prédio: Impacto elevado negativo (vários pontos vermelhos ao lado esquerdo). Note que a quantidade de pontos roxos do lado direito (que indicariam um impacto negativo intermediário) é pequena. Assim, em geral, quanto maior a idade do prédio, maior o impacto negativo deste fator sobre a variável predita, ou seja, maior a redução que esta variável impõe ao custo do imóvel. Porém, note que existe uma faixa intermediária de pontos roxos, nas quais tanto pode ocorrer redução quanto aumento moderado dos custos. Isto sugere bastante interação com as outras variáveis do modelo.

3. Área (m²): Impacto elevado positivo (vários pontos vermelhos ao lado direito), e impacto intermediário negativo (pontos roxos do lado esquerdo). Isto indica que, para apartamentos de área elevada, quanto maior a área, maior será o custo. Já para os de pequena área, a área pode resultar em um leve efeito de redução de custo. Porém, a quantidade reduzida de pontos à esquerda sugere que este fator sofre interação com as demais variáveis do modelo.
4. Andar: Impacto elevado/intermediário positivo (vários pontos vermelhos e roxos ao lado direito), e impacto elevado negativo (pontos vermelhos do lado esquerdo). Isto indica mais uma forte interação com as outras variáveis. Assim, dependendo das demais características do apartamento, o andar pode causar grande ou moderado aumento, ou até mesmo grande redução do custo de aquisição do apartamento.

5. Vagas: Impacto elevado positivo (vários pontos vermelhos ao lado direito). Aqui claramente há aumento de custo do imóvel com o aumento do número de vagas. Note que os impactos negativos são todos de intensidade muito baixa (azul).

6. Piscina: Impacto elevado positivo (pontos vermelhos ao lado direito), e impacto elevado negativo (pontos vermelhos do lado esquerdo). Isto indica mais uma forte interação com as outras variáveis. Assim, dependendo das demais características do apartamento, a presença ou ausência de piscina pode aumentar ou reduzir o custo do imóvel.

7. Quartos: Impacto moderado positivo (pontos roxos ao lado direito), e impacto elevado/moderado negativo (pontos vermelhos e roxos do lado esquerdo). Isto indica mais uma forte interação com as outras variáveis. Aqui temos a variável com o efeito menos óbvio: dependendo das características do imóvel, o número de quartos terá efeito apenas moderado sobre o aumento de custo, mas também pode ser responsável por um efeito intenso de redução do preço de aquisição.

Desta forma, concluímos que todas as sete apresentam interações e impactos elevados ou moderados sobre o resultado do custo do imóvel. Portanto, não se deve fazer generalizações de comportamento da variável, mas sim analisar o conjunto de variáveis que define cada imóvel como um todo. 