<a href="https://colab.research.google.com/github/ITA-LOW/MTM3587-08222-2021-2-Aprendizado-de-Maquina/blob/main/Boston_Housing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto Boston Housing




## Objetivos do projeto
* Descrição do conjunto de dados;
* Separação do conjunto em treino e teste;
* Visualização do conjunto de dados (análise exploratória básica);
* Preparação do conjunto de dados;
* Comparar ao menos 3 modelos de machine learning e algumas configuração de hiperparâmetros, justificando a escolha do melhor modelo;
* Você deve ainda justificar a escolha da métrica utilizada;
* Deve discutir a técnica utilizada para validar o modelo e deve explicar como que o seu modelo evita o "snooping bias/data leakage";
* Fazer teste final para obter um erro aproximado.

##Roteiro
1. Conhecendo o conjunto de dados;

  1.1. Visualização dos dados;
2. Implementando o algoritmo de regressão linear;

  2.1. Analisando as métricas de performance do modelo;
3. Implementando o algoritmo de SGDClassifier;

  3.1 Analisando as métricas de performance do modelo;
4. Implementando mais um algoritmo;

  4.1 Analisando as métricas de performance do modelo;

#1. Conhecendo o conjunto de dados
O Boston Housing é um conjunto de dados para prática de machine learning bastante explorado para fins educacionais. São constituição pode ser vista abaixo.

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
boston = load_boston()
#Apesar da mensagem alertando sobre problemas éticos no conjunto de dados
#tentarei seguir a análise com esse dataset pois o conjunto sugerido
#na mensagem não mostra a relação das features com o target!


In [139]:
import seaborn as sns #biblioteca para visualização de dados
import matplotlib.pyplot as plt #biblioteca para criação de gráficos
%matplotlib inline

Vamos analisar o conjunto de dados

In [140]:
type(boston)
#o termo bunch pode ser interpretado como dicionário, ou seja, seus
#dados são estruturados como dicionários (key:value)

sklearn.utils.Bunch

In [141]:
boston.keys()
#retorna as chaves onde estão guardados os valores

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename', 'data_module'])

In [None]:
print(boston.DESCR)
#a chave DESCR mostra como os dados estão organizados

In [None]:
print(boston.feature_names)
#aqui é mostrado quais são as features, note que MEDV não está aqui
#pois ela é nosso target (y)

In [None]:
data = boston.data
data.shape
#aqui são os dados relacionais do conjunto, aloquei na variável "data" para 
#facilitar a construção do dataframe. Terá 506 linhas com 13 colunas

In [145]:
#Esse é o dataframe com as variáveis independentes ['CRIM', 'ZN', 'INDUS', '...]
#que são relacionadas com o target [data]
df_x = pd.DataFrame(data = data, columns = boston.feature_names)

#Esse é o dataframe com as variáveis dependentes [target]
df_y = pd.DataFrame(boston.target)

#Os 2 dataframes foram mantidos separados para não haver snooping bias/data leakage

Vamos conferir como ficou o dataframe df_x

In [None]:
df_x.describe()
#mostra as estatísticas principais do conjunto

In [None]:
df_x.info()
#info mostra o tipo de dados e se há algum valor nulo no dataset


Vamos conferir como ficou o dataframe df_y

In [None]:
#É possível ver valores que podem ser considerados outliers porém não
#serão tratados, vamos ver como a máquina tratará esses valores
df_y.boxplot()
plt.show()

## 1.1 Visualização dos dados
Uma forma interessante de conhecer os dados é trabalhando suas abstrações através de gráficos. Com um conjunto de dados volumoso é possível que certos padrões não possam ser identificados apenas olhando as estatísticas.

In [None]:
#Criei um dataframe com o target incluído para analisar como o target se
#relaciona com as features. Não será usado para o modelo de ML
DF_X = pd.DataFrame(data = data, columns= boston.feature_names)
DF_X['PREÇO'] = boston.target
sns.pairplot(DF_X)
#Com essa distribuição podemos ver que existe uma visível correlação entre o 
#target e as features "RM" e "LSTAT". 


In [None]:
#Abaixo os gráficos de 'RM' e 'LSTAT' mostram boa distribuição gaussiana 
sns.displot(DF_X['RM'])
sns.displot(DF_X['LSTAT'])



#2. Implementando o algoritmo de regressão linear
Vamos iniciar o modelo de regressão linear do SKlearn

In [119]:
#Criando os conjuntos de treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_x, df_y, test_size = 0.30, random_state=42)

X_train.shape, X_test.shape #Mostra a distribuição dos pontos de dados

((354, 13), (152, 13))

In [120]:
#Vamos carregar o modelo da biblioteca
from sklearn.linear_model import LinearRegression

In [121]:
#Vamos criar um objeto e instanciá-lo em LinearRegression
from sklearn import linear_model
reg = linear_model.LinearRegression()

In [122]:
#Vamos ajustar o conjunto de treino ao modelo de regressão linear criado
reg.fit(X_train, y_train)

LinearRegression()

In [131]:
#Realizando as predições dentro do conjunto de testes
linear_pred = reg.predict(X_test)

##2.1. Analisando as métricas de performance do modelo

In [137]:
#Verificando as métricas de desempenho
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
r2 = r2_score(y_test, linear_pred)
mse = mean_squared_error(y_test, linear_pred)
mae = mean_absolute_error(y_test, linear_pred)
rmse = np.sqrt(mse)
print('\nR2 = {} \nMSE = {} \nMAE = {} \nRMSE = {}'.format(r2,mse,mae, rmse))


R2 = 0.7112260057484974 
MSE = 21.5174442311769 
MAE = 3.1627098714573685 
RMSE = 4.638689926172788



* <h2>Métricas</h2>
1.  <h4>Coeficiente de determinação $R^2$</h4>
O coeficiente de e determinação indica quanto a variável dependente $y$ pode ser explicada a partir do modelo de regressão. Varia de 0 a 1. No caso desse modelo, o valor de $R^2$ foi 0,71 ou 71% dos valores de $y$ puderam ser explicados pelo modelo. O $R^2$ é calculado da seguinte maneira: 
$$\displaystyle R^{2} =1-\frac{\sum _{i=1}^{n}( y_i-\hat{y_i})^{2}}{\sum _{i=1}^{n}(\hat{y_i} -\overline{y_i})^{2}}$$ 
onde: $\hat{y}-\overline{y}$ é a diferença do valor previsto pelo valor médio real, que quanto menor, mais fiel a realidade estará o modelo.

1. <h4>Erro quadrado médio</h4>O erro quadrado médio é a média da soma de todas as "distâncias" que o valor previsto $\hat{y}$ ficou do valor real (por isso é dividido por $n$. Está ao quadrado pois alguns valores previstos ficam abaixo do valor real, ou seja, existem números negativos nessa soma que se não fossem corrigidos retornariam um MSE = 0. O MSE é calculado da seguinte forma:
$$MSE=\frac{1}{n} {\sum\limits _{i=1}^{n} (\hat{y_i}-y_i)^2} $$
 Quanto menor esse valor, mais próximo nossa predição se aproximou do valor real. No caso desse modelo o MSE ficou em 21,5. É uma boa métrica mas precisa vir acompanhada do RMSE para que essa média reproduza os valores previstos na mesma dimensão dos valores reais.

3. <h4>Raiz do MSE</h4> É a raiz quadrada do MSE, mostra o valor previsto na mesma dimensão do valor real. Nesse modelo, o RMSE foi de 4,6 o que significa que a máquina errou em U$4600 em média o valor do imóvel.

2. <h4>Erro absoluto médio</h4>É a soma do módulo de todas as diferenças entre os valores reais menos os valores previstos divididos pela quantidade de amostras:
$$MAE=\frac{1}{n} {\sum\limits _{i=1}^{n} |y_i-\hat{y_i}|} $$
Esse valor também é uma métrica de desempenho por mostrar a média de erro entre o valor predito e o valor real. No caso desse modelo ficou em 3,16 o que é bem próximo do valor de MSE.


#3. Implementando o algoritmo de Regressão Ridge

In [216]:
#Importando e instanciando
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_x, df_y, test_size = 0.30, random_state=42)

from sklearn import linear_model
rid = linear_model.Ridge(alpha=.001)
rid.fit(X_train, y_train)

Ridge(alpha=0.001)

In [217]:
#Realiando as previsões
Ridge_pred = rid.predict(X_test)

In [218]:
#Analisando as métricas
ridge_r2_score = r2_score(y_test, Ridge_pred)
print(ridge_r2_score)

0.711216928951723


## 3.1 Analisando as métricas de performance do modelo

In [None]:
#Vou testar alguns valores de alpha para verificar a performance
lista_alpha=[0.0001, 0.001, 0.01, 0.1, 1, 10]
r2=[]
MSE=[]
MAE=[]
for alpha in lista_alpha:
  rid = linear_model.Ridge(alpha = alpha)
  rid.fit(X_train, y_train)
  Ridge_pred = rid.predict(X_test)
  r2.append(r2_score(y_test, Ridge_pred))
  MSE.append(mean_squared_error(y_test, Ridge_pred))
  MAE.append(mean_absolute_error(y_test, Ridge_pred))

param = pd.DataFrame(list(zip(lista_alpha, r2, MSE, MAE)), columns=['alpha','r2','MSE','MAE'])
param

É possível verificar que os valores mudam pouco em relação ao parâmetro de regularização alpha. Na regressão Ridge, alpha é um penalizador conhecido como L2, ajudando a evitar o sobreajuste do modelo. Quanto maior o valor de alpha, mais pesada é a penalização. Nesse modelo, mesmo com valores exponencialmente grandes, a performance da máquina em relação ao coeficiente de determinação se manteve por volta de 70%.

#4. Implementando o algoritmo de Regressão Huber

In [None]:
#Testando o algoritmo HuberRegressor
from sklearn.linear_model import HuberRegressor
lista_epsilon=[1, 1.2, 1.4, 1.6, 1.8, 2, 3]
hub_r2=[]
hub_MSE=[]
hub_MAE=[]

for e in lista_epsilon:
  hub = HuberRegressor(epsilon = e)
  hub.fit(X_train, y_train)
  hub_pred = hub.predict(X_test)
  hub_r2.append(r2_score(y_test, hub_pred))
  hub_MSE.append(mean_squared_error(y_test, hub_pred))
  hub_MAE.append(mean_absolute_error(y_test, hub_pred))

paramh = pd.DataFrame(list(zip(lista_epsilon, hub_r2, hub_MSE, hub_MAE)), columns=['epsilon','r2','MSE','MAE'])
paramh


##4.1 Analisando as métricas de performance do modelo

Apesar de performance não ser parecida com a regressão linear e Ridge, esse algoritmo conseguiu bons resultados quando seu parâmetro épsilon é 1.4. Segundo a documentação do SKlearn, esse algoritmo tem por característica penalizar conjunto de dados com muitos outliers de maneira mais robusta que era o caso do Boston Housing.

#5. Métricas
As métricas $R^2$, MAE e MSE são amplamente aplicadas em diversas áreas de conhecimento que utilizam dados estatísticos, são estudadas a muitos anos e, por isso, são muito confiáveis. A escolha dessas métricas se baseou nesse histórico.

#6. Considerações finais
Após os testes realizados e comparando os resultados obtidos, o que melhor poderia performar no mundo real seria o Modelo de Regressão Linear que foi apresentado primeiro. Segundo o princípio da Navalha de Ockhan, o modelo mais simples mas que reproduz os mesmos resultados dos modelos mais complexos deve ser o melhor modelo.

No entanto, o último modelo, HuberRegressor, que tem por característica penalizar mais fortemente conjunto de dados com possíveis outliers, também pode ser objeto de análise. 

#7. Referências
1. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.HuberRegressor.html#sklearn.linear_model.HuberRegressor

2. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression

3. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge

4. MÜLLER, Andreas C.; GUIDO, Sarah. Introduction to Machine Learning with Python: a guide for data scientists. Sebastopol: O’reilly Media, 2016.

5. https://github.com/EdsonCilos/mlcourse

#8. Roteiro
Seguindo o roteiro foi possível alcançar os seguintes objetivos:
* Descrição do conjunto de dados ✔
* Separação do conjunto em treino e teste ✔
* Visualização do conjunto de dados (análise exploratória básica) ✔
* Preparação do conjunto de dados ✔
* Comparar ao menos 3 modelos de machine learning e algumas configuração de hiperparâmetros, justificando a escolha do melhor modelo ✔
* Você deve ainda justificar a escolha da métrica utilizada ✔
* Deve discutir a técnica utilizada para validar o modelo e deve explicar como que o seu modelo evita o "snooping bias/data leakage" ✔
* Fazer teste final para obter um erro aproximado ✔