<a href="https://colab.research.google.com/github/pablo-sampaio/espacos4.0_pe/blob/main/IA_Python_02_Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aprendizagem de Máquina - Parte 2

No notebook anterior, vimos uma tarefa de *classificação*. Neste notebook, vamos resolver uma **tarefa de regressão**. (Lembrando que ambas são formas de aprendizagem supervisionada).

> **Atenção**: Na seção 2, você precisa interagir para baixar um arquivo de outro site e fazer o *upload* para o Colab.

## 1 - Importações

Abaixo, importamos vários módulos. Alguns destaques:
- o módulo **pandas** serve para criar e processar *tabelas*
- o módulo **seaborn** (e **matplotlib.pyplot**?) serve para criar gráficos
- o **sklearn** é o mesmo que já usamos antes e serve para criar vários modelos de aprendizagem de máquina (falaremos dos modelos na seção 4)

In [None]:
from google.colab import files
import math

import pandas as pd
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn import metrics

from sklearn.linear_model import LinearRegression
from sklearn.neural_network import MLPRegressor

#%matplotlib inline

## 2 - Carregando os Dados


Vá em: 
https://www.kaggle.com/datasets/quantbruce/real-estate-price-prediction?resource=download

E clique me **Download**. Baixe o arquivo, que deverá ter o nome **archive.zip**.

Depois, faça o seguinte:
1. Execute a célula abaixo
1. Clique em "Escolher arquivos"
1. Localize e selecione o arquivo **archive.zip**, que você baixou.
1. Clique **Abrir**.

Isso vai fazer o *upload* do arquivo para o espaço de arquivos do Colab.


In [None]:
arquivos = files.upload()

In [None]:
print("Arquivos carregados:", list(arquivos.keys()))

A linha abaixo vai descompactar o arquivo. Deverá ser criado o arquivo **Real estate.csv** na área de arquivos do Colab.

In [None]:
!unzip archive.zip

A seguir, vamos carregar o arquivo como um dado DataFrame, que é um tipo de tabela.

In [None]:
df = pd.read_csv("Real estate.csv", index_col="No")

In [None]:
df

## 3 - Explorando os Dados

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
sns.scatterplot(data=df, x="X6 longitude", y="Y house price of unit area")

In [None]:
sns.pairplot(df)

A seguir, vamos separar as colunas de entrada (que ficará na variável **x**) da coluna de saída/alvo (que ficará no **y**).

In [None]:
x = df.drop(columns='Y house price of unit area')

y = df['Y house price of unit area']

In [None]:
x

In [None]:
print("Dados de entrada (x) :", x.shape)
print("Dados de saída (y) :", y.shape)

## 4 - Dividindo em Dados de Treinamento e Teste

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=101)

In [None]:
y_train

In [None]:
x_test.shape

## 5 - Criando e Treinando um Modelo 1: Regressão Linear

In [None]:
modelo1 = LinearRegression()

In [None]:
modelo1.fit(x_train, y_train)

Fazendo uma previsão (prevendo o valor de uma casa para uma dada entrada):

In [None]:
saida = modelo1.predict([[2012.83, 5.0, 390, 5, 24.97, 121.54]])

In [None]:
saida

Fazendo múltiplas previsões:

In [None]:
y_pred1 = modelo1.predict(x_test)

In [None]:
x_test

In [None]:
y_pred1

### 5.1 Analisando os Coeficientes

In [None]:
x.columns

In [None]:
modelo1.coef_

## 6 - Criando e Treinando o Modelo 2: Rede Neural

Vamos treinar uma *rede neural* MLP, representada abaixo.

![Drag Racing](https://www.i2tutorials.com/wp-content/media/2019/05/Hidden-layrs-1-i2tutorials.jpg)

Na criação da rede neural MLP para regressão, você pode escolher a quantidade de camadas escondidas e quantos neurônios elas terão. No exemplo abaixo, criamos uma rede com duas camadas de 100 cada. 

In [None]:
modelo2 = MLPRegressor(hidden_layer_sizes=(100,100), max_iter=500)

In [None]:
modelo2.fit(x_train, y_train)

In [None]:
y_pred2 = modelo2.predict(x_test)

In [None]:
y_pred2

## 7 - Avaliando

Par avaliar, temos que comparar as previsões feitas pelos modelos, com os valores reais de saída dos dados de teste.

In [None]:
y_test

Uma análise básica consiste em analisar a diferença entre cada previsão e o valor real. Os comandos abaixo calculam isso.

In [None]:
y_test - y_pred1

In [None]:
y_test - y_pred2

Uma maneira melhor consiste em usar métricas para avaliar a qualidade das saídas retornadas. Vamos comparar usando estas três *métricas de avaliação*:

> - **Erro Absoluto Médio** (Mean Absolute Error - **MAE**) é a média dos valores absolutos dos erros:
$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

> - **Erro Médio Quadrado** (Mean Squared Error - **MSE**) é a média dos erros quadrados:
$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

> - **Raiz do Erro Médio Quadrado** (Root Mean Squared Error - **RMSE**) é apenas a raiz quadrada da métrica anterior:
$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

> 📌 Comparando as métricas:
- **MAE** é a mais fácil de entender.
- **MSE** é uma métrica que "pune" erros grandes, é mais usada no mundo real.
- **RMSE** como a métrica anterior, com a vantagem de deixar na mesma unidade de medida do 'y'.



In [None]:
mae = metrics.mean_absolute_error(y_test, y_pred1)
mse = metrics.mean_squared_error(y_test, y_pred1)
rmse = math.sqrt(mse)

print("Resultados do Modelo 1 (regressão linear)")
print("- MAE :", mae)
print("- MSE :", mse)
print("- RMSE :", rmse)

In [None]:
mae = metrics.mean_absolute_error(y_test, y_pred2)
mse = metrics.mean_squared_error(y_test, y_pred2)
rmse = math.sqrt(mse)

print("Resultados do Modelo 2 (rede neural)")
print("- MAE :", mae)
print("- MSE :", mse)
print("- RMSE :", rmse)

# Referências

- baseado no notebook: https://www.kaggle.com/code/aminizahra/linear-regression