<a href="https://colab.research.google.com/github/pablo-sampaio/espacos4.0_pe/blob/main/IA_Python_02_Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aprendizagem de M√°quina - Parte 2

No notebook anterior, vimos uma tarefa de *classifica√ß√£o*. Neste notebook, vamos resolver uma **tarefa de regress√£o**. (Lembrando que ambas s√£o formas de aprendizagem supervisionada).

> **Aten√ß√£o**: Na se√ß√£o 2, voc√™ precisa interagir para baixar um arquivo de outro site e fazer o *upload* para o Colab.

## 1 - Importa√ß√µes

Abaixo, importamos v√°rios m√≥dulos. Alguns destaques:
- o m√≥dulo **pandas** serve para criar e processar *tabelas*
- o m√≥dulo **seaborn** (e **matplotlib.pyplot**?) serve para criar gr√°ficos
- o **sklearn** √© o mesmo que j√° usamos antes e serve para criar v√°rios modelos de aprendizagem de m√°quina (falaremos dos modelos na se√ß√£o 4)

In [None]:
from google.colab import files
import math

import pandas as pd
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn import metrics

from sklearn.linear_model import LinearRegression
from sklearn.neural_network import MLPRegressor

#%matplotlib inline

## 2 - Carregando os Dados


V√° em: 
https://www.kaggle.com/datasets/quantbruce/real-estate-price-prediction?resource=download

E clique me **Download**. Baixe o arquivo, que dever√° ter o nome **archive.zip**.

Depois, fa√ßa o seguinte:
1. Execute a c√©lula abaixo
1. Clique em "Escolher arquivos"
1. Localize e selecione o arquivo **archive.zip**, que voc√™ baixou.
1. Clique **Abrir**.

Isso vai fazer o *upload* do arquivo para o espa√ßo de arquivos do Colab.


In [None]:
arquivos = files.upload()

In [None]:
print("Arquivos carregados:", list(arquivos.keys()))

A linha abaixo vai descompactar o arquivo. Dever√° ser criado o arquivo **Real estate.csv** na √°rea de arquivos do Colab.

In [None]:
!unzip archive.zip

A seguir, vamos carregar o arquivo como um dado DataFrame, que √© um tipo de tabela.

In [None]:
df = pd.read_csv("Real estate.csv", index_col="No")

In [None]:
df

## 3 - Explorando os Dados

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
sns.scatterplot(data=df, x="X6 longitude", y="Y house price of unit area")

In [None]:
sns.pairplot(df)

A seguir, vamos separar as colunas de entrada (que ficar√° na vari√°vel **x**) da coluna de sa√≠da/alvo (que ficar√° no **y**).

In [None]:
x = df.drop(columns='Y house price of unit area')

y = df['Y house price of unit area']

In [None]:
x

In [None]:
print("Dados de entrada (x) :", x.shape)
print("Dados de sa√≠da (y) :", y.shape)

## 4 - Dividindo em Dados de Treinamento e Teste

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=101)

In [None]:
y_train

In [None]:
x_test.shape

## 5 - Criando e Treinando um Modelo 1: Regress√£o Linear

In [None]:
modelo1 = LinearRegression()

In [None]:
modelo1.fit(x_train, y_train)

Fazendo uma previs√£o (prevendo o valor de uma casa para uma dada entrada):

In [None]:
saida = modelo1.predict([[2012.83, 5.0, 390, 5, 24.97, 121.54]])

In [None]:
saida

Fazendo m√∫ltiplas previs√µes:

In [None]:
y_pred1 = modelo1.predict(x_test)

In [None]:
x_test

In [None]:
y_pred1

### 5.1 Analisando os Coeficientes

In [None]:
x.columns

In [None]:
modelo1.coef_

## 6 - Criando e Treinando o Modelo 2: Rede Neural

Vamos treinar uma *rede neural* MLP, representada abaixo.

![Drag Racing](https://www.i2tutorials.com/wp-content/media/2019/05/Hidden-layrs-1-i2tutorials.jpg)

Na cria√ß√£o da rede neural MLP para regress√£o, voc√™ pode escolher a quantidade de camadas escondidas e quantos neur√¥nios elas ter√£o. No exemplo abaixo, criamos uma rede com duas camadas de 100 cada. 

In [None]:
modelo2 = MLPRegressor(hidden_layer_sizes=(100,100), max_iter=500)

In [None]:
modelo2.fit(x_train, y_train)

In [None]:
y_pred2 = modelo2.predict(x_test)

In [None]:
y_pred2

## 7 - Avaliando

Par avaliar, temos que comparar as previs√µes feitas pelos modelos, com os valores reais de sa√≠da dos dados de teste.

In [None]:
y_test

Uma an√°lise b√°sica consiste em analisar a diferen√ßa entre cada previs√£o e o valor real. Os comandos abaixo calculam isso.

In [None]:
y_test - y_pred1

In [None]:
y_test - y_pred2

Uma maneira melhor consiste em usar m√©tricas para avaliar a qualidade das sa√≠das retornadas. Vamos comparar usando estas tr√™s *m√©tricas de avalia√ß√£o*:

> - **Erro Absoluto M√©dio** (Mean Absolute Error - **MAE**) √© a m√©dia dos valores absolutos dos erros:
$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

> - **Erro M√©dio Quadrado** (Mean Squared Error - **MSE**) √© a m√©dia dos erros quadrados:
$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

> - **Raiz do Erro M√©dio Quadrado** (Root Mean Squared Error - **RMSE**) √© apenas a raiz quadrada da m√©trica anterior:
$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

> üìå Comparando as m√©tricas:
- **MAE** √© a mais f√°cil de entender.
- **MSE** √© uma m√©trica que "pune" erros grandes, √© mais usada no mundo real.
- **RMSE** como a m√©trica anterior, com a vantagem de deixar na mesma unidade de medida do 'y'.



In [None]:
mae = metrics.mean_absolute_error(y_test, y_pred1)
mse = metrics.mean_squared_error(y_test, y_pred1)
rmse = math.sqrt(mse)

print("Resultados do Modelo 1 (regress√£o linear)")
print("- MAE :", mae)
print("- MSE :", mse)
print("- RMSE :", rmse)

In [None]:
mae = metrics.mean_absolute_error(y_test, y_pred2)
mse = metrics.mean_squared_error(y_test, y_pred2)
rmse = math.sqrt(mse)

print("Resultados do Modelo 2 (rede neural)")
print("- MAE :", mae)
print("- MSE :", mse)
print("- RMSE :", rmse)

# Refer√™ncias

- baseado no notebook: https://www.kaggle.com/code/aminizahra/linear-regression