# 1 - Existem 2 tipos de Algoritmos de Machine Learning para Mineração de Dados:

## 1.1 - Algoritmos Supervisionados:

- Possuem uma classe alvo.
- Servem para criar um modelo de previsão (regressão) ou classificação a partir de dados de entrada e saída conhecidos.
- Baseiam-se em dados de treinamento rotulados para fazer previsões precisas sobre dados futuros ou não vistos.
- Exemplos de algoritmos supervisionados incluem: regressão linear, regressão logística, máquinas de vetores de suporte (SVM), árvores de decisão, florestas aleatórias e redes neurais.

## 1.2 - Algoritmos Não Supervisionados:

- Não possuem uma classe alvo.
- Servem para encontrar padrões e relacionamentos ocultos em dados sem rótulos.
- Usam técnicas como agrupamento (clustering) e detecção de anomalias para entender a estrutura e distribuição de dados.
- Exemplos de algoritmos não supervisionados incluem: K-means, hierarchical clustering, DBSCAN, autoencoders e ``detecção de anomalias baseada em densidade``.


# 1.1 - Algoritmos Supervisionados para Classificação e Previsão (Regressão):

## Classificação:

- A classificação é uma tarefa de aprendizado supervisionado que usa um algoritmo para identificar a categoria a que uma nova observação pertence, com base em um conjunto de treinamento de dados que contém observações cujas categorias são conhecidas.
- O objetivo da classificação é prever rótulos categóricos, por exemplo, se um e-mail é 'spam' ou 'não spam'.
- Na classificação, o resultado é uma variável discreta (categórica). Exemplos incluem a identificação de espécies de flores a partir de medidas de pétalas ou a previsão se um tumor é benigno ou maligno.

### Exemplos de algoritmos de classificação:
- Logistic Regression
- Naive Bayes
- Decision Trees
- Random Forest
- Gradient Boosting algorithms (like XGBoost and LightGBM)
- Support Vector Machines (SVM)
- Nearest Neighbors
- Neural Networks (Redes Neurais)

## Previsão (Regressão):

- A regressão é outro tipo de aprendizado supervisionado que prevê uma saída contínua. Isso significa que os algoritmos de regressão são usados para prever um valor numérico, como o preço de uma casa baseado em suas características, ou a provável progressão de uma doença baseada em dados de saúde do paciente.
- O objetivo da regressão é prever valores numéricos contínuos, como o preço de uma casa.
- Na regressão, o resultado é uma variável contínua. Exemplos incluem a previsão do tempo que levará para um software ser concluído ou a previsão do preço futuro de um produto.

### Exemplos de algoritmos de regressão:
- Linear Regression
- Polynomial Regression
- Support Vector Regression
- Decision Trees
- Random Forest
- Gradient Boosting algorithms (like XGBoost and LightGBM)
- Ridge Regression
- Lasso Regression
- Neural Networks (Redes Neurais)


### Limitações e desafios das tarefas de classificação e regressão em mineração de dados
Embora a classificação e regressão sejam técnicas poderosas da mineração de dados, elas também apresentam algumas limitações e desafios. Algumas das principais são:

1.	`Disponibilidade de dados`: as tarefas de classificação e regressão exigem uma quantidade significativa de dados de treinamento para construir modelos confiáveis e precisos. Se os dados disponíveis são limitados ou incompletos, pode ser difícil criar um modelo com alta acurácia.

2.	`Overfitting`: é o fenômeno em que o modelo é ajustado em excesso aos dados de treinamento, tornando-o menos preciso ao fazer previsões em dados desconhecidos. Isso pode ocorrer quando o modelo é muito específico para os dados de treinamento e não consegue capturar as variações dos dados novos e desconhecidos.

3.	`Desequilíbrio de classes`: algumas tarefas de classificação podem ter um desequilíbrio nas classes, o que significa que uma classe pode ter muito mais exemplos do que outra. Isso pode levar a um viés do modelo em favor da classe majoritária e a uma baixa precisão na previsão da classe minoritária.

# Importância da Normalização

## Classificação:

- **Escalas Uniformes**: Os recursos podem ter diferentes escalas. Por exemplo, a idade varia de 0 a 100, enquanto os salários podem variar de mil a milhões. Os algoritmos de Machine Learning geralmente não funcionam bem com recursos de escalas variadas.

- **Velocidade de Convergência**: Muitos algoritmos de Machine Learning usam métodos de gradiente para encontrar o mínimo da função de perda. Se os recursos não forem normalizados, alguns gradientes podem desaparecer e o algoritmo levará mais tempo para convergir.

- **Interpretabilidade**: Quando as variáveis estão na mesma escala, podemos comparar diretamente a importância dos coeficientes para cada recurso na predição do resultado.

## Regressão:

- **Os mesmos pontos mencionados acima se aplicam à regressão**. Além disso, em modelos de regressão, normalmente normalizamos/escalamos o alvo (y) além das características (X) por razões adicionais:

  - **Preservação de relações estatísticas**: Ao normalizar as variáveis, preservamos as relações estatísticas (como a correlação) entre as variáveis, o que pode ser crucial para certos tipos de modelos de regressão.

  - **Evitar problemas numéricos**: Para modelos que usam otimização baseada em gradiente (como redes neurais), ter um alvo de escala muito grande pode levar a problemas numéricos durante o processo de otimização.

  - **Garantir coerência**: Como na classificação, ter características e alvos na mesma escala pode tornar o processo de treinamento mais eficiente e os resultados mais fáceis de interpretar.


# Classificação

### O arquivo NPZ:

- É um formato de arquivo usado pelo NumPy, uma biblioteca popular em Python para computação numérica.
- 'NPZ' significa 'NumPy Zipped'.
- É uma maneira eficiente de armazenar múltiplos arrays NumPy em um único arquivo.
- Pode ser usado para armazenar grandes conjuntos de dados de maneira compacta, mas acessível, para análises de dados.
- Quando carregados, os arrays NPZ são armazenados em um objeto de tipo dicionário.
- Permite o acesso direto a qualquer array contido no arquivo sem a necessidade de carregar o arquivo inteiro na memória, o que é útil para trabalhar com conjuntos de dados grandes.
- O arquivo NPZ é útil para cenários onde os dados precisam ser salvos e recuperados da memória em disco.


In [None]:
import numpy as np

In [None]:
data = np.load('roupas.npz')

# Podemos acessar os conjuntos de dados com:
X_train = data['X_train']
y_train = data['y_train']
X_val = data['X_val']
y_val = data['y_val']
X_test = data['X_test']
y_test = data['y_test']

In [None]:
# Nossos dados já estão normalizados
X_train.max()

In [None]:
X_train.min()

In [None]:
# Os valores de pixel da nossa primeira imagem
X_train[0]

In [None]:
X_train.shape

In [None]:
# Nosso input shape
X_train.shape[1:]

In [None]:
y_train

In [None]:
# Retorna a classificação da primeira imagem de treinamento
y_train[0]

In [None]:
# Retorna o total de classes existentes (Valor do nosso neurônio de saída)
len(y_train[0])

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense
from tensorflow.keras.callbacks import EarlyStopping

In [None]:
# Inicialização do modelo sequencial.
model = Sequential()

# Primeira camada: Converte a matriz de entrada 2D (28, 28) em um vetor 1D (784).
model.add(Flatten(input_shape=(28, 28)))

# Segunda camada: Camada Densa (Fully-Connected) com 128 neurônios e ativação ReLU.
model.add(Dense(128, activation='relu'))

# Do terceiro ao nono nível: Camadas Densas com 64 neurônios e ativação ReLU.
for _ in range(7):
    model.add(Dense(64, activation='relu'))

# Décima camada: Camada Densa de saída com 10 neurônios (um para cada classe) e ativação Softmax.
model.add(Dense(10, activation='softmax'))

# Configuração da compilação do modelo, com otimizador Adam, perda de entropia cruzada categórica 
# (adequado para problemas de classificação multiclasse) e métrica de precisão.
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Configuração do EarlyStopping para monitorar a perda de validação e parar o treinamento quando 
# ela não melhora após 5 épocas (patience=5), evitando assim o overfitting.
early_stop = EarlyStopping(monitor='val_accuracy', patience=5)

In [None]:
# Treinando o modelo nos dados de treinamento, com validação nos dados de validação, para 50 épocas, 
# em lotes de 128 amostras e usando o callback de EarlyStopping.
history = model.fit(X_train, y_train, 
                    validation_data=(X_val, y_val), 
                    epochs=50, 
                    batch_size=128, 
                    callbacks=[early_stop])


In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns

# Plotando a acurácia
plt.figure(figsize=(14, 5))
plt.subplot(1, 2, 1)
plt.plot(history.history['accuracy'], label='Training Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.title('Accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()

# Plotando a perda
plt.subplot(1, 2, 2)
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()


In [None]:
# Previsões do modelo para o conjunto de teste
y_pred = model.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)

class_names = ['Camiseta', 'Calça', 'Suéter', 'Vestido', 'Casaco',
               'Sandália', 'Camisa', 'Tênis', 'Bolsa', 'Botas']

# Converte os rótulos one-hot de volta para o formato de classe
y_test_classes = np.argmax(y_test, axis=1)

# Calcula a matriz de confusão
conf_mat = confusion_matrix(y_test_classes, y_pred_classes)

plt.figure(figsize=(10, 5))
sns.heatmap(conf_mat, annot=True,  xticklabels=class_names, yticklabels=class_names)
plt.title('Confusion Matrix')
plt.xlabel('Predicted Class')
plt.ylabel('True Class')
plt.show()

print(classification_report(y_test_classes, y_pred_classes, target_names=class_names))

# Regressão

In [None]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

In [None]:
df = pd.read_csv('notebooks.csv')
# Exibe a quantidade de valores núlos 
df.isna().sum()

In [None]:
# Lista as colunas de valores textuais
colunas_textuais = df.select_dtypes(include='object').columns.tolist()
colunas_textuais

In [None]:
# Loop que percorre todas colunas textuais e transforma em valores numéricos
le = LabelEncoder()
for col in colunas_textuais:
    df[col] = le.fit_transform(df[col])

In [None]:
df.select_dtypes(include='object').columns.tolist()

In [None]:
df

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Normaliza X e y usando MinMaxScaler
X = df.drop('valor', axis = 1)
y = df[['valor']]

scaler = MinMaxScaler()
X = scaler.fit_transform(X)
y = scaler.fit_transform(y)

# Separa X e y em conjuntos de treinamento (70%), validação (15%) e teste (15%)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.7, random_state=42)
X_test, X_val, y_test, y_val = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

In [None]:
X_train.shape[1:]

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.callbacks import EarlyStopping


In [None]:
# Inicializa um modelo sequencial
model = Sequential()

# Adiciona a camada de entrada
# A camada de entrada requer a forma de entrada (input_shape) dos dados. Neste caso, é (28, 28).
model.add(Dense(128, activation='relu', input_shape=(15, )))

# Adiciona camadas ocultas
# Estamos usando a função de ativação 'relu', que é comum em redes neurais porque ajuda a mitigar o problema do desaparecimento do gradiente.
for _ in range(8):
    model.add(Dense(128, activation='relu'))

# Adiciona a camada de saída
# Como estamos resolvendo um problema de regressão, usamos a função de ativação 'linear'.
model.add(Dense(1, activation='linear'))

# Compila o modelo
# O otimizador Adam é usado por causa de sua eficiência.
# Estamos usando o erro quadrático médio (mean squared error) como função de perda, que é comum para problemas de regressão.
model.compile(optimizer='adam', loss='mean_squared_error')

# Configuração de Early Stopping
# A paciência é o número de épocas para esperar para ver se a perda de validação melhora. 
# Estamos usando 'val_loss' como a quantidade a ser monitorada, portanto, o treinamento parará se não houver melhoria na perda de validação após 3 épocas consecutivas.
early_stopping = EarlyStopping(monitor='val_loss', patience=15)


In [None]:
# Treina o modelo
# O número de épocas é o número de vezes que o algoritmo de aprendizado verá todo o conjunto de dados.
# Ajustamos o tamanho do batch para 32, o que significa que o modelo atualiza os pesos após ver 32 exemplos.
history = model.fit(X_train, y_train, 
                    epochs=100, 
                    batch_size=32, 
                    validation_data=(X_val, y_val), 
                    callbacks=[early_stopping])

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns

# Plotando a acurácia
plt.figure(figsize=(8, 5))


plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()


# Desnormalização de Dados

Ao fazer previsões com um modelo de regressão, normalmente desejamos interpretar os resultados no mesmo domínio que os dados originais. Por exemplo, se estivéssemos prevendo preços de casas, gostaríamos de ver os preços em dólares, não como um número entre 0 e 1.

Se normalizamos nossos dados antes do treinamento (o que é comum e muitas vezes benéfico), as previsões que recebemos do modelo também estarão no domínio normalizado. Para interpretar essas previsões, precisamos "desnormalizá-las" ou convertê-las de volta ao domínio original.

## Por que desnormalizar?

Desnormalizar os dados é uma etapa importante para interpretar os resultados, especialmente se você estiver comunicando seus resultados para uma audiência que não está familiarizada com o conceito de normalização. Também é útil se você estiver comparando os resultados com outras previsões ou dados não normalizados.

É importante lembrar que a desnormalização não altera o desempenho do modelo; é apenas para facilitar a interpretação dos resultados.


In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Fazendo previsões com o conjunto de teste
y_pred = model.predict(X_test)


# Desnormalizando as previsões e os valores verdadeiros
y_pred_orig = scaler.inverse_transform(y_pred)
y_test_orig = scaler.inverse_transform(y_test)

# Calculando as métricas
mse = mean_squared_error(y_test_orig, y_pred_orig)
mae = mean_absolute_error(y_test_orig, y_pred_orig)
rmse = mean_squared_error(y_test_orig, y_pred_orig, squared=False)
r2 = r2_score(y_test_orig, y_pred_orig)

print('Mean Squared Error:', mse)
print('Mean Absolute Error:', mae)
print('Root Mean Squared Error:', rmse)
print('R² Score:', r2)


# Métricas de Avaliação para Regressão
---
1. **Erro Quadrático Médio (Mean Squared Error - MSE)**: É a média dos erros ao quadrado. O MSE é calculado tomando a média das diferenças quadráticas entre a previsão e o valor verdadeiro. É útil para destacar grandes erros (porque eles são elevados ao quadrado). No entanto, seu valor pode ser difícil de interpretar porque ele está em unidades quadradas do rótulo.
- **Valores bons e ruins**: Como o MSE é um erro, valores mais baixos são melhores. Um MSE de 0 indica que as previsões do modelo são perfeitas. Quanto maior o MSE, pior o modelo. O que é considerado um "bom" MSE pode variar dependendo do contexto.
---
2. **Erro Absoluto Médio (Mean Absolute Error - MAE)**: É a média dos valores absolutos dos erros. O MAE é menos sensível a outliers em comparação com o MSE porque ele não eleva os erros ao quadrado. Ele mede a magnitude média dos erros em um conjunto de previsões, sem considerar sua direção.
- **Valores bons e ruins**: Assim como o MSE, valores mais baixos de MAE são melhores e um MAE de 0 indica previsões perfeitas. O que é considerado um "bom" MAE pode variar dependendo do contexto.
---
3. **Raiz do Erro Quadrático Médio (Root Mean Squared Error - RMSE)**: É a raiz quadrada da média dos erros ao quadrado. É uma medida de erro mais popular porque o erro é expresso nas mesmas unidades que a variável de resposta.
- **Valores bons e ruins**: RMSE segue a mesma regra que o MSE e MAE, onde valores mais baixos são melhores e um valor de 0 é o ideal. O RMSE é especialmente útil porque ele tem a mesma unidade que a variável dependente, tornando-o mais fácil de interpretar do que o MSE.
---
4. **Coeficiente de Determinação (R² Score)**: É uma estatística que fornece alguma informação sobre a qualidade do ajuste de um modelo. Em regressão, o R² coeficiente de determinação é uma medida estatística que indica a proporção da variação na variável dependente que é previsível a partir da(s) variável(eis) independente(s).
- **Valores bons e ruins**: Ao contrário das métricas de erro acima, para o R², valores mais altos são melhores. Um R² de 1 indica que as variáveis independentes explicam toda a variação na variável dependente, enquanto um R² de 0 indica que as variáveis independentes não explicam nada. Em geral, um R² maior indica um modelo melhor, mas mesmo um modelo com um R² alto pode não ser bom se estiver superajustando os dados.
---

# Pré-processamento de Dados

## Codificação de Variáveis Categóricas

Muitos algoritmos de aprendizado de máquina requerem que as entradas sejam numéricas. Isto significa que os valores categóricos, geralmente armazenados como texto, devem ser convertidos em números antes de poderem ser usados como entrada para um modelo. Aqui estão algumas razões para isso:

- **Compreensão do modelo**: Os algoritmos de aprendizado de máquina entendem os números e realizam cálculos matemáticos. Textos ou categorias não podem ser diretamente utilizados em equações matemáticas.
- **Eficiência e desempenho**: O processamento de texto é computacionalmente mais caro do que o processamento de números. Portanto, a conversão de categorias em números pode aumentar a velocidade e eficiência do algoritmo.

Para converter variáveis categóricas em números, usamos codificadores como o `LabelEncoder` do `sklearn`, que associa a cada categoria única um número inteiro.

## Tratamento de Valores Nulos

Os valores nulos em um conjunto de dados podem levar a resultados imprecisosos ou enganosos ao treinar modelos de aprendizado de máquina. Aqui estão algumas estratégias para lidar com eles:

- **Excluir linhas ou colunas**: Se uma coluna tem mais de 50% de valores nulos, pode ser melhor excluí-la, pois ele pode não ter informações suficientes para contribuir para a previsão. O mesmo vale para linhas com menos de 1% de valores nulos.

- **Preencher com a média, mediana ou moda**:
  - **Média**: É o valor médio do conjunto de dados. É uma opção boa e rápida, mas é sensível a outliers.
  - **Mediana**: É o valor do meio do conjunto de dados quando ordenado. Menos sensível a outliers do que a média, por isso é uma opção melhor se os dados estão muito distorcidos.
  - **Moda**: É o valor que ocorre mais frequentemente no conjunto de dados. Pode ser usada para variáveis categóricas ou numéricas discretas, ou quando a média e a mediana são inapropriadas (por exemplo, com variáveis binárias).

- **Preencher com um valor constante**: Em alguns casos, você pode querer preencher os valores nulos com um valor constante, como 0, se isso fizer sentido no contexto do problema.

- **Usar um algoritmo de imputação**: Existem várias técnicas mais avançadas que podem prever os valores nulos com base nos outros dados disponíveis, como a imputação KNN ou a imputação por regressão.

Cada situação é única, e a estratégia de tratamento de valores nulos deve ser decidida com base no entendimento do conjunto de dados e do problema específico que você está tentando resolver.

`Podemos usar o df.describe para nos auxiliar na decisão`

**Média vs Mediana**: A média é fortemente afetada por valores extremos (outliers). Portanto, se houver uma grande diferença entre a média e a mediana (50º percentil) e/ou um grande desvio padrão (std), isso pode indicar a presença de outliers. Neste caso, a mediana pode ser uma escolha melhor para a imputação, pois ela é mais resistente a outliers.

**Moda**: A moda é mais comumente usada para variáveis categóricas ou discretas. Não podemos inferir diretamente do df.describe() se a moda seria uma boa escolha para a imputação. Entretanto, se o conjunto de dados for do tipo discreto e apresentar uma moda muito frequente, esta poderá ser usada.

In [None]:
df = pd.read_csv('notebooks_nulos.csv')

### Primeiro tratamos os valores núlos

In [None]:
df.isna().sum() * 100 / len(df)

In [None]:
# Apaga a coluna com mais de 50% de valores núlos
df.drop(['entradas_usb'],axis = 1, inplace = True)

In [None]:
df.isna().sum() * 100 / len(df)

In [None]:
# Lista as colunas de valores textuais
colunas_textuais = df.select_dtypes(include='object').columns.tolist()
# Loop que irá percorrer todas as colunas textuais e substituir os valores núlos pela moda
for col in colunas_textuais:
    df.loc[df[col].isna(), col] = df[col].mode()[0]
# Só temos as colunas marca e segmento

In [None]:
df.isna().sum() * 100 / len(df)

In [None]:
df[['ano', 'ram', 'duracao_bateria', 'armazenamento_hdd']].describe().loc[['std', 'mean', '50%']]

Ano e Ram possuem um "pequeno" desvio padrão e a média e a mediana estão próximas, logo, podemos usar a média para substituir os valores núlos

In [None]:
df.loc[df['ano'].isna(), 'ano'] = df['ano'].mean()
df.loc[df['ram'].isna(), 'ram'] = df['ram'].mean()

duracao_bateria e armazenamento_hdd possuem um desvio padrão um pouco maior e a média e mediana um tanto quanto distantes, logo, iremos usar a mediana.

In [None]:
df.loc[df['duracao_bateria'].isna(), 'duracao_bateria'] = df['duracao_bateria'].median()
df.loc[df['armazenamento_hdd'].isna(), 'armazenamento_hdd'] = df['armazenamento_hdd'].median()

# Agora convertemos valores textuais para numéricos

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in colunas_textuais:
    df[col] = le.fit_transform(df[col])

In [None]:
df.info()

Como estamos querendo prever o valor, significa que temos uma classe alvo, logo, temos um algoritmo supervisionado, com X sendo os nossos atributos (colunas previsoras) e y sendo nossa classe alvo.

In [None]:
X = df.drop('valor', axis = 1)
y = df[['valor']]

Por ser uma regressão, iremos normalizar o X e o y

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

X = scaler.fit_transform(X)
y = scaler.fit_transform(y)

In [None]:
from sklearn.model_selection import train_test_split
# Separa X e y em conjuntos de treinamento (70%), validação (15%) e teste (15%)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.7, random_state=42)
X_test, X_val, y_test, y_val = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)


In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.callbacks import EarlyStopping

In [None]:
X_train.shape

In [None]:
# Inicializa um modelo sequencial
model = Sequential()

# Adiciona a camada de entrada
# A camada de entrada requer a forma de entrada (input_shape) dos dados. Neste caso, é (28, 28).
model.add(Dense(128, activation='relu', input_shape=(14, )))

# Adiciona camadas ocultas
# Estamos usando a função de ativação 'relu', que é comum em redes neurais porque ajuda a mitigar o problema do desaparecimento do gradiente.
for _ in range(8):
    model.add(Dense(128, activation='relu'))

# Adiciona a camada de saída
# Como estamos resolvendo um problema de regressão, usamos a função de ativação 'linear'.
model.add(Dense(1, activation='linear'))

# Compila o modelo
# O otimizador Adam é usado por causa de sua eficiência.
# Estamos usando o erro quadrático médio (mean squared error) como função de perda, que é comum para problemas de regressão.
model.compile(optimizer='adam', loss='mean_squared_error')

# Configuração de Early Stopping
# A paciência é o número de épocas para esperar para ver se a perda de validação melhora. 
# Estamos usando 'val_loss' como a quantidade a ser monitorada, portanto, o treinamento parará se não houver melhoria na perda de validação após 3 épocas consecutivas.
early_stopping = EarlyStopping(monitor='val_loss', patience=15)

In [None]:
# Treina o modelo
# O número de épocas é o número de vezes que o algoritmo de aprendizado verá todo o conjunto de dados.
# Ajustamos o tamanho do batch para 32, o que significa que o modelo atualiza os pesos após ver 32 exemplos.
history = model.fit(X_train, y_train, 
                    epochs=100, 
                    batch_size=32, 
                    validation_data=(X_val, y_val), 
                    callbacks=[early_stopping])

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns

# Plotando a acurácia
plt.figure(figsize=(8, 5))


plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Fazendo previsões com o conjunto de teste
y_pred = model.predict(X_test)


# Desnormalizando as previsões e os valores verdadeiros
y_pred_orig = scaler.inverse_transform(y_pred)
y_test_orig = scaler.inverse_transform(y_test)

# Calculando as métricas
mse = mean_squared_error(y_test_orig, y_pred_orig)
mae = mean_absolute_error(y_test_orig, y_pred_orig)
rmse = mean_squared_error(y_test_orig, y_pred_orig, squared=False)
r2 = r2_score(y_test_orig, y_pred_orig)

print('Mean Squared Error:', mse)
print('Mean Absolute Error:', mae)
print('Root Mean Squared Error:', rmse)
print('R² Score:', r2)