<a href="https://colab.research.google.com/github/AdonayRocha/Redes_Neurais_WineCalifornia/blob/main/Redes_Neurais_WineCalifornia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Checkpoint 2 - Redes Neurais com Keras**
Adonay Rodrigues da Rocha - RM558782 <br>
Pedro Henrique Martins Dos Reis - RM555306 <br>
Thamires Ribeiro Cruz - RM558128 <br>





**Introdução** <br>
O dataset escolhido foi o Wine, um conjunto de dados clássico disponível diretamente na biblioteca scikit-learn (https://scikit-learn.org/1.1/modules/generated/sklearn.datasets.load_wine.html). <br>
A escolha pelo Wine se justifica por ele ser amplamente utilizado em tarefas de classificação multiclasse, sendo composto por **178 amostras de vinhos**, cada uma descrita por **13 atributos**. <br>
Além disso, o Wine dataset é frequentemente utilizado como benchmark em estudos de machine learning, facilitando a comparação e interpretação dos resultados obtidos com diferentes modelos. <br>
A facilidade de acesso (Disponível via função load_wine), a boa documentação e o formato já pronto para uso em experimentos tornam este dataset ideal para o objetivo da atividade, que é testar e comparar modelos de classificação com redes neurais e algoritmos clássicos.

In [None]:
# Import das bibliotecas
from IPython.display import Markdown as md
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine, fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error, mean_absolute_error
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import LogisticRegression, LinearRegression
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.utils import to_categorical
import tensorflow as tf

# Exercicío 1: WineDataset Classificação Multiclasse
Carregamos o Wine Dataset, disponível na biblioteca scikit-learn, para realizar uma classificação em três classes utilizando uma rede neural construída com Keras. O conjunto de dados foi dividido em treino e teste para garantir uma avaliação justa, e os rótulos foram transformados em formato one-hot, conforme exigido pelo modelo. A arquitetura utilizada seguiu as recomendações do exercício, com duas camadas ocultas de 32 neurônios e ativação ReLU, e uma camada de saída com três neurônios e ativação Softmax, sendo avaliada pela métrica de acurácia.

In [None]:
# Carregando os dados
wine = load_wine()
X_wine = wine.data
y_wine = wine.target

In [None]:
# Separando treino e teste
Xw_train, Xw_test, yw_train, yw_test = train_test_split(X_wine, y_wine, test_size=0.2, random_state=42)

# Transformando alvo para one-hot para Keras
yw_train_categorical = to_categorical(yw_train, num_classes=3)
yw_test_categorical = to_categorical(yw_test, num_classes=3)

# Rede Neural com Keras
model_wine = Sequential([
    Dense(32, activation='relu', input_shape=(X_wine.shape[1],)),
    Dense(32, activation='relu'),
    Dense(3, activation='softmax')
])
model_wine.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
history_wine = model_wine.fit(Xw_train, yw_train_categorical, epochs=50, batch_size=16, verbose=0, validation_split=0.1)

wine_loss, wine_acc = model_wine.evaluate(Xw_test, yw_test_categorical, verbose=0)
print(f'Acurácia (Keras NN): {wine_acc:.4f}')

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Acurácia (Keras NN): 0.8333
Acurácia (RandomForest): 1.0000


Para fins de comparação e atividade, também treinamos um modelo clássico de machine learning utilizando o RandomForestClassifier da biblioteca scikit-learn.

In [None]:
# Modelo scikit-learn
rf_wine = RandomForestClassifier(n_estimators=100)
rf_wine.fit(Xw_train, yw_train)
yw_pred_rf = rf_wine.predict(Xw_test)
rf_acc = accuracy_score(yw_test, yw_pred_rf)
print(f'Acurácia (RandomForest): {rf_acc:.4f}')

Os resultados mostram que, no Wine Dataset, o RandomForestClassifier apresentou acurácia superior à rede neural construída com Keras. Isso ocorre porque algoritmos de árvores, como o Random Forest, costumam ser mais eficazes em conjuntos de dados tabulares com variáveis bem definidas e relações não-lineares, aproveitando o ensemble de múltiplas árvores para capturar padrões complexos sem exigir ajuste fino de hiperparâmetros ou grande quantidade de dados. Já as redes neurais podem demandar mais dados e ajustes para superar modelos clássicos em problemas desse tipo. Portanto, neste cenário, o RandomForestClassifier foi a melhor escolha para maximizar a acurácia.

In [None]:
md(f"""
**Resultados Wine Dataset:**
- Acurácia Keras NN: `{wine_acc:.4f}`
- Acurácia RandomForest: `{rf_acc:.4f}`

O modelo que apresentou maior acurácia foi: `{"Rede Neural Keras" if wine_acc > rf_acc else "RandomForestClassifier"}`.
""")


**Resultados Wine Dataset:**
- Acurácia Keras NN: `0.8333`
- Acurácia RandomForest: `1.0000`

O modelo que apresentou maior acurácia foi: `RandomForestClassifier`.


# Exercício 2: Regressão (California Housing)
Neste exercício, utilizamos o California Housing Dataset, disponível na biblioteca scikit-learn, para realizar uma tarefa de regressão, prevendo o valor médio das casas. O conjunto de dados foi dividido em treino e teste, garantindo avaliação adequada dos modelos. Construímos uma rede neural com Keras composta por três camadas ocultas de 64, 32 e 16 neurônios com ativação ReLU, e uma camada de saída linear, utilizando a métrica MAE para avaliação. Em paralelo, treinamos um modelo RandomForestRegressor, calculando RMSE e MAE para comparar o desempenho. Essa abordagem permite analisar qual modelo é mais eficiente para prever valores contínuos em dados tabulares.

O **California Housing Dataset** foi escolhido por ser um dos conjuntos de dados mais conhecidos e utilizados para tarefas de regressão em aprendizado de máquina. Disponível diretamente na **biblioteca scikit-learn**, ele contém informações detalhadas sobre diferentes regiões da Califórnia, como renda média, idade média das casas, número de quartos e população, com o objetivo de prever o valor médio das casas em cada área. Sua estrutura tabular, com variáveis numéricas e contínuas, torna o dataset ideal para testar e comparar modelos de regressão supervisionada, como redes neurais e algoritmos clássicos, além de facilitar a replicação de experimentos e a interpretação dos resultados.

In [None]:
# Carregando os dados
housing = fetch_california_housing()
X_house = housing.data
y_house = housing.target

# Separando treino e teste
Xh_train, Xh_test, yh_train, yh_test = train_test_split(X_house, y_house, test_size=0.2, random_state=42)

# Rede Neural com Keras
from tensorflow.keras.layers import Input

model_house = Sequential([
    Input(shape=(X_house.shape[1],)),
    Dense(64, activation='relu'),
    Dense(32, activation='relu'),
    Dense(16, activation='relu'),
    Dense(1, activation='linear')
])
model_house.compile(optimizer='adam', loss='mse', metrics=['mae'])
history_house = model_house.fit(Xh_train, yh_train, epochs=50, batch_size=32, verbose=0, validation_split=0.1)

house_loss, house_mae = model_house.evaluate(Xh_test, yh_test, verbose=0)
print(f'MAE (Keras NN): {house_mae:.4f}')

# Modelo scikit-learn
rf_house = RandomForestRegressor(n_estimators=100)
rf_house.fit(Xh_train, yh_train)
yh_pred_rf = rf_house.predict(Xh_test)
rf_mse = mean_squared_error(yh_test, yh_pred_rf)
rf_rmse = rf_mse ** 0.5
rf_mae = mean_absolute_error(yh_test, yh_pred_rf)
print(f'RMSE (RandomForest): {rf_rmse:.4f}')
print(f'MAE (RandomForest): {rf_mae:.4f}')

MAE (Keras NN): 0.6020
RMSE (RandomForest): 0.5025
MAE (RandomForest): 0.3249


No teste de regressão com o California Housing Dataset, o modelo RandomForest teve desempenho melhor do que a rede neural, apresentando um erro menor. Isso acontece porque o RandomForest consegue lidar muito bem com dados tabulares, encontrando padrões entre as variáveis sem precisar de muitos ajustes. Já as redes neurais geralmente precisam de mais dados e de uma configuração mais específica para superar modelos como o RandomForest nesse tipo de tarefa. Por isso, neste caso, o RandomForest foi mais eficiente para prever os valores das casas.

In [None]:
md(f"""
**Resultados California Housing:**
- Mean Absolute Error Keras: `{house_mae:.4f}`
- Root Mean Squared Error RandomForest: `{rf_rmse:.4f}`
- Mean Squared Error RandomForest: `{rf_mae:.4f}`

O modelo com menor erro foi: `{"Rede Neural Keras" if house_mae < rf_mae else "RandomForestRegressor"}`.
""")


**Resultados California Housing:**
- MAE Keras NN: `0.6954`
- RMSE RandomForest: `0.5056`
- MAE RandomForest: `0.3272`

O modelo com menor erro foi: `RandomForestRegressor`.
