<a href="https://colab.research.google.com/github/felipesora/CP2-Redes-Neurais-Com-Keras/blob/main/CP2_Redes_Neurais_Com_Keras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Checkpoint 02: Redes Neurais Com Keras**

Felipe Ulson Sora - RM555462

## PARTE 1 – TREINAMENTO DE REDES NEURAIS COM KERAS (DADOS TABULARES)

### EXERCÍCIO 1 – CLASSIFICAÇÃO MULTICLASSE

Dataset: https://archive.ics.uci.edu/dataset/109/wine

1. Treinar uma rede neural em Keras para classificar vinhos em 3 classes.
- Configuração mínima: 2 camadas ocultas com 32 neurônios cada, função de ativação ReLU.
- Camada de saída com 3 neurônios, função de ativação Softmax.
- Função de perda: categorical_crossentropy.
- Otimizador: Adam.

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Carregar dataset Wine
data = load_wine()
X, y = data.data, data.target

print("Formato dos dados:", X.shape)
print("Classes:", np.unique(y))

Formato dos dados: (178, 13)
Classes: [0 1 2]


In [None]:
# Normalização dos atributos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# One-hot encoding da saída
encoder = OneHotEncoder(sparse_output=False)
y_encoded = encoder.fit_transform(y.reshape(-1, 1))

# Separar treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y_encoded, test_size=0.2, random_state=42
)

print("Treino:", X_train.shape, y_train.shape)
print("Teste :", X_test.shape, y_test.shape)

Treino: (142, 13) (142, 3)
Teste : (36, 13) (36, 3)


In [None]:
# Definição do modelo
model = keras.Sequential([
    layers.Dense(32, activation="relu", input_shape=(X_train.shape[1],)),
    layers.Dense(32, activation="relu"),
    layers.Dense(3, activation="softmax")
])

# Compilação
model.compile(
    optimizer="adam",
    loss="categorical_crossentropy",
    metrics=["accuracy"]
)

# Treinamento
history = model.fit(
    X_train, y_train,
    validation_split=0.2,
    epochs=50,
    batch_size=16,
    verbose=1
)

Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 62ms/step - accuracy: 0.3329 - loss: 1.0938 - val_accuracy: 0.7241 - val_loss: 0.8783
Epoch 2/50
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step - accuracy: 0.5759 - loss: 0.9523 - val_accuracy: 0.8276 - val_loss: 0.7509
Epoch 3/50
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 22ms/step - accuracy: 0.8362 - loss: 0.7809 - val_accuracy: 0.8966 - val_loss: 0.6434
Epoch 4/50
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - accuracy: 0.9186 - loss: 0.6704 - val_accuracy: 0.9310 - val_loss: 0.5455
Epoch 5/50
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step - accuracy: 0.9507 - loss: 0.5649 - val_accuracy: 0.9310 - val_loss: 0.4626
Epoch 6/50
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.9386 - loss: 0.5144 - val_accuracy: 0.9310 - val_loss: 0.3979
Epoch 7/50
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m

In [None]:
loss, acc = model.evaluate(X_test, y_test, verbose=0)
print(f"Acurácia no conjunto de teste: {acc:.4f}")

Acurácia no conjunto de teste: 1.0000


2. Comparar os resultados com um modelo do scikit-learn (RandomForestClassifier ou LogisticRegression).

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Treinar modelo RandomForest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, np.argmax(y_train, axis=1))  # classes como inteiros

# Predições
y_pred_rf = rf.predict(X_test)

# Acurácia
acc_rf = accuracy_score(np.argmax(y_test, axis=1), y_pred_rf)
print(f"RandomForest - Acurácia no teste: {acc_rf:.4f}")

RandomForest - Acurácia no teste: 1.0000


In [None]:
from sklearn.linear_model import LogisticRegression

# Treinar modelo Logistic Regression
logreg = LogisticRegression(max_iter=5000)
logreg.fit(X_train, np.argmax(y_train, axis=1))

# Predições
y_pred_log = logreg.predict(X_test)

# Acurácia
acc_log = accuracy_score(np.argmax(y_test, axis=1), y_pred_log)
print(f"Logistic Regression - Acurácia no teste: {acc_log:.4f}")

Logistic Regression - Acurácia no teste: 1.0000


3. Registrar métricas de acurácia e discutir qual modelo teve melhor desempenho

**Resultados e Discussão:**

- **Keras Neural Network**: Acurácia no teste = **100%**
- **RandomForestClassifier**: Acurácia no teste = **100%**

Ambos os modelos obtiveram desempenho perfeito no conjunto de teste. Isso mostra que o Wine Dataset possui atributos altamente discriminativos para separar as três classes de vinho.  

Apesar do mesmo resultado, os modelos diferem em complexidade:
- O **RandomForest** é simples, rápido e muito eficaz em dados tabulares.
- A **Rede Neural** demanda mais recursos, mas é mais flexível e pode ser aplicada em problemas de alta complexidade.

Em problemas reais, dificilmente a acurácia chega a 100%. Portanto, seria interessante aplicar **validação cruzada** para verificar se o desempenho se mantém em diferentes divisões do dataset.

### EXERCÍCIO 2 – REGRESSÃO

Dataset: https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset

1. Treinar uma rede neural em Keras para prever o valor médio das casas.
- Configuração mínima: 3 camadas ocultas com 64, 32 e 16 neurônios, função de ativação ReLU.
- Camada de saída com 1 neurônio, função de ativação Linear.
- Função de perda: mse.
- Otimizador: Adam.

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Carregar dataset California Housing
data = fetch_california_housing()
X, y = data.data, data.target

print("Formato dos dados:", X.shape)
print("Alvo (y):", y.shape)

Formato dos dados: (20640, 8)
Alvo (y): (20640,)


In [None]:
# Normalização dos atributos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Separar treino/teste
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

print("Treino:", X_train.shape, y_train.shape)
print("Teste :", X_test.shape, y_test.shape)

Treino: (16512, 8) (16512,)
Teste : (4128, 8) (4128,)


In [None]:
# Definir modelo
model = keras.Sequential([
    layers.Dense(64, activation="relu", input_shape=(X_train.shape[1],)),
    layers.Dense(32, activation="relu"),
    layers.Dense(16, activation="relu"),
    layers.Dense(1, activation="linear")  # saída para regressão
])

# Compilar
model.compile(
    optimizer="adam",
    loss="mse",
    metrics=["mae"]  # mean absolute error, mais interpretável
)

# Treinar
history = model.fit(
    X_train, y_train,
    validation_split=0.2,
    epochs=50,
    batch_size=32,
    verbose=1
)

Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 4ms/step - loss: 1.8215 - mae: 0.9485 - val_loss: 0.4547 - val_mae: 0.4805
Epoch 2/50
[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.3888 - mae: 0.4456 - val_loss: 0.4033 - val_mae: 0.4530
Epoch 3/50
[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.3629 - mae: 0.4297 - val_loss: 0.3810 - val_mae: 0.4301
Epoch 4/50
[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.3533 - mae: 0.4207 - val_loss: 0.3663 - val_mae: 0.4139
Epoch 5/50
[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.3367 - mae: 0.4073 - val_loss: 0.3600 - val_mae: 0.4332
Epoch 6/50
[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.3119 - mae: 0.3920 - val_loss: 0.3457 - val_mae: 0.4062
Epoch 7/50
[1m413/413[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.308

In [None]:
loss, mae = model.evaluate(X_test, y_test, verbose=0)
print(f"Erro quadrático médio (MSE): {loss:.4f}")
print(f"Erro absoluto médio (MAE): {mae:.4f}")

Erro quadrático médio (MSE): 0.2813
Erro absoluto médio (MAE): 0.3529


2. Comparar os resultados com um modelo do scikit-learn (LinearRegression ou
RandomForestRegressor).

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Treinar modelo Linear Regression
linreg = LinearRegression()
linreg.fit(X_train, y_train)

# Previsões
y_pred_lin = linreg.predict(X_test)

# Métricas
mse_lin = mean_squared_error(y_test, y_pred_lin)
mae_lin = mean_absolute_error(y_test, y_pred_lin)

print(f"Linear Regression - MSE: {mse_lin:.4f}, MAE: {mae_lin:.4f}")

Linear Regression - MSE: 0.5559, MAE: 0.5332


In [None]:
from sklearn.ensemble import RandomForestRegressor

# Treinar modelo RandomForest
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# Previsões
y_pred_rf = rf.predict(X_test)

# Métricas
mse_rf = mean_squared_error(y_test, y_pred_rf)
mae_rf = mean_absolute_error(y_test, y_pred_rf)

print(f"RandomForest Regressor - MSE: {mse_rf:.4f}, MAE: {mae_rf:.4f}")

RandomForest Regressor - MSE: 0.2555, MAE: 0.3276


3. Registrar métricas de erro (RMSE ou MAE) e discutir qual modelo teve melhor desempenho.

**Resultados e Discussão – Regressão (California Housing)**

Métricas obtidas
- **Rede Neural (Keras)**: MSE ≈ 0.27 | MAE ≈ 0.34
- **Linear Regression**: MSE ≈ 0.50 | MAE ≈ 0.54
- **RandomForest Regressor**: MSE ≈ 0.26 | MAE ≈ 0.33

Análise
- O **RandomForest Regressor** apresentou o melhor desempenho, com os menores valores de erro (MSE e MAE).
- A **Rede Neural em Keras** conseguiu resultados competitivos, mas ainda levemente inferiores, mostrando que para dados tabulares estruturados modelos baseados em árvores tendem a ser mais eficazes.
- A **Linear Regression** teve o pior resultado, pois não captura adequadamente relações não lineares entre as variáveis do dataset.
- Concluímos que, neste caso, o **RandomForest Regressor** é o modelo mais adequado para prever os preços médios das casas na Califórnia.