**Desafio_04:**

Usar como base os notebooks apresentados em aula (02_asl.ipynb e 03_asl_cnn.ipynb) para classificar um dataset diferente do apresentado em aula e comparar a diferença de performance dos modelos ao usar as abordagens de ML e DL no mesmo problema. Lembrem de comentar o notebook informando o que está acontecendo!
Anexar os notebooks desenvolvidos na tarefa.

**Segundo modelo:**

Utilizando a abordagem de Deep Learning

Para realizar a análise e comparar as abordagens de Machine Learning (ML) e Deep Learning (DL) no mesmo problema, vamos seguir estas etapas:

Exploração Inicial dos Dados:

Carregar o dataset.
Visualizar as primeiras linhas para entender sua estrutura.
Identificar tipos de dados, valores ausentes e distribuição de variáveis.


In [1]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense



In [2]:
#carregar o dataset no google drive
from google.colab import drive
drive.mount('/content/drive')


ValueError: mount failed

In [None]:
# Carregar o dataset

data = pd.read_csv('/content/drive/MyDrive/Classroom/PROGRAMAÇÃO PARA APRENDIZAGEM DE MÁQUINA Prof. Cleber Zanchettin - Pós-Graduação em Ciência de Dados/desafio_04/data/data_raw/laptop-price.csv')

# Explorar o dataset
print("Resumo do dataset:")
print(data.info())
print("\nPrimeiras linhas do dataset:")
print(data.head())

**Pré-processamento:**

Lidar com valores ausentes.
Converter variáveis categóricas em valores numéricos.
Normalizar os dados, se necessário.

In [None]:
# Transformar variáveis categóricas em numéricas
categorical_columns = data.select_dtypes(include='object').columns
data_encoded = pd.get_dummies(data, columns=categorical_columns, drop_first=True)




**Definição do Problema:**

Escolher a variável alvo.
Dividir os dados em treinamento e teste.

In [None]:
# Separar variável alvo e variáveis independentes
X = data_encoded.drop(columns=['Price', 'index'])
y = data_encoded['Price']


# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Separar e mostrar as quantidades dos conjuntos de dados de treinamento e teste
print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)

# Normalizar os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Visualizar distribuicao dos dados:**

In [None]:
# Visualizar os dados e Analisar a distribuição da variável alvo
plt.figure(figsize=(10, 6))
sns.histplot(data['Price'], kde=True, bins=30, color='blue')
plt.title('Distribuição de Preços', fontsize=16)
plt.xlabel('Preço', fontsize=12)
plt.ylabel('Frequência', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

**Construção de Modelos:**

Treinar um modelo de DL (ex.: Redes Neurais).


In [None]:
# Modelo de Deep Learning: Rede Neural
model = Sequential([
    Dense(64, activation='relu', input_shape=(X_train_scaled.shape[1],)),
    Dense(32, activation='relu'),
    Dense(1)
])

model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# Treinar a rede neural
history = model.fit(X_train_scaled, y_train, epochs=300, batch_size=32, validation_split=0.2, verbose=0)

# Avaliar o modelo de DL
dl_predictions = model.predict(X_test_scaled).flatten()
print("Deep Learning Metrics:")
print(f"MAE: {mean_absolute_error(y_test, dl_predictions):.2f}")
print(f"MSE: {mean_squared_error(y_test, dl_predictions):.2f}")
print(f"R2 Score: {r2_score(y_test, dl_predictions):.2f}\n")

**Avaliação de Performance:**

Avaliar ambos os modelos em termos de métricas como R², MAE ou MSE (para problemas de regressão) ou F1-Score, AUC (para classificação).

In [None]:
# Plotar a evolução do treinamento do modelo de DL
plt.figure(figsize=(10, 6))
plt.plot(history.history['mae'], label='MAE Treinamento')
plt.plot(history.history['val_mae'], label='MAE Validação')
plt.title('Evolução do Treinamento da Rede Neural')
plt.xlabel('Épocas')
plt.ylabel('MAE')
plt.legend()
plt.grid(True)
plt.show()

Conclusão Comparativa Entre Random Forest e Rede Neural:

O código realiza uma análise comparativa entre dois modelos: Random Forest (Machine Learning) e uma Rede Neural densa (Deep Learning). Abaixo está a análise de diferenças em desempenho com base nos resultados esperados do código:

1. Performance em Métricas de Avaliação
Random Forest:

Geralmente apresenta menor MAE(Erro Absoluto Medio) e MSE(Erro Quadratico Medio) em relação à Rede Neural, especialmente para problemas estruturados e com dados tabulares, como neste caso.

O R² Score próximo de 1 indica uma explicação consistente da variância dos dados.

Pode ser mais eficiente em termos de tempo de treinamento devido à natureza não iterativa do modelo.

Rede Neural:

Pode apresentar desempenho semelhante ou inferior ao Random Forest para este problema, dependendo da qualidade da otimização durante o treinamento.

A MAE e o MSE podem ser mais altos em relação ao Random Forest, principalmente se o número de épocas ou o design da arquitetura não forem otimizados.

O R² Score pode ser competitivo, mas tende a melhorar apenas com mais dados ou ajustes específicos.

2. Interpretação

Random Forest:

Produz uma análise direta de "importância das variáveis", facilitando a interpretação dos fatores mais relevantes.

Ideal para problemas com uma quantidade limitada de dados e onde a explicabilidade é importante.

Rede Neural:

Não fornece insights diretos sobre a importância das variáveis, mas pode capturar relações não lineares complexas melhor do que o Random Forest.
Requer mais dados para generalizar bem, e o treinamento é mais demorado.

3. Evolução do Treinamento

A evolução da métrica MAE ao longo das épocas para a Rede Neural indica a capacidade do modelo de aprender com os dados. Se o MAE de validação estabilizar ou divergir do MAE de treinamento, pode ser necessário ajustar o modelo (regularização, mais dados, etc.).

4. Quando Usar Cada Modelo

Random Forest é mais adequado se:

O foco for em desempenho rápido e interpretabilidade.
O conjunto de dados for pequeno ou moderado.

Rede Neural é mais adequada se:

Existe um volume maior de dados ou mais complexidade não linear.
A previsão exige uma abordagem mais avançada e há recursos computacionais disponíveis.

Recomendações:

Avaliar as métricas geradas no código e observe a diferença entre os valores de MAE, MSE e R² para tomar uma decisão informada.

Ajustar a arquitetura da Rede Neural ou o número de árvores no Random Forest pode melhorar os resultados.