# Instruções para a Entrega do Trabalho Final de Machine Learning

Por favor, siga atentamente as instruções abaixo para a entrega do seu trabalho final:

## Entrega do Trabalho
- **Link de Entrega:** O trabalho deve ser enviado exclusivamente através do seguinte link: [Formulário de Entrega](https://forms.gle/banMcKJEthjCuiFn9).

## Importante
- **Método de Envio:** Trabalhos enviados por e-mail **não** serão considerados. Utilize apenas o link fornecido acima.

## Formato do Arquivo
- **Nomeação do Arquivo:** Renomeie seu arquivo Jupyter Notebook seguindo o formato `nome_sobrenome.ipynb`, usando seu primeiro nome e primeiro sobrenome. Exemplos:
  - `jorge_batista.ipynb`
  - `camila_jesus.ipynb`
  - `joao_paulo_cardoso.ipynb`
- **Identificação:** O arquivo não deve conter outra identificação além do nome do arquivo.

## Prazo Final
- **Data Limite:** A data limite para a entrega do trabalho é **23:59 do dia 10 de dezembro**. Não serão aceitas entregas após este horário.

---

Por favor, assegure-se de seguir estas diretrizes para garantir que seu trabalho seja avaliado corretamente.

# Base de Dados de Detecção de Trojan

## O que é um Cavalo de Troia (Trojan)?
- **Definição:** Um Cavalo de Troia, ou simplesmente Trojan, é um tipo de malware disfarçado de software legítimo. Ele engana os usuários para que instalem e executem o software em seus sistemas, permitindo que o invasor acesse dados confidenciais, cause danos ou crie backdoors para controle futuro.
- **Impacto:** Trojans podem levar a sérios problemas de segurança, como roubo de dados, perda de informações importantes e até mesmo controle remoto não autorizado do sistema infectado.

## Sobre a Base de Dados
- **Objetivo:** A base de dados é utilizada para identificar tráfego de rede associado a atividades maliciosas de Trojans, bem como tráfego benigno (não malicioso). Ela é essencial para tarefas de classificação binária na área de segurança cibernética.
- **Origem dos Dados:** Os dados foram obtidos do site do CIC (Canadian Institute for Cybersecurity).

## Estrutura dos Dados
- **Dados de Trojan:** Contém 90.683 observações que representam atividades de rede associadas a Trojans.
- **Dados Benignos:** Inclui 86.799 observações de tráfego de rede considerado benigno, ou seja, normal e sem intenções maliciosas.

## Utilização dos Dados
- **Classificação Binária:** A base de dados pode ser usada para treinar modelos de Machine Learning capazes de distinguir entre tráfego de rede Trojan e benigno. Este é um exemplo clássico de classificação binária, onde as duas classes são 'Trojan' e 'Benigno'.
- **Importância na Segurança Cibernética:** Dada a crescente sofisticação dos ataques cibernéticos, a capacidade de detectar Trojans com precisão é crucial para proteger informações e infraestruturas críticas.

## Conclusão
A detecção eficaz de Trojans é um componente vital na estratégia de defesa contra ameaças cibernéticas. Esta base de dados fornece um recurso valioso para pesquisadores e profissionais de segurança desenvolverem e testarem sistemas de detecção de malware baseados em aprendizado de máquina.

---

# Explicação das Colunas do DataFrame de Detecção de Trojan

Este texto descreve cada coluna do DataFrame utilizado na detecção de tráfego de rede relacionado a Trojans.

## Colunas Gerais
- **ID do Fluxo:** Identificador único do fluxo de rede.
- **IP de Origem:** Endereço IP do remetente do pacote.
- **Porta de Origem:** Número da porta do remetente do pacote.
- **IP de Destino:** Endereço IP do destinatário do pacote.
- **Porta de Destino:** Número da porta do destinatário do pacote.
- **Protocolo:** Protocolo de rede utilizado (TCP, UDP, etc.).
- **Data e Hora:** Data e hora em que o pacote foi capturado.
- **Duração do Fluxo:** Tempo total do fluxo de rede.

## Total de Pacotes e Comprimento
- **Total de Pacotes Enviados:** Número total de pacotes enviados.
- **Total de Pacotes Recebidos:** Número total de pacotes recebidos.
- **Comprimento Total dos Pacotes Enviados:** Comprimento total dos pacotes enviados.
- **Comprimento Total dos Pacotes Recebidos:** Comprimento total dos pacotes recebidos.
- **Comprimento Máximo/Mínimo/Médio do Pacote Enviado:** Estatísticas sobre o comprimento dos pacotes enviados.
- **Comprimento Máximo/Mínimo/Médio do Pacote Recebido:** Estatísticas sobre o comprimento dos pacotes recebidos.

## Intervalo Entre Chegadas (IAT)
- **Média/Desvio Padrão/Máximo/Mínimo do Intervalo Entre Chegadas dos Fluxos:** Estatísticas do intervalo de tempo entre chegadas de pacotes consecutivos.
- **Total/Média/Desvio Padrão/Máximo/Mínimo do Intervalo Entre Chegadas de Pacotes Enviados/Recebidos:** Estatísticas do intervalo de tempo entre chegadas de pacotes enviados e recebidos.

## Flags e Cabeçalho
- **Flags PSH/URG dos Pacotes Enviados/Recebidos:** Contagem de flags PSH e URG nos pacotes enviados e recebidos.
- **Comprimento do Cabeçalho dos Pacotes Enviados/Recebidos:** Comprimento do cabeçalho dos pacotes enviados e recebidos.

## Estatísticas de Pacotes
- **Pacotes Enviados/Recebidos por Segundo:** Número de pacotes enviados e recebidos por segundo.
- **Comprimento Mínimo/Máximo/Médio do Pacote:** Estatísticas sobre o comprimento dos pacotes.
- **Desvio Padrão/Variância do Comprimento do Pacote:** Estatísticas sobre a variação no comprimento dos pacotes.

## Contagem de Flags
- **Contagem de Flags FIN/SYN/RST/PSH/ACK/URG/CWE/ECE:** Contagem de diferentes tipos de flags nos pacotes.

## Outras Estatísticas
- **Relação de Download/Upload:** Proporção entre download e upload.
- **Tamanho Médio do Pacote/Segmento Enviado/Recebido:** Tamanho médio dos pacotes ou segmentos enviados e recebidos.
- **Comprimento do Cabeçalho Enviado/Recebido:** Comprimento do cabeçalho dos pacotes enviados e recebidos.
- **Média/Desvio Padrão/Máximo/Mínimo de Atividade/Ociosidade:** Estatísticas sobre os períodos de atividade e ociosidade.
- **Bytes Iniciais da Janela Enviados/Recebidos:** Tamanho inicial da janela de congestionamento TCP.

## Subfluxos e Blocos
- **Pacotes/Bytes de Subfluxo Enviados/Recebidos:** Informações sobre subfluxos de pacotes.
- **Média de Bytes/Pacotes por Bloco Enviado/Recebido:** Média de bytes e pacotes por bloco de transmissão.
- **Taxa Média de Bloco Enviado/Recebido:** Taxa média de transmissão de blocos.

## Classe
- **Classe:** Categoria do fluxo (Trojan ou Benígno);

---

# Análise da Relevância das Colunas no DataFrame de Detecção de Trojan

Algumas colunas no DataFrame de detecção de Trojan podem ser menos relevantes para a modelagem preditiva, dependendo do contexto específico e do modelo utilizado. Vamos explorar quais colunas podem ser consideradas menos relevantes e por quê.

## Possíveis Colunas Irrelevantes
- **ID do Fluxo:** 
  - Geralmente, é um identificador único para cada fluxo de rede e não tem valor preditivo, pois é específico para cada instância de dados.

- **IP de Origem e IP de Destino:** 
  - Endereços IP específicos podem não ser úteis por si só para prever Trojans, a menos que estejam associados a endereços conhecidos por atividades maliciosas. No entanto, a análise baseada em IP pode ser útil em contextos específicos.

- **Data e Hora:** 
  - A menos que a análise se concentre em tendências temporais ou atividades em horários específicos, esses campos podem não contribuir diretamente para a detecção de Trojans.

- **Flags PSH/URG dos Pacotes Enviados/Recebidos:** 
  - Estas flags podem ou não ser relevantes. A relevância depende se os Trojans ou atividades maliciosas específicas se manifestam de maneira diferente nas flags dos pacotes.

## Contexto e Análise Detalhada
- A relevância de uma coluna pode mudar com base em novas informações ou técnicas de análise. Por exemplo, endereços IP podem se tornar relevantes se correlacionados com endereços conhecidos por atividades maliciosas.
- A análise exploratória dos dados, juntamente com técnicas como seleção de características e engenharia de características, pode fornecer insights mais precisos sobre quais colunas são verdadeiramente irrelevantes ou relevantes.

# Instruções para o Trabalho Final de Machine Learning

Este documento detalha as instruções passo a passo para o trabalho final da disciplina de Machine Learning.

## 1. Preparação dos Dados
- **Extraindo Informações de Data e Hora:**
  - Crie colunas separadas com base na coluna "Data e Hora" contendo:
    - `ano`: Ano extraído da data.
    - `mes`: Número do mês.
    - `dia_mes`: Dia do mês.
    - `dia_ano`: Dia do ano.
    - `dia_semana`: Dia da semana (0 para segunda-feira, 1 para terça-feira, ..., 6 para domingo).
    - `hora`: Hora do dia.
    - `minuto`: Minuto da hora.
    - `segundo`: Segundo do minuto.

## 2. Limpeza dos Dados
- **Remoção de Colunas Irrelevantes:**
  - Analise o conjunto de dados e remova todas as colunas que considerar irrelevantes para o problema em questão.

## 3. Conversão de Dados Textuais
- **Transformação de Dados Categóricos:**
  - Converta quaisquer colunas textuais para numéricas utilizando técnicas como Label Encoder ou One Hot Encoder.

## 4. Divisão dos Dados
- **Separando em Conjuntos de Treino, Validação e Teste:**
  - Divida os dados em 65% para treinamento, 20% para validação e 15% para teste.

## 5. Normalização dos Dados
- **Aplicação da Normalização MinMax:**
  - Normalize os dados, aplicando `fit_transform` nos dados de treinamento e `transform` nos dados de validação e teste.

## 6. Redução de Dimensionalidade com PCA
- **Criação de Dados com PCA:**
  - Aplique a redução de dimensionalidade com PCA para criar `X_train_pca`, `X_val_pca` e `X_test_pca`.

## 7. Redução de Dimensionalidade com LDA
- **Criação de Dados com LDA:**
  - Aplique a redução de dimensionalidade com LDA para criar `X_train_lda`, `X_val_lda` e `X_test_lda`.

## 8. Definição dos Modelos
- **Estruturação dos Modelos de Rede Neural:**
  - Defina um modelo de rede neural para cada um dos conjuntos de dados (X normal, X PCA, X LDA). A estrutura das camadas ocultas deve ser 256, 128, 64, 32 neurônios, sem dropout e sem regularização de kernel.

## 9. Treinamento dos Modelos
- **Configuração do Treinamento:**
  - Treine os modelos por 50 épocas com:
    - Early stopping com paciência de 15 épocas.
    - Reduce learning rate com paciência de 4 épocas e fator de redução de 0.3.

## 10. Avaliação dos Modelos
- **Métricas e Análise de Desempenho:**
  - Para cada um dos três modelos, exiba as métricas de Acurácia, Precisão, Recall, F1 e a matriz de confusão com gráfico de calor.

Estas instruções devem ser seguidas rigorosamente para garantir uma avaliação justa e uma comparação adequada do desempenho dos modelos. A organização, documentação e legibilidade do código serão levados em consideração na hora da revisão.

### 1 - Resolva o enunciado 1 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [30]:
#bibliotecas basicas
import pandas as pd         # Para manipulação e análise de dados
import numpy as np          # Para operações numéricas e matriciais
import matplotlib.pyplot as plt  # Para visualização de dados
import seaborn as sns       # Para visualização de dados avançada


In [31]:
df = pd.read_csv("Trojan_Detection.csv")

In [32]:
df.head()

Unnamed: 0,ID do Fluxo,IP de Origem,Porta de Origem,IP de Destino,Porta de Destino,Protocolo,Data e Hora,Duração do Fluxo,Total de Pacotes Enviados,Total de Pacotes Recebidos,...,Tamanho Mínimo do Segmento Enviado,Média de Atividade,Desvio Padrão de Atividade,Máximo de Atividade,Mínimo de Atividade,Média de Ociosidade,Desvio Padrão de Ociosidade,Máximo de Ociosidade,Mínimo de Ociosidade,Classe
0,10.42.0.42-121.14.255.84-49975-80-6,10.42.0.42,49975,121.14.255.84,80,6,17/07/2017 01:18:33,10743584,4,4,...,20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Trojan
1,172.217.6.226-10.42.0.42-443-49169-17,10.42.0.42,49169,172.217.6.226,443,17,17/07/2017 10:25:25,254217,6,7,...,20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Trojan
2,10.42.0.1-10.42.0.42-53-37749-17,10.42.0.42,37749,10.42.0.1,53,17,30/06/2017 07:16:12,1023244,1,1,...,32,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Benign
3,10.42.0.1-10.42.0.42-53-41352-17,10.42.0.42,41352,10.42.0.1,53,17,13/07/2017 03:48:44,286483,1,1,...,20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Trojan
4,10.42.0.151-107.22.241.77-44353-443-6,10.42.0.151,44353,107.22.241.77,443,6,05/07/2017 10:47:35,65633087,12,10,...,32,322594.0,0.0,322594.0,322594.0,60306983.0,0.0,60306983.0,60306983.0,Benign


In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177482 entries, 0 to 177481
Data columns (total 85 columns):
 #   Column                                                          Non-Null Count   Dtype  
---  ------                                                          --------------   -----  
 0   ID do Fluxo                                                     177482 non-null  object 
 1   IP de Origem                                                    177482 non-null  object 
 2   Porta de Origem                                                 177482 non-null  int64  
 3   IP de Destino                                                   177482 non-null  object 
 4   Porta de Destino                                                177482 non-null  int64  
 5   Protocolo                                                       177482 non-null  int64  
 6   Data e Hora                                                     177482 non-null  object 
 7   Duração do Fluxo                      

In [34]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

for col in df.select_dtypes(include=['object']).columns:
    df[col] = label_encoder.fit_transform(df[col])

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177482 entries, 0 to 177481
Data columns (total 85 columns):
 #   Column                                                          Non-Null Count   Dtype  
---  ------                                                          --------------   -----  
 0   ID do Fluxo                                                     177482 non-null  int32  
 1   IP de Origem                                                    177482 non-null  int32  
 2   Porta de Origem                                                 177482 non-null  int64  
 3   IP de Destino                                                   177482 non-null  int32  
 4   Porta de Destino                                                177482 non-null  int64  
 5   Protocolo                                                       177482 non-null  int64  
 6   Data e Hora                                                     177482 non-null  int32  
 7   Duração do Fluxo                      

In [35]:
# Convertendo a coluna "Data e Hora" para datetime
df['Data e Hora'] = pd.to_datetime(df['Data e Hora'])

# Criação das novas colunas de data e hora
df['ano'] = df['Data e Hora'].dt.year
df['mes'] = df['Data e Hora'].dt.month
df['dia_mes'] = df['Data e Hora'].dt.day
df['dia_ano'] = df['Data e Hora'].dt.dayofyear
df['dia_semana'] = df['Data e Hora'].dt.dayofweek
df['hora'] = df['Data e Hora'].dt.hour
df['minuto'] = df['Data e Hora'].dt.minute
df['segundo'] = df['Data e Hora'].dt.second

df.head()

Unnamed: 0,ID do Fluxo,IP de Origem,Porta de Origem,IP de Destino,Porta de Destino,Protocolo,Data e Hora,Duração do Fluxo,Total de Pacotes Enviados,Total de Pacotes Recebidos,...,Mínimo de Ociosidade,Classe,ano,mes,dia_mes,dia_ano,dia_semana,hora,minuto,segundo
0,46111,7,49975,352,80,6,1970-01-01 00:00:00.000036269,10743584,4,4,...,0.0,1,1970,1,1,1,3,0,0,0
1,74905,7,49169,895,443,17,1970-01-01 00:00:00.000039241,254217,6,7,...,0.0,1,1970,1,1,1,3,0,0,0
2,9217,7,37749,7,53,17,1970-01-01 00:00:00.000042069,1023244,1,1,...,0.0,0,1970,1,1,1,3,0,0,0
3,10418,7,41352,7,53,17,1970-01-01 00:00:00.000029885,286483,1,1,...,0.0,1,1970,1,1,1,3,0,0,0
4,20763,5,44353,220,443,6,1970-01-01 00:00:00.000016589,65633087,12,10,...,60306983.0,0,1970,1,1,1,3,0,0,0


### 2 - Resolva o enunciado 2 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [36]:
df.isna().sum() *100/len(df)

ID do Fluxo         0.0
IP de Origem        0.0
Porta de Origem     0.0
IP de Destino       0.0
Porta de Destino    0.0
                   ... 
dia_ano             0.0
dia_semana          0.0
hora                0.0
minuto              0.0
segundo             0.0
Length: 93, dtype: float64

In [37]:
df = df.drop(['ID do Fluxo', 'IP de Origem', 'IP de Destino', 'minuto', 'segundo', 'dia_ano', 'dia_mes', 'dia_semana', 'hora', 'mes', 'Duração do Fluxo'], axis=1)

In [38]:
df.head()

Unnamed: 0,Porta de Origem,Porta de Destino,Protocolo,Data e Hora,Total de Pacotes Enviados,Total de Pacotes Recebidos,Comprimento Total dos Pacotes Enviados,Comprimento Total dos Pacotes Recebidos,Comprimento Máximo do Pacote Enviado,Comprimento Mínimo do Pacote Enviado,...,Média de Atividade,Desvio Padrão de Atividade,Máximo de Atividade,Mínimo de Atividade,Média de Ociosidade,Desvio Padrão de Ociosidade,Máximo de Ociosidade,Mínimo de Ociosidade,Classe,ano
0,49975,80,6,1970-01-01 00:00:00.000036269,4,4,372.0,672.0,372.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1970
1,49169,443,17,1970-01-01 00:00:00.000039241,6,7,3191.0,5246.0,1350.0,38.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1970
2,37749,53,17,1970-01-01 00:00:00.000042069,1,1,30.0,179.0,30.0,30.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,1970
3,41352,53,17,1970-01-01 00:00:00.000029885,1,1,40.0,106.0,40.0,40.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1970
4,44353,443,6,1970-01-01 00:00:00.000016589,12,10,767.0,5622.0,403.0,0.0,...,322594.0,0.0,322594.0,322594.0,60306983.0,0.0,60306983.0,60306983.0,0,1970


In [39]:
df = df.drop([ 'Contagem de Flags FIN',
       'Contagem de Flags SYN', 'Contagem de Flags RST',
       'Contagem de Flags PSH', 'Contagem de Flags ACK',
       'Contagem de Flags URG', 'Contagem de Flags CWE',
       'Contagem de Flags ECE', 'Flags PSH dos Pacotes Enviados', 
       'Flags PSH dos Pacotes Recebidos','Flags URG dos Pacotes Enviados', 
       'Flags URG dos Pacotes Recebidos', 'Comprimento do Cabeçalho dos Pacotes Enviados',
       'Comprimento do Cabeçalho dos Pacotes Recebidos', 'Média de Bytes por Bloco Enviado', 
       'Média de Pacotes por Bloco Enviado','Taxa Média de Bloco Enviado', 
       'Média de Bytes por Bloco Recebido', 'Média de Pacotes por Bloco Recebido', 
       'Taxa Média de Bloco Recebido', 'Pacotes de Dados Ativos Enviados', 
       'Média de Atividade', 'Desvio Padrão de Atividade','Máximo de Atividade',
       'Mínimo de Atividade', 'Média de Ociosidade', 'Desvio Padrão de Ociosidade',
       'Máximo de Ociosidade', 'Mínimo de Ociosidade'], axis=1)

In [40]:
print(df.columns)

Index(['Porta de Origem', 'Porta de Destino', 'Protocolo', 'Data e Hora',
       'Total de Pacotes Enviados', 'Total de Pacotes Recebidos',
       'Comprimento Total dos Pacotes Enviados',
       'Comprimento Total dos Pacotes Recebidos',
       'Comprimento Máximo do Pacote Enviado',
       'Comprimento Mínimo do Pacote Enviado',
       'Comprimento Médio do Pacote Enviado',
       'Desvio Padrão do Comprimento do Pacote Enviado',
       'Comprimento Máximo do Pacote Recebido',
       'Comprimento Mínimo do Pacote Recebido',
       'Comprimento Médio do Pacote Recebido',
       'Desvio Padrão do Comprimento do Pacote Recebido',
       'Bytes por Segundo do Fluxo', 'Pacotes por Segundo do Fluxo',
       'Média do Intervalo Entre Chegadas dos Fluxos',
       'Desvio Padrão do Intervalo Entre Chegadas dos Fluxos',
       'Máximo do Intervalo Entre Chegadas dos Fluxos',
       'Mínimo do Intervalo Entre Chegadas dos Fluxos',
       'Total do Intervalo Entre Chegadas de Pacotes Enviados',


### 3 - Resolva o enunciado 3 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177482 entries, 0 to 177481
Data columns (total 53 columns):
 #   Column                                                          Non-Null Count   Dtype         
---  ------                                                          --------------   -----         
 0   Porta de Origem                                                 177482 non-null  int64         
 1   Porta de Destino                                                177482 non-null  int64         
 2   Protocolo                                                       177482 non-null  int64         
 3   Data e Hora                                                     177482 non-null  datetime64[ns]
 4   Total de Pacotes Enviados                                       177482 non-null  int64         
 5   Total de Pacotes Recebidos                                      177482 non-null  int64         
 6   Comprimento Total dos Pacotes Enviados                          177482 non-n

### 4 - Resolva o enunciado 4 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [42]:
from sklearn.model_selection import train_test_split
X = df.drop('Classe', axis=1) 
y = df['Classe'] 

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.35, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.2, random_state=42)

### 5 - Resolva o enunciado 5 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [43]:
from sklearn.preprocessing import StandardScaler

# Inicializando o StandardScaler
scaler = StandardScaler()

# Aplicando fit_transform nos dados de treinamento
X_train_scaled = scaler.fit_transform(X_train_pca)

# Aplicando transform nos dados de validação e teste
X_val_scaled = scaler.transform(X_val_pca)
X_test_scaled = scaler.transform(X_test_pca)


### 6 - Resolva o enunciado 6 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [44]:
import numpy as np

# Supondo que y seja uma array numpy ou uma lista
num_classes = np.unique(y).size  # Retorna o número de valores únicos em y
classes_unicas = np.unique(y) 

print(num_classes)

2


In [45]:
from sklearn.decomposition import PCA
# Inicializando o PCA
pca = PCA(n_components=1)  # Número máximo de componentes para 2 classes é 1
# Aplicando o PCA nos conjuntos de treinamento, validação e teste
X_train_pca = pca.fit_transform(X_train)
X_val_pca = pca.transform(X_val)
X_test_pca = pca.transform(X_test)

TypeError: The DType <class 'numpy.dtype[datetime64]'> could not be promoted by <class 'numpy.dtype[float64]'>. This means that no common DType exists for the given inputs. For example they cannot be stored in a single array unless the dtype is `object`. The full list of DTypes is: (<class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[datetime64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[float64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int64]'>, <class 'numpy.dtype[int32]'>)

In [None]:
from sklearn.decomposition import PCA

# Excluindo colunas do tipo datetime64 antes de aplicar o PCA
X_train_no_datetime = X_train.select_dtypes(exclude=['datetime64'])
X_val_no_datetime = X_val.select_dtypes(exclude=['datetime64'])
X_test_no_datetime = X_test.select_dtypes(exclude=['datetime64'])

# Inicializando o PCA
pca = PCA(n_components=1)

# Aplicando o PCA nos conjuntos de treinamento, validação e teste
X_train_pca = pca.fit_transform(X_train_no_datetime)
X_val_pca = pca.transform(X_val_no_datetime)
X_test_pca = pca.transform(X_test_no_datetime)


### 7 - Resolva o enunciado 7 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Inicializando o LDA
lda = LinearDiscriminantAnalysis(n_components=1)

# Aplicando o LDA nos conjuntos de treinamento, validação e teste
X_train_lda = lda.fit_transform(X_train_scaled, y_train)
X_val_lda = lda.transform(X_val_scaled)
X_test_lda = lda.transform(X_test_scaled)

### 8 - Resolva o enunciado 8 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [None]:
import tensorflow as tf
from tensorflow.keras import layers, models

# Função para definir o modelo
def criar_modelo(input_shape):
    model = models.Sequential()
    model.add(layers.Dense(256, activation='relu', input_shape=(input_shape,)))
    model.add(layers.Dense(128, activation='relu'))
    model.add(layers.Dense(64, activation='relu'))
    model.add(layers.Dense(32, activation='relu'))
    model.add(layers.Dense(1, activation='softmax'))  # Certifique-se de ajustar o número de classes
    return model

# Substitua 'numero_de_classes' pelo número real de classes do seu problema

# Definindo modelos para cada conjunto de dados
input_shape_normal = X_train.shape[1]  # Substitua pelo número de características no conjunto de dados original
modelo_normal = criar_modelo(input_shape_normal)

input_shape_pca = X_train_pca.shape[1]  # Substitua pelo número de componentes principais no conjunto de dados PCA
modelo_pca = criar_modelo(input_shape_pca)

input_shape_lda = X_train_lda.shape[1]  # Substitua pelo número de componentes no conjunto de dados LDA
modelo_lda = criar_modelo(input_shape_lda)

### 9 - Resolva o enunciado 9 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)


In [None]:
from tensorflow.keras.utils import to_categorical

y_train = to_categorical(y_train)
y_val = to_categorical(y_val)
y_test = to_categorical(y_test)

In [None]:
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau


# Função para treinar o modelo
def treinar_modelo(modelo, X_treino, y_treino, X_val, y_val):
    # Definindo callbacks
    early_stopping = EarlyStopping(monitor='val_loss', patience=15, restore_best_weights=True)
    reduce_lr = ReduceLROnPlateau(monitor='val_loss', patience=4, factor=0.3, verbose=1)

    # Compilando o modelo
    modelo.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])  # Ajuste a função de perda conforme necessário

    # Treinando o modelo
    history = modelo.fit(
        X_treino, y_treino,
        epochs=50,
        validation_data=(X_val, y_val),
        callbacks=[early_stopping, reduce_lr],
        batch_size=32  # Ajuste conforme necessário
    )

    return history

# Substitua y_train, y_val, y_test pelos seus conjuntos de rótulos one-hot-encoded
# Certifique-se de ajustar as chamadas fit para seus dados específicos (por exemplo, X_train_normal, X_val_pca, etc.)

# Treinando o modelo normal
historico_normal = treinar_modelo(modelo_normal, X_train, y_train, X_val, y_val)

# Treinando o modelo PCA
historico_pca = treinar_modelo(modelo_pca, X_train_pca, y_train, X_val_pca, y_val)

# Treinando o modelo LDA
historico_lda = treinar_modelo(modelo_lda, X_train_lda, y_train, X_val_lda, y_val)


ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type int).

### 10 - Resolva o enunciado 10 no(s) blocos de código abaixo (Pode criar mais blocos de código, mas me envie apenas com os necessários)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Função para avaliar o modelo e exibir métricas
def avaliar_modelo(modelo, X, y):
    # Realizando previsões
    y_pred = modelo.predict(X)

    # Convertendo rótulos one-hot-encoded para rótulos de classe
    y_true = [label.argmax() for label in y]
    y_pred = [label.argmax() for label in y_pred]

    # Calculando métricas
    acuracia = accuracy_score(y_true, y_pred)
    precisao = precision_score(y_true, y_pred, average='weighted')
    recall = recall_score(y_true, y_pred, average='weighted')
    f1 = f1_score(y_true, y_pred, average='weighted')

    # Exibindo métricas
    print(f'Acurácia: {acuracia:.4f}')
    print(f'Precisão: {precisao:.4f}')
    print(f'Recall: {recall:.4f}')
    print(f'F1: {f1:.4f}')

    # Exibindo matriz de confusão com gráfico de calor
    matriz_confusao = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(matriz_confusao, annot=True, fmt='d', cmap='Blues', cbar=False)
    plt.xlabel('Predito')
    plt.ylabel('Verdadeiro')
    plt.title('Matriz de Confusão')
    plt.show()

# Avaliando o modelo normal
avaliar_modelo(modelo_normal, X_test, y_test)

# Avaliando o modelo PCA
avaliar_modelo(modelo_pca, X_test_pca, y_test)

# Avaliando o modelo LDA
avaliar_modelo(modelo_lda, X_test_lda, y_test)


ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type int).