# Seção 1: Introdução à Redução de Dimensionalidade

### Definição de Redução de Dimensionalidade
- **Redução de Dimensionalidade** refere-se ao processo de reduzir o número de variáveis aleatórias sob consideração, obtendo um conjunto de variáveis principais. Em machine learning, isso é frequentemente realizado para simplificar modelos e reduzir a complexidade computacional.

### Por que é Importante
1. **Simplificação de Modelos**: Modelos com menos variáveis são mais fáceis de interpretar e menos propensos a overfitting.
2. **Melhoria de Performance**: Menor dimensionalidade pode levar a tempos de treinamento e inferência mais rápidos, bem como a uma melhor generalização do modelo.
3. **Visualização de Dados**: Reduzir a dimensionalidade dos dados para duas ou três dimensões permite a visualização em gráficos, facilitando a compreensão das relações entre as variáveis e identificação de padrões.

# Seção 2: Principal Component Analysis (PCA)

### Teoria Básica do PCA (Análise de Componentes Principais)

- **O que é PCA?** 
  - Imagine que você tem muitos dados, como uma pilha de livros. O PCA ajuda a reorganizar essa pilha de forma que os livros mais importantes fiquem no topo. Aqui, cada 'livro' é uma informação sobre seus dados, e os 'mais importantes' são aqueles que contêm a maior parte da informação.
- **Componentes Principais**: 
  - São como os resumos dos seus livros. O primeiro resumo (componente principal) tenta capturar a maior parte da história contida na sua pilha de livros. O segundo resumo tenta capturar a maior parte da história restante, mas sem repetir nada do que já foi dito no primeiro.
- **Variação e Ortogonalidade**: 
  - Variação é o quanto de 'novidade' cada resumo (componente) traz sobre a história total. Ortogonalidade é um termo técnico que, neste caso, significa que cada resumo fala de partes diferentes da história, sem sobreposição.

Essa é a ideia básica do PCA: reduzir a complexidade dos seus dados, mas tentando manter a maior parte da informação original, organizando-a de forma inteligente.

---

### Interpretação Geométrica e Estatística do PCA

- **Interpretação Geométrica**:
  - Imagine seus dados como um enxame de abelhas voando no espaço. Cada abelha é um ponto de dado. O PCA ajuda a encontrar a melhor lente de câmera (um novo ponto de vista) para fotografar esse enxame de modo que você possa ver o máximo possível das abelhas em uma única foto. Essa 'foto' é o novo espaço com os componentes principais como eixos.
- **Interpretação Estatística**:
  - Se cada abelha no enxame estivesse falando (representando uma variável), o PCA seria como um microfone direcional que tenta captar as conversas mais altas e distintas. Isso se relaciona com a análise de quão relacionadas (correlacionadas) estão as 'vozes' das abelhas (variáveis) e quão alto cada grupo de abelhas está falando (covariância).

Essas interpretações ajudam a entender o PCA como uma técnica para capturar a essência dos seus dados, seja visualizando-os de uma nova perspectiva ou ouvindo as partes mais importantes da história que eles contam.

---

### Variação Explicada e Seleção do Número de Componentes no PCA

- **Variação Explicada**:
  - Pense na 'variação explicada' como a quantidade de tesouro que cada componente principal consegue encontrar. Em outras palavras, é quanto cada componente ajuda a entender os dados. Se um componente encontra muito tesouro (informação), ele explica muito sobre os dados.
- **Seleção do Número de Componentes**:
  - Escolher quantos componentes principais manter é como decidir quantos detetives você quer para encontrar o tesouro nos seus dados. Você pode usar um gráfico chamado 'Scree Plot', que mostra o quanto de tesouro (informação) cada detetive (componente) encontra. Normalmente, você mantém os detetives que encontram mais tesouro e dispensa os que encontram menos.

Usar a variação explicada e o Scree Plot ajuda a tomar decisões informadas sobre quantos componentes principais você deve manter para capturar a maior parte da informação nos seus dados, sem manter partes desnecessárias.

---

In [None]:
# Importando as bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits

# Carregando um dataset exemplo com alta dimensionalidade
# Neste exemplo, estamos usando o dataset 'digits', que é um conjunto de imagens de dígitos escritos à mão
digits = load_digits()
X = digits.data
y = digits.target

# Função para exibir os valores de X
def plot_handwritten_digit_from_array(digit_array, digit_value):
    """
    Plota a imagem de um dígito escrito à mão a partir de um array de pixels.

    Parâmetros:
    digit_array (array): Array de 64 elementos representando um dígito escrito à mão.

    Retorna:
    None
    """
    # Verificando se o array tem o tamanho correto
    if len(digit_array) != 64:
        print("O array deve ter 64 elementos.")
        return

    # Redimensionando o array para 8x8 para plotagem
    digit_image = digit_array.reshape(8, 8)

    # Plotando a imagem
    plt.figure(figsize=(2, 2))
    plt.imshow(digit_image, cmap='gray')
    plt.title(f'Dígito "{digit_value}" Escrito à Mão')
    plt.axis('off')
    plt.show()

In [None]:
y[45]

In [None]:
X[45]

In [None]:
plot_handwritten_digit_from_array(X[4],y[4])

In [None]:
# Aplicando PCA
# Neste exemplo, vamos reduzir os dados para 2 dimensões para fins de visualização
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

## Explicações dos Gráficos Gerados pelo PCA

### 1. Visualização dos Componentes Principais
- **Objetivo do Gráfico**:
  - Este gráfico de dispersão mostra os dados do dataset 'digits' após a aplicação do PCA, que os reduziu para 2 dimensões.
- **Detalhes do Gráfico**:
  - Cada ponto no gráfico representa um dígito escrito à mão.
  - O eixo X representa o primeiro componente principal, e o eixo Y representa o segundo componente principal.
  - A cor de cada ponto indica o dígito real (0 a 9) que o ponto representa.
  - Este gráfico ajuda a visualizar como os dígitos diferentes estão distribuídos no espaço de 2 dimensões.

### 2. Variação Explicada por Cada Componente
- **Objetivo do Gráfico**:
  - O gráfico de barras mostra quanta informação (variação) cada um dos componentes principais retém do dataset original.
- **Detalhes do Gráfico**:
  - As barras representam a proporção da variação total do dataset que cada componente principal captura.
  - O primeiro componente principal geralmente captura a maior parte da variação, enquanto o segundo captura uma quantidade menor.
  - Este gráfico é útil para entender a eficácia do PCA em reduzir a dimensionalidade dos dados preservando ao mesmo tempo a maior parte da informação.

---

Esses gráficos são ferramentas essenciais para entender os resultados do PCA, oferecendo uma visão clara de como os dados foram transformados e quanta informação cada componente principal conseguiu reter.


In [None]:
# Visualizando os componentes principais
plt.figure(figsize=(8, 6))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, edgecolor='none', alpha=0.5,
            cmap=plt.cm.get_cmap('Spectral', 10))
plt.xlabel('Primeiro componente principal')
plt.ylabel('Segundo componente principal')
plt.colorbar()
plt.title('Visualização dos Dados do PCA')
plt.show()

# Visualizando a variação explicada por cada componente
plt.figure(figsize=(8, 4))
plt.bar(range(1, pca.n_components_ + 1), pca.explained_variance_ratio_, color='blue', label='Variação individual explicada')
plt.ylabel('Proporção da Variação Explicada')
plt.xlabel('Componente Principal')
plt.legend(loc='best')
plt.title('Variação Explicada por Cada Componente do PCA')
plt.show()

# Notas:
# 1. Este código aplica PCA ao dataset 'digits' e o reduz para 2 componentes principais.
# 2. Em seguida, visualiza os dados transformados em um gráfico de dispersão, colorido por dígitos.
# 3. Por fim, exibe um gráfico de barras mostrando a quantidade de variação explicada por cada componente.


# Seção 3: Linear Discriminant Analysis (LDA)


### Diferenças Fundamentais entre PCA e LDA
- **PCA (Principal Component Analysis)** é uma técnica não-supervisionada que busca a direção de máxima variação nos dados, independentemente das classes.
- **LDA (Linear Discriminant Analysis)**, por outro lado, é uma técnica supervisionada que busca maximizar a separação entre diferentes classes. 
- Enquanto o PCA busca direções que maximizam a variação total, o LDA foca em encontrar um espaço que maximize a separação entre classes.

## Teoria do LDA: Maximizando a Diferença Entre Grupos

- **O que é LDA (Linear Discriminant Analysis)?**
  - Imagine que você está organizando uma série de fotos de diferentes grupos de pessoas (classes). O LDA é como um mágico da fotografia que arranja as pessoas de modo que os grupos fiquem o mais distintos possível uns dos outros.

- **Maximizando a Distinção Entre Grupos**:
  - O LDA busca a melhor forma de arranjar as fotos para que cada grupo se destaque claramente. Ele faz isso garantindo que os grupos estejam o mais separados possível (maximizando a variância entre classes) e que as pessoas dentro de cada grupo estejam o mais próximas possível umas das outras (minimizando a variância dentro das classes).

- **Encontrando os Melhores Eixos**:
  - Matematicamente, o LDA procura linhas imaginárias (eixos) que passam pelos grupos, de forma a maximizar a distância entre os centros de cada grupo (médias das classes) e, ao mesmo tempo, manter cada grupo o mais unido possível.


---

Esta seção introduz o LDA como uma poderosa técnica de redução de dimensionalidade, especialmente útil em contextos onde a classificação é um objetivo chave.


In [None]:
# Importando as bibliotecas necessárias
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.datasets import load_wine

# Carregando um dataset exemplo para classificação
# Neste exemplo, estamos usando o dataset 'wine', que é um conjunto de dados de classificação
wine = load_wine()
X = wine.data
y = wine.target

In [None]:
X

In [None]:
X.shape

In [None]:
y

# Entendendo as Limitações de Componentes no LDA

A Análise Discriminante Linear (LDA) é uma técnica poderosa de redução de dimensionalidade em Machine Learning, mas vem com uma limitação específica quanto ao número de componentes que pode extrair. Vamos entender essa limitação.

## LDA e o Número Máximo de Componentes

- **Limitação Fundamental**:
  - O número máximo de componentes que o LDA pode extrair é determinado pelo menor valor entre:
    - O número de características (features) do dataset.
    - O número de classes menos um (`n_classes - 1`).

- **Por que essa Limitação Existe?**:
  - O LDA funciona maximizando a separação entre as classes. Matematicamente, isso é feito encontrando eixos ou direções que maximizam a distância entre os centros das classes.
  - O número de eixos úteis para essa separação é limitado pelo número de classes que você tem menos um. Isso ocorre porque, em um espaço de `N` dimensões, você pode ter no máximo `N-1` direções que separam efetivamente `N` pontos (ou classes).

## Aplicação Prática

- **Exemplo com 3 Classes**:
  - Se o dataset tem 3 classes, o número máximo de componentes que o LDA pode usar é `3 - 1 = 2`.
  - Tentar usar um `n_components` maior do que 2 resultará em um erro, já que não é possível criar mais de 2 eixos discriminantes para 3 classes.

In [None]:
# Aplicando LDA
lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit_transform(X, y)
X_lda.shape

In [None]:
# Aplicando PCA para comparação
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
X_pca.shape

In [None]:
# Função para plotar os resultados
def plot_scatter(X, y, title, ax):
    colors = ['red', 'green', 'blue']
    for color, i, target_name in zip(colors, [0, 1, 2], wine.target_names):
        ax.scatter(X[y == i, 0], X[y == i, 1], alpha=0.8, color=color, label=target_name)
    ax.legend(loc='best', shadow=False, scatterpoints=1)
    ax.title.set_text(title)

# Visualizando os resultados
fig, ax = plt.subplots(1, 2, figsize=(16, 6))

plot_scatter(X_lda, y, 'LDA: Wine Dataset', ax[0])
plot_scatter(X_pca, y, 'PCA: Wine Dataset', ax[1])

plt.show()

# Notas:
# 1. Este código aplica LDA e PCA ao dataset 'wine' e os reduz para 2 componentes.
# 2. Em seguida, visualiza os dados transformados usando LDA e PCA em gráficos de dispersão separados.
# 3. A comparação entre LDA e PCA ajuda a entender as diferenças em como eles tratam a separabilidade das classes.

## Comparando com os exemplos dos dígitos

In [None]:
digits = load_digits()
X = digits.data
y = digits.target

# Aplicando LDA
lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit_transform(X, y)

# Aplicando PCA para comparação
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Configurando o layout dos gráficos
fig, axs = plt.subplots(1, 2, figsize=(16, 6))

# Gráfico PCA
scatter = axs[0].scatter(X_pca[:, 0], X_pca[:, 1], c=y, edgecolor='none', alpha=0.5, cmap=plt.cm.get_cmap('Spectral', 10))
axs[0].set_xlabel('Primeiro componente principal')
axs[0].set_ylabel('Segundo componente principal')
axs[0].set_title('Visualização dos Dados do PCA')

# Gráfico LDA
scatter_lda = axs[1].scatter(X_lda[:, 0], X_lda[:, 1], c=y, edgecolor='none', alpha=0.5, cmap=plt.cm.get_cmap('Spectral', 10))
axs[1].set_xlabel('Primeiro Discriminante Linear')
axs[1].set_ylabel('Segundo Discriminante Linear')
axs[1].set_title('Visualização dos Dados do LDA')

# Adicionando barra de cores
fig.colorbar(scatter, ax=axs[0], orientation='vertical')
fig.colorbar(scatter_lda, ax=axs[1], orientation='vertical')

plt.show()

# Seção 4: Considerações Finais e Melhores Práticas em Redução de Dimensionalidade

## Escolhendo Entre PCA e LDA

### PCA (Principal Component Analysis)
- **Descrição**: Técnica não-supervisionada para transformar dados em componentes principais ortogonais.
- **Uso Ideal**: Para visualização de dados, análise exploratória e casos onde as classes não são o foco.
- **Aplicação em Machine Learning**:
  - **Classificação e Regressão**: Útil para ambos, especialmente para reduzir a dimensionalidade e evitar overfitting.
  - **Independência de Classes**: Não considera a separação de classes, o que pode ser limitante em certos casos de classificação.

### LDA (Linear Discriminant Analysis)
- **Descrição**: Técnica supervisionada focada em maximizar a separabilidade entre classes conhecidas.
- **Uso Ideal**: Para tarefas de classificação onde a distinção clara entre grupos é necessária.
- **Aplicação em Machine Learning**:
  - **Classificação**: Altamente eficaz em classificação devido à sua natureza supervisionada e foco em separabilidade de classes.
  - **Limitações**: Pressupõe distribuições gaussianas com covariâncias iguais entre as classes, o que pode não ser verdade em todos os datasets.
  - **Regressão**: Pode ser adaptado para regressão ao categorizar variáveis dependentes contínuas.

## Quando Escolher Cada Um?
- **PCA**: Escolha o PCA quando a redução de dimensionalidade para visualização ou análise exploratória é o principal objetivo, independentemente das classes.
- **LDA**: Prefira o LDA quando o foco está na maximização da separabilidade entre classes conhecidas, especialmente em problemas de classificação.

# Seção 5: Técnicas Famosas de Redução de Dimensionalidade em Machine Learning

A redução de dimensionalidade é uma técnica crucial em Machine Learning para simplificar os dados sem perder informações essenciais. Vamos explorar algumas das técnicas mais famosas, suas aplicações e em que tipo de problemas de aprendizado elas são mais utilizadas.

## PCA (Principal Component Analysis)
- **Descrição**: Reduz a dimensionalidade transformando os dados em componentes principais.
- **Indicação de Utilização**: Ideal para visualização de dados e pré-processamento em problemas complexos.
- **Aplicação**: Útil tanto em problemas supervisionados (classificação e regressão) quanto em não supervisionados.

## LDA (Linear Discriminant Analysis)
- **Descrição**: Foca na maximização da separabilidade entre classes conhecidas.
- **Indicação de Utilização**: Mais eficaz em problemas de classificação supervisionada.
- **Aplicação**: Principalmente usada em problemas de classificação supervisionada.

## t-SNE (t-Distributed Stochastic Neighbor Embedding)
- **Descrição**: Técnica não-linear para redução de dimensionalidade, mantendo a estrutura local dos dados.
- **Indicação de Utilização**: Excelente para visualização de dados de alta dimensionalidade.
- **Aplicação**: Comumente usada em problemas não supervisionados, mas pode ser útil em etapas exploratórias de problemas supervisionados.

## UMAP (Uniform Manifold Approximation and Projection)
- **Descrição**: Semelhante ao t-SNE, mas mais rápido e escalável.
- **Indicação de Utilização**: Boa para visualização e exploração de estruturas complexas.
- **Aplicação**: Usada principalmente em análises não supervisionadas.

## Autoencoders
- **Descrição**: Redes neurais para aprender representações codificadas dos dados.
- **Indicação de Utilização**: Usado em redução de dimensionalidade e aprendizado de características.
- **Aplicação**: Principalmente em problemas não supervisionados, mas também pode ser útil como pré-processamento em problemas supervisionados.

## Feature Selection Techniques
- **Descrição**: Métodos para selecionar um subconjunto relevante de variáveis.
- **Indicação de Utilização**: Para reduzir a dimensionalidade preservando variáveis importantes.
- **Aplicação**: Aplicável tanto em problemas supervisionados (classificação e regressão) quanto não supervisionados.

## Isomap (Isometric Mapping)
- **Descrição**: Técnica não-linear que preserva distâncias geodésicas entre pontos.
- **Indicação de Utilização**: Útil para dados com estrutura não-linear complexa.
- **Aplicação**: Mais comumente utilizada em análises não supervisionadas.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('saude_fetal.csv')

In [None]:
df.info()

In [None]:
df.isna().sum()

In [None]:
df.describe().T

# Aplicação de PCA ou LDA em Processos de Classificação em Machine Learning

O uso de técnicas como PCA (Principal Component Analysis) e LDA (Linear Discriminant Analysis) é uma etapa fundamental em muitos fluxos de trabalho de Machine Learning, especialmente em tarefas de classificação. Vamos explorar em que momento do processo elas devem ser aplicadas e por que.

## Processo de Classificação: Passos Iniciais
1. **Separação de X e y**: A primeira etapa envolve separar os recursos (X) dos rótulos ou classes (y) no seu conjunto de dados.
2. **Divisão em Treinamento, Validação e Teste**: Em seguida, divide-se o dataset em conjuntos de treinamento, validação e teste para garantir que o modelo possa ser treinado, validado e testado de forma eficaz.

## Aplicação de PCA ou LDA
- **Momento Ideal para Aplicação**:
  - PCA ou LDA devem ser aplicados **após a divisão dos dados** em conjuntos de treinamento, validação e teste, mas **antes da normalização dos dados**.
- **Por que Após a Divisão?**:
  - Essencialmente, a redução de dimensionalidade deve ser feita de maneira a evitar o vazamento de informações do conjunto de teste para o modelo durante o treinamento.
  - Ao aplicar PCA ou LDA após a divisão, você garante que a transformação dos dados seja realizada de forma independente nos conjuntos de treinamento, validação e teste.

## Processo de Aplicação
- **PCA ou LDA no Conjunto de Treinamento**:
  - Use `fit_transform` no conjunto de treinamento. Isso garante que o PCA ou LDA aprenda e aplique a redução de dimensionalidade com base apenas nos dados de treinamento.
- **PCA ou LDA nos Conjuntos de Validação e Teste**:
  - Aplique `transform` nos conjuntos de validação e teste. Isso utiliza os parâmetros aprendidos com o conjunto de treinamento para aplicar a mesma transformação, sem reaprender ou ajustar com base nesses conjuntos.

## Justificativa
- **Evitar Vazamento de Dados**: Aplicando a redução de dimensionalidade após a divisão e usando `fit_transform` apenas no treinamento, evita-se o risco de vazamento de informações do conjunto de teste.
- **Consistência nas Transformações**: Ao usar `transform` nos conjuntos de validação e teste, garante-se que as transformações sejam consistentes e comparáveis entre os diferentes conjuntos de dados.

In [None]:
X = df.drop('saude_fetal', axis = 1).values
y = df[['saude_fetal']].values

In [None]:
from sklearn.model_selection import train_test_split

# Separa 70% dos dados para treinamento
X_train, X_temp , y_train, y_temp = train_test_split(X, y, test_size= 0.3)

# Separa igualmente 50% de 30% (15% do total) para validação e teste
X_test, X_val, y_test, y_val = train_test_split(X_temp, y_temp, test_size= 0.5)

In [None]:
# Aplica LDA nos dados
lda = LinearDiscriminantAnalysis(n_components=2)
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)
X_val_lda = lda.transform(X_val)


# Aplica PCA nos dados
pca = PCA(n_components=6)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)
X_val_pca = pca.transform(X_val)

In [None]:
y_train

In [None]:
# Converter os valores de y para categóricos
from tensorflow.keras.utils import to_categorical

# Conversão dos rótulos para o formato one-hot
y_train = to_categorical(y_train, num_classes=3)
y_test = to_categorical(y_test, num_classes=3)
y_val = to_categorical(y_val, num_classes=3)

In [None]:
y_train

In [None]:
# Normalizar os dados

from sklearn.preprocessing import MinMaxScaler

scaler_X = MinMaxScaler()
scaler_X_lda = MinMaxScaler()
scaler_X_pca = MinMaxScaler()

X_train = scaler_X.fit_transform(X_train) 
X_val = scaler_X.transform(X_val) 
X_test = scaler_X.transform(X_test) 

X_train_lda  = scaler_X_lda .fit_transform(X_train_lda ) 
X_val_lda  = scaler_X_lda .transform(X_val_lda ) 
X_test_lda  = scaler_X_lda .transform(X_test_lda ) 

X_train_pca = scaler_X_pca.fit_transform(X_train_pca) 
X_val_pca = scaler_X_pca.transform(X_val_pca) 
X_test_pca = scaler_X_pca.transform(X_test_pca) 

In [None]:
X_train.shape

In [None]:
X_train_lda.shape

In [None]:
X_train_pca.shape

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from IPython.display import clear_output
from tensorflow.keras.callbacks import EarlyStopping

def criar_modelo(X_train, n_classes):
    """
    Cria e compila um modelo de Machine Learning com 5 camadas ocultas.

    Parâmetros:
    X_train (array): Dados de treinamento.
    y_train (array): Rótulos de treinamento.

    Retorna:
    model: Modelo de Machine Learning compilado.
    """
    n_features = X_train.shape[1]  # Número de características

    # Criando o modelo
    model = Sequential()
    model.add(Dense(512, activation='relu', input_shape=(n_features,)))
    model.add(Dense(256, activation='relu'))
    model.add(Dense(128, activation='relu'))
    model.add(Dense(64, activation='relu'))
    model.add(Dense(32, activation='relu'))
    model.add(Dense(n_classes, activation='softmax'))  # Camada de saída

    # Compilando o modelo
    model.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

    return model

def treinar_modelo(model, X_train, y_train, X_val, y_val, epochs = 300, early_stopping = 50):
    """
    Treina um modelo de Machine Learning e exibe gráficos de desempenho.

    Parâmetros:
    model: Modelo de Machine Learning.
    X_train (array): Dados de treinamento.
    y_train (array): Rótulos de treinamento.
    X_val (array): Dados de validação.
    y_val (array): Rótulos de validação.
    epochs (int): Número de épocas para treinamento.
    early_stopping (bool): Se True, aplica Early Stopping.

    Retorna:
    model: Modelo de Machine Learning treinado.
    """
    import matplotlib.pyplot as plt

    
    early_stopping_callback = EarlyStopping(monitor='val_loss', patience=early_stopping, restore_best_weights=True)
    callbacks = [early_stopping_callback]

    # Treinando o modelo
    history = model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=epochs, verbose=1, callbacks=callbacks)
    clear_output(wait=False)

    # Plotando gráficos de loss e acurácia
    plt.figure(figsize=(12, 5))

    # Gráfico de Loss
    plt.subplot(1, 2, 1)
    plt.plot(history.history['loss'], label='Loss de Treinamento')
    plt.plot(history.history['val_loss'], label='Loss de Validação')
    plt.title('Gráfico de Loss')
    plt.xlabel('Épocas')
    plt.ylabel('Loss')
    plt.legend()

    # Gráfico de Acurácia
    plt.subplot(1, 2, 2)
    plt.plot(history.history['accuracy'], label='Acurácia de Treinamento')
    plt.plot(history.history['val_accuracy'], label='Acurácia de Validação')
    plt.title('Gráfico de Acurácia')
    plt.xlabel('Épocas')
    plt.ylabel('Acurácia')
    plt.legend()

    plt.show()

    return model

In [None]:
# Define modelo para os dados normais
modelo = criar_modelo(X_train, 3)

# Define o modelo para os dados de LDA
modelo_lda = criar_modelo(X_train_lda, 3)

# Define o modelo para os dados de PCA
modelo_pca = criar_modelo(X_train_pca, 3)

In [None]:
# Define a quantidade de épocas
epochs = 200

In [None]:
# Define modelo para os dados normais
modelo = treinar_modelo(modelo, X_train, y_train, X_val, y_val)

In [None]:
# Define o modelo para os dados de LDA
modelo_lda = treinar_modelo(modelo_lda, X_train_lda, y_train, X_val_lda, y_val)

In [None]:
# Define o modelo para os dados de PCA
modelo_pca = treinar_modelo(modelo_pca, X_train_pca, y_train, X_val_pca, y_val)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns

def metricas_classificacao(y_real_, y_pred_, nome):
    y_real = [np.argmax(x) for x in y_real_]
    y_pred = [np.argmax(x) for x in y_pred_]

    # Calcular métricas
    metrics = {
        "Acurácia": accuracy_score(y_real, y_pred),
        "Precisão (macro)": precision_score(y_real, y_pred, average='macro', zero_division=0),
        "Recall (macro)": recall_score(y_real, y_pred, average='macro', zero_division=0),
        "F1-Score (macro)": f1_score(y_real, y_pred, average='macro', zero_division=0)
    }
    clear_output(wait=False)
    print(f"{nome}\n")
    # Printar métricas
    for key, value in metrics.items():
        print(f"{key}: {value}")

    # Calcular a Matriz de Confusão
    confusion_mat = confusion_matrix(y_real, y_pred)

    # Printar Matriz de Confusão
    print("Matriz de Confusão:")
    sns.heatmap(confusion_mat, annot=True, cmap='YlGnBu', fmt='g')
    plt.xlabel('Previsto')
    plt.ylabel('Real')
    plt.show()

In [None]:
y_pred = modelo.predict(X_test)
metricas_classificacao(y_test, y_pred, 'Normal')

In [None]:
y_pred_pca = modelo_pca.predict(X_test_pca)
metricas_classificacao(y_test, y_pred_pca, 'PCA')

In [None]:
y_pred_lda = modelo_lda.predict(X_test_lda)
metricas_classificacao(y_test, y_pred_lda, 'LDA')