# Aula 16 - Autoencoders

## Fundamentos e Aplicações de Autoencoders

### O que são Autoencoders?
- **Definição:**
  - Redes neurais usadas para aprender representações de dados, geralmente para redução de dimensionalidade. Elas tentam capturar as características mais importantes dos dados de entrada, de modo a poder reconstruí-los com boa precisão.
- **Arquitetura:**
  - Composta por duas partes principais: codificador (encoder) e decodificador (decoder). O codificador transforma os dados de entrada em uma representação de menor dimensão (codificação latente), e o decodificador reconstrói os dados de entrada a partir dessa codificação.

### Componentes de um Autoencoder
- **Codificador (Encoder):**
  - Reduz a dimensão dos dados de entrada.
  - **Função de ativação comum:** ReLU (Rectified Linear Unit), que introduz não-linearidade ao modelo, permitindo que ele aprenda representações mais complexas.
  - **Estrutura típica:** Composta por camadas densas (fully connected layers), onde cada camada subsequente possui menos neurônios do que a anterior, forçando a rede a aprender uma representação comprimida dos dados.

- **Codificação Latente:**
  - Representação compacta e comprimida dos dados de entrada.
  - **Tamanho da camada latente:** Determinado pela necessidade específica da aplicação e pela quantidade de informação que deve ser retida. Deve ser um compromisso entre a capacidade de compressão e a precisão de reconstrução.

- **Decodificador (Decoder):**
  - Reconstrói os dados originais a partir da codificação latente.
  - **Função de ativação comum:** Sigmoid ou Tanh, que são frequentemente utilizadas nas camadas finais para garantir que os valores de saída estejam no mesmo intervalo que os dados de entrada.
  - **Estrutura típica:** Semelhante ao codificador, mas em ordem inversa. As camadas possuem um número crescente de neurônios, expandindo a codificação latente de volta ao formato original dos dados de entrada.

### Processo de Treinamento
- **Função de Custo:**
  - O objetivo do treinamento é minimizar o erro de reconstrução, que é a diferença entre os dados de entrada e os dados reconstruídos pelo autoencoder. Uma função de custo comum é o erro quadrático médio (MSE - Mean Squared Error).
  - **Erro de reconstrução:** Mede o quanto os dados de saída se desviam dos dados de entrada.

- **Algoritmo de Otimização:**
  - Uso do algoritmo de descida do gradiente (Gradient Descent) para ajustar os pesos da rede neural de forma a minimizar a função de custo.
  - **Learning rate:** Taxa de aprendizado que controla o tamanho dos passos dados na direção do gradiente negativo. Um learning rate adequado é crucial para garantir a convergência eficiente e estável do modelo.

### Aplicações de Autoencoders
- **Redução de Dimensionalidade:**
  - Extração de características principais dos dados de entrada, facilitando a visualização, compressão e análise dos dados.
  - Compressão de dados, permitindo armazenar grandes volumes de dados em um formato mais compacto.

- **Detecção de Anomalias:**
  - Identificação de dados que não se ajustam ao padrão normal, com base no erro de reconstrução. Dados que resultam em alto erro de reconstrução podem ser considerados anômalos.

- **Pré-treinamento para Redes Neurais Profundas:**
  - Inicialização de pesos para outras redes neurais, melhorando a eficiência e a eficácia do treinamento em tarefas subsequentes.


## Redução de Dimensionalidade de uma Tabela com Autoencoders

### Passos para Reduzir a Dimensionalidade de uma Tabela com Autoencoders

#### 1. Pré-processamento dos Dados
- **Normalização:** Escale seus dados para que todas as características estejam na mesma faixa de valores (por exemplo, entre 0 e 1).
  - Isso ajuda o modelo a convergir mais rapidamente e a melhorar a precisão da reconstrução.

#### 2. Definição do Modelo Autoencoder
- **Codificador (Encoder):**
  - Reduz a dimensão dos dados de entrada.
  - **Exemplo:** Se sua tabela original tem 100 características, você pode querer reduzir para 10 características principais.
- **Camada Latente:**
  - A camada de codificação compacta os dados para um espaço de dimensão menor.
  - **Exemplo:** Um vetor de 10 valores.
- **Decodificador (Decoder):**
  - Reconstrói os dados originais a partir da codificação latente.
  - A estrutura do decodificador deve ser simétrica ao codificador.

#### 3. Treinamento do Autoencoder
- **Função de Custo:**
  - Utilize uma função de custo como o erro quadrático médio (MSE) para medir a diferença entre os dados de entrada e os dados reconstruídos.
- **Algoritmo de Otimização:**
  - Utilize o algoritmo de descida do gradiente com uma taxa de aprendizado adequada.
- **Treinamento:**
  - Treine o autoencoder com seus dados até que a função de custo seja minimizada e a reconstrução seja suficientemente precisa.

#### 4. Extração das Características Latentes
- **Utilize apenas o Codificador:**
  - Após o treinamento, utilize apenas a parte do codificador do autoencoder para transformar seus dados de entrada na representação de baixa dimensionalidade.
- **Novo Conjunto de Dados:**
  - O resultado será uma nova tabela com o número de características reduzido, mas preservando a maior parte da informação essencial dos dados originais.


In [1]:
import numpy as np
import pandas as pd
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [2]:
df = pd.read_csv('weather_data.csv')

In [3]:
df.head()

Unnamed: 0,Location,Date_Time,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,San Diego,2024-01-14 21:12:46,10.683001,41.195754,4.020119,8.23354
1,San Diego,2024-05-17 15:22:10,8.73414,58.319107,9.111623,27.715161
2,San Diego,2024-05-11 09:30:59,11.632436,38.820175,4.607511,28.732951
3,Philadelphia,2024-02-26 17:32:39,-8.628976,54.074474,3.18372,26.367303
4,San Antonio,2024-04-29 13:23:51,39.808213,72.899908,9.598282,29.898622


In [4]:
# Selecionar apenas as colunas numéricas para a normalização e o autoencoder
numeric_columns = ['Temperature_C', 'Humidity_pct', 'Precipitation_mm', 'Wind_Speed_kmh']
data = df[numeric_columns]

In [5]:
# Normalização dos dados
scaler = MinMaxScaler()
data_normalized = scaler.fit_transform(data)

In [6]:
# Definição do Autoencoder
input_dim = data_normalized.shape[1]
encoding_dim = 2  # Reduzir para 2 características principais

In [7]:
# Definindo a entrada do autoencoder
# input_layer define a camada de entrada com o formato dos dados de entrada (input_dim características)
input_layer = Input(shape=(input_dim,))

# Definindo a camada de codificação (encoder)
# encoder é uma camada densa com encoding_dim neurônios e ativação ReLU
# Esta camada reduz a dimensionalidade dos dados de entrada
encoder = Dense(encoding_dim, activation='relu')(input_layer)

# Definindo a camada de decodificação (decoder)
# decoder é uma camada densa com o mesmo número de neurônios que a camada de entrada e ativação sigmoid
# Esta camada reconstrói os dados para o formato original
decoder = Dense(input_dim, activation='sigmoid')(encoder)

# Construindo o modelo autoencoder
# autoencoder é o modelo que mapeia os dados de entrada para a saída reconstruída
autoencoder = Model(inputs=input_layer, outputs=decoder)

# Compilação do Autoencoder
# O compilador configura o modelo para o treinamento
# optimizer: algoritmo de otimização (Adam é um método de descida de gradiente estocástico)
# loss: função de perda (mean_squared_error calcula o erro quadrático médio entre a entrada e a saída reconstruída)
autoencoder.compile(optimizer='adam', loss='mean_squared_error')


In [8]:
# Treinamento do Autoencoder
autoencoder.fit(data_normalized, data_normalized, epochs=50, batch_size=256, shuffle=True)


Epoch 1/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 5ms/step - loss: nan
Epoch 2/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step - loss: nan
Epoch 3/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step - loss: nan
Epoch 4/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 3ms/step - loss: nan
Epoch 5/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - loss: nan
Epoch 6/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 2ms/step - loss: nan
Epoch 7/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - loss: nan
Epoch 8/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step - loss: nan
Epoch 9/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - loss: nan
Epoch 10/50
[1m1810/1810[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - loss: na

<keras.src.callbacks.history.History at 0x780196b4b400>

In [9]:
# Extração da camada de codificação
encoder_model = Model(inputs=input_layer, outputs=encoder)
data_reduced = encoder_model.predict(data_normalized)

[1m14479/14479[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 1ms/step


In [10]:
# Transformar a tabela reduzida em um DataFrame
df_reduced = pd.DataFrame(data_reduced, columns=['Feature1', 'Feature2'])

In [11]:
# Exibir as primeiras linhas da tabela reduzida
df_reduced.head()

Unnamed: 0,Feature1,Feature2
0,,
1,,
2,,
3,,
4,,


In [12]:
# Para reconstruir as colunas originais a partir dos dados reduzidos:
# Definir o modelo de decodificação
encoded_input = Input(shape=(encoding_dim,))
decoder_layer = autoencoder.layers[-1]  # Última camada do autoencoder
decoder_model = Model(inputs=encoded_input, outputs=decoder_layer(encoded_input))

In [13]:
# Reconstruir os dados originais
data_reconstructed = decoder_model.predict(data_reduced)

# Reverter a normalização
data_reconstructed = scaler.inverse_transform(data_reconstructed)

# Transformar os dados reconstruídos em um DataFrame
df_reconstructed = pd.DataFrame(data_reconstructed, columns=numeric_columns)

# Exibir as primeiras linhas da tabela reconstruída
df_reconstructed.head()

[1m14479/14479[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 1ms/step


Unnamed: 0,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,,,,
1,,,,
2,,,,
3,,,,
4,,,,


In [14]:
# Exibe os dados originais
data.head()

Unnamed: 0,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,10.683001,41.195754,4.020119,8.23354
1,8.73414,58.319107,9.111623,27.715161
2,11.632436,38.820175,4.607511,28.732951
3,-8.628976,54.074474,3.18372,26.367303
4,39.808213,72.899908,9.598282,29.898622


OBS: Assim como em outras redes neurais, aqui também lidamos apenas com os dados numéricos

In [15]:
# Função para calcular o tamanho total em memória de um DataFrame
def memory_usage_df(df):
    return df.memory_usage(deep=True).sum() / (1024 * 1024)

In [16]:
# Tamanho em memória das variáveis
size_data = memory_usage_df(data)
size_df_reduced = memory_usage_df(df_reduced)
size_df_reconstructed = memory_usage_df(df_reconstructed)


print(f'Tamanho de "data" em memória: {size_data:.2f} MB')
print(f'Tamanho de "df_reduced" em memória: {size_df_reduced:.2f} MB')
print(f'Tamanho de "df_reconstructed" em memória: {size_df_reconstructed:.2f} MB')

Tamanho de "data" em memória: 14.14 MB
Tamanho de "df_reduced" em memória: 3.53 MB
Tamanho de "df_reconstructed" em memória: 7.07 MB


# Comparação de DataFrames Usando Métricas de Reconstrução

## Função `compare_dataframes`

Esta função compara dois DataFrames, um original e um reconstruído, e calcula as métricas de qualidade de reconstrução para cada coluna. As métricas calculadas são:
- **Erro Quadrático Médio (MSE)**
- **Erro Absoluto Médio (MAE)**
- **Coeficiente de Determinação (R² Score)**

### Parâmetros
- `original_df` (DataFrame): O DataFrame original com os dados antes da redução de dimensionalidade.
- `reconstructed_df` (DataFrame): O DataFrame reconstruído a partir da representação de baixa dimensionalidade.

### Retorno
- DataFrame com as colunas:
  - `Column`: Nome da coluna.
  - `MSE`: Erro Quadrático Médio para a coluna.
  - `MAE`: Erro Absoluto Médio para a coluna.
  - `R²`: Coeficiente de Determinação para a coluna.

In [17]:
def compare_dataframes(original_df, reconstructed_df):
    results = []

    for column in original_df.columns:
        mse = mean_squared_error(original_df[column], reconstructed_df[column])
        mae = mean_absolute_error(original_df[column], reconstructed_df[column])
        r2 = r2_score(original_df[column], reconstructed_df[column])

        results.append({
            'Column': column,
            'MSE': mse,
            'MAE': mae,
            'R²': r2
        })

    return pd.DataFrame(results)

In [19]:
print(data.isna().sum())
print(df_reconstructed.isna().sum())

Temperature_C       0
Humidity_pct        1
Precipitation_mm    1
Wind_Speed_kmh      1
dtype: int64
Temperature_C       463322
Humidity_pct        463322
Precipitation_mm    463322
Wind_Speed_kmh      463322
dtype: int64


In [20]:
data = data.fillna(data.mean())
df_reconstructed = df_reconstructed.fillna(df_reconstructed.mean())

In [21]:
# Aqui você deve ter os dataframes 'data' e 'df_reconstructed'
comparison_results = compare_dataframes(data, df_reconstructed)

# Exibir os resultados
print(comparison_results)


ValueError: Input contains NaN.

### Utilização de Autoencoders com Diferentes Tipos de Dados

#### Dados Numéricos Contínuos
- **Aplicação:** Autoencoders são altamente eficazes para dados numéricos contínuos, como medidas de temperatura, umidade, preços, etc.
- **Vantagens:** Redução de dimensionalidade, extração de características principais e compressão de dados.

#### Dados Numéricos Inteiros
- **Aplicação:** Autoencoders podem ser usados para dados inteiros que representam quantidades, como idade, contagem de itens, etc.
- **Considerações:** Normalização pode ser necessária para melhorar a performance do autoencoder.

#### Dados Numéricos que Representam Classes
- **Aplicação:** Dados inteiros que representam categorias (como níveis educacionais, códigos de produtos) podem não ser adequados para autoencoders diretamente.
- **Observação:** Nesses casos, técnicas de pré-processamento como one-hot encoding ou embeddings são recomendadas.

#### Dados Textuais
- **Aplicação:** Autoencoders não são diretamente aplicáveis a dados textuais brutos.
- **Observação:** Dados textuais precisam ser convertidos em representações numéricas (como embeddings) antes de serem usados com autoencoders.

### Conclusão
Autoencoders são ferramentas poderosas para a redução de dimensionalidade e extração de características, especialmente com dados numéricos contínuos. Para dados inteiros e categóricos, transformações adicionais podem ser necessárias. Dados textuais requerem etapas de pré-processamento para serem utilizados de forma eficaz com autoencoders.


# Exercícios com base de dados preço de casas na California


In [22]:
df = pd.read_csv('housing.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Unnamed: 0   20640 non-null  int64  
 1   MedInc       20640 non-null  float64
 2   HouseAge     20640 non-null  float64
 3   AveRooms     20640 non-null  float64
 4   AveBedrms    20640 non-null  float64
 5   Population   20640 non-null  float64
 6   AveOccup     20640 non-null  float64
 7   Latitude     20640 non-null  float64
 8   Longitude    20640 non-null  float64
 9   MedHouseVal  20640 non-null  float64
dtypes: float64(9), int64(1)
memory usage: 1.6 MB


In [24]:
df.describe()

Unnamed: 0.1,Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,10319.5,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704,2.068558
std,5958.399114,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532,1.153956
min,0.0,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35,0.14999
25%,5159.75,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8,1.196
50%,10319.5,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49,1.797
75%,15479.25,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01,2.64725
max,20639.0,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31,5.00001


1 - Exclua as colunas 'Unnamed: 0', 'Latitude' e 'Longitude'.



In [25]:
df = df.drop(columns=['Unnamed: 0', 'Latitude', 'Longitude'])

df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,3.422


2 - Normalize a base de dados com MinMaxScaler.



In [26]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
df_normalized.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,MedHouseVal
0,0.539668,0.784314,0.043512,0.020469,0.008941,0.001499,0.902266
1,0.538027,0.392157,0.038224,0.018929,0.06721,0.001141,0.708247
2,0.466028,1.0,0.052756,0.02194,0.013818,0.001698,0.695051
3,0.354699,1.0,0.035241,0.021929,0.015555,0.001493,0.672783
4,0.230776,1.0,0.038534,0.022166,0.015752,0.001198,0.674638


3 - Defina e compile um modelo de autoencoder para reduzir para 3 colunas (encoding_dim = 3).



In [27]:
import numpy as np
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense

input_dim = df_normalized.shape[1]
encoding_dim = 3

# camada de entrada
input_layer = Input(shape=(input_dim,))

# encoder
encoder = Dense(encoding_dim, activation='relu')(input_layer)

# decoder (reconstrução)
decoder = Dense(input_dim, activation='sigmoid')(encoder)

autoencoder = Model(inputs=input_layer, outputs=decoder)
autoencoder.compile(optimizer='adam', loss='mean_squared_error')

autoencoder.summary()

4 - Treine o modelo por 50 épocas com batch_size de 64.



In [28]:
history = autoencoder.fit(df_normalized, df_normalized,
                          epochs=50,
                          batch_size=64,
                          validation_split=0.1,
                          shuffle=True)

Epoch 1/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - loss: 0.1258 - val_loss: 0.0405
Epoch 2/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0316 - val_loss: 0.0180
Epoch 3/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0169 - val_loss: 0.0123
Epoch 4/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0121 - val_loss: 0.0096
Epoch 5/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0099 - val_loss: 0.0077
Epoch 6/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0082 - val_loss: 0.0064
Epoch 7/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0067 - val_loss: 0.0050
Epoch 8/50
[1m291/291[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.0053 - val_loss: 0.0038
Epoch 9/50
[1m291/291[0m [32m━━━━━━━━

5 - Faça a extração da camada de codificação (previsão com o modelo).



In [29]:
encoder_model = Model(inputs=autoencoder.input, outputs=autoencoder.get_layer(index=1).output)

# previsão (extração) dos dados comprimidos
encoded_data = encoder_model.predict(df_normalized)

print(f"Formato dos dados comprimidos: {encoded_data.shape}")
print(encoded_data[:5])

[1m645/645[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step
Formato dos dados comprimidos: (20640, 3)
[[2.1391542  1.9088545  0.6003803 ]
 [1.2639593  1.8421667  0.67517686]
 [2.5460422  1.7617321  1.0380012 ]
 [2.5319164  1.4320085  1.0087008 ]
 [2.5109632  1.0598707  0.94254655]]


6 - Crie um DataFrame reduzido com as 3 colunas.



In [30]:
df_reduced = pd.DataFrame(encoded_data, columns=['Encoded_1', 'Encoded_2', 'Encoded_3'])

df_reduced.head()

Unnamed: 0,Encoded_1,Encoded_2,Encoded_3
0,2.139154,1.908854,0.60038
1,1.263959,1.842167,0.675177
2,2.546042,1.761732,1.038001
3,2.531916,1.432009,1.008701
4,2.510963,1.059871,0.942547


7 - Defina o decodificador para converter os dados reduzidos para o formato original.



In [33]:
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense

encoded_input = Input(shape=(encoding_dim,))

decoder_layer1 = Dense(10, activation='relu')(encoded_input)
decoder_layer2 = Dense(6, activation='relu')(decoder_layer1)
decoder_output = Dense(df.shape[1], activation='sigmoid')(decoder_layer2)

decoder_model = Model(inputs=encoded_input, outputs=decoder_output)

decoded_data = decoder_model.predict(encoded_data)

print(f"Formato dos dados decodificados: {decoded_data.shape}")
print(decoded_data[:5])

[1m645/645[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step
Formato dos dados decodificados: (20640, 7)
[[0.75891984 0.44166163 0.62963843 0.780311   0.716884   0.22331709
  0.45972836]
 [0.73314804 0.42387608 0.64340204 0.74473935 0.71242326 0.25505444
  0.47472912]
 [0.75342774 0.45311123 0.6188361  0.77932894 0.70491683 0.22667965
  0.46292543]
 [0.7337309  0.4412434  0.5991952  0.7593114  0.67052513 0.25423455
  0.4820369 ]
 [0.71374273 0.41914833 0.5716164  0.7367904  0.62719864 0.28832516
  0.50302565]]


8 - Reconstrua o DataFrame reduzido para a estrutura do original (usando as mesmas colunas).



In [34]:
colunas_originais = ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'MedHouseVal']

df_reconstructed = pd.DataFrame(decoded_data, columns=colunas_originais)
df_reconstructed.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,MedHouseVal
0,0.75892,0.441662,0.629638,0.780311,0.716884,0.223317,0.459728
1,0.733148,0.423876,0.643402,0.744739,0.712423,0.255054,0.474729
2,0.753428,0.453111,0.618836,0.779329,0.704917,0.22668,0.462925
3,0.733731,0.441243,0.599195,0.759311,0.670525,0.254235,0.482037
4,0.713743,0.419148,0.571616,0.73679,0.627199,0.288325,0.503026


9 - Exiba o tamanho em memória do DataFrame original, do DataFrame reduzido e do DataFrame reconstruído.

In [35]:
tamanho_original = df.memory_usage(deep=True).sum()
print(f"Tamanho em memória do DataFrame original: {tamanho_original} bytes")

# tamanho em memória do DataFrame reduzido
tamanho_reduzido = df_reduced.memory_usage(deep=True).sum()
print(f"Tamanho em memória do DataFrame reduzido: {tamanho_reduzido} bytes")

# tamanho em memória do DataFrame reconstruído
tamanho_reconstruido = df_reconstructed.memory_usage(deep=True).sum()
print(f"Tamanho em memória do DataFrame reconstruído: {tamanho_reconstruido} bytes")

Tamanho em memória do DataFrame original: 1155968 bytes
Tamanho em memória do DataFrame reduzido: 247808 bytes
Tamanho em memória do DataFrame reconstruído: 578048 bytes


10 - Exiba as métricas comparando o DataFrame original e o reconstruído.

In [36]:
from sklearn.metrics import mean_squared_error, mean_absolute_error
import numpy as np

original_columns = ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'MedHouseVal']

mse = mean_squared_error(df[original_columns], df_reconstructed)
mae = mean_absolute_error(df[original_columns], df_reconstructed)
rmse = np.sqrt(mse)

print(f"MSE (Mean Squared Error): {mse:.4f}")
print(f"MAE (Mean Absolute Error): {mae:.4f}")
print(f"RMSE (Root Mean Squared Error): {rmse:.4f}")

MSE (Mean Squared Error): 473393.3255
MAE (Mean Absolute Error): 209.4147
RMSE (Root Mean Squared Error): 688.0358
