In [5]:
import numpy as np
from sklearn.decomposition import PCA
from tqdm import tqdm
from sklearn.model_selection import train_test_split
from torch.utils.data import Dataset, DataLoader
import torch
from torch import nn as nn
import pickle


In [6]:
class NumpyDataset(Dataset):
    def __init__(self, data):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return torch.tensor(self.data[idx, :-1], dtype=torch.float), torch.tensor(self.data[idx, -1], dtype=torch.float)

def create_dataloaders_from_df(dataframe, test_size=0.2, batch_size=32, shuffle=True):
    # Split the DataFrame into training and testing sets
    train_df, test_df = train_test_split(dataframe, test_size=test_size)
    
    # Create datasets
    train_dataset = NumpyDataset(train_df)
    test_dataset = NumpyDataset(test_df)
    
    # Create dataloaders
    train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=shuffle)
    test_dataloader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)
    
    return train_dataloader, test_dataloader

class Classifier(nn.Module):
    def __init__(self, vec_dim, hidden_dim1, hidden_dim2, dropout_rate=0.1):
        super(Classifier, self).__init__()
        self.fc1 = nn.Linear(vec_dim, hidden_dim1)
        self.dropout1 = nn.Dropout(dropout_rate)
        self.fc2 = nn.Linear(hidden_dim1, hidden_dim2)
        self.dropout2 = nn.Dropout(dropout_rate)
        self.fc3 = nn.Linear(hidden_dim2, 1)
        self.relu = nn.ReLU()
        self.sigmoid = nn.Sigmoid()
        
    def forward(self, x):
        x = self.relu(self.fc1(x))
        #x = self.dropout1(x)
        x = self.relu(self.fc2(x))
        #x = self.dropout2(x)
        x = self.fc3(x)
        x = self.sigmoid(x)
        return x
    
def train_model(model, train_loader, test_loader, n_epochs, lr=0.001):
    accs = []
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
    optimizer=torch.optim.Adam(model.parameters(), lr=lr)
    loss_fn=nn.BCEWithLogitsLoss()
    for epoch in range(n_epochs):
        model.train()
        total_loss = 0
        for batch in tqdm(train_loader):
            inputs, labels = batch
            inputs, labels = inputs.to(device), labels.to(device)
            
            optimizer.zero_grad()  
            outputs = model(inputs) 
            loss = loss_fn(outputs.squeeze(), labels)  
            loss.backward() 
            optimizer.step()  
            total_loss += loss.item()
        print(f'Loss: {total_loss:.2f}')
        acc = evaluate_model(model, test_loader)
        print(f'Testing accuracy: {acc}')
        accs.append(acc)
    return accs
        
        
def evaluate_model(model, test_loader):
    model.eval() 
    correct = 0
    total = 0
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
    with torch.no_grad():  
        for inputs, labels in test_loader:
            inputs = inputs.to(device)
            labels = labels.to(device)
            outputs = model(inputs)
            predicted = (outputs.squeeze() >= 0.5).float()
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    
    accuracy = correct / total
    return accuracy

def append_number_to_rows(arr, num):
    num_column = np.full((arr.shape[0], 1), num)
    return np.hstack((arr, num_column))

In [7]:
n_components = [100]
accuracies = []
for n in n_components:
    print(f"Training model with {n} components")
    with open('ebt_full.pickle', 'rb') as file:
        data = pickle.load(file)
    print(data.shape)
    pca = PCA(n_components=n)
    pca.fit(data)
    low_dim_data = pca.transform(data)
    data = 0
    low_dim_neg_lbl = append_number_to_rows(low_dim_data[:1250000,:], 0)[:, :]
    low_dim_pos_lbl = append_number_to_rows(low_dim_data[1250000:,:], 1)[:, :]
    low_dim_data = 0
    low_dim_complete_lbl = np.vstack((low_dim_neg_lbl, low_dim_pos_lbl))
    low_dim_neg_lbl = 0
    low_dim_pos_lbl = 0
    train_loader_low_dim, test_loader_low_dim = create_dataloaders_from_df(low_dim_complete_lbl)
    model_low_dim = Classifier(n, 20, 10)
    accs = train_model(model_low_dim, train_loader_low_dim, test_loader_low_dim, n_epochs=100, lr=0.001)
    accuracies.append(accs)

Training model with 100 components
(2500000, 2292)


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1626.54it/s]


Loss: 36806.29
Testing accuracy: 0.821776


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1631.58it/s]


Loss: 36629.01
Testing accuracy: 0.824248


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1628.29it/s]


Loss: 36579.32
Testing accuracy: 0.823742


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1631.58it/s]


Loss: 36555.01
Testing accuracy: 0.82294


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1593.14it/s]


Loss: 36533.60
Testing accuracy: 0.821978


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1586.53it/s]


Loss: 36520.36
Testing accuracy: 0.8269


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1631.93it/s]


Loss: 36510.77
Testing accuracy: 0.82625


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1595.28it/s]


Loss: 36499.75
Testing accuracy: 0.825952


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1609.81it/s]


Loss: 36493.90
Testing accuracy: 0.827038


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1633.12it/s]


Loss: 36487.22
Testing accuracy: 0.82388


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1629.00it/s]


Loss: 36482.90
Testing accuracy: 0.826124


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1638.31it/s]


Loss: 36477.30
Testing accuracy: 0.827998


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1632.59it/s]


Loss: 36473.89
Testing accuracy: 0.825306


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1629.82it/s]


Loss: 36470.91
Testing accuracy: 0.82289


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1618.59it/s]


Loss: 36467.67
Testing accuracy: 0.820698


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1569.29it/s]


Loss: 36461.79
Testing accuracy: 0.824792


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1635.61it/s]


Loss: 36461.08
Testing accuracy: 0.825216


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1667.14it/s]


Loss: 36457.17
Testing accuracy: 0.82665


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1667.73it/s]


Loss: 36454.84
Testing accuracy: 0.825784


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1665.91it/s]


Loss: 36454.05
Testing accuracy: 0.825048


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.88it/s]


Loss: 36449.97
Testing accuracy: 0.824778


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1668.35it/s]


Loss: 36448.82
Testing accuracy: 0.827554


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.82it/s]


Loss: 36446.77
Testing accuracy: 0.827378


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1670.29it/s]


Loss: 36444.39
Testing accuracy: 0.826736


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.82it/s]


Loss: 36443.34
Testing accuracy: 0.826066


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.65it/s]


Loss: 36441.03
Testing accuracy: 0.827672


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1667.43it/s]


Loss: 36440.16
Testing accuracy: 0.824946


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.37it/s]


Loss: 36436.73
Testing accuracy: 0.826162


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1624.36it/s]


Loss: 36436.74
Testing accuracy: 0.824126


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1569.63it/s]


Loss: 36436.40
Testing accuracy: 0.823514


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.71it/s]


Loss: 36433.31
Testing accuracy: 0.82442


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.06it/s]


Loss: 36433.78
Testing accuracy: 0.823302


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1622.67it/s]


Loss: 36430.62
Testing accuracy: 0.82585


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1658.65it/s]


Loss: 36430.44
Testing accuracy: 0.827852


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1665.69it/s]


Loss: 36429.05
Testing accuracy: 0.828874


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1643.17it/s]


Loss: 36429.21
Testing accuracy: 0.82749


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.58it/s]


Loss: 36427.72
Testing accuracy: 0.825576


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.07it/s]


Loss: 36425.12
Testing accuracy: 0.826456


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.65it/s]


Loss: 36424.69
Testing accuracy: 0.824734


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1670.36it/s]


Loss: 36422.40
Testing accuracy: 0.824718


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.43it/s]


Loss: 36422.07
Testing accuracy: 0.824564


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1667.30it/s]


Loss: 36421.67
Testing accuracy: 0.825932


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1668.11it/s]


Loss: 36421.26
Testing accuracy: 0.826122


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.75it/s]


Loss: 36420.27
Testing accuracy: 0.82613


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1670.37it/s]


Loss: 36420.12
Testing accuracy: 0.825906


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1671.05it/s]


Loss: 36419.30
Testing accuracy: 0.825766


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1591.73it/s]


Loss: 36418.31
Testing accuracy: 0.822982


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.34it/s]


Loss: 36420.00
Testing accuracy: 0.826776


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.73it/s]


Loss: 36416.98
Testing accuracy: 0.827036


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.16it/s]


Loss: 36417.09
Testing accuracy: 0.826712


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1632.10it/s]


Loss: 36415.18
Testing accuracy: 0.826892


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1644.73it/s]


Loss: 36416.54
Testing accuracy: 0.82178


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1651.90it/s]


Loss: 36415.65
Testing accuracy: 0.824986


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1624.15it/s]


Loss: 36414.21
Testing accuracy: 0.82524


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:31<00:00, 295.42it/s]


Loss: 36413.42
Testing accuracy: 0.826944


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:55<00:00, 265.56it/s]


Loss: 36414.25
Testing accuracy: 0.825024


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:50<00:00, 270.65it/s]


Loss: 36411.46
Testing accuracy: 0.824726


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:52<00:00, 269.08it/s]


Loss: 36413.09
Testing accuracy: 0.827944


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:53<00:00, 267.16it/s]


Loss: 36414.92
Testing accuracy: 0.827122


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:53<00:00, 267.83it/s]


Loss: 36412.46
Testing accuracy: 0.8253


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:39<00:00, 285.27it/s]


Loss: 36411.47
Testing accuracy: 0.825566


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [03:44<00:00, 278.30it/s]


Loss: 36412.16
Testing accuracy: 0.828196


100%|████████████████████████████████████████████████████████████████████████████| 62500/62500 [02:40<00:00, 388.24it/s]


Loss: 36408.65
Testing accuracy: 0.82629


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1662.93it/s]


Loss: 36410.73
Testing accuracy: 0.828534


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.47it/s]


Loss: 36410.73
Testing accuracy: 0.82335


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.76it/s]


Loss: 36411.03
Testing accuracy: 0.824834


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.74it/s]


Loss: 36407.54
Testing accuracy: 0.827822


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1665.87it/s]


Loss: 36409.04
Testing accuracy: 0.824122


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.50it/s]


Loss: 36409.44
Testing accuracy: 0.829306


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1670.83it/s]


Loss: 36407.23
Testing accuracy: 0.82593


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1671.95it/s]


Loss: 36407.91
Testing accuracy: 0.824894


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1630.13it/s]


Loss: 36407.40
Testing accuracy: 0.823878


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1664.70it/s]


Loss: 36405.68
Testing accuracy: 0.826894


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.13it/s]


Loss: 36407.42
Testing accuracy: 0.82474


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.78it/s]


Loss: 36407.24
Testing accuracy: 0.825348


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1663.53it/s]


Loss: 36404.25
Testing accuracy: 0.827242


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1662.46it/s]


Loss: 36406.05
Testing accuracy: 0.824988


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.46it/s]


Loss: 36406.41
Testing accuracy: 0.824918


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.25it/s]


Loss: 36405.02
Testing accuracy: 0.826116


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1667.82it/s]


Loss: 36405.59
Testing accuracy: 0.825352


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1619.45it/s]


Loss: 36408.25
Testing accuracy: 0.828176


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1658.93it/s]


Loss: 36406.65
Testing accuracy: 0.828946


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1658.11it/s]


Loss: 36406.76
Testing accuracy: 0.825016


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1638.32it/s]


Loss: 36404.00
Testing accuracy: 0.822614


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1640.41it/s]


Loss: 36404.83
Testing accuracy: 0.826626


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1637.94it/s]


Loss: 36406.45
Testing accuracy: 0.82667


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1622.70it/s]


Loss: 36403.96
Testing accuracy: 0.826994


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1625.49it/s]


Loss: 36404.56
Testing accuracy: 0.828642


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1585.20it/s]


Loss: 36404.57
Testing accuracy: 0.825738


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:39<00:00, 1598.01it/s]


Loss: 36405.51
Testing accuracy: 0.824422


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1668.87it/s]


Loss: 36402.88
Testing accuracy: 0.825516


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1668.97it/s]


Loss: 36403.51
Testing accuracy: 0.824116


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.48it/s]


Loss: 36404.18
Testing accuracy: 0.827848


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1669.68it/s]


Loss: 36403.22
Testing accuracy: 0.82596


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1668.58it/s]


Loss: 36404.66
Testing accuracy: 0.82689


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1668.51it/s]


Loss: 36401.76
Testing accuracy: 0.824242


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1653.65it/s]


Loss: 36402.44
Testing accuracy: 0.826218


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1615.56it/s]


Loss: 36402.94
Testing accuracy: 0.825164


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:37<00:00, 1666.58it/s]


Loss: 36402.80
Testing accuracy: 0.827858


100%|███████████████████████████████████████████████████████████████████████████| 62500/62500 [00:38<00:00, 1644.64it/s]


Loss: 36401.86
Testing accuracy: 0.827294


In [8]:
#np.savetxt('accuracies2.txt', accuracies)

In [9]:
np.savetxt('accuracies100epochs.txt', accuracies)