In [1]:
import pandas as pd
import numpy as np
import torch


#loading the data
pd.read_csv('data/train.csv').head()

from torchtext.data import Field


In [2]:
import sys
import csv
maxInt = sys.maxsize
decrement =True
while decrement:
    decrement =False
    try:
        csv.field_size_limit(maxInt)
        sys.maxsize = maxInt
    except OverflowError:
        maxInt = int(maxInt/10)
        decrement =True


In [3]:
tokenize = lambda x: x.split()
#lowercased, whitespace-tokenized, and preprocessed
TEXT = Field(sequential=True, tokenize=tokenize, lower=True)
#labels is numeric already
LABEL = Field(sequential=False, use_vocab=False)

# csv.field_size_limit(sys.maxsize)
# csv.field_size_limit(500 * 1024 * 1024)

from torchtext.data import TabularDataset
trvld_datafields = [("id", None),
                ("comment_text", TEXT), ("toxic", LABEL),
                ("severe_toxic", LABEL), ("threat", LABEL),
                ("obscene", LABEL), ("insult", LABEL),
                ("identity_hate", LABEL)]

trn, vld = TabularDataset.splits(
            path="data",
            train="train.csv", validation="valid.csv",
            format="csv", skip_header=True,
            fields=trvld_datafields)

tst_datafields = [("id", None), ("comment_text", TEXT)]
tst = TabularDataset(
        path="data/test.csv", format="csv", skip_header=True, fields=tst_datafields)

print ('size of the train, dev, test dataset:', len(trn), len(vld), len(tst))
#print (trn.fields.items())
#print (trn[0].comment_text)
#print (tst[0].comment_text) 


size of the train, dev, test dataset: 25 25 33


In [4]:
from torchtext import vocab
vec = vocab.Vectors('E:\\语料\word2vec\\glove.6B\\glove.6B.100d.txt', '.\\data\\')
TEXT.build_vocab(trn, vld, max_size=200, vectors=vec)
print ('size of the vocab and embedding dim:', TEXT.vocab.vectors.shape) #size=202,50 (max vocab size=200+2 for <unk> and <pad>, and glove vector dim=50)
print ('index of the in the vocab:', TEXT.vocab.stoi['the']) #output:2, so the index 2 in vocab is for 'the'
print ('index 0 in the vocab:', TEXT.vocab.itos[0]) #output:<unk>, so the index 0 in vocab is for '<unk>'
#print ('embedding vector for 'the':', TEXT.vocab.vectors[TEXT.vocab.stoi['the']])

#print (TEXT.vocab.freqs.most_common(10))
#print (trn[0].__dict__.keys())
#print (trn[0].comment_text[:5])

#BucketIterator groups sequence of similar lengths text in a batch together to minimize padding! how cool is that!
from torchtext.data import Iterator, BucketIterator
train_iter, val_iter = BucketIterator.splits((trn, vld),
                                            batch_sizes=(3,3),
                                            device='cuda',
                                            sort_key=lambda x: len(x.comment_text), #tell the bucketIterator how to group the sequences
                                            sort_within_batch=False,
                                            repeat=False) #we want to wrap this Iterator layer
test_iter = Iterator(tst, batch_size=3, device='cuda', sort=False, sort_within_batch=False, repeat=False)

print ('number of batch (size: 3):', len(train_iter), len(val_iter)) #output: 9,9. because our train and val data only has 25 examples. since the batch size is 3, it means we have 25/3: 9 batches for each train and val

batch = next(iter(train_iter))
print ('details of batch:', batch)
print ("the content of 'toxic' for the first 3 examples in batch 1:", batch.toxic)
#print ("the content of 'comment_text' for the first 3 examples in batch 1, size depends on the longest sequence:", batch.comment_text)
#print (batch.dataset.fields)


  0%|                                                                                       | 0/400001 [00:00<?, ?it/s]Skipping token b'391842' with 1-dimensional vector [b'100']; likely a header
100%|██████████████████████████████████████████████████████████████████████▉| 399977/400001 [00:24<00:00, 16225.53it/s]

size of the vocab and embedding dim: torch.Size([202, 100])
index of the in the vocab: 2
index 0 in the vocab: <unk>
number of batch (size: 3): 9 9
details of batch: 
[torchtext.data.batch.Batch of size 1]
	[.toxic]:[torch.cuda.LongTensor of size 1 (GPU 0)]
	[.severe_toxic]:[torch.cuda.LongTensor of size 1 (GPU 0)]
	[.insult]:[torch.cuda.LongTensor of size 1 (GPU 0)]
	[.threat]:[torch.cuda.LongTensor of size 1 (GPU 0)]
	[.identity_hate]:[torch.cuda.LongTensor of size 1 (GPU 0)]
	[.obscene]:[torch.cuda.LongTensor of size 1 (GPU 0)]
	[.comment_text]:[torch.cuda.LongTensor of size 8x1 (GPU 0)]
the content of 'toxic' for the first 3 examples in batch 1: tensor([1], device='cuda:0')


100%|███████████████████████████████████████████████████████████████████████▉| 399977/400001 [00:40<00:00, 9999.11it/s]

In [5]:
class BatchGenerator:
    def __init__(self, dl, x, y):
        self.dl, self.x, self.y = dl, x, y
    def __len__(self):
        return len(self.dl)
    def __iter__(self):
        for batch in self.dl:
            X = getattr(batch, self.x) #assuming one input
            if self.y is not None: #concat the y into single tensor
                y = torch.cat([getattr(batch, feat).unsqueeze(1) for feat in self.y], dim=1).float()
            else:
                y = torch.zeros((1))
            yield (X,y)

train_batch_it = BatchGenerator(train_iter, 'comment_text', ['toxic', 'threat'])
#print ('get data x and y out of batch object:', next(iter(train_batch_it)))
valid_batch_it = BatchGenerator(val_iter, 'comment_text', ['toxic', 'threat'])
test_batch_it = BatchGenerator(test_iter, 'comment_text', None)
#print (next(test_batch_it.__iter__()))


In [8]:
import torch.optim as optim
import torch.nn as nn
from model import BiLSTM

vocab_size = len(TEXT.vocab)
emb_dim = 100
hidden_dim = 50
out_dim = 2 #only use 'toxic' and 'threat'
pretrained_vec = trn.fields['comment_text'].vocab.vectors
model = BiLSTM(vocab_size, hidden_dim, emb_dim, out_dim, pretrained_vec)
print (model)
model.cuda()

import tqdm
opt = optim.Adam(model.parameters(), lr=1e-2)
criterion = nn.BCEWithLogitsLoss()
epochs = 100
train_loss = []
valid_loss = []

for epoch in range(1, epochs+1):
    training_loss = 0.0
    training_corrects = 0
    model.train()
    for x, y in tqdm.tqdm(train_batch_it):
        opt.zero_grad()
        preds = model(x)
        loss = criterion(preds, y)

        loss.backward()
        opt.step()
        training_loss += loss.item() * x.size(0)
    epoch_loss = training_loss/ len(trn)

    val_loss = 0.0
    model.eval()
    for x,y in valid_batch_it:
        preds = model(x)
        loss = criterion(preds, y)
        val_loss += loss.item() * x.size(0)
    val_loss /= len(vld)
    train_loss.append(epoch_loss)
    valid_loss.append(val_loss)
    print ('Epoch: {}, Training loss: {:.4f}, Validation loss: {:.4f}'.format(epoch, epoch_loss, val_loss))
    
#predictions. note that the preds is the probability of the comment belong in each category output
test_preds = []
for x, y in tqdm.tqdm(test_batch_it):
    preds = model(x)
    preds = preds.data.cpu().numpy()
    preds = 1/(1+np.exp(-preds)) #actual output of the model are logits, so we need to pass into sigmoid function
    test_preds.append(preds)
    print (y, ' >>> ',  preds)

test_preds = np.hstack(test_preds)


BiLSTM(
  (embedding): Embedding(202, 100)
  (encoder): LSTM(100, 50, num_layers=2, dropout=0.1, bidirectional=True)
  (linear): Linear(in_features=100, out_features=50, bias=True)
  (predictor): Linear(in_features=50, out_features=2, bias=True)
)



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 11%|█████████▎                                                                          | 1/9 [00:00<00:02,  3.52it/s]
 56%|██████████████████████████████████████████████▋                                     | 5/9 [00:00<00:00, 12.95it/s]
 89%|██████████████████████████████████████████████████████████████████████████▋         | 8/9 [00:00<00:00, 14.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 15.92it/s]

Epoch: 1, Training loss: 21.6129, Validation loss: 8.9205



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 33%|████████████████████████████                                                        | 3/9 [00:00<00:00, 21.49it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 28.53it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.68it/s]

Epoch: 2, Training loss: 9.7737, Validation loss: 7.7052



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 28.65it/s]
 67%|████████████████████████████████████████████████████████                            | 6/9 [00:00<00:00, 24.86it/s]
 89%|██████████████████████████████████████████████████████████████████████████▋         | 8/9 [00:00<00:00, 23.18it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 23.81it/s]

Epoch: 3, Training loss: 9.8655, Validation loss: 8.2191



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 35.49it/s]
 89%|██████████████████████████████████████████████████████████████████████████▋         | 8/9 [00:00<00:00, 26.56it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.31it/s]

Epoch: 4, Training loss: 17.8768, Validation loss: 7.5321



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 35.81it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.05it/s]


Epoch: 5, Training loss: 8.0831, Validation loss: 7.7229



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 33%|████████████████████████████                                                        | 3/9 [00:00<00:00, 25.71it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 28.64it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.88it/s]

Epoch: 6, Training loss: 6.7860, Validation loss: 7.8119



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 33%|████████████████████████████                                                        | 3/9 [00:00<00:00, 27.10it/s]
 89%|██████████████████████████████████████████████████████████████████████████▋         | 8/9 [00:00<00:00, 28.75it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 28.56it/s]

Epoch: 7, Training loss: 10.4833, Validation loss: 8.0532



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 33.69it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 28.88it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.28it/s]

Epoch: 8, Training loss: 7.8967, Validation loss: 12.6040



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 33%|████████████████████████████                                                        | 3/9 [00:00<00:00, 28.10it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 28.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 28.56it/s]

Epoch: 9, Training loss: 19.8653, Validation loss: 11.1567



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 36.13it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 31.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 24.93it/s]


Epoch: 10, Training loss: 8.3534, Validation loss: 8.4486



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 56%|██████████████████████████████████████████████▋                                     | 5/9 [00:00<00:00, 29.66it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.34it/s]


Epoch: 11, Training loss: 9.7118, Validation loss: 7.7911



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 22%|██████████████████▋                                                                 | 2/9 [00:00<00:00, 19.10it/s]
 67%|████████████████████████████████████████████████████████                            | 6/9 [00:00<00:00, 24.76it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 25.42it/s]


Epoch: 12, Training loss: 8.2878, Validation loss: 7.8891



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 35.81it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 31.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.00it/s]

Epoch: 13, Training loss: 14.8892, Validation loss: 12.3351



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 22%|██████████████████▋                                                                 | 2/9 [00:00<00:00, 13.74it/s]
 67%|████████████████████████████████████████████████████████                            | 6/9 [00:00<00:00, 22.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.46it/s]

Epoch: 14, Training loss: 20.2546, Validation loss: 9.0542



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 33%|████████████████████████████                                                        | 3/9 [00:00<00:00, 29.49it/s]
 67%|████████████████████████████████████████████████████████                            | 6/9 [00:00<00:00, 26.04it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.49it/s]

Epoch: 15, Training loss: 8.0695, Validation loss: 8.6433



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 36.80it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 31.33it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 25.86it/s]


Epoch: 16, Training loss: 9.1573, Validation loss: 7.9067



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 56%|██████████████████████████████████████████████▋                                     | 5/9 [00:00<00:00, 37.98it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 29.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.54it/s]


Epoch: 17, Training loss: 7.5454, Validation loss: 7.8491



  0%|                                                                                            | 0/9 [00:00<?, ?it/s]
 44%|█████████████████████████████████████▎                                              | 4/9 [00:00<00:00, 37.48it/s]
 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:00<00:00, 32.20it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.85it/s]
Exception in thread Thread-6:
Traceback (most recent call last):
  File "C:\softwareinstall\anaconda3\lib\threading.py", line 914, in _bootstrap_inner
    self.run()
  File "C:\softwareinstall\anaconda3\lib\site-packages\tqdm\_monitor.py", line 62, in run
    for instance in self.tqdm_cls._instances:
  File "C:\softwareinstall\anaconda3\lib\_weakrefset.py", line 60, in __iter__
    for itemref in self.data:
RuntimeError: Set changed size during iteration




Epoch: 18, Training loss: 13.3955, Validation loss: 12.3165


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.69it/s]


Epoch: 19, Training loss: 12.1894, Validation loss: 11.6526


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.35it/s]


Epoch: 20, Training loss: 12.9254, Validation loss: 10.0290


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.77it/s]


Epoch: 21, Training loss: 6.2498, Validation loss: 9.6001


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 28.92it/s]


Epoch: 22, Training loss: 14.2322, Validation loss: 9.2813


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.10it/s]


Epoch: 23, Training loss: 19.4591, Validation loss: 9.0166


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.01it/s]


Epoch: 24, Training loss: 8.6683, Validation loss: 8.5825


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.26it/s]


Epoch: 25, Training loss: 8.5917, Validation loss: 8.4418


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 28.83it/s]


Epoch: 26, Training loss: 8.0834, Validation loss: 8.8980


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.40it/s]


Epoch: 27, Training loss: 10.0852, Validation loss: 10.7980


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.39it/s]


Epoch: 28, Training loss: 9.0441, Validation loss: 10.4546


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.35it/s]


Epoch: 29, Training loss: 13.0090, Validation loss: 9.8754


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.78it/s]


Epoch: 30, Training loss: 9.7841, Validation loss: 11.1015


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.78it/s]


Epoch: 31, Training loss: 20.6184, Validation loss: 10.6424


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.18it/s]


Epoch: 32, Training loss: 16.9979, Validation loss: 10.2578


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 28.03it/s]


Epoch: 33, Training loss: 5.3916, Validation loss: 10.1851


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.54it/s]


Epoch: 34, Training loss: 17.9205, Validation loss: 10.3236


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.05it/s]


Epoch: 35, Training loss: 22.0537, Validation loss: 9.9750


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.55it/s]


Epoch: 36, Training loss: 12.5702, Validation loss: 9.6842


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.38it/s]


Epoch: 37, Training loss: 13.2027, Validation loss: 9.4866


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.11it/s]


Epoch: 38, Training loss: 10.4309, Validation loss: 9.9240


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.08it/s]


Epoch: 39, Training loss: 10.2231, Validation loss: 8.8882


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.66it/s]


Epoch: 40, Training loss: 22.0355, Validation loss: 8.8393


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.12it/s]


Epoch: 41, Training loss: 11.2569, Validation loss: 10.2387


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.30it/s]


Epoch: 42, Training loss: 10.7328, Validation loss: 9.5424


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.18it/s]


Epoch: 43, Training loss: 6.9124, Validation loss: 10.4838


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.30it/s]


Epoch: 44, Training loss: 8.1278, Validation loss: 10.4895


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 34.31it/s]


Epoch: 45, Training loss: 30.7927, Validation loss: 9.6842


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.55it/s]


Epoch: 46, Training loss: 7.4489, Validation loss: 9.3593


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.06it/s]


Epoch: 47, Training loss: 15.9915, Validation loss: 8.7594


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.18it/s]


Epoch: 48, Training loss: 9.7420, Validation loss: 8.2326


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.70it/s]


Epoch: 49, Training loss: 11.6730, Validation loss: 8.1026


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.93it/s]


Epoch: 50, Training loss: 5.7203, Validation loss: 8.1184


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.34it/s]


Epoch: 51, Training loss: 8.2730, Validation loss: 8.3622


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.12it/s]


Epoch: 52, Training loss: 9.0768, Validation loss: 8.2380


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.23it/s]


Epoch: 53, Training loss: 21.7500, Validation loss: 8.0342


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.88it/s]


Epoch: 54, Training loss: 8.9572, Validation loss: 7.6062


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.80it/s]


Epoch: 55, Training loss: 9.1929, Validation loss: 7.4254


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.90it/s]


Epoch: 56, Training loss: 7.8248, Validation loss: 9.0552


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.55it/s]


Epoch: 57, Training loss: 13.2121, Validation loss: 8.8880


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.05it/s]


Epoch: 58, Training loss: 10.4052, Validation loss: 8.4433


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.58it/s]


Epoch: 59, Training loss: 6.9889, Validation loss: 7.8718


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 34.58it/s]


Epoch: 60, Training loss: 7.1512, Validation loss: 7.7386


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.55it/s]


Epoch: 61, Training loss: 8.6080, Validation loss: 7.6292


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.46it/s]


Epoch: 62, Training loss: 13.2301, Validation loss: 8.0204


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.02it/s]


Epoch: 63, Training loss: 6.8428, Validation loss: 7.0142


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.42it/s]


Epoch: 64, Training loss: 7.1968, Validation loss: 9.6304


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 35.25it/s]


Epoch: 65, Training loss: 7.4881, Validation loss: 8.0683


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.39it/s]


Epoch: 66, Training loss: 13.4701, Validation loss: 8.9931


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.46it/s]


Epoch: 67, Training loss: 8.0680, Validation loss: 9.1708


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.90it/s]


Epoch: 68, Training loss: 12.4023, Validation loss: 7.7327


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.23it/s]


Epoch: 69, Training loss: 7.2417, Validation loss: 7.4147


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.55it/s]


Epoch: 70, Training loss: 6.8805, Validation loss: 7.5985


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.34it/s]


Epoch: 71, Training loss: 9.6713, Validation loss: 7.6775


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.42it/s]


Epoch: 72, Training loss: 13.4252, Validation loss: 7.4342


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.11it/s]


Epoch: 73, Training loss: 8.3355, Validation loss: 9.2457


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 34.18it/s]


Epoch: 74, Training loss: 5.4794, Validation loss: 8.3748


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.81it/s]


Epoch: 75, Training loss: 5.8341, Validation loss: 8.8074


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.81it/s]


Epoch: 76, Training loss: 3.4649, Validation loss: 9.9818


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.82it/s]


Epoch: 77, Training loss: 5.1257, Validation loss: 9.0868


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.33it/s]


Epoch: 78, Training loss: 5.1670, Validation loss: 9.2268


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.00it/s]


Epoch: 79, Training loss: 5.4067, Validation loss: 9.3805


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.48it/s]


Epoch: 80, Training loss: 6.6314, Validation loss: 10.4662


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 35.66it/s]


Epoch: 81, Training loss: 3.8305, Validation loss: 10.0693


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.89it/s]


Epoch: 82, Training loss: 66.6666, Validation loss: 16.3445


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.85it/s]


Epoch: 83, Training loss: 15.2808, Validation loss: 8.7259


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.88it/s]


Epoch: 84, Training loss: 14.6317, Validation loss: 11.0022


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.68it/s]


Epoch: 85, Training loss: 10.9521, Validation loss: 13.4061


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 29.78it/s]


Epoch: 86, Training loss: 10.2115, Validation loss: 8.2188


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.70it/s]


Epoch: 87, Training loss: 5.8449, Validation loss: 28.8644


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 34.97it/s]


Epoch: 88, Training loss: 6.2474, Validation loss: 34.9640


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.80it/s]


Epoch: 89, Training loss: 6.9614, Validation loss: 34.6741


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.01it/s]


Epoch: 90, Training loss: 7.3162, Validation loss: 33.6941


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 25.64it/s]


Epoch: 91, Training loss: 10.3609, Validation loss: 11.6767


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.69it/s]


Epoch: 92, Training loss: 2.7564, Validation loss: 11.5983


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 26.78it/s]


Epoch: 93, Training loss: 12.3809, Validation loss: 9.9277


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.01it/s]


Epoch: 94, Training loss: 14.1182, Validation loss: 12.2105


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 30.18it/s]


Epoch: 95, Training loss: 12.0875, Validation loss: 9.6489


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 27.26it/s]


Epoch: 96, Training loss: 11.5864, Validation loss: 10.1946


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.93it/s]


Epoch: 97, Training loss: 14.8066, Validation loss: 10.9945


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 33.80it/s]


Epoch: 98, Training loss: 12.2576, Validation loss: 11.2639


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 32.93it/s]


Epoch: 99, Training loss: 3.8151, Validation loss: 11.8716


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 31.12it/s]


Epoch: 100, Training loss: 19.0539, Validation loss: 12.2566


  0%|                                                                                           | 0/11 [00:00<?, ?it/s]

tensor([0.])  >>>  [[0.02849705 0.00210586]
 [0.02849705 0.00210586]
 [0.04147828 0.00283769]]
tensor([0.])  >>>  [[0.0284971  0.00210586]
 [0.02853455 0.00211182]
 [0.04454725 0.00305275]]
tensor([0.])  >>>  [[2.8497057e-02 2.1058565e-03]
 [2.8497051e-02 2.1058565e-03]
 [6.7120459e-04 4.7634949e-06]]
tensor([0.])  >>>  [[0.02849706 0.00210586]
 [0.05186025 0.00386484]
 [0.02847693 0.00210329]]
tensor([0.])  >>>  [[0.0285045  0.00210714]
 [0.02849711 0.00210587]
 [0.15458082 0.03585403]]
tensor([0.])  >>>  [[0.05041096 0.00355884]
 [0.02849706 0.00210586]
 [0.38265657 0.32247508]]
tensor([0.])  >>>  [[0.02843609 0.00209789]
 [0.03147018 0.00173809]
 [0.00936708 0.00032664]]
tensor([0.])  >>>  [[0.05988883 0.00520493]
 [0.02849705 0.00210586]
 [0.0283615  0.00208746]]
tensor([0.])  >>>  [[0.02849721 0.00210588]
 [0.07702307 0.00865315]
 [0.02849732 0.0021059 ]]
tensor([0.])  >>>  [[0.02849999 0.00210633]
 [0.02849721 0.00210588]
 [0.03946575 0.00257403]]


 91%|██████████████████████████████████████████████████████████████████████████▌       | 10/11 [00:00<00:00, 97.35it/s]

tensor([0.])  >>>  [[3.8078952e-01 3.2009682e-01]
 [2.8497051e-02 2.1058565e-03]
 [7.2078308e-04 4.6292698e-06]]


100%|██████████████████████████████████████████████████████████████████████████████████| 11/11 [00:00<00:00, 96.75it/s]


In [11]:
import matplotlib.pyplot as plt
ep = range(1, epochs+1)
print (ep)
plt.plot(ep, train_loss, 'bo', label='Training loss')
plt.plot(ep, valid_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.savefig('plt.png')
#print (test_preds)

# import sys
# sys.exit()

# #write predictions to csv
# df = pd.read_csv("data/test.csv") 
# for i, col in enumerate(["toxic", "threat"]):
#     df[col] = test_preds[:, i]
# df.head()


range(1, 101)


In [None]:
# https://github.com/littleflow3r/bilstm-pytorch-torchtext