In [2]:
import pandas as pd
import numpy as np

## Data Preparation

In [3]:
#load data
df_seq=pd.read_csv('pdb_data_seq.csv')
df_properties=pd.read_csv('pdb_data_no_dups.csv')
df_total=df_seq.merge(df_properties,left_on='structureId',right_on = 'structureId')


In [4]:
df_total.columns

Index(['structureId', 'chainId', 'sequence', 'residueCount_x',
       'macromoleculeType_x', 'classification', 'experimentalTechnique',
       'macromoleculeType_y', 'residueCount_y', 'resolution',
       'structureMolecularWeight', 'crystallizationMethod',
       'crystallizationTempK', 'densityMatthews', 'densityPercentSol',
       'pdbxDetails', 'phValue', 'publicationYear'],
      dtype='object')

#### Select only protein, and filtered by top N

In [5]:
#select the data in top n by count, top 10?
count = df_total['classification'].value_counts(dropna=False)[:10]
df_selected=df_total[df_total['classification'].isin(set(count.index))]
#we want only protein
df_selected=df_selected[df_selected['macromoleculeType_x'].isin(set(['Protein']))]

#### Select proteins with only one chain

In [6]:
#select proteins with only one chain in the data set
#how to justify this operation?
#df_onechain = df_selected[df_selected.groupby('structureId').structureId.transform(len) == 1]

In [7]:
test_df = df_selected[['structureId','classification','sequence']]
#test_df = df_onechain[['structureId','classification','sequence']]

Things to be done

Further select data and simplify problem, select proteins with only one chain?


Figure out how to convert sequence data into array and training model afterwards.


More models and discussion (*LSTM)

Models build on features other than sequence.



## Model Training

In [8]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier,GradientBoostingClassifier,ExtraTreesClassifier

In [9]:
#optional, take part of the data for faster verification
data = test_df.sample(50000)

#need to remove nulls
data = data.dropna()
X_train, X_test,y_train,y_test = \
train_test_split(data['sequence'], data['classification'], test_size = 0.1, random_state = 1)

#### Feature Extraction From Sequence Data

In [33]:
#vectorize data, prepare for building models
#Convert a collection of text documents to a matrix of token counts
#seems has nothing to do with sequence but only with the frequency

#ngram is a parameter we need to focus on, 

vect = CountVectorizer(analyzer = 'char_wb', ngram_range = (10,10))
#vect = CountVectorizer(analyzer = 'char_wb')
#vect =TfidfVectorizer(analyzer = "char_wb",sublinear_tf= True )
# Fit and Transform CountVectorizer
#occasionally may meet np.nan error
vect.fit(X_train)
X_train_df = vect.transform(X_train)
X_test_df = vect.transform(X_test)

#to store the results for different mothods
prediction = dict()

In [34]:
X_train_df

<45000x3762531 sparse matrix of type '<class 'numpy.int64'>'
	with 12938264 stored elements in Compressed Sparse Row format>

#### Naive Bayes

In [11]:
model = MultinomialNB()
model.fit(X_train_df, y_train)
#test on test set
NB_pred = model.predict(X_test_df)
prediction["MultinomialNB"] = accuracy_score(NB_pred, y_test)
print( prediction['MultinomialNB'])

0.2788


#### adaboost

In [12]:
model = AdaBoostClassifier()
model.fit(X_train_df,y_train)
ADA_pred = model.predict(X_test_df)
prediction["Adaboost"] = accuracy_score(ADA_pred , y_test)
print(prediction["Adaboost"])

0.3102


#### RandomForestClassifier

In [13]:
model = RandomForestClassifier()
model.fit(X_train_df,y_train)
ADA_pred = model.predict(X_test_df)
prediction["Random_Forest"] = accuracy_score(ADA_pred , y_test)
print(prediction["Random_Forest"])



0.8738


#### Neural Network

In [12]:
X_train_df

<45000x26 sparse matrix of type '<class 'numpy.int64'>'
	with 906486 stored elements in Compressed Sparse Row format>

In [13]:
X_test_df

<5000x26 sparse matrix of type '<class 'numpy.int64'>'
	with 101000 stored elements in Compressed Sparse Row format>

In [14]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.utils.data.dataloader as dataloader
import torch.optim as optim

from torch.utils.data import TensorDataset
from torch.autograd import Variable
from torchvision import transforms

In [None]:
class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        
        self.fc1 = nn.Linear(9736, 2000)
        self.bc1 = nn.BatchNorm1d(2000)
        
        self.fc2 = nn.Linear(2000, 252)
        self.bc2 = nn.BatchNorm1d(252)
        
        self.fc3 = nn.Linear(252, 10)
        
        
    def forward(self, x):
        x = x.view((-1, 9736))
        h = self.fc1(x)
        h = self.bc1(h)
        h = F.relu(h)
        #h = F.dropout(h, p=0.5, training=self.training)
        
        h = self.fc2(h)
        h = self.bc2(h)
        h = F.relu(h)
        #h = F.dropout(h, p=0.2, training=self.training)
        
        h = self.fc3(h)
        out = F.log_softmax(h,dim = 1)
        return out

In [None]:
model = Model()
model.cuda() # CUDA!
optimizer = optim.Adam(model.parameters(), lr=0.005)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

Prepare data for pytorch

In [None]:
#convert y labels to index encoding
y_train_array = np.zeros(162111)
for i in range(len(y_train)):
    cur_key = y_train.iloc[i]
    idx = cls.index(cur_key)
    y_train_array[i]=idx

In [None]:
y_test_array = np.zeros(18013)
for i in range(len(y_test)):
    cur_key = y_test.iloc[i]
    idx = cls.index(cur_key)
    y_test_array[i]=idx

In [None]:
"""
criterion = nn.CrossEntropyLoss()
losses = []
for epoch in range(5):
    
    for i in range(1600):
        data = torch.from_numpy(X_train_df[i:i+100].toarray()).float().cuda()
        target = torch.from_numpy(y_train_array[i:i+100]).to(device = device, dtype=torch.int64)
        #print(data)
        # Get Samples
        data, target = Variable(data.cuda()), Variable(target.cuda())
        #target = target.squeeze(1)
        # Init
        optimizer.zero_grad()

        # Predict
        #print(type(data))
        y_pred = model(data) 
        #print(y_pred)
        # Calculate loss
        loss = criterion(y_pred, target)
        losses.append(loss.item())
        # Backpropagation
        loss.backward()
        optimizer.step()
        
        
        # Display
        if i % 100 == 1:
            print(loss.item())
            
    print()
    
    
    #test on test set
    test_acc = 0
    for i in range(180):
        data = torch.from_numpy(X_test_df[i:i+100].toarray()).float().cuda()
        target = torch.from_numpy(y_test_array[i:i+100]).to(device = device, dtype=torch.int64)
        
        y_pred = model(data)
        _,predicted = torch.max(y_pred,1)
        test_acc += (predicted == target).sum().item()
        
        #print('temp accuracy ',(predicted == target).sum().item()/100)
        
    print('current test_accuracy',test_acc/18000)
"""

Another vectoriation method

### RNN

In [15]:
#https://pytorch.org/tutorials/intermediate/char_rnn_classification_tutorial.html
from __future__ import unicode_literals, print_function, division
from io import open
import glob
import os
import unicodedata
import string
import torch
all_letters = string.ascii_letters[26:]
n_letters = len(all_letters)

def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
        and c in all_letters
    )
def findFiles(path): return glob.glob(path)

In [16]:
all_letters

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [17]:
category_lines = {}
all_categories = []

In [18]:

all_categories= list(count.index)

### Turning seq to tensors

In [19]:
for i in range(len(X_train)):
    if y_train.iloc[i] not in category_lines:
        category_lines[y_train.iloc[i]] = [X_train.iloc[i]]
    else:
        category_lines[y_train.iloc[i]].append(X_train.iloc[i])
n_categories = len(category_lines)

In [20]:
def letterToIndex(letter):
    return all_letters.find(letter)
def letterToTensor(letter):
    tensor = torch.zeros(1, n_letters)
    tensor[0][letterToIndex(letter)] = 1
    return tensor
def lineToTensor(line):
    tensor = torch.zeros(len(line), 1, n_letters)
    for li, letter in enumerate(line):
        tensor[li][0][letterToIndex(letter)] = 1
    return tensor

In [88]:
X_train_tensor = lineToTensor(X_train.values)

In [90]:
X_train_tensor.size()

torch.Size([45000, 1, 26])

In [65]:
import torch.nn as nn
import torch.nn.functional as F
class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()

        self.hidden_size = hidden_size

        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        #self.lstm = nn.LSTM(hidden_dim, hidden_dim, num_layers=num_layers)
        
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, input, hidden):
        combined = torch.cat((input, hidden), 1)
        hidden = self.i2h(combined)
        output = self.i2o(combined)
        output = self.softmax(output)
        return output, hidden

    def initHidden(self):
        return torch.zeros(1, self.hidden_size)
    
class LSTM(nn.Module):

    def __init__(self, input_size, hidden_size, output_size):
        super(LSTM,self).__init__()
        
        
        self.lstm = nn.LSTM(input_size, hidden_size)
        self.lstm2out = nn.Linear(hidden_size,output_size)

    def forward(self, seq):
        output,_ = self.lstm(seq.view(len(seq), 1, -1))

        #output,self.hidden = self.lstm(output.view(len(seq),1,-1),self.hidden)
        
        output = self.lstm2out(output)[0]
        #print(output)
        
        return F.log_softmax(output, dim=1)
n_hidden = 128


In [66]:
#rnn = RNN(n_letters, n_hidden, n_categories)#.to('cuda:0')
rnn = LSTM(n_letters, n_hidden, n_categories)

In [39]:
def categoryFromOutput(output):
    top_n, top_i = output.topk(1)
    category_i = top_i[0].item()
    return all_categories[category_i], category_i


In [40]:
import random
def randomChoice(l):
    return l[random.randint(0, len(l) - 1)]

def randomTrainingExample():
    category = randomChoice(all_categories)
    line = randomChoice(category_lines[category])
    category_tensor = torch.tensor([all_categories.index(category)], dtype=torch.long)#.to('cuda:0')
    line_tensor = lineToTensor(line)#.to('cuda:0')
    return category, line, category_tensor, line_tensor

category, line, category_tensor, line_tensor = randomTrainingExample()
print('category =', category, '/ sequence =', line)


category = LYASE / sequence = SDSLSKSPENWMSKLDDGKHLTEINIPGSHDSGSFTLKDPVKSVWAKTQDKDYLTQMKSGVRFFDIRGRASADNMISVHHGMVYLHHELGKFLDDAKYYLSAYPNETIVMSMKKDYDSDSKVTKTFEEIFREYYYNNPQYQNLFYTGSNANPTLKETKGKIVLFNRMGGTYIKSGYGADTSGIQWADNATFETKINNGSLNLKVQDEYKDYYDKKVEAVKNLLAKAKTDSNKDNVYVNFLSVASGGSAFNSTYNYASHINPEIAKTIKANGKARTGWLIVDYAGYTWPGYDDIVSEIIDSNKLEHHHHHH


In [67]:
from tqdm import tqdm
import time
import math
criterion = nn.CrossEntropyLoss()
n_iters = 2000
print_every = 50
plot_every = 1000


# Keep track of losses for plotting
current_loss = 0
all_losses = []

learning_rate = 0.01 # If you set this too high, it might explode. If too low, it might not learn
#import progressbar
#progress = progressbar.ProgressBar()
def train(category_tensor, line_tensor):
    #hidden = rnn.initHidden()

    rnn.zero_grad()

    for i in range(line_tensor.size()[0]):
        #print(line_tensor[i])
        #utput, hidden = rnn(line_tensor[i], hidden)
        output = rnn(line_tensor[i])
    loss = criterion(output, category_tensor)
    loss.backward()

    for p in rnn.parameters():
        p.data.add_(-learning_rate, p.grad.data)

    return output, loss.item()

def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

start = time.time()

for iter in tqdm(range(1, n_iters + 1)):
    category, line, category_tensor, line_tensor = randomTrainingExample()
    
    
    
    
    category_tensor = category_tensor
    line_tensor = line_tensor
    output, loss = train(category_tensor, line_tensor)
    current_loss += loss

    # Print iter number, loss, name and guess
    if iter % print_every == 0:
        guess, guess_i = categoryFromOutput(output)
        correct = '✓' if guess == category else '✗ (%s)' % category
        print('%d %d%% (%s) %.4f %s / %s %s' % (iter, iter / n_iters * 100, timeSince(start), loss, line, guess, correct))

    # Add current loss avg to list of losses
    if iter % plot_every == 0:
        all_losses.append(current_loss / plot_every)
        current_loss = 0





  0%|                                                                                         | 0/2000 [00:00<?, ?it/s]



  0%|                                                                                 | 1/2000 [00:00<05:13,  6.37it/s]



  0%|                                                                                 | 2/2000 [00:00<05:40,  5.87it/s]



  0%|                                                                                 | 3/2000 [00:00<06:04,  5.48it/s]



  0%|▏                                                                                | 4/2000 [00:00<05:18,  6.26it/s]



  0%|▏                                                                                | 5/2000 [00:00<04:49,  6.90it/s]



  0%|▏                                                                                | 6/2000 [00:00<05:26,  6.10it/s]



  0%|▎                                                                                | 7/2000 [00:01<06:39,  4.99it/s]



  0%|▎      

50 2% (0m 8s) 2.3390 PIVQNLQGQMVHQAISPRTLNAWVKVVEEKAFSPEVIPMFSALSEGATPQDLNTMLNTVGGHQAAMQMLKETINEEAAEWDRLHPVHAGPIEPGQMREPRGSDIAGTTSTLQEQIGWMTHNPPIPVGEIYKRWIILGLNKIVRMYSPTSILDIRQGPKEPFRDYVDRFYKTLRAEQASQEVKNWMTETLLVQNANPDCKTILKALGPAATLEEMMTACQGVGGPGHKARVL / TRANSFERASE ✗ (VIRUS)






  2%|██                                                                              | 50/2000 [00:08<05:44,  5.67it/s]



  3%|██                                                                              | 51/2000 [00:08<05:22,  6.04it/s]



  3%|██                                                                              | 53/2000 [00:08<05:02,  6.44it/s]



  3%|██▏                                                                             | 54/2000 [00:08<05:00,  6.47it/s]



  3%|██▏                                                                             | 55/2000 [00:08<04:29,  7.21it/s]



  3%|██▏                                                                             | 56/2000 [00:09<04:56,  6.55it/s]



  3%|██▎                                                                             | 57/2000 [00:09<04:48,  6.73it/s]



  3%|██▎                                                                             | 58/2000 [00:09<05:33,  5.82it/s]



  3%|██▍    

100 5% (0m 14s) 2.1899 GDMSHKEFTKFCYEVYNEIKISDKEFKEKRAALDTLRLCLKRISPDAELVAFGSLESGLALKNSDMDLCVLMDSRVQSDTIALQFYEELIAEGFEGKFLQRARIPIIKLTSDTKNGFGASFQCAIGFNNRLAIHNTLLLSSYTKLDARLKPMVLLVKHWAKRKQINSPYFGTLSSYGYVLMVLYYLIHVIKPPVFPNLLLSPLKQEKIVDGFDVGFDDKLEDIPPSQNYSSLGSLLHGFFRFYAYKFEPREKVVTFRRPDGYLTKQEKGWTSATEHTGSADQIIKDRYILAIEDPFEISHNVGRTVSSSGLYRIRGEFMAASRLLNSRSYPIPYDSLFEEA / TRANSFERASE ✓






  5%|███▉                                                                           | 100/2000 [00:14<04:30,  7.02it/s]



  5%|████                                                                           | 102/2000 [00:14<03:55,  8.07it/s]



  5%|████                                                                           | 103/2000 [00:15<04:32,  6.96it/s]



  5%|████                                                                           | 104/2000 [00:15<07:10,  4.40it/s]



  5%|████▏                                                                          | 106/2000 [00:15<06:44,  4.68it/s]



  5%|████▏                                                                          | 107/2000 [00:16<06:02,  5.22it/s]



  5%|████▎                                                                          | 108/2000 [00:16<05:20,  5.91it/s]



  5%|████▎                                                                          | 109/2000 [00:16<05:11,  6.07it/s]



  6%|████▎  

150 7% (0m 22s) 2.2946 SLTERHKILHRLLQE / TRANSFERASE ✗ (TRANSCRIPTION)






  8%|█████▉                                                                         | 151/2000 [00:22<04:25,  6.96it/s]



  8%|██████                                                                         | 153/2000 [00:22<04:05,  7.53it/s]



  8%|██████                                                                         | 155/2000 [00:23<03:31,  8.71it/s]



  8%|██████▏                                                                        | 157/2000 [00:23<03:33,  8.63it/s]



  8%|██████▏                                                                        | 158/2000 [00:23<04:00,  7.67it/s]



  8%|██████▎                                                                        | 159/2000 [00:23<04:34,  6.71it/s]



  8%|██████▎                                                                        | 160/2000 [00:23<05:36,  5.47it/s]



  8%|██████▎                                                                        | 161/2000 [00:24<05:10,  5.92it/s]



  8%|██████▍

200 10% (0m 29s) 2.3038 GSGAMEKEEKSNLIYDKDPGYVWDNKNECEGAAEETYQELNYEPSISADKLTWTPTRLAKTVFNTYEDDDDFNVLCYFTDWSQYDPRIINKEIRDTGGRSADILRLNTPDGRPFKRLIYSFGGLIGDKKYSADGNASIAVRLGVATDPDDAIANHKGKTIPVDPDGAVLASINCGFTKWEAGDANERYNQEKAKGLLGGFRLLHEADKELEFSLSIGGWSMSGLFSEIAKDEILRTNFVEGIKDFFQRFPMFSHLDIDWEYPGSIGAGNPNSPDDGANFAILIQQITDAKISNLKGISIASSADPAKIDAANIPALMDAGVTGINLMTYDFFTLGDGKLSHHTNIYRDPSDVYSKYSIDDAVTHLIDEKKVDPKAIFIGYAGYTRNAKNATITTSIPSEEALKGTYTDANQTLGSFEYSVLEWTDIICHYMDFEKGEGRNGYKLVHDKVAKADYLYSEATKVFISLDTPRSVRDKGRYVKDKGLGGLFIWSGDQDNGILTNAAHEGLKRRIKNKVIDMTPFYLDSDEELPTYTEPAEPQCEACNIK / TRANSFERASE ✗ (HYDROLASE)






 10%|███████▉                                                                       | 200/2000 [00:29<06:03,  4.95it/s]



 10%|███████▉                                                                       | 202/2000 [00:30<04:54,  6.09it/s]



 10%|████████                                                                       | 203/2000 [00:30<05:34,  5.38it/s]



 10%|████████                                                                       | 204/2000 [00:30<05:30,  5.44it/s]



 10%|████████                                                                       | 205/2000 [00:30<04:53,  6.12it/s]



 10%|████████▏                                                                      | 206/2000 [00:30<04:54,  6.09it/s]



 10%|████████▏                                                                      | 208/2000 [00:31<04:57,  6.03it/s]



 10%|████████▎                                                                      | 209/2000 [00:31<05:34,  5.35it/s]



 11%|███████

250 12% (0m 38s) 2.3030 MSQHNEKNPHQHQSPLHDSSEAKPGMDSLAPEDGSHRPAAEPTPPGAQPTAPGSLKAPDTRNEKLNSLEDVRKGSENYALTTNQGVRIADDQNSLRAGSRGPTLLEDFILREKITHFDHERIPERIVHARGSAAHGYFQPYKSLSDITKADFLSDPNKITPVFVRFSTVQGGAGSADTVRDIRGFATKFYTEEGIFDLVGNNTPIFFIQDAHKFPDFVHAVKPEPHWAIPQGQSAHDTFWDYVSLQPETLHNVMWAMSDRGIPRSYRTMEGFGCHTFRLINAEGKATFVRFHWKPLAGKASLVWDEAQKLTGRDPDFHRRELWEAIEAGDFPEYELGFQLIPEEDEFKFDFDLLDPTKLIPEELVPVQRVGKMVLNRNPDNFFAENEQAAFHPGHIVPGLDFTNDPLLQGRLFSYTDTQISRLGGPNFHEIPINRPTAPYHNFQRDGMHRMGIDTNPANYEPNSINDNWPRETPPGPKRGGFESYQERVEGNKVRERSPSFGEYYSHPRLFWLSQTPFEQRHIVDGFSFELSKVVRPYIRERVVDQLAHIDLTLAQAVAKNLGIELTDDQLNITPPPDVNGLKKDPSLSLYAIPDGDVKGRVVAILLNDEVRSADLLAILKALKAKGVHAKLLYSRMGEVTADDGTVLPIAATFAGAPSLTVDAVIVPAGNIADIADNGDANYYLMEAYKHLKPIALAGDARKFKATIKIADQGEEGIVEADSADGSFMDELLTLMAAHRVWSRIPKIDKIPA / TRANSFERASE ✗ (OXIDOREDUCTASE)






 12%|█████████▉                                                                     | 250/2000 [00:38<07:19,  3.98it/s]



 13%|█████████▉                                                                     | 252/2000 [00:38<06:39,  4.38it/s]



 13%|█████████▉                                                                     | 253/2000 [00:38<07:00,  4.15it/s]



 13%|██████████                                                                     | 255/2000 [00:39<06:03,  4.80it/s]



 13%|██████████                                                                     | 256/2000 [00:39<05:23,  5.39it/s]



 13%|██████████▏                                                                    | 257/2000 [00:39<05:07,  5.66it/s]



 13%|██████████▏                                                                    | 259/2000 [00:39<04:23,  6.61it/s]



 13%|██████████▎                                                                    | 260/2000 [00:39<05:15,  5.51it/s]



 13%|███████

300 15% (0m 46s) 2.3171 PIVQNLQGQMVHQAISPRTLNAWVKVVEEKAFSPEVIPMFSALSEGATPQDLNTMLNTVGGHQAAMQMLKETINEEAAEWDRLHPVHAGPIEPGQMREPRGSDIAGTTSTLQEQIGWMTHNPPIPVGEIYKRWIILGLNKIVRMYSPTSILDIRQGPKEPFRDYVDRFYKTLRAEQASQEVKNWMTETLLVQNANPDCKTILKALGPAATLEEMMTACQGVGGPGHKARVL / TRANSFERASE ✗ (VIRUS)






 15%|███████████▊                                                                   | 300/2000 [00:46<05:13,  5.43it/s]



 15%|███████████▉                                                                   | 301/2000 [00:46<05:12,  5.43it/s]



 15%|███████████▉                                                                   | 302/2000 [00:47<08:12,  3.44it/s]



 15%|████████████                                                                   | 304/2000 [00:47<06:12,  4.55it/s]



 15%|████████████                                                                   | 306/2000 [00:47<04:50,  5.83it/s]



 15%|████████████▏                                                                  | 308/2000 [00:47<04:37,  6.09it/s]



 15%|████████████▏                                                                  | 309/2000 [00:47<04:31,  6.23it/s]



 16%|████████████▎                                                                  | 311/2000 [00:47<04:02,  6.95it/s]



 16%|███████

350 17% (0m 53s) 2.1839 MVTFLEKISERAKKLNKTIALPETEDIRTLQAAAKILERGIADIVLVGNEADIKALAGDLDLSKAKIVDPKTYEKKDEYINAFYELRKHKGITLENAAEIMSDYVYFAVMMAKLGEVDGVVSGAAHSSSDTLRPAVQIVKTAKGAALASAFFIISVPDCEYGSDGTFLFADSGMVEMPSVEDVANIAVISAKTFELLVQDVPKVAMLSYSTKGSAKSKLTEATIASTKLAQELAPDIAIDGELQVDAAIVPKVAASKAPGSPVAGKANVFIFPDLNCGNIAYKIAQRLAKAEAYGPITQGLAKPINDLSRGCSDEDIVGAVAITCVQAAAQDK / TRANSFERASE ✓






 18%|█████████████▊                                                                 | 350/2000 [00:53<04:25,  6.21it/s]



 18%|█████████████▉                                                                 | 352/2000 [00:53<04:30,  6.09it/s]



 18%|█████████████▉                                                                 | 353/2000 [00:53<04:05,  6.70it/s]



 18%|██████████████                                                                 | 355/2000 [00:54<03:25,  8.00it/s]



 18%|██████████████                                                                 | 356/2000 [00:54<03:32,  7.72it/s]



 18%|██████████████                                                                 | 357/2000 [00:54<03:33,  7.71it/s]



 18%|██████████████▏                                                                | 359/2000 [00:54<03:44,  7.31it/s]



 18%|██████████████▏                                                                | 360/2000 [00:54<03:40,  7.42it/s]



 18%|███████

400 20% (1m 2s) 2.2725 PIVQNLQGQMVHQAISPRTLNAWVKVVEEKAFSPEVIPMFSALSEGATPQDLNTMLNTVGGHQAAMQMLKETINEEAAEWDRLHPVHAGPIEPGQMREPRGSDIAGTTSTLQEQIGWMTHNPPIPVGEIYKRWIILGLNKIVRMYSPTSILDIRQGPKEPFRDYVDRFYKTLRAEQASQEVKNWMTETLLVQNANPDCKTILKALGPAATLEEMMTACQGVGGPGHKARVL / TRANSFERASE ✗ (VIRUS)






 20%|███████████████▊                                                               | 400/2000 [01:02<04:32,  5.86it/s]



 20%|███████████████▉                                                               | 402/2000 [01:02<03:44,  7.13it/s]



 20%|███████████████▉                                                               | 403/2000 [01:02<03:36,  7.38it/s]



 20%|███████████████▉                                                               | 404/2000 [01:02<03:45,  7.08it/s]



 20%|████████████████                                                               | 407/2000 [01:02<03:09,  8.41it/s]



 20%|████████████████▏                                                              | 409/2000 [01:02<03:07,  8.50it/s]



 20%|████████████████▏                                                              | 410/2000 [01:03<03:04,  8.60it/s]



 21%|████████████████▏                                                              | 411/2000 [01:03<03:21,  7.87it/s]



 21%|███████

450 22% (1m 9s) 2.3226 MPRYLKGWLEDVVQLSLRRPSVHASRQRPIISLNERILEFNKRNITAIIAYYLRKSPSGLDVERDPIEYAKYMEPYAVGLSIKTEEKYFDGSYEMLRKIASSVSIPILMNDFIVKESQIDDAYNLGADTVLLIVEILTERELESLLEYARGYGMEPLILINDENDLDIALRIGARFITIYSMNFETGEINKENQRKLISMIPSNVVKVPLLDFFEPNEIEELRKLGVNAFMISSSLMRNPEKIKELIEGSLEHHHHHH / TRANSFERASE ✗ (LYASE)






 22%|█████████████████▊                                                             | 450/2000 [01:09<04:36,  5.61it/s]



 23%|█████████████████▊                                                             | 451/2000 [01:09<04:20,  5.95it/s]



 23%|█████████████████▉                                                             | 453/2000 [01:10<03:53,  6.62it/s]



 23%|█████████████████▉                                                             | 454/2000 [01:10<03:31,  7.31it/s]



 23%|█████████████████▉                                                             | 455/2000 [01:10<03:46,  6.83it/s]



 23%|██████████████████                                                             | 456/2000 [01:10<04:57,  5.19it/s]



 23%|██████████████████                                                             | 457/2000 [01:10<04:26,  5.79it/s]



 23%|██████████████████▏                                                            | 459/2000 [01:11<03:56,  6.51it/s]



 23%|███████

500 25% (1m 15s) 2.3123 MAKAVDAAAAAAAAIAPVDTTVVNEDVALVENETCNDQNVQFDSLPSMKYASFLNSDGSVAIHAGERLGRGIVTDAITTPVVNTSAYFFNKTSELIDFKEKRRASFEYGRYGNPTTVVLEEKISALEGAESTLLMASGMCASTVMLLALVPAGGHIVTTTDCYRKTRIFIETILPKMGITATVIDPADVGALELALNQKKVNLFFTESPTNPFLRCVDIELVSKLCHEKGALVCIDGTFATPLNQKALALGADLVLHSATKFLGGHNDVLAGCISGPLKLVSEIRNLHHILGGALNPNAAYLIIRGMKTLHLRVQQQNSTALRMAEILEAHPKVRHVYYPGLQSHPEHHIAKKQMTGFGGAVSFEVDGDLLTTAKFVDALKIPYIAPSFGGCESIVDQPAIMSYWDLSQSDRAKYGIMDNLVRFSFGVEDFDDLKADILQALDSI / TRANSCRIPTION ✗ (LYASE)






 25%|███████████████████▊                                                           | 500/2000 [01:15<04:06,  6.10it/s]



 25%|███████████████████▊                                                           | 502/2000 [01:15<03:37,  6.90it/s]



 25%|███████████████████▊                                                           | 503/2000 [01:16<03:33,  7.00it/s]



 25%|███████████████████▉                                                           | 504/2000 [01:16<04:07,  6.05it/s]



 25%|███████████████████▉                                                           | 505/2000 [01:16<04:30,  5.52it/s]



 25%|████████████████████                                                           | 508/2000 [01:16<03:43,  6.67it/s]



 25%|████████████████████                                                           | 509/2000 [01:16<03:47,  6.57it/s]



 26%|████████████████████▏                                                          | 510/2000 [01:17<05:00,  4.96it/s]



 26%|███████

550 27% (1m 23s) 2.2328 GSQERPTFYRQELNKTIWEVPERYQNLSPVGSGAYGSVCAAFDTKTGLRVAVKKLSRPFQSIIHAKRTYRELRLLKHMKHENVIGLLDVFTPARSLEEFNDVYLVTHLMGADLNNIVKSQKLTDDHVQFLIYQILRGLKYIHSADIIHRDLKPSNLAVNEDSELKILDFGLCRHTDDEMTGYVATRWYRAPEIMLNWMHYNQTVDIWSVGCIMAELLTGRTLFPGTDHIDQLKLILRLVGTPGAELLKKISSESARNYIQSLTQMPKMNFANVFIGANPLAVDLLEKMLVLDSDKRITAAQALAHAYFAQYHDPDDEPVADPYDQSLESRDLLIDEWKSLTYDEVISFVPPPLDQEEMES / TRANSCRIPTION ✗ (TRANSFERASE)






 28%|█████████████████████▋                                                         | 550/2000 [01:23<04:36,  5.24it/s]



 28%|█████████████████████▊                                                         | 551/2000 [01:23<04:28,  5.39it/s]



 28%|█████████████████████▊                                                         | 552/2000 [01:24<04:47,  5.03it/s]



 28%|█████████████████████▊                                                         | 553/2000 [01:24<05:09,  4.68it/s]



 28%|█████████████████████▉                                                         | 554/2000 [01:24<05:25,  4.44it/s]



 28%|██████████████████████                                                         | 557/2000 [01:24<04:15,  5.64it/s]



 28%|██████████████████████                                                         | 558/2000 [01:25<03:54,  6.16it/s]



 28%|██████████████████████                                                         | 559/2000 [01:25<03:44,  6.41it/s]



 28%|███████

600 30% (1m 31s) 2.3664 MTSQEKSMPFIKHLASSDRKVRTAALNSLHAFLSARQVASALTTLDVLKLWKGLFYALWMCDRAIPQQNLCNELADLIWQLPRESVATWLRGFWATMAREWTGIDVLRMEKFLLLVRRVLGASFKWMKKDGSLGKRTHDGQEKAVKTGAWDQSKVDEVLGLLAEWPFSLAEEVRITQSSEKGGEIVQKIPVGMRLHVLDIWVDEVERVGLLNEDEEEARMIVQRISDMVDALEQTTKSPAVRTRSKDSLGDDRLPANRRPNSSQDHDTKDMGDSDSWEGFDDGSHHHHHH / TRANSCRIPTION ✗ (RIBOSOME)






 30%|███████████████████████▋                                                       | 600/2000 [01:31<04:21,  5.35it/s]



 30%|███████████████████████▋                                                       | 601/2000 [01:31<04:17,  5.43it/s]



 30%|███████████████████████▊                                                       | 602/2000 [01:32<05:23,  4.32it/s]



 30%|███████████████████████▊                                                       | 603/2000 [01:32<05:26,  4.27it/s]



 30%|███████████████████████▊                                                       | 604/2000 [01:32<05:08,  4.52it/s]



 30%|███████████████████████▉                                                       | 605/2000 [01:32<04:42,  4.94it/s]



 30%|███████████████████████▉                                                       | 606/2000 [01:33<05:36,  4.14it/s]



 30%|███████████████████████▉                                                       | 607/2000 [01:33<05:09,  4.50it/s]



 30%|███████

650 32% (1m 40s) 2.2611 GTTYCYSKPDGRPPSTVSDPVTRLGPTLSRHYTFKVGEWPHSQSHGHAWICPLPSDKLKKMGSFHEVVKAHHLVKNGWDVVVQVNASFAHSGALCVAAVPEYEHTHEKALKWSELEEPAYTYQQLSVFPHQLLNLRTNSSVHLVMPYIGPGPTTNLTLHNPWTIVILILSELTGPGQTVPVTMSVAPIDAMVNGPLPNPE / TRANSCRIPTION ✗ (VIRUS)






 32%|█████████████████████████▋                                                     | 650/2000 [01:40<03:19,  6.77it/s]



 33%|█████████████████████████▊                                                     | 652/2000 [01:40<02:50,  7.92it/s]



 33%|█████████████████████████▊                                                     | 653/2000 [01:40<04:41,  4.79it/s]



 33%|█████████████████████████▊                                                     | 654/2000 [01:40<04:28,  5.01it/s]



 33%|█████████████████████████▊                                                     | 655/2000 [01:40<03:52,  5.79it/s]



 33%|█████████████████████████▉                                                     | 656/2000 [01:41<03:36,  6.20it/s]



 33%|█████████████████████████▉                                                     | 657/2000 [01:41<04:13,  5.29it/s]



 33%|██████████████████████████                                                     | 659/2000 [01:41<03:58,  5.63it/s]



 33%|███████

700 35% (1m 47s) 2.2368 MAKQQNNRRKSATMRAVKRMINTHLEHKRFALINSGNTNATAGTVQNLSNGIIQGDDINQRSGDQVRIVSHKLHVRGTAITVSQTFRFIWFRDNMNRGTTPTVLEVLNTANFMSQYNPITLQQKRFTILKDVTLNCSLTGESIKDRIINLPGQLVNYNGATAVAASNGPGAIFMLQIGDSLVGLWDSSYEAVYTDA / TRANSFERASE ✗ (VIRUS)






 35%|███████████████████████████▋                                                   | 700/2000 [01:47<03:08,  6.89it/s]



 35%|███████████████████████████▋                                                   | 701/2000 [01:47<03:10,  6.80it/s]



 35%|███████████████████████████▋                                                   | 702/2000 [01:47<03:10,  6.81it/s]



 35%|███████████████████████████▊                                                   | 703/2000 [01:47<02:56,  7.35it/s]



 35%|███████████████████████████▊                                                   | 704/2000 [01:48<03:00,  7.17it/s]



 35%|███████████████████████████▉                                                   | 706/2000 [01:48<02:48,  7.66it/s]



 35%|███████████████████████████▉                                                   | 707/2000 [01:48<03:05,  6.96it/s]



 35%|███████████████████████████▉                                                   | 708/2000 [01:48<03:40,  5.85it/s]



 35%|███████

750 37% (1m 55s) 2.3997 SGDHGKRLFIIKPSGFYDKRFLKLLRFYILLTGIPVVIGITLINVFIGEAELAEIPEGYVPEHWEYFKHPISRWIARTFFDAPEKNYERTMAILQIESEKAELRLKELEVRRLMRAKGDGPWFQYPTIDKALIDHSPKATPDN / TRANSFERASE ✗ (OXIDOREDUCTASE)






 38%|█████████████████████████████▋                                                 | 751/2000 [01:55<02:31,  8.22it/s]



 38%|█████████████████████████████▋                                                 | 753/2000 [01:55<02:43,  7.64it/s]



 38%|█████████████████████████████▊                                                 | 756/2000 [01:56<02:13,  9.33it/s]



 38%|█████████████████████████████▉                                                 | 758/2000 [01:56<02:13,  9.28it/s]



 38%|██████████████████████████████                                                 | 760/2000 [01:56<02:26,  8.49it/s]



 38%|██████████████████████████████                                                 | 761/2000 [01:56<03:22,  6.11it/s]



 38%|██████████████████████████████                                                 | 762/2000 [01:57<03:54,  5.28it/s]



 38%|██████████████████████████████▏                                                | 763/2000 [01:57<04:11,  4.91it/s]



 38%|███████

800 40% (2m 3s) 2.3773 MAIIYLILLFTAVRGDQICIGYHANNSTEKVDTILERNVTVTHAKDILEKTHNGKLCKLNGIPPLELGDCSIAGWLLGNPECDRLLSVPEWSYIMEKENPRDGLCYPGSFNDYEELKHLLSSVKHFEKVKILPKDRWTQHTTTGGSQACAVSGNPSFFRNMVWLTKKGSNYPVAKGSYNNTSGEQMLIIWGVHHPIDEKEQRTLYQNVGTYVSVGTSTLNKRSTPEIATRPKVNGLGSRMEFSWTLLDMWDTINFESTGNLIAPEYGFKISKRGSSGIMKTEGTLENCETKCQTPLGAINTTLPFHNVHPLTIGECPKYVKSEKLVLATGLRNVPQIESRGLFGAIAGFIEGGWQGMVDGWYGYHHSNDQGSGYAADKESTQKAFDGITNKVNSVIEKMNTQFEAVGKEFSNLERRLENLNKKMEDGFLDVWTYNAELLVLMENERTLDFHDSNVKNLYDKVRMQLRDNVKELGNGCFEFYHKCDDECMNSVKNGTYDYPKYEEE / TRANSFERASE ✗ (VIRAL PROTEIN)






 40%|███████████████████████████████▌                                               | 800/2000 [02:03<03:59,  5.01it/s]



 40%|███████████████████████████████▋                                               | 801/2000 [02:03<03:28,  5.76it/s]



 40%|███████████████████████████████▋                                               | 802/2000 [02:03<03:31,  5.66it/s]



 40%|███████████████████████████████▋                                               | 803/2000 [02:03<03:27,  5.76it/s]



 40%|███████████████████████████████▊                                               | 804/2000 [02:03<03:38,  5.49it/s]



 40%|███████████████████████████████▊                                               | 805/2000 [02:04<03:47,  5.25it/s]



 40%|███████████████████████████████▊                                               | 806/2000 [02:04<03:23,  5.88it/s]



 40%|███████████████████████████████▉                                               | 807/2000 [02:04<04:24,  4.51it/s]



 40%|███████

850 42% (2m 10s) 2.3347 GSSGSSGFKAELNEFLTRELAEDGYSGVEVRVTPTRTEIIILATRTQNVLGEKGRRIRELTAVVQKRFGFPEGSVELYAEKVATRGSGPSSG / TRANSCRIPTION ✗ (RIBOSOME)






 42%|█████████████████████████████████▌                                             | 850/2000 [02:10<02:42,  7.09it/s]



 43%|█████████████████████████████████▌                                             | 851/2000 [02:10<02:39,  7.22it/s]



 43%|█████████████████████████████████▋                                             | 852/2000 [02:10<02:35,  7.36it/s]



 43%|█████████████████████████████████▋                                             | 853/2000 [02:10<03:03,  6.24it/s]



 43%|█████████████████████████████████▋                                             | 854/2000 [02:11<03:05,  6.18it/s]



 43%|█████████████████████████████████▊                                             | 855/2000 [02:11<03:07,  6.11it/s]



 43%|█████████████████████████████████▊                                             | 856/2000 [02:11<03:12,  5.95it/s]



 43%|█████████████████████████████████▊                                             | 857/2000 [02:11<02:56,  6.47it/s]



 43%|███████

900 45% (2m 17s) 2.2937 MDDATPAEVIEVLKRTGMTGEVMQVKCRILDGRDKGRILTRNVMGPIREGDILMLLDTIREAKEIRTP / TRANSCRIPTION ✗ (RIBOSOME)






 45%|███████████████████████████████████▋                                           | 902/2000 [02:17<02:06,  8.66it/s]



 45%|███████████████████████████████████▋                                           | 904/2000 [02:17<01:50,  9.88it/s]



 45%|███████████████████████████████████▊                                           | 906/2000 [02:18<02:14,  8.11it/s]



 45%|███████████████████████████████████▊                                           | 908/2000 [02:18<02:49,  6.43it/s]



 45%|███████████████████████████████████▉                                           | 909/2000 [02:18<03:20,  5.44it/s]



 46%|███████████████████████████████████▉                                           | 911/2000 [02:19<03:15,  5.56it/s]



 46%|████████████████████████████████████                                           | 912/2000 [02:19<03:07,  5.79it/s]



 46%|████████████████████████████████████                                           | 914/2000 [02:19<03:09,  5.73it/s]



 46%|███████

950 47% (2m 26s) 2.2445 MEIYEGKLTAEGLRFGIVASRFNHALVDRLVEGAIDCIVRHGGREEDITLVRVPGSWEIPVAAGELARKEDIDAVIAIGVLIEGAEPHFDYIASEVSKGLANLSLELRKPITFGVITADELEEAIERAGTKHGNKGWEAALSAIEMANLFKSLRLEHHHHH / TRANSCRIPTION ✗ (TRANSFERASE)






 48%|█████████████████████████████████████▌                                         | 950/2000 [02:26<03:03,  5.73it/s]



 48%|█████████████████████████████████████▌                                         | 951/2000 [02:26<02:45,  6.33it/s]



 48%|█████████████████████████████████████▌                                         | 952/2000 [02:26<03:25,  5.09it/s]



 48%|█████████████████████████████████████▋                                         | 953/2000 [02:26<03:02,  5.73it/s]



 48%|█████████████████████████████████████▋                                         | 954/2000 [02:26<02:58,  5.85it/s]



 48%|█████████████████████████████████████▊                                         | 956/2000 [02:26<02:21,  7.40it/s]



 48%|█████████████████████████████████████▊                                         | 958/2000 [02:26<02:00,  8.62it/s]



 48%|█████████████████████████████████████▉                                         | 960/2000 [02:27<02:11,  7.88it/s]



 48%|███████

1000 50% (2m 32s) 2.3634 MGSSHHHHHHSSGLVPRGSHMSKNILVLGGSGALGAEVVKFFKSKSWNTISIDFRENPNADHSFTIKDSGEEEIKSVIEKINSKSIKVDTFVCAAGGWSGGNASSDEFLKSVKGMIDMNLYSAFASAHIGAKLLNQGGLFVLTGASAALNRTSGMIAYGATKAATHHIIKDLASENGGLPAGSTSLGILPVTLDTPTNRKYMSDANFDDWTPLSEVAEKLFEWSTNSDSRPTNGSLVKFETKSKVTTWTNL / TRANSCRIPTION ✗ (OXIDOREDUCTASE)






 50%|███████████████████████████████████████                                       | 1000/2000 [02:32<02:46,  6.00it/s]



 50%|███████████████████████████████████████                                       | 1001/2000 [02:32<03:01,  5.50it/s]



 50%|███████████████████████████████████████                                       | 1002/2000 [02:33<02:57,  5.61it/s]



 50%|███████████████████████████████████████                                       | 1003/2000 [02:33<02:51,  5.81it/s]



 50%|███████████████████████████████████████▏                                      | 1004/2000 [02:33<02:41,  6.18it/s]



 50%|███████████████████████████████████████▏                                      | 1006/2000 [02:33<02:20,  7.06it/s]



 50%|███████████████████████████████████████▎                                      | 1008/2000 [02:33<01:56,  8.52it/s]



 50%|███████████████████████████████████████▍                                      | 1010/2000 [02:34<02:09,  7.64it/s]



 51%|███████

1050 52% (2m 40s) 2.1991 AKENALLRYLLDKDDTKD / TRANSCRIPTION ✓






 53%|█████████████████████████████████████████                                     | 1052/2000 [02:40<01:51,  8.50it/s]



 53%|█████████████████████████████████████████                                     | 1054/2000 [02:40<01:38,  9.58it/s]



 53%|█████████████████████████████████████████▏                                    | 1056/2000 [02:40<01:38,  9.59it/s]



 53%|█████████████████████████████████████████▎                                    | 1058/2000 [02:40<01:26, 10.83it/s]



 53%|█████████████████████████████████████████▎                                    | 1060/2000 [02:41<01:44,  9.00it/s]



 53%|█████████████████████████████████████████▍                                    | 1062/2000 [02:41<01:52,  8.35it/s]



 53%|█████████████████████████████████████████▍                                    | 1063/2000 [02:41<01:46,  8.78it/s]



 53%|█████████████████████████████████████████▍                                    | 1064/2000 [02:41<02:08,  7.26it/s]



 53%|███████

1100 55% (2m 47s) 2.2406 MAHHHHHHMGTLEAQTQGPGSMSFFLTTPAAIDLGVNIDHVATLRNARGTAYPDPVRAALAAEDAGADAITLHLREDRRHIVDADVRTLRPRVKTRMNLECAVTPEMLDIACEIRPHDACLVPEKRSELTTEGGLDVVGHFDAVRAACKQLADAGVRVSLFIDPDEAQIRAAHETGAPVIELHTGRYADAHDAAEQQREFERIATGVDAGIALGLKVNAGHGLHYTNVQAIAALPGIAELNIGHAIVAHAVFVGWDNAVREMKAIMVAARVAALHGGR / TRANSCRIPTION ✗ (TRANSFERASE)






 55%|██████████████████████████████████████████▉                                   | 1100/2000 [02:47<02:36,  5.74it/s]



 55%|██████████████████████████████████████████▉                                   | 1102/2000 [02:47<02:17,  6.51it/s]



 55%|███████████████████████████████████████████                                   | 1103/2000 [02:47<02:25,  6.15it/s]



 55%|███████████████████████████████████████████                                   | 1104/2000 [02:47<02:44,  5.43it/s]



 55%|███████████████████████████████████████████                                   | 1105/2000 [02:47<02:57,  5.05it/s]



 55%|███████████████████████████████████████████▏                                  | 1106/2000 [02:48<03:32,  4.21it/s]



 55%|███████████████████████████████████████████▏                                  | 1107/2000 [02:48<03:32,  4.20it/s]



 55%|███████████████████████████████████████████▎                                  | 1109/2000 [02:48<02:58,  5.01it/s]



 56%|███████

1150 57% (2m 56s) 2.2521 MEIDKELAPQDRTVTVATVLPAVPGPSPLTIKQPFQSEVLFAGTKDAEASLTIANIDSVSTLTTFYRHASLESLWVTIHPTLQAPTFPTTVGVCWVPAQSPVTPAQITKTYGGQIFCIGGAIQTLSPLIVKCPLEMMQPRVKDSIQYLDSPKLLISITAQPTAPPASTCIITVSGTLSMHSPLITDTST / TRANSCRIPTION ✗ (VIRUS)






 57%|████████████████████████████████████████████▊                                 | 1150/2000 [02:56<02:35,  5.45it/s]



 58%|████████████████████████████████████████████▉                                 | 1151/2000 [02:56<02:26,  5.81it/s]



 58%|████████████████████████████████████████████▉                                 | 1152/2000 [02:56<02:40,  5.29it/s]



 58%|████████████████████████████████████████████▉                                 | 1153/2000 [02:56<02:43,  5.19it/s]



 58%|█████████████████████████████████████████████                                 | 1155/2000 [02:57<02:35,  5.44it/s]



 58%|█████████████████████████████████████████████                                 | 1156/2000 [02:57<02:59,  4.71it/s]



 58%|█████████████████████████████████████████████                                 | 1157/2000 [02:57<02:49,  4.98it/s]



 58%|█████████████████████████████████████████████▏                                | 1158/2000 [02:57<02:59,  4.69it/s]



 58%|███████

1200 60% (3m 4s) 2.2300 QIQFTRHASDVLLNLNRLRSRDILTDVVIVVSREQFRAHKTVLMACSGLFYSIFTDQLKRNLSVINLDPEINPEGFNILLDFMYTSRLNLREGNIMAVMATAMYLQMEHVVDTARKFI / TRANSFERASE ✓






 60%|██████████████████████████████████████████████▊                               | 1200/2000 [03:04<02:05,  6.37it/s]



 60%|██████████████████████████████████████████████▊                               | 1201/2000 [03:04<02:33,  5.20it/s]



 60%|██████████████████████████████████████████████▉                               | 1202/2000 [03:04<02:12,  6.02it/s]



 60%|██████████████████████████████████████████████▉                               | 1204/2000 [03:04<01:51,  7.16it/s]



 60%|██████████████████████████████████████████████▉                               | 1205/2000 [03:04<02:15,  5.87it/s]



 60%|███████████████████████████████████████████████                               | 1206/2000 [03:05<02:44,  4.84it/s]



 60%|███████████████████████████████████████████████                               | 1208/2000 [03:05<02:46,  4.76it/s]



 60%|███████████████████████████████████████████████▏                              | 1210/2000 [03:05<02:26,  5.38it/s]



 61%|███████

1250 62% (3m 11s) 2.2529 GAILRRQYNLSTSPLTSSVASGTNLVLYAAPLNPLLPLQDGTNTHIMATEASNYAQYRVVRATIRYRPLVPNAVGGYAISISFWPQTTTTPTSVDMNSITSTDVRILVQPGIASELVIPSERLHYRNQGWRSVETTGVAEEEATSGLVMLCIHGSPVNSYTNTPYTGALGLLDFALELEFRNLTPGNTNTRVSRYTSTARHRLRRGADGTAELTTTAATRFMKDLHFTGTNGVGEVGRGIALTLFNLADTLLGGLPTELISSAGGQLFYSRPVVSANGEPTVKLYTSVENAQQDKGITIPHDIDLGDSRVVIQDYDNQHEQDRPTPSPAPSRPFSVLRANDVLWLSLTAAEYDQTTYGSSTNPMYVSDTVTFVNVATGAQAVARSLDWSKVTLDGRPLTTIQQYSKTFYVLPLRGKLSFWEASTTKAGYPYNYNTTASDQILIENAAGHRVAISTYTTSLGAGPTSISAVGVLAPHSA / TRANSFERASE ✗ (VIRUS)






 62%|████████████████████████████████████████████████▊                             | 1250/2000 [03:11<02:00,  6.23it/s]



 63%|████████████████████████████████████████████████▊                             | 1251/2000 [03:11<02:15,  5.53it/s]



 63%|████████████████████████████████████████████████▊                             | 1252/2000 [03:12<02:07,  5.86it/s]



 63%|████████████████████████████████████████████████▊                             | 1253/2000 [03:12<02:08,  5.83it/s]



 63%|████████████████████████████████████████████████▉                             | 1254/2000 [03:12<02:19,  5.37it/s]



 63%|█████████████████████████████████████████████████                             | 1257/2000 [03:12<01:49,  6.80it/s]



 63%|█████████████████████████████████████████████████                             | 1259/2000 [03:13<01:58,  6.27it/s]



 63%|█████████████████████████████████████████████████▏                            | 1260/2000 [03:13<01:49,  6.76it/s]



 63%|███████

1300 65% (3m 18s) 2.3390 EESDDDMGFGLFD / TRANSFERASE ✗ (RIBOSOME)






 65%|██████████████████████████████████████████████████▋                           | 1301/2000 [03:19<01:49,  6.36it/s]



 65%|██████████████████████████████████████████████████▊                           | 1302/2000 [03:19<01:46,  6.55it/s]



 65%|██████████████████████████████████████████████████▊                           | 1303/2000 [03:19<01:52,  6.20it/s]



 65%|██████████████████████████████████████████████████▊                           | 1304/2000 [03:19<01:57,  5.91it/s]



 65%|██████████████████████████████████████████████████▉                           | 1305/2000 [03:19<01:48,  6.39it/s]



 65%|██████████████████████████████████████████████████▉                           | 1306/2000 [03:19<01:57,  5.92it/s]



 65%|██████████████████████████████████████████████████▉                           | 1307/2000 [03:20<01:53,  6.11it/s]



 65%|███████████████████████████████████████████████████                           | 1308/2000 [03:20<02:08,  5.39it/s]



 65%|███████

1350 67% (3m 25s) 2.2450 MTATEPTEKILPSPDYVQSLARGLAVIRCFDHRNQRRTLSDVARATDLTRATARRFLLTLVELGYVATDGSAFWLTPRVLELGYSYLSSLSLPEVAQPHLEKLSHKVHESSSVSILDGADIVYVARVPVSRIMTVGITIGTRLPAYATSMGRVLLAGLPDDELDAYLEKLDIQRLTERTITARDELKAAILAVRADGICVLDQELEAGLRSMAAPIRGASGLTVAAVNISTPAARYSLEDLHSDLIPSLRVTATDIEQDLATVNR / TRANSCRIPTION ✓






 68%|████████████████████████████████████████████████████▋                         | 1350/2000 [03:25<01:25,  7.63it/s]



 68%|████████████████████████████████████████████████████▋                         | 1351/2000 [03:26<01:20,  8.06it/s]



 68%|████████████████████████████████████████████████████▋                         | 1352/2000 [03:26<01:17,  8.35it/s]



 68%|████████████████████████████████████████████████████▊                         | 1355/2000 [03:26<01:03, 10.16it/s]



 68%|████████████████████████████████████████████████████▉                         | 1357/2000 [03:26<01:23,  7.68it/s]



 68%|█████████████████████████████████████████████████████                         | 1359/2000 [03:26<01:21,  7.82it/s]



 68%|█████████████████████████████████████████████████████                         | 1360/2000 [03:27<01:43,  6.18it/s]



 68%|█████████████████████████████████████████████████████                         | 1361/2000 [03:27<01:43,  6.20it/s]



 68%|███████

1400 70% (3m 33s) 2.3179 MAVRIRLAKFGRKHHPIYRIVVMDAKSPREGKYIDILGTYDPKRKVLINVYPEKVKEWVLKGVELSHRAKAILWNHGILKEVVPEGYEMKRVGDYYVFEKRESKKSKGGEAA / HYDROLASE/HYDROLASE INHIBITOR ✗ (RIBOSOME)






 70%|██████████████████████████████████████████████████████▋                       | 1401/2000 [03:33<01:52,  5.35it/s]



 70%|██████████████████████████████████████████████████████▋                       | 1403/2000 [03:33<01:28,  6.72it/s]



 70%|██████████████████████████████████████████████████████▊                       | 1404/2000 [03:33<01:27,  6.78it/s]



 70%|██████████████████████████████████████████████████████▊                       | 1406/2000 [03:34<01:10,  8.40it/s]



 70%|██████████████████████████████████████████████████████▉                       | 1408/2000 [03:34<01:00,  9.73it/s]



 70%|██████████████████████████████████████████████████████▉                       | 1410/2000 [03:34<01:02,  9.47it/s]



 71%|███████████████████████████████████████████████████████                       | 1412/2000 [03:34<01:05,  9.00it/s]



 71%|███████████████████████████████████████████████████████▏                      | 1414/2000 [03:34<01:05,  8.95it/s]



 71%|███████

1450 72% (3m 40s) 2.2689 RSYEQMETDGERQNATEIRASVGKMIDGIGRFYIQMCTELKLSDYEGRLIQNSLTIERMVLSAFDERRNKYLEEHPSAGKDPKKTGGPIYRRVDGKWRRELILYDKEEIRRIWRQANNGDDATAGLTHMMIWHSNLNDATYQRTRALVRTGMDPRMCSLMQGSTLPRRSGAAGAAVKGVGTMVMELIRMIKRGINDRNFWRGENGRRTRIAYERMCNILKGKFQTAAQRTMVDQVRESRNPGNAEFEDLIFLARSALILRGSVAHKSCLPACVYGSAVASGYDFEREGYSLVGIDPFRLLQNSQVYSLIRPNENPAHKSQLVWMACHSAAFEDLRVSSFIRGTKVVPRGKLSTRGVQIASNENMETMESSTLELRSRYWAIRTRSGGNTNQQRASSGQISIQPTFSVQRNLPFDRPTIMAAFTGNTEGRTSDMRTEIIRLMESARPEDVSFQGRGVFELSDEKATSPIVPSFDMSNEGSYFFGDNAEEYDNLEHHHHHH / HYDROLASE/HYDROLASE INHIBITOR ✗ (VIRAL PROTEIN)






 72%|████████████████████████████████████████████████████████▌                     | 1450/2000 [03:40<02:08,  4.29it/s]



 73%|████████████████████████████████████████████████████████▋                     | 1452/2000 [03:40<02:09,  4.25it/s]



 73%|████████████████████████████████████████████████████████▋                     | 1453/2000 [03:41<01:53,  4.82it/s]



 73%|████████████████████████████████████████████████████████▋                     | 1455/2000 [03:41<01:32,  5.89it/s]



 73%|████████████████████████████████████████████████████████▊                     | 1457/2000 [03:41<01:31,  5.93it/s]



 73%|████████████████████████████████████████████████████████▉                     | 1459/2000 [03:41<01:20,  6.72it/s]



 73%|████████████████████████████████████████████████████████▉                     | 1460/2000 [03:42<01:30,  6.00it/s]



 73%|████████████████████████████████████████████████████████▉                     | 1461/2000 [03:42<01:33,  5.75it/s]



 73%|███████

1500 75% (3m 48s) 2.3140 EEADDDMGFGLFD / HYDROLASE/HYDROLASE INHIBITOR ✗ (RIBOSOME)






 75%|██████████████████████████████████████████████████████████▌                   | 1501/2000 [03:48<01:19,  6.32it/s]



 75%|██████████████████████████████████████████████████████████▌                   | 1503/2000 [03:49<01:17,  6.40it/s]



 75%|██████████████████████████████████████████████████████████▋                   | 1504/2000 [03:49<01:22,  6.02it/s]



 75%|██████████████████████████████████████████████████████████▋                   | 1505/2000 [03:49<01:15,  6.58it/s]



 75%|██████████████████████████████████████████████████████████▊                   | 1507/2000 [03:49<01:05,  7.52it/s]



 75%|██████████████████████████████████████████████████████████▊                   | 1508/2000 [03:49<01:21,  6.04it/s]



 75%|██████████████████████████████████████████████████████████▊                   | 1509/2000 [03:50<01:25,  5.76it/s]



 76%|██████████████████████████████████████████████████████████▉                   | 1511/2000 [03:50<01:13,  6.61it/s]



 76%|███████

1550 77% (3m 56s) 2.2221 MEGTGVVAVYGNGAITEAKKSPFSVKVGLAQMLRGGVIMDVVNAEQARIAEEAGACAVMALERVPADIRAQGGVARMSDPQMIKEIKQAVTIPVMAKARIGHFVEAQILEAIGIDYIDESEVLTLADEDHHINKHNFRIPFVCGCRNLGEALRRIREGAAMIRTKGEAGTGNIIEAVRHVRSVNGDIRVLRNMDDDEVFTFAKKLAAPYDLVMQTKQLGRLPVVQFAAGGVATPADAALMMQLGCDGVFVGSGIFKSGDPARRARAIVQAVTHYSDPEMLVEVSCGLGEAMVGINLNDEKVERFANRSEEHHHHHH / LYASE ✓






 78%|████████████████████████████████████████████████████████████▍                 | 1550/2000 [03:56<01:14,  6.05it/s]



 78%|████████████████████████████████████████████████████████████▌                 | 1552/2000 [03:56<01:03,  7.03it/s]



 78%|████████████████████████████████████████████████████████████▌                 | 1553/2000 [03:56<01:01,  7.21it/s]



 78%|████████████████████████████████████████████████████████████▌                 | 1554/2000 [03:56<00:58,  7.69it/s]



 78%|████████████████████████████████████████████████████████████▋                 | 1555/2000 [03:56<00:57,  7.80it/s]



 78%|████████████████████████████████████████████████████████████▋                 | 1556/2000 [03:57<01:26,  5.11it/s]



 78%|████████████████████████████████████████████████████████████▊                 | 1558/2000 [03:57<01:14,  5.92it/s]



 78%|████████████████████████████████████████████████████████████▊                 | 1560/2000 [03:57<01:04,  6.82it/s]



 78%|███████

1600 80% (4m 3s) 2.2652 MTIDEIIEAIEKLTVSELAELVKKLEDKFGVTAAAPVAVA / LYASE ✗ (RIBOSOME)






 80%|██████████████████████████████████████████████████████████████▍               | 1602/2000 [04:03<00:43,  9.11it/s]



 80%|██████████████████████████████████████████████████████████████▌               | 1604/2000 [04:03<00:56,  7.01it/s]



 80%|██████████████████████████████████████████████████████████████▋               | 1606/2000 [04:04<01:03,  6.24it/s]



 80%|██████████████████████████████████████████████████████████████▋               | 1607/2000 [04:04<01:12,  5.43it/s]



 80%|██████████████████████████████████████████████████████████████▊               | 1609/2000 [04:05<01:20,  4.84it/s]



 80%|██████████████████████████████████████████████████████████████▊               | 1610/2000 [04:05<01:14,  5.22it/s]



 81%|██████████████████████████████████████████████████████████████▊               | 1612/2000 [04:05<00:59,  6.51it/s]



 81%|██████████████████████████████████████████████████████████████▉               | 1613/2000 [04:05<00:53,  7.26it/s]



 81%|███████

1650 82% (4m 10s) 2.2019 MTHVEVVATITPQLYIEETLIQKINHRIDAIDVLELRIDQFENVTVDQVAEMITKLKVMQDSFKLLVTYRTKLQGGYGQFTNDSYLNLISDLANINGIDMIDIEWQADIDIEKHQRIITHLQQYNKEVIISHHNFESTPPLDELQFIFFKMQKFNPEYVKLAVMPHNKNDVLNLLQAMSTFSDTMDCKVVGISMSKLGLISRTAQGVFGGALTYGCIGEPQAPGQIDVTDLKAQVTLY / LYASE ✓






 82%|████████████████████████████████████████████████████████████████▎             | 1650/2000 [04:10<00:42,  8.23it/s]



 83%|████████████████████████████████████████████████████████████████▍             | 1651/2000 [04:10<00:42,  8.31it/s]



 83%|████████████████████████████████████████████████████████████████▍             | 1653/2000 [04:11<00:41,  8.34it/s]



 83%|████████████████████████████████████████████████████████████████▌             | 1655/2000 [04:11<00:38,  8.86it/s]



 83%|████████████████████████████████████████████████████████████████▌             | 1657/2000 [04:11<00:36,  9.44it/s]



 83%|████████████████████████████████████████████████████████████████▋             | 1658/2000 [04:11<00:42,  8.06it/s]



 83%|████████████████████████████████████████████████████████████████▋             | 1660/2000 [04:11<00:43,  7.88it/s]



 83%|████████████████████████████████████████████████████████████████▊             | 1661/2000 [04:12<00:41,  8.24it/s]



 83%|███████

1700 85% (4m 17s) 2.3845 MAHHHHHHMEIRDNVFLITGGASGLGAGTARLLTEAGGKVVLADLNQDAGEALARELGGVFVRCDVAREEDAQAAVAAATKLGTLRGLVNCAGIAPAAKTVGKDGPHPLELFAKTITVNLIGTFNMIRVAAAAMAANEPAPTGERGVIVSTASVAAFDGQIGQAAYAASKAGVAGMTLPIARDLSRNAIRVMTIAPGIFETPMLLGMPQEVQDALGAMVPFPPRLGKPAEYAMLVRQIFENPMLNGEVIRLDGAIRMQPK / VIRAL PROTEIN ✗ (OXIDOREDUCTASE)






 85%|██████████████████████████████████████████████████████████████████▎           | 1700/2000 [04:17<00:36,  8.32it/s]



 85%|██████████████████████████████████████████████████████████████████▍           | 1703/2000 [04:18<00:28, 10.28it/s]



 85%|██████████████████████████████████████████████████████████████████▍           | 1705/2000 [04:18<00:35,  8.28it/s]



 85%|██████████████████████████████████████████████████████████████████▌           | 1707/2000 [04:18<00:38,  7.56it/s]



 86%|██████████████████████████████████████████████████████████████████▋           | 1710/2000 [04:18<00:32,  8.90it/s]



 86%|██████████████████████████████████████████████████████████████████▊           | 1712/2000 [04:19<00:36,  7.87it/s]



 86%|██████████████████████████████████████████████████████████████████▊           | 1714/2000 [04:19<00:36,  7.89it/s]



 86%|██████████████████████████████████████████████████████████████████▉           | 1715/2000 [04:19<00:38,  7.36it/s]



 86%|███████

1750 87% (4m 24s) 2.2199 ENSNICEVCNKWGRLFCCDTCPRSFHEHCHIPSVEANKNPWSCIFCRIKTIQERCPESQSGHQESEVLMRQMLPEEQLKCEFLLLKVYCDSKSCFFASEPYYNREGSQGPQKPMWLNKVKTSLNEQMYTRVEGFVQDMRLIFHNHKEFYREDKFTRLGIQVQDIFEKNFRNIFAIQETSK / VIRAL PROTEIN ✗ (TRANSCRIPTION)






 88%|████████████████████████████████████████████████████████████████████▎         | 1750/2000 [04:24<00:37,  6.72it/s]



 88%|████████████████████████████████████████████████████████████████████▎         | 1751/2000 [04:25<00:35,  6.94it/s]



 88%|████████████████████████████████████████████████████████████████████▎         | 1752/2000 [04:25<00:44,  5.55it/s]



 88%|████████████████████████████████████████████████████████████████████▎         | 1753/2000 [04:25<00:46,  5.27it/s]



 88%|████████████████████████████████████████████████████████████████████▍         | 1754/2000 [04:25<00:43,  5.67it/s]



 88%|████████████████████████████████████████████████████████████████████▍         | 1755/2000 [04:26<00:49,  4.93it/s]



 88%|████████████████████████████████████████████████████████████████████▍         | 1756/2000 [04:26<00:46,  5.23it/s]



 88%|████████████████████████████████████████████████████████████████████▌         | 1757/2000 [04:26<00:40,  6.01it/s]



 88%|███████

1800 90% (4m 33s) 2.4369 MASLNCHDKCSTTTQSDINLKDELLSSTSIECRPGNDLLESLHKEQNRWYSETKTFSDSSQHTGRGFEKYWFCYGIKCYYFVMDRKTWSGCKQTCQISSLSLLKIDNEDELKFLKLLVPSDSYWIGLSYDNKKKDWAWINNGPSKLALNTMKYNIRDGGCMLLSKTRLDNDNCDKSFICICGKRLDKFPH / TRANSCRIPTION ✗ (IMMUNE SYSTEM)






 90%|██████████████████████████████████████████████████████████████████████▏       | 1800/2000 [04:33<00:31,  6.44it/s]



 90%|██████████████████████████████████████████████████████████████████████▏       | 1801/2000 [04:33<00:32,  6.15it/s]



 90%|██████████████████████████████████████████████████████████████████████▎       | 1802/2000 [04:33<00:31,  6.25it/s]



 90%|██████████████████████████████████████████████████████████████████████▎       | 1804/2000 [04:33<00:30,  6.52it/s]



 90%|██████████████████████████████████████████████████████████████████████▍       | 1805/2000 [04:33<00:29,  6.68it/s]



 90%|██████████████████████████████████████████████████████████████████████▍       | 1806/2000 [04:33<00:32,  5.98it/s]



 90%|██████████████████████████████████████████████████████████████████████▍       | 1807/2000 [04:34<00:29,  6.62it/s]



 90%|██████████████████████████████████████████████████████████████████████▌       | 1808/2000 [04:34<00:34,  5.53it/s]



 90%|███████

1850 92% (4m 40s) 2.2125 ASQQFRIDSESIRDKLNTLLPSQSRGSIGVDLSGSTTIIPVVDLTETAEGGAQREDLQKAFTLINTIDFDVENTTTTIANTPGFYKVVGNLSSRDEASGAIAVIEVTDGITTKILANNRIVSPDGTTAVQSVPVPFDLMVKLVAGDTLQARSNNAEVRVQGIARQIADVSGNLINP / TRANSCRIPTION ✗ (VIRAL PROTEIN)






 92%|████████████████████████████████████████████████████████████████████████▏     | 1850/2000 [04:40<00:19,  7.51it/s]



 93%|████████████████████████████████████████████████████████████████████████▏     | 1851/2000 [04:40<00:25,  5.75it/s]



 93%|████████████████████████████████████████████████████████████████████████▏     | 1852/2000 [04:40<00:25,  5.90it/s]



 93%|████████████████████████████████████████████████████████████████████████▎     | 1854/2000 [04:41<00:24,  6.00it/s]



 93%|████████████████████████████████████████████████████████████████████████▎     | 1855/2000 [04:41<00:23,  6.09it/s]



 93%|████████████████████████████████████████████████████████████████████████▍     | 1856/2000 [04:41<00:26,  5.38it/s]



 93%|████████████████████████████████████████████████████████████████████████▍     | 1857/2000 [04:41<00:24,  5.82it/s]



 93%|████████████████████████████████████████████████████████████████████████▍     | 1858/2000 [04:41<00:24,  5.71it/s]



 93%|███████

1900 95% (4m 47s) 2.1698 MLERFEGGHYRDVLTVGAVGTFTVGWLLPRLEDFQARHPFIDLRLSTHNNRVDIAAEGLDYAIRFGGGAWHGTEALALFEAPLTVLCCPEVAAQLHSPADLLQHTLLRSYRADEWPLWFQAAGLPAHAPLTRSIVFDTSLAMLEAARQGVGVALAPAAMFARQLASESIRRPFATEVSTGSYWLTRLQSRGETSAMLAFRGWLLEMAAVEARGRLEHHHHHH / TRANSCRIPTION ✓






 95%|██████████████████████████████████████████████████████████████████████████    | 1900/2000 [04:47<00:14,  6.75it/s]



 95%|██████████████████████████████████████████████████████████████████████████▏   | 1903/2000 [04:48<00:13,  7.26it/s]



 95%|██████████████████████████████████████████████████████████████████████████▎   | 1905/2000 [04:48<00:11,  8.36it/s]



 95%|██████████████████████████████████████████████████████████████████████████▎   | 1906/2000 [04:48<00:11,  8.21it/s]



 95%|██████████████████████████████████████████████████████████████████████████▍   | 1908/2000 [04:48<00:10,  8.87it/s]



 95%|██████████████████████████████████████████████████████████████████████████▍   | 1909/2000 [04:49<00:13,  6.68it/s]



 96%|██████████████████████████████████████████████████████████████████████████▍   | 1910/2000 [04:49<00:15,  5.77it/s]



 96%|██████████████████████████████████████████████████████████████████████████▌   | 1911/2000 [04:49<00:15,  5.68it/s]



 96%|███████

1950 97% (4m 56s) 2.2738 MKLAPYILELLTSVNRTNGTADLLVPLLRELAKGRPVSRTTLAGILDWPAERVAAVLEQATSTEYDKDGNIIGYGLTLRETSYVFEIDDRRLYAWCALDTLIFPALIGRTARVSSHCAATGAPVSLTVSPSEIQAVEPAGMAVSLVLPQEAADVRQSFCCHVHFFASVPTAEDWASKHQGLEGLAIVSVHEAFGLGQEFNRHLLQTMSSRTPLEHHHHHH / TRANSCRIPTION ✗ (LYASE)






 98%|████████████████████████████████████████████████████████████████████████████  | 1950/2000 [04:56<00:09,  5.21it/s]



 98%|████████████████████████████████████████████████████████████████████████████  | 1951/2000 [04:56<00:10,  4.63it/s]



 98%|████████████████████████████████████████████████████████████████████████████▏ | 1952/2000 [04:56<00:09,  5.15it/s]



 98%|████████████████████████████████████████████████████████████████████████████▏ | 1953/2000 [04:56<00:09,  4.84it/s]



 98%|████████████████████████████████████████████████████████████████████████████▏ | 1954/2000 [04:57<00:08,  5.36it/s]



 98%|████████████████████████████████████████████████████████████████████████████▏ | 1955/2000 [04:57<00:08,  5.61it/s]



 98%|████████████████████████████████████████████████████████████████████████████▎ | 1956/2000 [04:57<00:07,  5.90it/s]



 98%|████████████████████████████████████████████████████████████████████████████▎ | 1958/2000 [04:57<00:06,  6.90it/s]



 98%|███████

2000 100% (5m 5s) 2.4378 MHHHHHHSSGVDLGTENLYFQSMPAPYWEGTAVIDGEFKELKLTDYRGKYLVFFFYPLDFTFVCPTEIIAFGDRLEEFRSINTEVVACSVDSQFTHLAWINTPRRQGGLGPIRIPLLSDLTHQISKDYGVYLEDSGHTLRGLFIIDDKGILRQITLNDLPVGRSVDETLRLVQAFQYTDKHGEVCPAGWKPGSETIIPDPAGKLKYFDKLN / TRANSCRIPTION ✗ (OXIDOREDUCTASE)






100%|██████████████████████████████████████████████████████████████████████████████| 2000/2000 [05:05<00:00,  5.35it/s]





In [401]:
guess, guess_i = categoryFromOutput(output)

In [402]:
guess

'RIBOSOME'

In [403]:
guess_i

0

In [399]:
category_i

NameError: name 'category_i' is not defined

In [391]:
import progressbar

LSTM

In [151]:
class Params():
    def __init__(self):
        self.batch_size = 32
        self.hidden_size = 12
        self.embedding_size = 24
        self.epochs = 50
        self.nr_classes =2
        self.gpu = False
        self.learning_rate = 0.001
        self.train_ratio = 0.82
        self.val_ratio = 0.1
        self.test_ratio = 1-self.val_ratio-self.train_ratio
        self.n_layers = 2
        self.dropout = 0.3


Args = Params()

In [74]:
import torch.autograd as autograd
class LSTMClassifier(nn.Module):

    def __init__(self, input_size, hidden_dim, label_size, batch_size):
        super(LSTMClassifier, self).__init__()
        self.hidden_dim = hidden_dim
        self.batch_size = batch_size
        #self.word_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(input_size, hidden_dim)
        self.hidden2label = nn.Linear(hidden_dim, label_size)
        self.hidden = self.init_hidden()

    def init_hidden(self):
        # the first is the hidden h
        # the second is the cell  c
        return (autograd.Variable(torch.zeros(1, self.batch_size, self.hidden_dim)),
                autograd.Variable(torch.zeros(1, self.batch_size, self.hidden_dim)))

    def forward(self, sentence):
        #embeds = self.word_embeddings(sentence)
        x = sentence.view(len(sentence), self.batch_size , -1)
        lstm_out, self.hidden = self.lstm(x, self.hidden)
        y  = self.hidden2label(lstm_out[-1])
        log_probs = F.log_softmax(y)
        return log_probs
    
    
def train_epoch(model, X_train, y_train,loss_function,optimizer):
    model.train()
    avg_loss = 0.0
    count = 0
    truth_res = []
    pred_res = []
    for i in range(1000):
        #sent, label = batch.text, batch.label
        #label.data.sub_(1)
        #truth_res += list(label.data)
        model.batch_size = 10
        label = y_train[i:i+model.batch_size]
        model.hidden = model.init_hidden()# detaching it from its history on the last instance.
        pred = model(X_train[i:i+model.batch_size])
        pred_label = pred.data.max(1)[1].numpy()
        pred_res += [x[0] for x in pred_label]
        model.zero_grad()
        loss = loss_function(pred, label)
        avg_loss += loss.data[0]
        count += 1
        if i % 10 == 0:
            print('epoch: %d iterations: %d loss :%g' % (i, count*model.batch_size, loss.data[0]))
        loss.backward()
        optimizer.step()
    #avg_loss /= len(train_iter)
    #print('epoch: %d done!\ntrain avg_loss:%g , acc:%g'%(i, avg_loss, get_accuracy(truth_res,pred_res)))


In [92]:
count

RIBOSOME                         60710
HYDROLASE                        47833
TRANSFERASE                      37726
OXIDOREDUCTASE                   35114
IMMUNE SYSTEM                    15989
LYASE                            11871
HYDROLASE/HYDROLASE INHIBITOR    11262
VIRUS                            10832
TRANSCRIPTION                    10564
VIRAL PROTEIN                     8875
Name: classification, dtype: int64

In [75]:
model = LSTMClassifier(n_letters,128,10,10)
loss_function =  nn.CrossEntropyLoss()
optimizer =  optim.Adam(model.parameters(), lr=0.005)


In [189]:
def train(input_tensor, input_sizes, target_tensor):
    model.hidden = model.init_hidden(Args.batch_size) 
    model.zero_grad()
    output, hidden = model.forward(input_tensor, input_sizes)
    loss = criterion(output, target_tensor)
    loss.backward()
    optimizer.step()
    return output, loss.item()

In [192]:
model = LSTM_classifier(vocab_size = n_letters, 
                        hidden_size = Args.hidden_size, 
                        n_layers = Args.n_layers, 
                        dropout = Args.dropout,
                        embed_size = Args.embedding_size).cuda()
optimizer = torch.optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss()

In [191]:
n_letters

26

In [179]:
test = y_train.iloc[list(range(0,10))]

In [181]:
test.values

array(['HYDROLASE', 'TRANSFERASE', 'HYDROLASE', 'OXIDOREDUCTASE',
       'HYDROLASE', 'HYDROLASE', 'LYASE', 'LYASE', 'HYDROLASE',
       'TRANSFERASE'], dtype=object)

In [201]:
label_map['TRANSFERASE']

2

In [218]:
import time
from torch.autograd import Variable

current_loss = 0

all_losses = []
val_acc = []
train_acc = []
predictions = []
labels = []
#print_every = int(len(train_data)/Args.batch_size) #every epoch
#n_iters  = int(len(train_data)/Args.batch_size*Args.epochs)
#plot_every = print_every
start = time.time()
epochs = 10
batch_size = 32
label_map = dict(zip(list(count.index),list(range(10))))
for i in range(epochs):
    for idx in range(len(X_train)%batch_size):
        cur_x = X_train.iloc[list(range(idx,idx+batch_size))].values
        temp_y = y_train.iloc[list(range(idx,idx+batch_size))].values
        #print(type(cur_y))
        #print(cur_y[0])
        cur_x = lineToTensor(cur_x)
        cur_y = np.zeros(batch_size)
        for i in range(len(cur_y)):
            cur_y[i] = label_map[temp_y[i]]
        #print(type(cur_y))
        cur_y = torch.from_numpy(cur_y.astype(np.int))
        input_lengths = [len(x) for x in cur_x]
        print(cur_y)
        #print(cur_x)
        print(input_lengths)
        output, loss = train(input_tensor=cur_x, 
                     input_sizes=input_lengths, 
                     target_tensor=cur_y)
        current_loss += loss
        predictions.extend(list(torch.argmax(output, dim=1).numpy()))
        #labels.extend(list(target_tensor.numpy()))

                
                
        
        
        
        
        

tensor([1, 2, 1, 3, 1, 1, 5, 5, 1, 2, 1, 1, 1, 1, 4, 1, 2, 2, 5, 2, 1, 1, 1, 2,
        2, 4, 4, 9, 5, 1, 1, 1], dtype=torch.int32)
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


RuntimeError: Expected tensor for argument #1 'indices' to have scalar type Long; but got CPUType instead (while checking arguments for embedding)

What about top-5 accuracy

And you need to balance the weight for each category