# HIV-1 Protease Cleavage

Data from UCI ML repository

https://archive.ics.uci.edu/ml/datasets/HIV-1+protease+cleavage

In [2]:
import pandas as pd
import numpy as np

In [3]:
filename = 'C:/Users/joeba/OneDrive/Documents/ML/hiv protease/newHIV-1_data/746Data.txt'

data = pd.read_csv(filename, header=None)
data.columns = ['protease', 'label']
data

Unnamed: 0,protease,label
0,AAAKFERQ,-1
1,AAAMKRHG,-1
2,AAAMSSAI,-1
3,AAKFERQH,-1
4,AAKFESNF,-1
...,...,...
741,YQSYSTMS,-1
742,YRGYSLGN,-1
743,YSLGNWVC,-1
744,YSTMSITD,-1


In [4]:
# the standard orthonormal representation (O) (Ro ¨gnvaldsson and You 2003) each amino acid is represented 
# by a 20 bit vector with 19 bit set to zero and one bit set to one, and each amino acid vector is orthogonal to
# all other amino acid vectors
def encode_acid(a):
    """ encode alphabetic amino acid string into binary 20-ary string
    """
    alphabet = 'ARNDCQEGHILKMFPSTWYV'
    result = []
    for i in range(len(a)):
        for j in range(len(alphabet)):
            if alphabet[j] == a[i]:
                result.append(1)
            else:
                result.append(-1)
    
    return result

encoding = encode_acid('AAAKFERQ')
print(encoding)

print(len(encoding))

[1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]
160


In [5]:
encoded = []
for i in range(len(data)):
    encoded.append(encode_acid(data.iloc[i,0]))
   
len(encoded)

746

In [6]:
data['encoding'] = encoded
data

Unnamed: 0,protease,label,encoding
0,AAAKFERQ,-1,"[1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1..."
1,AAAMKRHG,-1,"[1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1..."
2,AAAMSSAI,-1,"[1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1..."
3,AAKFERQH,-1,"[1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1..."
4,AAKFESNF,-1,"[1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1..."
...,...,...,...
741,YQSYSTMS,-1,"[-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -..."
742,YRGYSLGN,-1,"[-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -..."
743,YSLGNWVC,-1,"[-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -..."
744,YSTMSITD,-1,"[-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -..."


In [13]:
X = data['encoding'].values
X

array([list([1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]),
       list([1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 

In [9]:
y = data['label'].values
y

array([-1, -1, -1, -1, -1, -1, -1,  1, -1, -1, -1,  1,  1,  1,  1,  1,  1,
        1,  1, -1, -1, -1,  1,  1, -1, -1, -1, -1, -1,  1,  1,  1,  1,  1,
        1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1, -1, -1,
        1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1,  1, -1,  1, -1, -1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1, -1,  1,  1, -1, -1, -1,  1,  1,  1,  1, -1,  1,  1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
        1, -1,  1, -1, -1, -1, -1,  1,  1, -1,  1,  1, -1,  1, -1,  1, -1,
       -1, -1,  1, -1,  1, -1,  1,  1,  1, -1,  1, -1, -1, -1, -1,  1,  1,
       -1, -1, -1, -1, -1,  1, -1,  1, -1, -1, -1, -1, -1, -1,  1,  1,  1,
        1,  1,  1,  1,  1, -1,  1, -1,  1,  1, -1,  1,  1, -1,  1,  1, -1,
       -1, -1, -1,  1,  1,  1, -1,  1,  1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1,  1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1,  1, -1,
        1, -1, -1, -1,  1