Predictor.txt

## Feature_Extraction

##Drug_Target_Encoding
Drug target sequences are encoded using PseAAC.

import itertools
import numpy as np
import matplotlib.pyplot as plt
from sys import argv
import string
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from collections import Counter
import pandas
import sklearn
import pandas as pd
import matplotlib.pyplot as plt
import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.optimizers import SGD
from sklearn.model_selection import StratifiedKFold
from sklearn.decomposition import PCA
from sklearn.decomposition import IncrementalPCA
from keras import regularizers
from keras.wrappers.scikit_learn import KerasClassifier
from keras.layers import Conv2D, MaxPooling2D, Dense, Flatten
from keras.utils import to_categorical
from collections import Counter
from keras.layers import Dense
from keras.layers import Dropout
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from keras.layers import Dense, Dropout, Activation
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from keras.layers import Dense, Dropout
from keras.layers import Embedding
from keras.layers import Conv1D, GlobalAveragePooling1D, MaxPooling1D
from collections import Counter
from sklearn.model_selection import train_test_split
from keras.layers import Dense, Dropout, Activation
import tensorflow as tf
from keras.wrappers.scikit_learn import KerasClassifier
#from Sklearn.Cross_Validation import cross_val_score
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import LabelBinarizer
#from sklearn.cross_validation import train_test_split
#from sklearn.cross_validation import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.layers import BatchNormalization



##PseAAC_Encoding
##20 native amino acids according to the alphabetical order of their single-letter codes
AA_20 = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y']


DrugTrg = raw_input('Please Enter Target Sequance:')
HormRec = raw_input('Please Enter Hormone Receptor Sequence:')

for key in DrugTrg:
    if key not in AA_20:
        print( key+' is not in 20 native amino acid!')
        DrugTrg=(input('Please Enter Target Sequance:')) 

for key in HormRec:
    if key not in AA_20:
        print( key+' is not in 20 native amino acid!')
        HormRec=(input('Please Enter Hormone Receptor Sequance:')) 	

##Counting amino acids in drug target sequences

DrgTrg_List_AA=[]
num_A = DrugTrg.count('A')
DrgTrg_List_AA.append(num_A)
num_C = DrugTrg.count('C')
DrgTrg_List_AA.append(num_C)
num_D = DrugTrg.count('D')
DrgTrg_List_AA.append(num_D)
num_E = DrugTrg.count('E')
DrgTrg_List_AA.append(num_E)
num_F = DrugTrg.count('F')
DrgTrg_List_AA.append(num_F)
num_G = DrugTrg.count('G')
DrgTrg_List_AA.append(num_G)
num_H = DrugTrg.count('H')
DrgTrg_List_AA.append(num_H)
num_I = DrugTrg.count('I')
DrgTrg_List_AA.append(num_I)
num_K = DrugTrg.count('K')
DrgTrg_List_AA.append(num_K)
num_L = DrugTrg.count('L')
DrgTrg_List_AA.append(num_L)
num_M = DrugTrg.count('M')
DrgTrg_List_AA.append(num_M)
num_N = DrugTrg.count('N')
DrgTrg_List_AA.append(num_N)
num_P = DrugTrg.count('P')
DrgTrg_List_AA.append(num_P)
num_Q = DrugTrg.count('Q')
DrgTrg_List_AA.append(num_Q)
num_R = DrugTrg.count('R')
DrgTrg_List_AA.append(num_R)
num_S = DrugTrg.count('S')
DrgTrg_List_AA.append(num_S)
num_T = DrugTrg.count('T')
DrgTrg_List_AA.append(num_T)
num_V = DrugTrg.count('V')
DrgTrg_List_AA.append(num_V)
num_W = DrugTrg.count('W')
DrgTrg_List_AA.append(num_W)
num_Y = DrugTrg.count('Y')
DrgTrg_List_AA.append(num_Y)
print(DrgTrg_List_AA)


##Counting amino acids in hormone receptor sequences

HormRec_List_AA=[]
num_A = HormRec.count('A')
HormRec_List_AA.append(num_A)
num_C = HormRec.count('C')
HormRec_List_AA.append(num_C)
num_D = HormRec.count('D')
HormRec_List_AA.append(num_D)
num_E = HormRec.count('E')
HormRec_List_AA.append(num_E)
num_F = HormRec.count('F')
HormRec_List_AA.append(num_F)
num_G = HormRec.count('G')
HormRec_List_AA.append(num_G)
num_H = HormRec.count('H')
HormRec_List_AA.append(num_H)
num_I = HormRec.count('I')
HormRec_List_AA.append(num_I)
num_K = HormRec.count('K')
HormRec_List_AA.append(num_K)
num_L = HormRec.count('L')
HormRec_List_AA.append(num_L)
num_M = HormRec.count('M')
HormRec_List_AA.append(num_M)
num_N = HormRec.count('N')
HormRec_List_AA.append(num_N)
num_P = HormRec.count('P')
HormRec_List_AA.append(num_P)
num_Q = HormRec.count('Q')
HormRec_List_AA.append(num_Q)
num_R = HormRec.count('R')
HormRec_List_AA.append(num_R)
num_S = HormRec.count('S')
HormRec_List_AA.append(num_S)
num_T = HormRec.count('T')
HormRec_List_AA.append(num_T)
num_V = HormRec.count('V')
HormRec_List_AA.append(num_V)
num_W = HormRec.count('W')
HormRec_List_AA.append(num_W)
num_Y = HormRec.count('Y')
HormRec_List_AA.append(num_Y)
print(HormRec_List_AA)


## The hydrophobicity values 
H01={'A':0.62,'C':0.29,'D':-0.90,'E':-0.74,'F':1.19,'G':0.48,'H':-0.40,'I':1.38,'K':-1.50,'L':1.06,'M':0.64,'N':-0.78,'P':0.12,'Q':-0.85,'R':-2.53,'S':-0.18,'T':-0.05,'V':1.08,'W':0.81,'Y':0.26}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
##The hydrophilicity values 
H02={'A':-0.5,'C':-1.0,'D':3.0,'E':3.0,'F':-2.5,'G':0.0,'H':-0.5,'I':-1.8,'K':3.0,'L':-1.8,'M':-1.3,'N':0.2,'P':0.0,'Q':0.2,'R':3.0,'S':0.3,'T':-0.4,'V':-1.5,'W':-3.4,'Y':-2.3}

# Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The side-chain mass for each of the 20 amino acids
M0={'A':15.0,'C':47.0,'D':59.0,'E':73.0,'F':91.0,'G':1.0,'H':82.0,'I':57.0,'K':73.0,'L':57.0,'M':75.0,'N':58.0,'P':42.0,'Q':72.0,'R':101.0,'S':31.0,'T':45.0,'V':43.0,'W':130.0,'Y':107.0}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        #print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))


######################################################################################################



## The Polarity values 
H01={'A':0.5,'C':2.5,'D':-1,'E':2.5,'F':-2.5,'G':0,'H':-0.5,'I':1.8,'K':3,'L':-1.8,'M':-1.3,'N':0.2,'P':-1.4,'Q':0.2,'R':3,'S':0.3,'T':-0.4,'V':-1.5,'W':-3.4,'Y':-2.3}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## The Molecular weight values 
H02={'A':5.3,'C':3.6,'D':1.3,'E':3.3,'F':2.3,'G':4.8,'H':1.4,'I':3.1,'K':4.1,'L':4.7,'M':1.1,'N':3,'P':2.5,'Q':2.4,'R':2.6,'S':4.5,'T':3.7,'V':4.2,'W':0.8,'Y':2.3}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The Meling point for each of the 20 amino acids
M0={'A':0.81,'C':0.71,'D':1.17,'E':0.53,'F':1.2,'G':0.88,'H':0.92,'I':1.48,'K':0.77,'L':1.24,'M':1.05,'N':0.62,'P':0.61,'Q':0.98,'R':0.85,'S':0.92,'T':1.18,'V':1.66,'W':1.18,'Y':1.23}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        #print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))

###########################################################################################




## The Transfer_free_energy values
H01={'A':58,'C':-97,'D':116,'E':-131,'F':92,'G':-11,'H':-73,'I':107,'K':-24,'L':95,'M':78,'N':-93,'P':-79,'Q':-139,'R':-184,'S':-34,'T':-7,'V':100,'W':59,'Y':-11}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## The Buriability values
H02={'A':1.37,'C':8.93,'D':-4.47,'E':4.04,'F':-7.96,'G':3.39,'H':-1.65,'I':-7.92,'K':7.7,'L':-8.68,'M':-7.13,'N':6.29,'P':6.25,'Q':3.88,'R':1.33,'S':4.08,'T':4.02,'V':-6.94,'W':0.79,'Y':-4.73}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The Bulkiness for each of the 20 amino acids
M0={'A':6.77,'C':8.57,'D':0.31,'E':12.93,'F':1.92,'G':7.95,'H':2.8,'I':2.72,'K':10.2,'L':4.43,'M':1.87,'N':5.5,'P':4.79,'Q':5.24,'R':6.87,'S':5.41,'T':5.36,'V':3.57,'W':0.54,'Y':2.26}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        #print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))

#############################################################################################


## The Solvation_free_energy values
H01={'A':0.87,'C':0.66,'D':1.52,'E':0.67,'F':2.87,'G':0.1,'H':0.87,'I':3.15,'K':1.64,'L':2.17,'M':1.67,'N':0.09,'P':2.77,'Q':0,'R':0.85,'S':0.07,'T':0.07,'V':1.87,'W':3.77,'Y':2.67}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## The Relative_mutability values 
H02={'A':1.09,'C':0.77,'D':0.5,'E':0.92,'F':0.5,'G':1.25,'H':0.67,'I':0.66,'K':1.25,'L':0.44,'M':0.45,'N':1.14,'P':2.96,'Q':0.83,'R':0.97,'S':1.21,'T':1.33,'V':0.56,'W':0.62,'Y':0.94}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The Residue_volume for each of the 20 amino acids
M0={'A':0.91,'C':1.4,'D':0.93,'E':0.97,'F':0.72,'G':1.51,'H':0.9,'I':0.65,'K':0.82,'L':0.59,'M':0.58,'N':1.64,'P':1.66,'Q':0.94,'R':1,'S':1.23,'T':1.04,'V':0.6,'W':0.67,'Y':0.92}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        #print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))

##############################################################################################


## The volume values 
H01={'A':0.92,'C':0.48,'D':1.16,'E':0.61,'F':1.25,'G':0.61,'H':0.93,'I':1.81,'K':0.7,'L':1.3,'M':1.19,'N':0.6,'P':0.4,'Q':0.95,'R':0.93,'S':0.82,'T':1.12,'V':1.81,'W':1.54,'Y':1.53}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## The Amino_acid_distribution values 
H02={'A':0.96,'C':0.9,'D':1.13,'E':0.33,'F':1.37,'G':0.9,'H':0.87,'I':1.54,'K':0.81,'L':1.26,'M':1.29,'N':0.72,'P':0.75,'Q':1.18,'R':0.67,'S':0.77,'T':1.23,'V':1.41,'W':1.13,'Y':1.07}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The Hydration_number for each of the 20 amino acids
M0={'A':0.9,'C':0.47,'D':1.24,'E':0.62,'F':1.23,'G':0.56,'H':1.12,'I':1.54,'K':0.74,'L':1.26,'M':1.09,'N':0.62,'P':0.42,'Q':1.18,'R':1.02,'S':0.87,'T':1.3,'V':1.53,'W':1.75,'Y':1.68}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        #print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))

################################################################################################



## The Isoelectric_point values 
H01={'A':6,'C':5.05,'D':2.77,'E':5.22,'F':5.48,'G':5.97,'H':7.59,'I':6.02,'K':9.74,'L':5.98,'M':5.74,'N':5.41,'P':6.3,'Q':5.65,'R':10.76,'S':5.68,'T':5.66,'V':5.96,'W':5.89,'Y':5.66}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## The Compressibility values 
H02={'A':-25.5,'C':-32.82,'D':-33.12,'E':-36.17,'F':-34.54,'G':-27,'H':-31.84,'I':-31.78,'K':-32.4,'L':-31.78,'M':-31.18,'N':-30.9,'P':-23.25,'Q':-32.6,'R':-26.62,'S':-29.88,'T':-31.23,'V':-30.62,'W':-30.24,'Y':-35.01}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The Chromatographic_index for each of the 20 amino acids
M0={'A':9.9,'C':2.8,'D':2.8,'E':3.2,'F':18.8,'G':5.6,'H':8.2,'I':17.1,'K':3.5,'L':17.6,'M':14.7,'N':5.4,'P':14.8,'Q':9,'R':4.6,'S':6.9,'T':9.5,'V':14.3,'W':17,'Y':15}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        #print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))

##################################################################################################

        

## The Unfolding_entropy_change values 
H01={'A':0.54,'C':-4.14,'D':-0.26,'E':-0.19,'F':-4.66,'G':-0.31,'H':-0.23,'I':-0.27,'K':1.13,'L':-0.24,'M':-2.36,'N':1.74,'P':-0.08,'Q':1.53,'R':3.69,'S':-0.24,'T':-0.28,'V':-0.36,'W':-2.69,'Y':-2.82}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## The Unfolding_entalpy_change values
H02={'A':0.51,'C':5.21,'D':0.18,'E':0.05,'F':6.82,'G':-0.23,'H':0.79,'I':0.19,'K':-1.45,'L':0.17,'M':2.89,'N':-2.03,'P':0.02,'Q':-1.76,'R':-4.4,'S':-0.16,'T':0.04,'V':0.3,'W':4.47,'Y':3.73}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The Unfolding_Gibbs_free_energy_change for each of the 20 amino acids
M0={'A':-0.02,'C':1.08,'D':-0.08,'E':-0.13,'F':2.16,'G':0.09,'H':0.56,'I':-0.08,'K':-0.32,'L':-0.08,'M':0.53,'N':-0.3,'P':-0.06,'Q':-0.23,'R':-0.71,'S':-0.4,'T':-0.24,'V':-0.06,'W':1.78,'Y':-.91}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        
        ##print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))


##################################################################################################


## Power to beat the N-terminal of alphahelix 
H01={'A':1.59,'C':0.33,'D':0.53,'E':1.45,'F':1.14,'G':0.53,'H':0.89,'I':1.22,'K':1.13,'L':1.91,'M':1.25,'N':0.53,'P':0,'Q':0.98,'R':0.67,'S':0.7,'T':0.5,'V':1.42,'W':1.33,'Y':0.58}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## Power to beat the C-terminal of alphahelix
H02={'A':1.44,'C':0.76,'D':2.13,'E':2.01,'F':1.01,'G':0.62,'H':0.56,'I':0.68,'K':0.59,'L':0.58,'M':0.73,'N':0.93,'P':2.19,'Q':1.2,'R':0.39,'S':0.81,'T':1.25,'V':0.63,'W':1.4,'Y':0.72}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## Power to beat the middle of alphahelix
M0={'A':1.22,'C':1.53,'D':0.56,'E':1.28,'F':1.13,'G':0.4,'H':2.23,'I':0.77,'K':1.65,'L':1.05,'M':1.47,'N':0.93,'P':0,'Q':1.63,'R':1.59,'S':0.87,'T':0.46,'V':1.2,'W':0.46,'Y':0.52}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        
        ##print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))


##################################################################################################

        

## Alpha-helical tendency 
H01={'A':1.42,'C':0.7,'D':1.01,'E':1.51,'F':1.13,'G':0.57,'H':1,'I':1.08,'K':1.16,'L':1.21,'M':1.45,'N':0.67,'P':0.57,'Q':1.11,'R':0.98,'S':0.77,'T':0.83,'V':1.06,'W':1.08,'Y':0.69}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## Beta-helical tendency
H02={'A':0.83,'C':1.19,'D':0.54,'E':0.37,'F':1.38,'G':0.75,'H':0.87,'I':1.6,'K':0.74,'L':1.3,'M':1.05,'N':0.89,'P':0.55,'Q':1.1,'R':0.93,'S':0.75,'T':1.19,'V':1.7,'W':1.37,'Y':1.47}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## Turn tendency
M0={'A':0.66,'C':1.19,'D':1.46,'E':0.74,'F':0.6,'G':1.56,'H':0.95,'I':0.47,'K':1.01,'L':0.59,'M':0.6,'N':1.56,'P':1.52,'Q':0.98,'R':0.95,'S':1.43,'T':0.96,'V':0.5,'W':0.96,'Y':1.14}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        
        ##print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)
print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))


##################################################################################################

        

## Coil tendency
H01={'A':0.71,'C':1.19,'D':1.21,'E':0.84,'F':0.71,'G':1.52,'H':1.07,'I':0.66,'K':0.99,'L':0.69,'M':0.59,'N':1.37,'P':1.07,'Q':0.87,'R':1.07,'S':1.34,'T':1.08,'V':0.63,'W':0.76,'Y':1.07}

## Normalize (zero mean value; Eq. 4)
avg_H01Val=0
for i1 in H01.keys():
    avg_H01Val += H01[i1]/20
sum_diff_H01Val=0
for i2 in H01.keys():
    sum_diff_H01Val += (H01[i2] - avg_H01Val)**2
sqrt_diff_H01Val=(sum_diff_H01Val/20)**0.5
 
H1={}
for i3 in H01.keys():
    H1[i3]=(H01[i3]-avg_H01Val)/sqrt_diff_H01Val

 
## Shape (position of branch point in aside-chain)
H02={'A':0,'C':0,'D':2,'E':3,'F':2,'G':0,'H':2,'I':1,'K':0,'L':2,'M':0,'N':2,'P':0,'Q':3,'R':5,'S':0,'T':1,'V':1,'W':2,'Y':2}

## Normalize (zero mean value; Eq. 4)
avg_H02Val=0
for j1 in H02.keys():
    avg_H02Val += H02[j1]/20
sum_diff_H02Val=0
for j2 in H02.keys():
    sum_diff_H02Val += (H02[j2] - avg_H02Val)**2
sqrt_diff_H02Val=(sum_diff_H02Val/20)**0.5
 
H2={}
for j3 in H02.keys():
    H2[j3]=(H02[j3]-avg_H02Val)/sqrt_diff_H02Val

 
## The stability scale from the knowledge-based atom-atom potential 
M0={'A':-0.26,'C':-1.3,'D':0.83,'E':-0.73,'F':1.09,'G':-0.4,'H':-0.18,'I':1.1,'K':-1.01,'L':1.52,'M':1.09,'N':-0.46,'P':-0.62,'Q':-0.83,'R':0.08,'S':-0.55,'T':-0.71,'V':1.15,'W':-0.13,'Y':0.69}

## Normalize (zero mean value; Eq. 4)
avg_M0Val=0
for k1 in M0.keys():
    avg_M0Val += M0[k1]/20
sum_diff_M0Val=0
for k2 in M0.keys():
    sum_diff_M0Val += (M0[k2] - avg_M0Val)**2
sqrt_diff_M0Val=(sum_diff_M0Val/20)**0.5
 
M={}
for k3 in M0.keys():
    M[k3]=(M0[k3]-avg_M0Val)/sqrt_diff_M0Val

 
## The correlation function is given by the Eq. 3
def theta_RiRj(Ri,Rj):
    return ((H1[Rj]-H1[Ri])**2+(H2[Rj]-H2[Ri])**2+(M[Rj]-M[Ri])**2)/3
 
## Sequence order effect (Eq. 2)
def sum_theta_val(seq_len,LVal,n):
    sum_theta_RiRj=0
    i=0
    while i < (seq_len-LVal):
        sum_theta_RiRj += theta_RiRj(DrugTrg[i],DrugTrg[i+n])
        
        ##print i, seq[i], i+n, seq[i+n], theta_RiRj(seq[i],seq[i+n])
        i +=1
    return sum_theta_RiRj/(seq_len - n)

LambdaVal=30
if ((len(DrugTrg)-LambdaVal) > 0):
    sum_all_aa_freq=0
    for aa in DrgTrg_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(DrugTrg),3)
		
    for aa in HormRec_List_AA:
        #normalized occurrence frequency of the 20 amino acids
        sum_all_aa_freq += round(aa/len(HormRec),3)	
        
    num1=1
    all_theta_val=[]
    sum_all_theta_val=0
    while num1 < (int(LambdaVal)+1):
        tmpval=sum_theta_val(len(DrugTrg),LambdaVal,num1)
        all_theta_val.append(tmpval)
        sum_all_theta_val += tmpval
        num1+=1
  

        # Denominator of the Eq. 6
    denominator_val=sum_all_aa_freq+(0.15*sum_all_theta_val)
        
    all_PseAAC_DrugTrg=[] # Eq. 5
        
    for val_1 in DrgTrg_List_AA:
        all_PseAAC_DrugTrg.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_DrugTrg.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

    all_PseAAC_HormRec=[] # Eq. 5
        
    for val_1 in HormRec_List_AA:
        all_PseAAC_HormRec.append(round(((val_1/20)/denominator_val),3))  ## (1<= x <=20)  
    for val_2 in all_theta_val:
        all_PseAAC_HormRec.append(round(((0.15*val_2)/denominator_val),3))  ## (21<= x <=20+landa)

print(all_PseAAC_DrugTrg)
print(len(all_PseAAC_DrugTrg))
print(all_PseAAC_HormRec)
print(len(all_PseAAC_HormRec))

DrugTrg_HormRec_List = []
DrugTrg_HormRec_List.append(all_PseAAC_DrugTrg)
DrugTrg_HormRec_List.append(all_PseAAC_HormRec)
print(DrugTrg_HormRec_List)
print(len(DrugTrg_HormRec_List))




##Load dataset
dataset = pandas.read_csv('HDI_Dataset.csv')

x = dataset.iloc [: ,1:901]
y = dataset ['Class'] 

x_train, x_test, y_train, y_test = train_test_split(x,y,random_state=0)

## Model
opt = keras.optimizers.RMSprop(lr=0.000025, rho=0.9, epsilon=None, decay=0.0)

model = Sequential()
model.add(Conv1D(128, 3, activation='relu', input_shape=(900, 1)))
model.add(Conv1D(128, 3, activation='relu'))
model.add(Conv1D(128, 3, activation='relu')
model.add(MaxPooling1D(3))
model.add(Conv1D(128, 3, activation='relu'))
model.add(Conv1D(128, 3, activation='relu'))
model.add(GlobalAveragePooling1D())
model.add(Dropout(0.5))
model.add(Dense(128, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy',
              optimizer = opt,
              metrics=['accuracy'])


## Estimator
model.fit(x_train, y_train,
          epochs=50,
          batch_size=16)
score = model.evaluate(x_train, y_train, batch_size=16)

# Predictor
DrugTrg_HormRec_List = np.expand_dims(DrugTrg_HormRec_List, axis=0)
preds = model.predict(DrugTrg_HormRec_List)
model.predict_classes(DrugTrg_HormRec_List, batch_size=1, verbose=1)

if (preds == 1):

    # Load_dataset
	dataframe = pandas.read_csv('HDI_Risk_Level_Dataset.csv')
	dataset = dataframe.values

	x, y = dataset[:, 1:901], dataset[:, 0]
	print(len(x))
	print(len(y))
	print(y)

	y = LabelEncoder().fit_transform(y)

	smote = SMOTE('minority')
	x_resampled, y_resampled = smote.fit_resample(x, y)
	print(len(x_resampled))
	print(len(y_resampled))
	print(y_resampled)

	x_train, x_test, y_train, y_test = train_test_split(x_resampled,y_resampled,random_state=0)
	y_train = LabelBinarizer().fit_transform(y_train)
	y_test = LabelBinarizer().fit_transform(y_test)
	print(len(y_train))
	print(len(y_train))
	print(y_train)


	## Model
	opt = keras.optimizers.RMSprop(lr=0.000025, rho=0.9, epsilon=None, decay=0.0)

	model = Sequential()
	model.add(Conv1D(128, 3, activation='relu', input_shape=(900, 1)))
	model.add(Conv1D(128, 3, activation='relu'))
	model.add(BatchNormalization())
	model.add(Conv1D(128, 3, activation='relu'))
	model.add(BatchNormalization())
	model.add(MaxPooling1D(3, strides=2, padding='valid'))
	model.add(Conv1D(128, 3, activation='relu'))
	model.add(BatchNormalization())
	model.add(Conv1D(128, 3, activation='relu'))
	model.add(BatchNormalization())
	model.add(GlobalAveragePooling1D())
	model.add(Dropout(0.2))
	model.add(Dense(128, activation='relu'))
	model.add(Dense(128, activation='relu'))
	model.add(Dense(128, activation='relu'))
	model.add(Dropout(0.2))
	model.add(Dense(200))
	model.add(Activation('relu'))
	model.add(Dense(2))
	model.add(Dense(numclasses, activation='softmax'))

	model.compile(loss='categorical_crossentropy',
					optimizer= opt,
					metrics=['accuracy'])

	## Estimator
	model.fit(x_train, y_train,
			  epochs=50,
			  batch_size=16)
	score = model.evaluate(x_train, y_train, batch_size=16)
	
	# Predictor
	model.predict_classes(DrugTrg_HormRec_List, batch_size=1, verbose=1)