In [2]:
# Dataset: http://plmd.biocuckoo.org/download.php (Glycation)
# Generates list of patterns that cause (1) and don't cause (0) Glycation
# 2019-07
#
# Done by Team LegIt
# Rifaz Nahiyan, Sourav Saha
# Rafid Uddin Bhuiyan, Nadira Anjum
#
# Find the whole repo at: https://github.com/rifazn/bioinformatics-uni

import pandas as pd
import numpy as np
df = pd.read_csv('assets/Glycation.elm', sep='\t')

In [3]:
df.head()

Unnamed: 0,PLMD ID,Uniprot Accession,Position,Type,Sequence,Species,PMIDs
0,PLMD-5,O00141,41,Glycation,MTVKTEAAKGTLTYSRMRGMVAILIAFMKQRRMGLNDFIQKIANNS...,Homo sapiens,21612289
1,PLMD-17,O00186,19,Glycation,MAPPVAERGLKSVVWQKIKATVFDDCKKEGEWKIMLLDEFTTKLLA...,Homo sapiens,21612289
2,PLMD-17,O00186,577,Glycation,MAPPVAERGLKSVVWQKIKATVFDDCKKEGEWKIMLLDEFTTKLLA...,Homo sapiens,21612289
3,PLMD-27,O00220,370,Glycation,MAPPPARVHLGAFLAVTPNPGSAASGTEAAAATPSKVWGSSAGRIE...,Homo sapiens,21612289
4,PLMD-34,O00238,202,Glycation,MLLRSAGKLNVGTKKEDGESTAPTPRPKVLRCKCHHHCPEDSVNNI...,Homo sapiens,21612289


In [4]:
data= np.array(df)
data = data[:100]

In [5]:
def get_pattern(prot, center, radius):
    if center < radius:
        pattern = (radius - center) * 'X' + prot[0:center + radius + 1]
    elif len(prot)- center <= radius:
        pattern = prot[center - radius : len(prot)] + (radius - (len(prot)-center-1)) * 'X'
    else:
        pattern = prot[center-radius:center+radius+1]
    return pattern

In [6]:
processed_ones = set()
radius=7

for row in data:
    center = row[2] - 1
    pattern = get_pattern(row[4], center, radius)
    #processed_ones.append([row[0], pattern, 1])
    processed_ones.add(pattern)
print(list(processed_ones)[:5])

['LKEFPRLKSELEDNI', 'GTQGAISKETKKKYY', 'FSSFLKEKLNDTYVN', 'NFTEDCPKSLLIPYL', 'TLMLFFDKFANIVPF']


In [7]:
processed_ones.to_csv('one.csv')

AttributeError: 'set' object has no attribute 'to_csv'

In [10]:
processed_zeros = set()

for row in data:
    pos = -1
    
    while True:
        pos = row[4].find('K', pos + 1)
        if pos == -1:
            break
        pattern = get_pattern(row[4], pos, radius)
        if pattern not in processed_ones:
            #processed_zeros.append([row[0], pattern, 0])
            processed_zeros.add(pattern)
print(type(processed_ones))

<class 'set'>


In [26]:
columns_new = ['sequence','lebel']
processed_data = [[pattern, '1'] for pattern in processed_ones]
processed_data += [[pattern, '0'] for pattern in processed_zeros]

print(f"Number of 1s: {len(processed_ones)}")
print(f"Number of 0s: {len(processed_zeros)}")

Number of 1s: 100
Number of 0s: 3588


In [35]:
data=pd.DataFrame(processed_data, columns=columns_new)
one=data.loc[(data['lebel']=='1')]  
one.to_csv('one.csv')
zero=data.loc[(data['lebel']=='0')]
zero.to_csv('zero.csv')


In [8]:
from pprint import pprint
processed_data = np.array(processed_data)
pprint(processed_data)

array([['GTQGAISKETKKKYY', '1'],
       ['LEKELLEKKPWQLQG', '1'],
       ['PYLDNLVKHLHSIMV', '1'],
       ...,
       ['LVEQLPGKLLEHRIL', '0'],
       ['TGGIQDLKERIRQRT', '0'],
       ['INAEQQLKIQELQEK', '0']], dtype='<U15')


In [9]:
outdf = pd.DataFrame({"Pattern": processed_data[:, 0], "Glycation": processed_data[:,1]})

In [10]:
outdf

Unnamed: 0,Pattern,Glycation
0,GTQGAISKETKKKYY,1
1,LEKELLEKKPWQLQG,1
2,PYLDNLVKHLHSIMV,1
3,HSPSPSSKFSTKGLC,1
4,NQSQKTFKNKETLII,1
5,VRFLSDRKNPVCREM,1
6,CEVKQIAKAINERYL,1
7,KIPYSFFKTALDDRK,1
8,AHSLLYKKVNEAQYR,1
9,IVSCPYVKTVATTKT,1


In [11]:
i=0
a=[]
aac= set()
for data in processed_data:
    for i in range(15):
        a.append(data[0].count(data[0][i])/15)
    print(a)
    a.clear()    
        
        
        


[0.13333333333333333, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.26666666666666666, 0.06666666666666667, 0.13333333333333333, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.13333333333333333, 0.13333333333333333]
[0.26666666666666666, 0.2, 0.2, 0.2, 0.26666666666666666, 0.26666666666666666, 0.2, 0.2, 0.2, 0.06666666666666667, 0.06666666666666667, 0.13333333333333333, 0.26666666666666666, 0.13333333333333333, 0.06666666666666667]
[0.06666666666666667, 0.06666666666666667, 0.2, 0.06666666666666667, 0.06666666666666667, 0.2, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.2, 0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.13333333333333333]
[0.06666666666666667, 0.3333333333333333, 0.13333333333333333, 0.3333333333333333, 0.13333333333333333, 0.3333333333333333, 0.3333333333333333, 0.13333333333333333, 0.06666666666666667, 0.33333333

[0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.2, 0.13333333333333333, 0.2, 0.13333333333333333, 0.2, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.06666666666666667]
[0.06666666666666667, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.26666666666666666, 0.06666666666666667, 0.06666666666666667, 0.26666666666666666, 0.26666666666666666, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.26666666666666666, 0.06666666666666667]
[0.06666666666666667, 0.26666666666666666, 0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.26666666666666666, 0.13333333333333333, 0.26666666666666666, 0.13333333333333333, 0.06666666666666667, 0.26666666666666666, 0.13333333333333333, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333]
[0.06666666666666667, 0.13333333333333333, 0.2, 0.06666666666666667, 0.13333333333333333, 0.2, 0.066

[0.06666666666666667, 0.13333333333333333, 0.13333333333333333, 0.2, 0.13333333333333333, 0.2, 0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.2, 0.06666666666666667]
[0.13333333333333333, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.13333333333333333, 0.06666666666666667, 0.13333333333333333, 0.13333333333333333, 0.13333333333333333, 0.2, 0.2, 0.13333333333333333, 0.06666666666666667, 0.2, 0.06666666666666667]
[0.06666666666666667, 0.06666666666666667, 0.2, 0.06666666666666667, 0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.2, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.13333333333333333, 0.2, 0.06666666666666667]
[0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.13333333333333333, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.13333333333333333, 0.13333333333333333, 0.2, 0

In [12]:
p


NameError: name 'p' is not defined

In [None]:
a=["as","ef","df"]
a.clear()
print(a)