In [8]:
from utils import *
from utils2 import *
from utils3 import *
from plotting import *
from gpcrdb_soup import *

In [9]:
import pandas as pd
from tqdm import tqdm
from os import walk
import requests

from Bio.PDB.Polypeptide import *
from Bio.PDB import PDBParser

In [10]:
PATH = 'data/pdb/active/'

In [11]:
def get_pdb_files(path=PATH):
    _, _, filenames = next(walk(path))
    return [x for x in filenames if '.pdb' in x]

In [12]:
class Download():
    def __init__(self, 
                 path='data/',
                 fileformat='pdb'):
        self.path_pdb = path + 'pdb/'
        self.path_alignment = path + 'alignments/'
        self.path_table = 'gpcrdb/'
        
        self.fileformat = fileformat
        
        self.table = None
        self.filenames, self.pdb_ids = get_pdb_files(path=self.path_pdb)
    
    # ======================================================================================================================
        
    def download_alignment(self):
        print("Not Implemented! TBD manually.")
    
    def download_pdbs(self, reload=False, update=False):
        pdb_table_ids = self.table['PDB'].tolist()
        missing = [x for x in pdb_table_ids if x not in self.pdb_ids]
        if reload or (len(missing)>0):
            print("Reloading pdb files...")
            print("Missing pdbs:", missing)
            for pdb in tqdm(missing):
                url = get_rcsb_download(pdb, self.fileformat)
                download_pdb(url, folder=self.path_pdb, fileformat=self.fileformat)
        elif update:
            self.update_pdbs()
        self.filenames, self.pdb_ids = get_pdb_files(path=self.path_pdb)
                
    def download_table(self, reload=True, filename='structure.pkl'):
        table_path = self.path_table + filename
        if reload or (not os.path.isfile(self.path_table+filename)):
            self. table = get_table(reload=True, uniprot=False)
        else:
            self.table = get_table(reload=False, uniprot=False)
            self.table = self.table[self.table['Species'].str.contains('Human')]
        self.table = self.table.drop(columns=['filler', 'filler2', 'receptor family', 
                                              'Species', 'Method', 'Refined Structure', 'Degree active %', 
                                              '% of Seq1', 'Family', 'Subtype', 'Name2', 'Fusion', 'Note', 
                                              '% of Seq2', 'Antibodies', 'Name1', 'Type1', 'Type2', 
                                              'D2x50 - S3x39', 'Sodium in structure', 'Authors', 'Reference', 
                                              'PDB date', 'Annotated', 'pdb_link'])
        
    # ======================================================================================================================
    
    def update_pdbs(self):
        updatepdbs(self.path_pdb)
    
    # ======================================================================================================================
    
    

In [13]:
D = Download()
D.download_alignment()
D.download_table(reload=False)
D.download_pdbs(reload=True)

ValueError: too many values to unpack (expected 2)

In [14]:
# A.alignment

In [55]:
class PDBProcessor():
    def __init__(self,
                 path='data/',
                 chain_id=0,
                 limit=5,
                 verbose=1):
        
        self.verbose = verbose
        self.limit = limit
        
        columns = ['Name',
                   'State',
                   'Uniprot', 'Uniprot_Sequence', 
                   'PDB', 'PDB_Sequence', 'PDB_Sequence_padded'
                   'Numbering',
                   'Res_names', 'Res_ids', 'Res_pos',
                   'n_residues', 'Gaps'
                   'Structure', 'Ca','CaC','Psi','Phi','Omega']
        self.data = pd.DataFrame(columns=columns)
        self.path_pdb = path + 'pdb/'
        self.chain_id = chain_id
        
        # Filter settings
        self.setting_explained = {0: "Only C-alphas - labelled according to their residue",
                         1: "Hetero-representation - Backbone atoms are labelled according to their element,"\
                             " except C-alpha, which is labelled according to its AA",
                         2: "Hetero-representation - Backbone atoms are labelled according to their element,"\
                             "C-beta is labelled according to its AA",
                         3: "Hetero-representation 3, we include H atoms",
                         4: "Hetero-representation 4, we include H atoms",
                         5: "Full Protein is represented as element-wise pointcloud "\
                             "(drastically reduces embedding space)"}
        
        self.settings = {0: ['CA'],
                         1: ATOM_LIST,
                         2: ATOM_LIST+['CB'],
                         3: ATOM_LIST+['HN'],
                         4: ATOM_LIST+['CB']+['HN'],
                         5: None}
    
    def load_pdbs(self):
        files = self.get_pdb_files()
        p = PDBParser()
        
        for _, file in enumerate(tqdm(files)):
            structure = p.get_structure(file[-8:-4], file)
            
            uniprot = None
            sequence, name = None, None
            for _, model in enumerate(structure):
                if _ == 0:
                    res_names, res_ids, psi, phi, omega, atoms, seq, res_chain = self.parsing_pdb(model)
            if self.chain_id != None:
                res_names, res_ids, psi, phi, omega, atoms, seq, res_chain = self.filter_by_chain(res_names, res_ids, 
                                                                                             psi, phi, omega, 
                                                                                             atoms, seq, res_chain,
                                                                                             chain_id = self.chain_id)
            seq = ''.join(seq)
            
            # numbering
            numbering = self.get_numbering_json(file[-8:-4])
            
            if res_names == None:
                pass
            else:
                try:
                    uniprot = pdbtouniprot(file[-8:-4].lower())
                    sequence, name = get_sequence_name(uniprot)
                except:
                    print("Error when looking up uniprot information for", file[-8:-4])
                gaps = self.map_gaps(res_ids)
                row = {'Name': name, 
                       'State': None,
                       'Uniprot': uniprot, 'Uniprot_Sequence': sequence,
                       'PDB': file[-8:-4], 'Chain': None, 'PDB_Sequence': seq, 'PDB_Sequence_padded': self.pad_gaps(gaps, seq),
                       'Numbering': numbering,
                       'Res_names': res_names, 'Res_ids': res_ids, 'Res_pos': None,
                       'n_residues':len(res_ids), 'Gaps': gaps, 'Gapsum': self.gap_sum(gaps),
                       'Psi': psi, 'Phi': phi, 'Omega': omega,
                       'Structure': atoms}
                self.data = self.data.append(row, ignore_index=True)

    # ======================================================================================================================
    
    def get_pdb_files(self):
        files = [os.path.join(self.path_pdb, f) for f in os.listdir(self.path_pdb) \
                 if (os.path.isfile(os.path.join(self.path_pdb, f)) and 'pdb' in f)]
        if self.limit != None:
            if self.verbose==1:
                print("Found {} files. Using {} files.".format(len(files), self.limit))
            return files[:self.limit]
        else:
            if self.verbose==1:
                print("Found {} files.".format(len(files)))
            return files
        
    def filter_by_chain(self, res_names, res_ids, psi, phi, omega, atoms, seq, res_chain, chain_id):
        chain_mask = [True if rc == chain_id else False for rc in res_chain]
        res_names = [b for a, b in zip(chain_mask, res_names) if a]
        res_ids = [b for a, b in zip(chain_mask, res_ids) if a]
        psi = [b for a, b in zip(chain_mask, psi) if a]
        phi = [b for a, b in zip(chain_mask, phi) if a]
        omega = [b for a, b in zip(chain_mask, omega) if a]
        atoms = [b for a, b in zip(chain_mask, atoms) if a]
        seq = [b for a, b in zip(chain_mask, seq) if a]
        atoms = [b for a, b in zip(chain_mask, atoms) if a]
        res_chain = [b for a, b in zip(chain_mask, res_chain) if a]
        return res_names, res_ids, psi, phi, omega, atoms, seq, res_chain
        
    def map_gaps(self, res_ids):
        min_num = -100
        gaps = []
        for i, z in enumerate(res_ids):
            new_num = int(z)
            if not abs(new_num - min_num) <= 1:
                gaps.append((i, min_num, new_num))
                min_num = new_num
            else:
                min_num += 1
        return gaps[1:]
    
    def gap_sum(self, gaps):
        sum = 0
        for gap in gaps:
            diff = gap[2] - gap[1]
            if diff > 0:
                sum += diff
        return sum
    
    def pad_gaps(self, gaps, seq):
        _ = 0
        for gap in gaps:
            start = gap[1]+_
            end = gap[2]+_
            length = end-start
            gap_str = (length-1) * '_'
            seq = seq[_:start] + gap_str + seq[start:]
            end = _
        return seq
        
    
    def get_numbering_json(self, pdb_id: str, reload=False):
        files = {
            'pdb_file': ('data/pdb/'+pdb_id+'.pdb', open('data/pdb/'+pdb_id+'.pdb', 'r')),
        }
        if not os.path.isfile('data/numbering/'+pdb_id+'.txt') or reload:
            response = requests.post('https://gpcrdb.org/services/structure/assign_generic_numbers', files=files)
            with open('filler.json', 'w') as f:
                f.write(response.text)
            os.rename(r'filler.json',r'data/numbering/'+pdb_id+'.txt')
        res_dict = {}
        f = open('data/numbering/'+pdb_id+'.txt', 'r')
        for line in f.readlines():
            line_ = list(filter(None, line.split(' ')))
            if 'CA' in line_:
                if len(line_) == 13:
                    if len(line_[-3]) == 4:
                        res_dict.update({int(line_[5]): (line_[3], float(line_[-3]))})
        f.close()
        return res_dict
    
    # TODO: CHECK / FIX PROBLEMS WITH RESIDUE NUMBERS (THEY NEED TO BE IDENTICAL)
    
    def parsing_pdb(self, model, water=False):
        """
        parse the pdb structure information into our dataframe columns
        model: first structure in the pdb file (since model 2 etc may not be formatted correctly)
        water: boolean to specify if water should be included
        """
        # Todo: implement a check of whether water is included
        try:
            model.atom_to_internal_coordinates()
            res_names = []
            res_ids = []
            psi = []
            phi = []
            omega = []
            atoms = []
            seq = []
            res_chain=[]
            chain = 0
            prev_resseq = -1
            for _, res in enumerate(model.get_residues()):
                name = res.get_resname()
                id_ = str(res.get_id()[1]).zfill(3)
                resseq = int(res.get_full_id()[3][1])
                if resseq < prev_resseq:
                    chain += 1
                prev_resseq = resseq
                if name in RESIDUE_LIST:
                    for atom in res:
                        if atom.get_id() in ATOM_LIST:
                            atoms.append([chain, id_, atom.get_coord(), atom.get_id()])
                    seq.append(three_to_one(name))
                    res_names.append(name)
                    res_ids.append(id_)
                    res_chain.append(chain)
                    try:
                        psi.append(res.internal_coord.get_angle("psi"))
                    except:
                        psi.append(None)
                    try:
                        phi.append(res.internal_coord.get_angle("phi"))
                    except:
                        phi.append(None)
                    try:
                        omega.append(res.internal_coord.get_angle("omega"))
                    except:
                        omega.append(None)
            return res_names, res_ids, psi, phi, omega, atoms, seq, res_chain
        except:
            return None, None, None, None, None, None, None, None
        
        
    def plot_distr(self, mode='len', idx=None, save=False):
        """
        plot different data visualizations
        modes: - 'len': plot distribution of amino sequence lengths
               - 'residues': plot occurances of residues overall
        """
        assert mode in ['len', 'residues'], print("make sure mode is either 'len' or 'residues'")
        if mode == 'len':
            plot_len_hist(self.data, save)
        else:
            plot_res_hist(self.data, idx, save)

            
    def get_res_list(self):
        """
        Run this on your dataset, and copypaste the list to utils: "RES_LIST"
        """
        flatten = lambda l: [item for sublist in l for item in sublist]
        l = self.data['PDB_Sequence'].tolist()
        return sorted(list(set(flatten(l))))
    
    
    def rl_remove_variants(self, n_aa=20):
        """
        {'LEU': 13034, 'GLU': 9023, ' Ca': 5, ..} --> Remove proteins where rare variants occur,
        use a cutoff of n_aa = 20 to remove all rare variants by only selecting (the normal) 20 aminoacids.
        """
        d = Counter(flat_l(self.data['PDB_Sequence'].tolist()))
        v, k = zip(*sorted(zip(d.values(), d.keys())))
        self.res_list = dict(zip(k[-n_aa:], v[-n_aa:]))
        return k[:-n_aa], k[-n_aa:]  # return k[-n_aa] just so I can copy it to utils.py as an initialization array
    
    
    def remove_variants(self):
        c_tot = self.data.count().len
        k, _ = self.rl_remove_variants()
        new = self.data
        for key in k:
            new = new[new['PDB_Sequence'].apply(lambda x: key not in x)]
        self.data = new.reset_index()
        c_red = self.data.count().len
        print("After removing {} variants our data contains {} proteins.".format(c_tot-c_red, c_red))
        self.res_list = _
        
    
    def remove_outliers(self, min_len=100, max_len=6000):
        c_tot = self.data.count().len
        new = self.data[(min_len < self.data['n_residues']) & (self.data['n_residues'] < max_len)]
        self.data = new.reset_index()
        c_red = self.data.count().len
        print("After removing {} outliers with {} > length > {} our data contains {} proteins."\
              .format(c_tot-c_red, min_len, max_len, c_red))
        del new
        return
    
    
    def label_ca(self):
        def mkdict(rl):
            d = {}
            for i, l in enumerate(reversed(rl)):
                d.update({l:i})
            return d
        def mapaa(aas, d):
            y = []
            for aa in aas:
                y.append(d[aa])
            return np.asarray(y)
        ltodict = mkdict(self.get_common_aas())
        temp = self.data.copy()
        self.data['y'] = temp[['res']].applymap(lambda x: mapaa(x, ltodict))
        del temp
        return

In [80]:
pdb = PDBProcessor(chain_id=0, limit=300)

In [81]:
pdb.load_pdbs()

  0%|                                                                                                                                                                                                                                                                                          | 0/300 [00:00<?, ?it/s]

Found 528 files. Using 300 files.


 10%|███████████████████████████▎                                                                                                                                                                                                                                                     | 30/300 [01:07<08:58,  2.00s/it]

Error when looking up uniprot information for 2ZIY


 12%|█████████████████████████████████▋                                                                                                                                                                                                                                               | 37/300 [01:52<24:27,  5.58s/it]

Error when looking up uniprot information for 3DQB


 17%|███████████████████████████████████████████████▎                                                                                                                                                                                                                                 | 52/300 [03:04<18:21,  4.44s/it]

Error when looking up uniprot information for 3PQR


 20%|██████████████████████████████████████████████████████▌                                                                                                                                                                                                                          | 60/300 [03:43<19:01,  4.76s/it]

Error when looking up uniprot information for 3UON


 22%|███████████████████████████████████████████████████████████▏                                                                                                                                                                                                                     | 65/300 [04:10<21:24,  5.47s/it]

Error when looking up uniprot information for 3VG9


 22%|████████████████████████████████████████████████████████████                                                                                                                                                                                                                     | 66/300 [04:16<22:16,  5.71s/it]

Error when looking up uniprot information for 3VGA


 29%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                                                  | 86/300 [06:18<19:43,  5.53s/it]

Error when looking up uniprot information for 4GBR


 31%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                                             | 92/300 [06:52<18:44,  5.41s/it]

Error when looking up uniprot information for 4J4Q


 32%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                                                          | 95/300 [07:06<16:58,  4.97s/it]

Error when looking up uniprot information for 4L6R


 32%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                                         | 96/300 [07:12<17:55,  5.27s/it]

Error when looking up uniprot information for 4LDE


 33%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                                     | 100/300 [07:37<20:12,  6.06s/it]

Error when looking up uniprot information for 4MQS


 34%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                    | 101/300 [07:42<19:08,  5.77s/it]

Error when looking up uniprot information for 4MQT


 42%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                              | 125/300 [09:53<20:40,  7.09s/it]

Error when looking up uniprot information for 4WW3


 42%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                            | 127/300 [10:04<17:57,  6.23s/it]

Error when looking up uniprot information for 4XEE


 43%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                            | 128/300 [10:10<17:18,  6.04s/it]

Error when looking up uniprot information for 4XES


 44%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                         | 131/300 [10:28<17:22,  6.17s/it]

Error when looking up uniprot information for 4XT1


 44%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                        | 132/300 [10:33<16:13,  5.80s/it]

Error when looking up uniprot information for 4XT3


 45%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                      | 134/300 [10:44<15:23,  5.57s/it]

Error when looking up uniprot information for 4Z34


 45%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                    | 136/300 [10:54<14:12,  5.20s/it]

Error when looking up uniprot information for 4Z36


 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                  | 156/300 [12:36<11:50,  4.93s/it]

Error when looking up uniprot information for 5EN0


 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                               | 160/300 [13:03<13:42,  5.87s/it]

Error when looking up uniprot information for 5GLI


 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 166/300 [13:32<10:30,  4.70s/it]

Error when looking up uniprot information for 5JQH


 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                        | 167/300 [13:38<10:55,  4.93s/it]

Error when looking up uniprot information for 5JTB


 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 173/300 [14:06<09:21,  4.43s/it]

Error when looking up uniprot information for 5L7D


 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 186/300 [15:18<10:20,  5.45s/it]

Error when looking up uniprot information for 5NX2


 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 195/300 [16:08<09:29,  5.43s/it]

Error when looking up uniprot information for 5T04


 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 199/300 [16:29<08:44,  5.19s/it]

Error when looking up uniprot information for 5TGZ


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 213/300 [17:42<09:39,  6.66s/it]

Error when looking up uniprot information for 5V54


 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 214/300 [17:49<09:38,  6.73s/it]

Error when looking up uniprot information for 5V56


 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 215/300 [17:52<08:06,  5.72s/it]

Error when looking up uniprot information for 5V57


 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 216/300 [17:59<08:22,  5.98s/it]

Error when looking up uniprot information for 5VAI


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 217/300 [18:04<08:00,  5.79s/it]

Error when looking up uniprot information for 5VBL


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 229/300 [19:03<06:13,  5.25s/it]

Error when looking up uniprot information for 5WQC


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 230/300 [19:09<06:17,  5.39s/it]

Error when looking up uniprot information for 5WS3


 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 231/300 [19:14<06:12,  5.40s/it]

Error when looking up uniprot information for 5X33


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 234/300 [19:29<05:24,  4.92s/it]

Error when looking up uniprot information for 5XEZ


 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 235/300 [19:33<05:07,  4.72s/it]

Error when looking up uniprot information for 5XF1


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 236/300 [19:36<04:24,  4.14s/it]

Error when looking up uniprot information for 5XJM


 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 238/300 [19:46<04:54,  4.76s/it]

Error when looking up uniprot information for 5XR8


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 239/300 [19:52<04:59,  4.91s/it]

Error when looking up uniprot information for 5XRA


 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 240/300 [19:57<04:55,  4.92s/it]

Error when looking up uniprot information for 5XSZ


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 241/300 [20:02<04:58,  5.05s/it]

Error when looking up uniprot information for 5YC8


 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 242/300 [20:08<05:10,  5.35s/it]

Error when looking up uniprot information for 5YHL


 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 245/300 [20:24<04:53,  5.33s/it]

Error when looking up uniprot information for 5ZBH


 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 246/300 [20:29<04:49,  5.37s/it]

Error when looking up uniprot information for 5ZBQ


 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 248/300 [20:44<05:22,  6.21s/it]

Error when looking up uniprot information for 5ZK3


 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 249/300 [20:50<05:10,  6.09s/it]

Error when looking up uniprot information for 5ZK8


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 250/300 [20:55<04:52,  5.86s/it]

Error when looking up uniprot information for 5ZKB


 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 251/300 [21:00<04:39,  5.70s/it]

Error when looking up uniprot information for 5ZKC


 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 252/300 [21:06<04:30,  5.64s/it]

Error when looking up uniprot information for 5ZKP


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 254/300 [21:20<04:50,  6.31s/it]

Error when looking up uniprot information for 5ZTY


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 262/300 [22:12<03:19,  5.26s/it]

Error when looking up uniprot information for 6B73


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 266/300 [22:30<02:49,  4.98s/it]

Error when looking up uniprot information for 6C1Q


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 267/300 [22:36<02:47,  5.07s/it]

Error when looking up uniprot information for 6C1R


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 270/300 [22:55<02:58,  5.97s/it]

Error when looking up uniprot information for 6D26


 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 271/300 [23:01<02:50,  5.90s/it]

Error when looking up uniprot information for 6D27


 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 283/300 [24:12<01:39,  5.87s/it]

Error when looking up uniprot information for 6E59


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 284/300 [24:15<01:19,  4.99s/it]

Error when looking up uniprot information for 6E67


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 298/300 [25:25<00:11,  5.89s/it]

Error when looking up uniprot information for 6GDG


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 300/300 [25:34<00:00,  5.12s/it]


In [58]:
#pdb.plot_distr(mode='len')

In [59]:
#pdb.plot_distr(mode='residues')

In [82]:
select = pdb.data[['Numbering', 'Res_ids', 'Res_names']]

In [83]:
select

Unnamed: 0,Numbering,Res_ids,Res_names
0,"{33: ('GLU', 1.28), 34: ('PRO', 1.29), 35: ('T...","[001, 002, 003, 004, 005, 006, 007, 008, 009, ...","[MET, ASN, GLY, THR, GLU, GLY, PRO, ASN, PHE, ..."
1,"{33: ('GLU', 1.28), 34: ('PRO', 1.29), 35: ('T...","[001, 002, 003, 004, 005, 006, 007, 008, 009, ...","[MET, ASN, GLY, THR, GLU, GLY, PRO, ASN, PHE, ..."
2,"{33: ('GLU', 1.28), 34: ('PRO', 1.29), 35: ('T...","[001, 002, 003, 004, 005, 006, 007, 008, 009, ...","[MET, ASN, GLY, THR, GLU, GLY, PRO, ASN, PHE, ..."
3,"{33: ('GLU', 1.28), 34: ('PRO', 1.29), 35: ('T...","[001, 002, 003, 004, 005, 006, 007, 008, 009, ...","[MET, ASN, GLY, THR, GLU, GLY, PRO, ASN, PHE, ..."
4,"{33: ('GLU', 1.28), 34: ('PRO', 1.29), 35: ('T...","[001, 002, 003, 004, 005, 006, 007, 008, 009, ...","[MET, ASN, GLY, THR, GLU, GLY, PRO, ASN, PHE, ..."
...,...,...,...
295,{},"[002, 003, 004, 005, 006, 007, 008, 009, 010, ...","[CYS, GLY, THR, GLU, GLY, PRO, ASN, PHE, TYR, ..."
296,{},"[003, 004, 005, 006, 007, 008, 009, 010, 011, ...","[GLU, LEU, ASP, GLN, LEU, ARG, GLN, GLU, ALA, ..."
297,{},"[007, 008, 009, 010, 011, 012, 013, 014, 015, ...","[ALA, VAL, TYR, ILE, THR, VAL, GLU, LEU, ALA, ..."
298,"{37: ('VAL', 1.27), 38: ('LYS', 1.28), 39: ('G...","[037, 038, 039, 040, 041, 042, 043, 044, 045, ...","[VAL, LYS, GLN, ILE, GLY, ALA, GLN, LEU, LEU, ..."


In [84]:
res_ids = select['Res_ids'].iloc[0]

In [85]:
res_names = select['Res_names'].iloc[0]

In [86]:
numbering = select['Numbering'].iloc[0]

In [93]:
j = 0
for i in range(len(pdb.data)):
    numbering = pdb.data['Numbering'].iloc[i]
    if numbering == {}:
        j+=1
        print(i)
    weird = False
    for num in numbering:
        try:
            num_str = str(num).zfill(3)
            idx = res_ids.index(num_str)
            if numbering[num][0] != res_names[idx]:
                weird = True
                # print(num, numbering[num][0], res_names[idx])
        except:
            pass
            # weird = True
            # print("Didnt find num_str", num_str)
    if weird:
        pass

16
36
43
46
47
49
51
58
70
73
79
80
91
92
95
96
97
114
116
130
136
140
149
152
155
157
165
172
173
178
199
204
207
211
214
215
217
218
220
227
233
234
235
237
238
260
261
268
273
274
275
281
283
287
291
293
295
296
297
299


In [94]:
j

60

In [95]:
pdb.data.Structure.iloc[0]

[[0, '001', array([ 43.958,  -5.98 , -27.758], dtype=float32), 'N'],
 [0, '001', array([ 44.718,  -5.054, -26.911], dtype=float32), 'CA'],
 [0, '001', array([ 44.069,  -4.848, -25.543], dtype=float32), 'C'],
 [0, '001', array([ 42.854,  -4.618, -25.451], dtype=float32), 'O'],
 [0, '002', array([ 44.895,  -4.928, -24.496], dtype=float32), 'N'],
 [0, '002', array([ 44.449,  -4.763, -23.103], dtype=float32), 'CA'],
 [0, '002', array([ 44.474,  -3.296, -22.697], dtype=float32), 'C'],
 [0, '002', array([ 44.065,  -2.934, -21.591], dtype=float32), 'O'],
 [0, '003', array([ 44.982,  -2.466, -23.598], dtype=float32), 'N'],
 [0, '003', array([ 45.06 ,  -1.05 , -23.332], dtype=float32), 'CA'],
 [0, '003', array([ 44.975,  -0.193, -24.576], dtype=float32), 'C'],
 [0, '003', array([ 45.481,  -0.545, -25.645], dtype=float32), 'O'],
 [0, '004', array([ 44.321,   0.946, -24.419], dtype=float32), 'N'],
 [0, '004', array([ 44.165,   1.892, -25.494], dtype=float32), 'CA'],
 [0, '004', array([ 45.409,   

In [96]:
for i in range(len(pdb.data)):
    try:
        u = len(pdb.data['Uniprot_Sequence'].iloc[i])
        p = len(pdb.data['PDB_Sequence_padded'].iloc[i])
        print('uniprot: {} | pdb_padded: {} | missing tail length: {}'.format(u, p, u-p))
    except:
        pass

uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 348 | pdb_padded: 332 | missing tail length: 16
uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 348 | pdb_padded: 332 | missing tail length: 16
uniprot: 348 | pdb_padded: 326 | missing tail length: 22
uniprot: 348 | pdb_padded: 329 | missing tail length: 19
uniprot: 348 | pdb_padded: 327 | missing tail length: 21
uniprot: 348 | pdb_padded: 348 | missing tail length: 0
uniprot: 413 | pdb_padded: 312 | missing tail length: 101
uniprot: 413 | pdb_padded: 312 | missing tail length: 101
uniprot: 413 | pdb_padded: 1133 | missing tail length: -720
uniprot: 483 | pdb_padded: 319 | missing tail length: 164
uniprot: 348 | pdb_padded: 326 | missing tail length: 22
uniprot: 483 | pdb_padded: 326 |

In [97]:
for i in range(len(pdb.data)):
    print(pdb.data['Uniprot_Sequence'].iloc[i])
    print("\n")
    print(pdb.data['PDB_Sequence_padded'].iloc[i])
    print("\n\n\n\n\n")

MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA


MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAA____SATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNP______STTVSKTETSQVAPA






MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFF

In [98]:
print(pdb.data['PDB_Sequence_padded'].iloc[105])

QCEVPLVRTDNPKSWYEDVEGCGIQCQNPLFTEAEHQDMHSYIAAFGAVTGLCTLFTLATFVADWRNSNRYPAVILFYVNACFFVGSIGWLAQFMDGARREIVCRADGTMRLGEPTSNETLSCVIIFVIVYYALMAGVVWFVVLTYAWHTSFKGKTSYFHLLTWSLPFVLTVAILAVAQVDGDSVSGICFVGYKNYRYRAGFVLAPIGLVLIVGGYFLIRGVMTLFSIKSNHADLEDNWETLNDNLKVIEKADNAAQVKDALTKMRAAALDAQKATPPKLEDKSPDSPEMKDFRHGFDILVGQIDDALKLANEGKVKEAQAAAEQLKTTRNAYIQKYL_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________


In [99]:
print(pdb.data['Uniprot_Sequence'].iloc[105])

MAAARPARGPELPLLGLLLLLLLGDPGRGAASSGNATGPGPRSAGGSARRSAAVTGPPPPLSHCGRAAPCEPLRYNVCLGSVLPYGATSTLLAGDSDSQEEAHGKLVLWSGLRNAPRCWAVIQPLLCAVYMPKCENDRVELPSRTLCQATRGPCAIVERERGWPDFLRCTPDRFPEGCTNEVQNIKFNSSGQCEVPLVRTDNPKSWYEDVEGCGIQCQNPLFTEAEHQDMHSYIAAFGAVTGLCTLFTLATFVADWRNSNRYPAVILFYVNACFFVGSIGWLAQFMDGARREIVCRADGTMRLGEPTSNETLSCVIIFVIVYYALMAGVVWFVVLTYAWHTSFKALGTTYQPLSGKTSYFHLLTWSLPFVLTVAILAVAQVDGDSVSGICFVGYKNYRYRAGFVLAPIGLVLIVGGYFLIRGVMTLFSIKSNHPGLLSEKAASKINETMLRLGIFGFLAFGFVLITFSCHFYDFFNQAEWERSFRDYVLCQANVTIGLPTKQPIPDCEIKNRPSLLVEKINLFAMFGTGIAMSTWVWTKATLLIWRRTWCRLTGQSDDEPKRIKKSKMIAKAFSKRHELLQNPGQELSFSMHTVSHDGPVAGLAFDLNEPSADVSSAWAQHVTKMVARRGAILPQDISVTPVATPVPPEEQANLWLVEAEISPELQKRLGRKKKRRKRKKEVCPLAPPPELHPPAPAPSTIPRLPQLPRQKCLVAAGAWGAGDSCRQGAWTLVSNPFCPEPSPPQDPFLPSAPAPVAWAHGRRQGLGPIHSRTNLMDTELMDADSDF


In [217]:
pdb.data.apply(lambda x: [i for i, _ in enumerate(x.Phi) if _ == None], axis=1)  
#  this is how we can mask residues without angles

0           [0, 235, 323]
1           [0, 326, 328]
2           [0, 235, 325]
3           [0, 235, 325]
4                     [0]
              ...        
523               [0, 87]
524              [0, 101]
525              [0, 101]
526    [0, 148, 204, 239]
527    [0, 148, 208, 243]
Length: 528, dtype: object

In [218]:
pdb.data.apply(lambda x: [len(x.Res_ids), len(x.Psi), len(x.Phi)], axis=1)

0      [338, 338, 338]
1      [329, 329, 329]
2      [340, 340, 340]
3      [340, 340, 340]
4      [348, 348, 348]
            ...       
523    [393, 393, 393]
524    [390, 390, 390]
525    [390, 390, 390]
526    [280, 280, 280]
527    [285, 285, 285]
Length: 528, dtype: object

In [None]:
class Gproteins():
    def __init__(self,
                 path='data/'):
        #https://gpcrdb.org/structure/g_protein_structure_browser
        pass

In [181]:
class GPCR():
    def __init__(self,
                 path='data/',
                 columns=['PDB', 'Name', 
                          'Uniprot', 
                          'Sequence', 'Sections', 'Gaps',
                          'Structure', 'Ca','CaC','Psi','Phi','Omega',
                          'State', 'G-protein'],
                 alignment="GPCRdb_alignment_TM7_ICL4_H8.csv",
                 limit=5,
                 verbose=1):
        
        """
        path: pdb file path
        columns: [
            Index:         Identifier for our data
            Type:          G-Protein/Receptor/?
            Function:      Agonist/Antagonist
            Seq:           Protein sequence from PDBs
            Uniprot_Seq:   Protein sequence from uniprot entry
            Sections:      Polypeptides with structure (Sequence)
            Gaps:          Indices of starts/ends in full protein sequence of the polypeptides
            Position_idx:  GPCRdb alignment position index (if possible)
            XYZ:           Structure Data contained in the PDB (saved as per-residue)
            XYZ_padded:    Including NaN values for AAs in Gaps
            Ca:            Position of the C-alphas
            CaC:           Direction of backbone
            Psi:           Psi angle
            Phi:           Phi angle
            Omega:         Omega angle
            State:         Active/Inactive (for Receptors)
            G-Protein:     Primary target I guess
            Selectivities: Selectivity Values
            References:    ???
            ]
        limit: maximum number of proteins loaded
        """
        self.verbose = verbose
        self.limit = limit
        
        self.path_pdb = path + 'pdb/'
        self.path_alignment = path + 'alignments/' + alignment
        self.path_table = 'gpcrdb/'
        
        self.alignment = None
        self.data = pd.DataFrame(columns = columns)
    
    # ======================================================================================================================
    
    def load_pkl(self, path: str):
        self.data = pd.read_pickle(path)
        
    def save_pkl(self, path: str):
        self.data.save_pickle(path)
    
    # ======================================================================================================================
    
    def filter_pos(self, start, end):
        pass
    
    
    def view(self, pdb=None, uniprot=None, idx=None, start=None, end=None, start_idx=None, end_idx=None):
        # implement a view of a protein
        # implement view of overlap of proteins
        pass

In [182]:
loader = GPCR()

In [183]:
loader.data

Unnamed: 0,PDB,Name,Uniprot,Sequence,Sections,Gaps,Structure,Ca,CaC,Psi,Phi,Omega,State,G-protein


In [36]:
loader.load_pdbs()

  0%|                                                                                                                                                                                                                                                                                            | 0/5 [00:00<?, ?it/s]

Found 528 files. Using 5 files.


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:05<00:00,  1.09s/it]
