In [1]:
# loading libraries
import pandas as pd
import networkx as nx
import os
from tqdm import tqdm
import statistics
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# loading and cleaning ENSG converter
test = []
geneNameToProteinId = {}
with open('Homo_sapiens.GRCh37.74.gtf', 'r') as file:
    for line in file:
        line = line.strip()
        data = line.split('\t')[-1]
        test.append(data)
        if 'gene_name' in data:
            attributes = data.split(';')
            geneId = attributes[0].split(' ')[1].strip('"')
            for attr in attributes:
                if 'gene_name' in attr:
                    geneName = attr.split(' ')[2].strip('"')
                    for attr in attributes:
                        if 'protein_id' in attr:
                            proteinId = attr.split(' ')[2].strip('"')
                            if geneName not in geneNameToProteinId:
                                geneNameToProteinId[geneName] = proteinId
                
# geneName_geneId = {v: k for k, v in geneId_geneName.items()}

In [3]:
def createRegulatory(regulatory_filepath):
    # loading, cleaning, and permutating regulatory dataset
    print(f'Loading: {regulatory_filepath}')
    regulatory = pd.read_csv('9606.protein.links.v12.0.txt', sep="\s+")

    regulatory = regulatory[regulatory['combined_score'] > 400]

    def rename(name):
        return name[5:]
    
    def inverseAndAbsolute(x):
        return abs(1/x)
    
    regulatory['protein1'] = regulatory['protein1'].map(rename)
    regulatory['protein2'] = regulatory['protein2'].map(rename)
    regulatory['combined_score'] = regulatory['combined_score'].map(inverseAndAbsolute)

    return regulatory

def createEndpoints(filepath):
    # loading and cleaning dataset
    endpoints = pd.read_csv(filepath, sep='\t', index_col=0)
    
    exceptions = []
    for name in endpoints.index:
        try:
            endpoints = endpoints.rename(index={name: geneNameToProteinId[name.upper()]})
        except:
            exceptions.append(name)
    
    print(f'Endpoints exception count: {len(exceptions)}')
    
    for exc in exceptions:
        endpoints = endpoints.drop(exc)

    return list(endpoints.index)

def createRandomEndpoints(regulatory, num, seed):
    rand = regulatory.sample(n=num, random_state=seed)
    return list(rand.index)

def createGraph(regulatory):
    # creating network
    regMatrix = regulatory.to_numpy().tolist()
    
    G = nx.Graph()
    nodes = list(set(list(regulatory['protein1']) + list(regulatory['protein2'])))
    G.add_nodes_from(nodes)
    edgeCount = 0
    for interaction in regMatrix:
        G.add_edge(interaction[0], interaction[1], weight=interaction[2])
        edgeCount += 1
    
    print(f'EdgeCount: {edgeCount}')

    return G

def connectionEnrichment(dataset, origins, endpoints):
    count = {}
    regulatory = createRegulatory(f'{dataset}')
    G = createGraph(regulatory)
    for origin in origins:
        for i, endpoint in enumerate(tqdm(endpoints)):
            if origin in G and endpoint in G:
                path = nx.shortest_path(G, origin, endpoint, weight="weight")
                # print(path)
                for node in path:
                    if node not in count:
                        count[node] = 1
                    else:
                        count[node] += 1
    return count

def sortDic(dic):
    return dict(reversed(sorted(dic.items(), key=lambda item: item[1])))

def printResultsWithStats(dic):
    print(f'Size: {len(dic)}')
    print(f'Average: {statistics.mean(dic.values())}')
    print(f'Median: {statistics.median(dic.values())}')
    print(dic)

  regulatory = pd.read_csv('9606.protein.links.v12.0.txt', sep="\s+")


In [4]:
# multi-dataset aging gene enrichment
globalAgingGenes = createEndpoints('global_aging_genes.tsv')
agingCount = connectionEnrichment('9606.protein.links.v12.0.txt', globalAgingGenes, globalAgingGenes)

Endpoints exception count: 16
Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 309/309 [00:05<00:00, 61.61it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 309/309 [00:00<00:00, 3474637.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 309/309 [00:00<00:00, 4235424.63it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 309/309 [00:05<00:00, 55.79it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 309/309 [00:05<00:00, 59.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [5]:
sortDic(agingCount)

{'ENSP00000494750': 1604,
 'ENSP00000269305': 978,
 'ENSP00000284981': 811,
 'ENSP00000272317': 696,
 'ENSP00000437125': 613,
 'ENSP00000365458': 599,
 'ENSP00000339063': 589,
 'ENSP00000275493': 576,
 'ENSP00000441543': 575,
 'ENSP00000351777': 531,
 'ENSP00000360266': 527,
 'ENSP00000324173': 519,
 'ENSP00000270142': 491,
 'ENSP00000297185': 467,
 'ENSP00000361626': 453,
 'ENSP00000215832': 443,
 'ENSP00000375730': 417,
 'ENSP00000052754': 417,
 'ENSP00000313007': 408,
 'ENSP00000470972': 405,
 'ENSP00000355315': 401,
 'ENSP00000263168': 399,
 'ENSP00000351214': 397,
 'ENSP00000393241': 397,
 'ENSP00000400175': 395,
 'ENSP00000432660': 383,
 'ENSP00000379287': 379,
 'ENSP00000262030': 379,
 'ENSP00000306245': 365,
 'ENSP00000252486': 365,
 'ENSP00000333298': 363,
 'ENSP00000380070': 362,
 'ENSP00000263253': 360,
 'ENSP00000358022': 359,
 'ENSP00000361057': 357,
 'ENSP00000299138': 355,
 'ENSP00000346103': 355,
 'ENSP00000320866': 355,
 'ENSP00000239223': 353,
 'ENSP00000225655': 351,

In [6]:
len(sortDic(agingCount))

1704

In [7]:
regulatory = createRegulatory('9606.protein.links.v12.0.txt')
tp53Partners = list(regulatory[regulatory['protein1'].str.contains('ENSP00000269305')]['protein2'])

Loading: 9606.protein.links.v12.0.txt


In [8]:
len(tp53Partners)

2247

In [9]:
filteredDic = {}
for key, val in agingCount.items():
    if key in tp53Partners:
        filteredDic[key] = val

In [10]:
sortDic(filteredDic)

{'ENSP00000494750': 1604,
 'ENSP00000284981': 811,
 'ENSP00000272317': 696,
 'ENSP00000437125': 613,
 'ENSP00000365458': 599,
 'ENSP00000339063': 589,
 'ENSP00000275493': 576,
 'ENSP00000441543': 575,
 'ENSP00000351777': 531,
 'ENSP00000360266': 527,
 'ENSP00000324173': 519,
 'ENSP00000270142': 491,
 'ENSP00000297185': 467,
 'ENSP00000361626': 453,
 'ENSP00000215832': 443,
 'ENSP00000313007': 408,
 'ENSP00000470972': 405,
 'ENSP00000400175': 395,
 'ENSP00000432660': 383,
 'ENSP00000379287': 379,
 'ENSP00000306245': 365,
 'ENSP00000252486': 365,
 'ENSP00000333298': 363,
 'ENSP00000380070': 362,
 'ENSP00000263253': 360,
 'ENSP00000358022': 359,
 'ENSP00000346103': 355,
 'ENSP00000320866': 355,
 'ENSP00000239223': 353,
 'ENSP00000236671': 351,
 'ENSP00000249923': 351,
 'ENSP00000311430': 349,
 'ENSP00000254846': 349,
 'ENSP00000264932': 349,
 'ENSP00000362680': 346,
 'ENSP00000379350': 345,
 'ENSP00000348849': 338,
 'ENSP00000346050': 333,
 'ENSP00000389103': 333,
 'ENSP00000346694': 333,

In [11]:
len(sortDic(filteredDic))

651

In [12]:
def createRandomEndpoints(regulatory, num, seed):
    rand = regulatory.sample(n=num, random_state=seed)
    return list(rand['protein1'])

In [13]:
randomEndpoints1 = createRandomEndpoints(regulatory, 163, 42)
controlCount1 = connectionEnrichment('9606.protein.links.v12.0.txt', randomEndpoints1, randomEndpoints1)

Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 32.01it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:07<00:00, 20.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 27.86it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 29.46it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:06<00:00, 25.23it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [14]:
sortDic(controlCount1)

{'ENSP00000269305': 1216,
 'ENSP00000472985': 660,
 'ENSP00000272317': 654,
 'ENSP00000368952': 652,
 'ENSP00000315774': 652,
 'ENSP00000275493': 567,
 'ENSP00000352252': 511,
 'ENSP00000244537': 497,
 'ENSP00000495360': 480,
 'ENSP00000376077': 447,
 'ENSP00000355759': 445,
 'ENSP00000494750': 412,
 'ENSP00000378974': 403,
 'ENSP00000320171': 403,
 'ENSP00000366488': 391,
 'ENSP00000420311': 391,
 'ENSP00000431822': 384,
 'ENSP00000322439': 381,
 'ENSP00000498577': 373,
 'ENSP00000254810': 373,
 'ENSP00000442047': 371,
 'ENSP00000262320': 365,
 'ENSP00000496954': 359,
 'ENSP00000460348': 359,
 'ENSP00000390265': 355,
 'ENSP00000394331': 349,
 'ENSP00000341885': 347,
 'ENSP00000430432': 345,
 'ENSP00000335153': 344,
 'ENSP00000376197': 343,
 'ENSP00000376297': 341,
 'ENSP00000370589': 337,
 'ENSP00000263239': 335,
 'ENSP00000164139': 335,
 'ENSP00000390600': 333,
 'ENSP00000361626': 333,
 'ENSP00000298717': 333,
 'ENSP00000487785': 333,
 'ENSP00000346694': 333,
 'ENSP00000354125': 333,

In [15]:
randomEndpoints2 = createRandomEndpoints(regulatory, 163, 22)
controlCount2 = connectionEnrichment('9606.protein.links.v12.0.txt', randomEndpoints2, randomEndpoints2)

Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:04<00:00, 35.60it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:04<00:00, 33.04it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:08<00:00, 19.03it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:07<00:00, 21.30it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 28.04it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [16]:
sortDic(controlCount2)

{'ENSP00000269305': 2021,
 'ENSP00000495360': 1394,
 'ENSP00000323246': 648,
 'ENSP00000275493': 632,
 'ENSP00000494750': 508,
 'ENSP00000263967': 447,
 'ENSP00000263253': 440,
 'ENSP00000302486': 439,
 'ENSP00000306245': 427,
 'ENSP00000355890': 427,
 'ENSP00000333277': 423,
 'ENSP00000441543': 412,
 'ENSP00000264657': 406,
 'ENSP00000244537': 403,
 'ENSP00000497733': 403,
 'ENSP00000362680': 396,
 'ENSP00000252486': 383,
 'ENSP00000309591': 377,
 'ENSP00000430269': 375,
 'ENSP00000391090': 373,
 'ENSP00000451129': 371,
 'ENSP00000363822': 369,
 'ENSP00000341551': 369,
 'ENSP00000333837': 367,
 'ENSP00000212015': 359,
 'ENSP00000372023': 357,
 'ENSP00000363929': 353,
 'ENSP00000305790': 349,
 'ENSP00000220592': 347,
 'ENSP00000335153': 346,
 'ENSP00000263923': 345,
 'ENSP00000371958': 345,
 'ENSP00000440689': 341,
 'ENSP00000405726': 339,
 'ENSP00000305480': 339,
 'ENSP00000229135': 337,
 'ENSP00000287936': 337,
 'ENSP00000343741': 335,
 'ENSP00000296684': 335,
 'ENSP00000379350': 334

In [17]:
randomEndpoints3 = createRandomEndpoints(regulatory, 163, 33)
controlCount3 = connectionEnrichment('9606.protein.links.v12.0.txt', randomEndpoints3, randomEndpoints3)

Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 28.25it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 31.89it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:06<00:00, 26.50it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:07<00:00, 21.63it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:04<00:00, 33.87it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [18]:
sortDic(controlCount3)

{'ENSP00000269305': 1020,
 'ENSP00000263253': 661,
 'ENSP00000472445': 656,
 'ENSP00000384863': 648,
 'ENSP00000333277': 631,
 'ENSP00000380070': 626,
 'ENSP00000494750': 602,
 'ENSP00000272317': 578,
 'ENSP00000244537': 481,
 'ENSP00000380432': 475,
 'ENSP00000226574': 466,
 'ENSP00000219252': 465,
 'ENSP00000295897': 417,
 'ENSP00000355890': 402,
 'ENSP00000351777': 401,
 'ENSP00000437125': 395,
 'ENSP00000360609': 376,
 'ENSP00000302961': 373,
 'ENSP00000308944': 373,
 'ENSP00000333667': 367,
 'ENSP00000300651': 366,
 'ENSP00000441543': 363,
 'ENSP00000306548': 357,
 'ENSP00000254810': 353,
 'ENSP00000481038': 347,
 'ENSP00000276927': 345,
 'ENSP00000255631': 343,
 'ENSP00000263377': 341,
 'ENSP00000275493': 338,
 'ENSP00000215832': 335,
 'ENSP00000261693': 333,
 'ENSP00000236850': 333,
 'ENSP00000380878': 331,
 'ENSP00000340507': 331,
 'ENSP00000478289': 331,
 'ENSP00000375730': 331,
 'ENSP00000353720': 331,
 'ENSP00000346671': 331,
 'ENSP00000263985': 331,
 'ENSP00000367992': 329,

In [19]:
randomEndpoints4 = createRandomEndpoints(regulatory, 163, 44)
controlCount4 = connectionEnrichment('9606.protein.links.v12.0.txt', randomEndpoints4, randomEndpoints4)

Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:07<00:00, 21.00it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:04<00:00, 33.06it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 27.70it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:06<00:00, 26.09it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:08<00:00, 20.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [20]:
sortDic(controlCount4)

{'ENSP00000269305': 932,
 'ENSP00000494750': 909,
 'ENSP00000495360': 904,
 'ENSP00000309591': 736,
 'ENSP00000272317': 644,
 'ENSP00000362680': 588,
 'ENSP00000451828': 456,
 'ENSP00000387699': 413,
 'ENSP00000385675': 411,
 'ENSP00000300651': 396,
 'ENSP00000009530': 395,
 'ENSP00000373312': 395,
 'ENSP00000244537': 392,
 'ENSP00000451129': 363,
 'ENSP00000395535': 363,
 'ENSP00000441543': 358,
 'ENSP00000382779': 357,
 'ENSP00000239690': 353,
 'ENSP00000278616': 347,
 'ENSP00000341779': 345,
 'ENSP00000466010': 345,
 'ENSP00000254940': 345,
 'ENSP00000324806': 343,
 'ENSP00000307280': 341,
 'ENSP00000497594': 341,
 'ENSP00000367806': 341,
 'ENSP00000331897': 339,
 'ENSP00000369689': 339,
 'ENSP00000245479': 337,
 'ENSP00000394624': 337,
 'ENSP00000313419': 337,
 'ENSP00000307863': 335,
 'ENSP00000356959': 335,
 'ENSP00000383053': 335,
 'ENSP00000359206': 335,
 'ENSP00000258886': 335,
 'ENSP00000339883': 335,
 'ENSP00000484824': 334,
 'ENSP00000477455': 333,
 'ENSP00000254108': 333,


In [21]:
randomEndpoints5 = createRandomEndpoints(regulatory, 163, 55)
controlCount5 = connectionEnrichment('9606.protein.links.v12.0.txt', randomEndpoints5, randomEndpoints5)

Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 32.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:06<00:00, 26.74it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:06<00:00, 24.25it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:06<00:00, 24.49it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 163/163 [00:05<00:00, 28.30it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [22]:
sortDic(controlCount5)

{'ENSP00000269305': 1566,
 'ENSP00000495360': 728,
 'ENSP00000378721': 648,
 'ENSP00000259241': 648,
 'ENSP00000398698': 553,
 'ENSP00000451828': 533,
 'ENSP00000494750': 498,
 'ENSP00000275493': 476,
 'ENSP00000300093': 449,
 'ENSP00000309591': 433,
 'ENSP00000431822': 432,
 'ENSP00000226574': 417,
 'ENSP00000272317': 414,
 'ENSP00000496250': 411,
 'ENSP00000381185': 383,
 'ENSP00000354558': 383,
 'ENSP00000381736': 379,
 'ENSP00000003084': 377,
 'ENSP00000366488': 372,
 'ENSP00000287641': 367,
 'ENSP00000388107': 356,
 'ENSP00000216797': 355,
 'ENSP00000380070': 352,
 'ENSP00000328968': 351,
 'ENSP00000441543': 346,
 'ENSP00000466010': 343,
 'ENSP00000354040': 341,
 'ENSP00000335153': 340,
 'ENSP00000401445': 339,
 'ENSP00000362680': 338,
 'ENSP00000254803': 337,
 'ENSP00000334051': 337,
 'ENSP00000338788': 335,
 'ENSP00000342235': 335,
 'ENSP00000027335': 333,
 'ENSP00000326366': 333,
 'ENSP00000356515': 333,
 'ENSP00000266041': 333,
 'ENSP00000264515': 333,
 'ENSP00000212015': 331,

In [23]:
regulatory = createRegulatory('9606.protein.links.v12.0.txt')
G = createGraph(regulatory)

Loading: 9606.protein.links.v12.0.txt
EdgeCount: 1836880


In [24]:
globalAgingGenes = createEndpoints('global_aging_genes.tsv')

Endpoints exception count: 16


In [25]:
count = 0
for item in globalAgingGenes:
    if item in G:
        count += 1
    else:
        print(item)

ENSP00000349960
ENSP00000331514
ENSP00000253003
ENSP00000458143
ENSP00000379342
ENSP00000263271
ENSP00000434592
ENSP00000376599
ENSP00000269321
ENSP00000413173
ENSP00000262097
ENSP00000400124
ENSP00000417522
ENSP00000452780
ENSP00000440936
ENSP00000344707
ENSP00000433553
ENSP00000412072
ENSP00000272298
ENSP00000442110
ENSP00000424341
ENSP00000413158
ENSP00000420640
ENSP00000457967
ENSP00000402237
ENSP00000447938
ENSP00000367026
ENSP00000383118
ENSP00000472097
ENSP00000468788
ENSP00000364940
ENSP00000326830
ENSP00000376763
ENSP00000246554
ENSP00000428702
ENSP00000342408
ENSP00000400508
ENSP00000453046
ENSP00000382840
ENSP00000440276
ENSP00000264018
ENSP00000468734
ENSP00000471265
ENSP00000408062
ENSP00000407504
ENSP00000284037
ENSP00000466958
ENSP00000435370
ENSP00000431659
ENSP00000465699
ENSP00000229239
ENSP00000349962
ENSP00000356537
ENSP00000420936
ENSP00000466956
ENSP00000264235
ENSP00000362929
ENSP00000420500
ENSP00000338018
ENSP00000343282
ENSP00000349573
ENSP00000377082
ENSP0000

In [26]:
count

163

In [27]:
len(globalAgingGenes)

309