In [1]:
#Imports
import re
import pandas as pd
import requests, sys, json
from collections import Counter

In [2]:
#Keywords que funcionarán para filtrar los resultados de acuerdo al tipo de familia/dominio
keywords = ["DNA-binding", "Helix-turn-helix",
            "Helix-loop-helix", "zinc finger",
            "Leucine zipper", "Winged",
            "bHLH", "HTH", "Winged helix",
            "winged-helix", "helix turn helix",
            "leucine-zipper", "zinc-finger",
            "Zn-finger", "Zinc finger"
            "Sigma", "basic-leucine","leucine zipper",
            "Homeodomain-like", "Homeodomain", "HemN-like",
            "transcription factor",
            "Regulator", "Regulatory", "Histon-like",
            "Nucleic acid-binding", "Winged helix",
            "winged-helix", "HTH",
            "DNA binding"]

In [3]:
#Apertura de archivos
with open('buchnera_anotation_not_precalc.tsv', 'r', ) as buc, open('IPR_list.tsv', 'r') as ipr, open('interpro2go.txt', 'r') as i2go:
    iprscan_out, ipr_list, ipr_go = buc.readlines(),  ipr.readlines(), i2go.readlines()
    #Lista de listas de IPR_list formato: [[InterProAcc, Tipo, Nombre]] Tipo corresponde a Dominio, familia, etc. nombre para nombre de dominio
    iprscan_output = [i.split('\t') for i in iprscan_out]
    ipr_type_name = [i.replace('\n', '').split('\t') for i in ipr_list[1:]]
    ipr2go = [i.replace('\n', '').replace(' ', '>', 1).replace(';', '>').replace(' ', '').replace('InterPro:', '').split('>') for i in ipr_go[5:]]

In [16]:
#plantear una función que tome los keywords como argumentos y la lista ipr_type_name para filtrar los
#IPRaccession numbers de acuerdo a las keywords
def filter_by_kwds(keys, iprs):
    """
    Esta función se encarga de tomar una serie de keywords declaradas en una lista, y con ellas filtrar
    los IPR ACS provenientes de InterPro con la información de cada uno de los dominios, familias, sitios, etc
    ARGS:
        keys: keywords para filtrar
        iprs: lista con listas de los IPR accession numbers, dominio/familia/etc..., nombre
    RETURNS
        ipr_type_name_filtred
    """
    ipr_type_name_filtred = [r for r in iprs if any(k.lower() in r[2].lower() for k in keys)]
    return ipr_type_name_filtred
#Plantear una función que ayude a filtrar posibles GO's relacionados a la regulación
#haciendo uso del filter_by_kwds
def obtain_reulatory_gos(ipr_filt, ipr_gos, nombre):
    """
    Esta función se encarga de comparar un archivo de InterPro accession filtrados para un tipo de dominio o familia con uno
    que relaciona InterPro numbers y GO's de InterPro, para obtener al final una lista de posibles GOs relacionados con la 
    regulación.
    ARGS:
        ipr_filt: es una relación de listas de listas con los ipr filtrados previamente con keywords
        ipr_gos: es una lista de listas con IPR accesions, anotacionIPR, anotaciónGO, GO Term
    """
    r_gos = []
    for i in ipr_filt:
        for j in ipr_gos:
            if i[0] == j[0]:
                r_gos.append(j[-1])
    r_gos = list(set(r_gos))
    with open(nombre, 'w') as g:
        for i in r_gos:
            print(i, file=g)
    return r_gos
#Planteo de una función para filtrar la salida de InterProScan que estén anotados con algun IPR accession number
def filter_ipscan_by_ipr(iprscan, iprfilt):
    """
    Esta función se encarga de filtrar una salidade InterPro scan con una lista de IPR accession numbers filtrados para un tipo de 
    dominio, como aquellos encargados de la regulación genética, estos últimos deben ser filtrados con keywords.
    ARGS:
        iprscan: es la salida procesada en forma de listas de listas de InterProScan
        iprfilt: son los IPR accession numbers filtrados por keywords
    RETURNS:
        iprscan_filtred
    """
    iprscan_filtred = []
    for i in iprfilt:
        for j in iprscan:
            if i[0] == j[11]:
                f = [j[0], i[0], i[2], i[1], j[13]]
                iprscan_filtred.append(f)
    return iprscan_filtred
#Funcion que filtra por gos la salida prefiltrada de InterProScan
def filter_iprscan_by_gos(iprs, reg_gos, score):
    """
    Esta función se encarga de filtrar una salida prefiltrada de InterProScan a través de IPR accession numbers.
    Aquí se podrá filtrar esta última por GOs asociados a la regulación genética.
    ARGS:
        iprs: salida prefiltrada de InterProScan
        reg_gos: lista de GO relacionados a regulación u otro.
        score: score que el usuario desee rescatar del filtro
    RETURNS:
        one: proteinas con score de confiabilidad 1, tienen GO pero no relacionado a regulación
        two: proteinas con score de confiabilidad 2, no tienen GO
        three: proteinas con score de confiabilidad 3, tienen GO relacionado a la regulación
    """
    one = [i for i in iprs if i[-1] != '-' and not any(go in i[-1] for go in reg_gos)]
    two = [i for i in iprs if i[-1] == '-']
    three = [i for i in iprs if i[-1] != '-' and any (go in i[-1] for go in reg_gos)]
    if score == 1:
        return one
    elif score == 2:
        return two
    elif score == 3:
        return three
    else:
        print('Los scores solo van de 1 a 3, elija: 1, 2, o 3')
#Funcion que se encarga de extraer información como protein IDS, IPR accession numbers de una lista de listas
def extract_info(patron, ipr):
    """
    Documentación

    """
    p = re.compile(patron)
    info = [(re.search(p, r[0]).group(1), r[1], r[2], r[3], r[4]) for r in ipr]
    return info
#función que se encarga de hacer solicitudes a la API de un sitio web
def get_url(url, **kwargs):
    """
    Documentación
    """
    response = requests.get(url, **kwargs)
    if not response.ok:
        print(response.text)
        response.raise_for_status()
        sys.exit()
    return response
# Función que extrae información desde la website api de las proteinas proporcionadas
def consult_from_uniprot(website, proteins, resp):
    """
    Documentacion
    DE MOMENTO SOLO FUNCIONA PARA EXTRAER NOMBRES DE GENES Y PROTEINAS
    ESTARÍA COOL DEJARLA PARA PEDIRLE LA INFORMACIÓN QUE SE REQUIERA
    """
    info_proteins = []
    for i in proteins:
        try:
            req = resp(f"{website}/uniprotkb/{i[0]}")
            api_data = req.json()
            gene = api_data['genes'][0]['geneName']['value']
            prot = api_data['proteinDescription']['recommendedName']['fullName']['value']
            f = [i[0], gene, prot, i[2], i[3], i[1], i[4].replace('|', ', ')]
            info_proteins.append(f)
        except:
            s = f'No info for: {i[0]}'
            info_proteins.append(s)
    return info_proteins

In [32]:
#1
interpro_type_name_filt = filter_by_kwds(keywords, ipr_type_name)

In [33]:
#2
name = 'put_reg_go.txt'
regulatory_gos = obtain_reulatory_gos(interpro_type_name_filt, ipr2go, name)

In [34]:
#3
interproscan_output_filt = filter_ipscan_by_ipr(iprscan_output, interpro_type_name_filt)

In [41]:
#4
posible_regulatory_proteins = filter_iprscan_by_gos(interproscan_output_filt, regulatory_gos, 3)

In [42]:
#5
patron = r'sp\|([A-Za-z0-9]+)\|'
protein_info = extract_info(patron, posible_regulatory_proteins)

In [43]:
#6
WEBISTE_API = "https://rest.uniprot.org/"
#documentación: https://ww.ebi.ac.uk/proteins/api/doc/
PROTEINS_API = "https://www.ebi.ac.uk/proteins/api"
# link = get_url(f)

In [44]:
#7
prot_gen_dom = consult_from_uniprot(WEBISTE_API, protein_info, get_url)

In [45]:
len(set([i[0] for i in prot_gen_dom])), set([i[1] for i in prot_gen_dom])

(17,
 {'clpX',
  'cspC',
  'cspE',
  'csrA',
  'dksA',
  'dnaG',
  'fis',
  'hisS',
  'hup',
  'ihfA',
  'ihfB',
  'ligA',
  'nusA',
  'priA',
  'pyrI',
  'ssb',
  'topA'})

In [46]:
#construyendo data frame y exportando resultados
col_names = ["UniProtkbID", "Gene Name", "Protein Name", "Domain/Family/Active site", "Type", "InterPro", "GO"]
df_results = pd.DataFrame(prot_gen_dom, columns=col_names)
df_results.to_csv('resultados_interpro_filtrados.tsv', sep='\t', index=False)
df_results

Unnamed: 0,UniProtkbID,Gene Name,Protein Name,Domain/Family/Active site,Type,InterPro,GO
0,P57394,ihfB,Integration host factor subunit beta,"Histone-like DNA-binding protein, conserved site",Conserved_site,IPR020816,GO:0003677(InterPro)
1,P57144,hup,DNA-binding protein HU,"Histone-like DNA-binding protein, conserved site",Conserved_site,IPR020816,GO:0003677(InterPro)
2,P57231,ihfA,Integration host factor subunit alpha,"Histone-like DNA-binding protein, conserved site",Conserved_site,IPR020816,GO:0003677(InterPro)
3,P57294,dksA,RNA polymerase-binding transcription factor DksA,"Zinc finger, DksA/TraR C4-type",Domain,IPR000962,GO:0008270(InterPro)
4,P63237,cspE,Cold shock-like protein CspE,"Cold-shock protein, DNA-binding",Domain,IPR002059,GO:0003676(InterPro)
...,...,...,...,...,...,...,...
77,P57459,nusA,Transcription termination/antitermination prot...,"DNA repair Rad51/transcription factor NusA, al...",Homologous_superfamily,IPR010995,GO:0000166(InterPro)
78,P57459,nusA,Transcription termination/antitermination prot...,"DNA repair Rad51/transcription factor NusA, al...",Homologous_superfamily,IPR010995,GO:0000166(InterPro)
79,P57484,csrA,Translational regulator CsrA,Carbon storage regulator superfamily,Homologous_superfamily,IPR036107,"GO:0003723(InterPro), GO:0006109(InterPro), GO..."
80,P57484,csrA,Translational regulator CsrA,Carbon storage regulator superfamily,Homologous_superfamily,IPR036107,"GO:0003723(InterPro), GO:0006109(InterPro), GO..."


In [50]:
with open('resultados_interpro_filtrados.tsv', 'r') as x, open('resultados_interpro_filtrados_sinGO.tsv', 'r') as y:
    info_x, info_y = x.readlines(), y.readlines()
    con_gos = [i.split('\t') for i in info_x[1:]]
    sin_gos = [i.split('\t') for i in info_y[1:]]
    set_con_gos = set([i[1] for i in con_gos])
    set_sin_gos = set([i[1] for i in sin_gos])

In [54]:
set_con_gos.intersection(set_sin_gos)

{'clpX', 'cspC', 'cspE', 'dksA', 'ligA', 'nusA', 'priA', 'pyrI', 'ssb', 'topA'}

In [55]:
set_con_gos.difference(set_sin_gos)

{'csrA', 'dnaG', 'fis', 'hisS', 'hup', 'ihfA', 'ihfB'}

In [56]:
set_sin_gos.difference(set_con_gos)

{'asnS',
 'aspS',
 'dnaT',
 'efp',
 'hisG',
 'ileS',
 'ilvH',
 'infA',
 'infB',
 'lysS',
 'mutL',
 'pheT',
 'pnp',
 'rho',
 'rnb',
 'rne',
 'rnr',
 'rplB',
 'rpoD',
 'rpsA',
 'rpsL',
 'rpsQ'}