   ## Resultados do BLAST



A partir dos resultados do blast obtidos para cada uma das nossas proteínas, é possível inferir a função de algumas por homologia. Contudo, a maior parte dos resultados com melhores valores de percentagem de identidade, *score* e e-value são entradas *unreviewed*, o que explica o facto de muitas das entradas não terem função associada. Esta inferência da função é especialmente importante no caso das proteínas hipotéticas, ou outras proteínas menos estudadas. Para uma outra conseguimos, portanto, inferir a sua função, como é o caso, por exemplo, da proteína hipotética com a locus tag lpg0235, a qual é possível que tenha a atividade de liase carbono-enxofre. Não podemos, no entanto, afirmar com 100% de certeza que esta proteína desempenha tal função, uma vez que, não só os resultados do blast são unreviewed, mas também porque tal facto ainda não foi comprovado experimentalmente. Para as proteínas mais estudadas, tanto neste organismo como noutros que possuem proteínas homólogas, os resultados do blast têm, mais frequentemente, as funções moleculares das respetivas proteínas descritas, sendo que as mesmas são iguais ao longo da tabela respetiva.


Para além da função, consideramos pertinente retirar também o organismo a que cada proteína que obtivemos como resultado do blast pertence, por forma a auxiliar a construção posterior de árvores filogenéticas e, também, no mesmo sentido, percebermos em que organismos é que as proteínas em estudo possuem homólogas. Isto torna-se relevante, pois se verificamos que o organismo é mais próximo daquele em estudo, por exemplo uma estirpe diferente da mesma bactéria, a inferência da função é muito mais forte. 

In [1]:
import os, sys, inspect
import pandas as pd
from IPython.core.display import display, HTML

def import_modules():
    """
    Importar os módulos que desenvolvemos neste trabalho.
    """
    current_dir = os.path.dirname(os.path.abspath(inspect.getfile(inspect.currentframe())))
    parent_dir = os.path.dirname(current_dir)
    sys.path.insert(0, parent_dir)
    
def bold_it(text, bold):
    """
    Torna o texto bold se "bold" é True.
    """
    if bold:
        return "<strong>" + text + "</strong>"
    else:
        return text

def link_it(href, text, link):
    """
    Criar um link se "link" é True,
    """
    if link:
        return "<a href=\"#" + href + "\">" + text + "</a>"
    else:
        return text
    
def itemize(l, style="", bold=False, link=False):
    """
    Criar uma lista HTML dada uma lista.
    """
    html = "<div style=\"" + style + "\"><ul>"
    for i in l:
        html += "<li>"
        html += link_it(
            i,
            bold_it(i, bold),
            link
        )
        html += "</li>"
    html += "</ul></div>"
    return html
        

def main():
    import_modules()
    import util.rw as rw

    # não truncar informação
    pd.set_option('display.max_colwidth', -1)

    blast_results = rw.read_json("files/.blast_results.json")
    ncbi = rw.read_json("files/.ncbi.json")
    inferred = rw.read_json("files/.inferred.json")
    tags = sorted(blast_results.keys())
    
    # Mostrar lista de tags com links para os resultados
    css = "column-count:6"
    html = itemize(tags, css, bold=True, link=True)
    display(HTML(html))
  

    for tag in tags:
        # Título antes de cada tabela
        product = ncbi[tag]["product"]
        display(HTML("<a name=\"" + tag + "\"></a><h2>" + tag + " " + product + "</h2>"))
        
        # Mostrar apenas o top 10
        top_ten = blast_results[tag][0:10]
        columns_to_show = ["uniprot_id", "identity", "score", "evalue", "status", "molecular_functions"]
        
        # Mostrar tabela
        df = pd.DataFrame.from_dict(top_ten)
        df["identity"] = df["identity"].apply(lambda i : str(round(i, 1)) + "%")
        df["molecular_functions"] = df["molecular_functions"].apply(itemize)
        display(HTML(df[columns_to_show].to_html(escape=False)))
        
        inferred_functions = inferred[tag]
        if len(results_with_functions) > 0:
            display(HTML(itemize(inferred_functions)))
            
main()

Unnamed: 0,uniprot_id,identity,score,evalue,status,molecular_functions
0,G8US81,100.0%,949.0,2.49665e-128,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
1,Q5ZYX9,100.0%,948.0,3.31101e-128,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
2,A0A129BU56,98.9%,938.0,9.82051e-127,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
3,A0A182DGJ8,100.0%,795.0,2.0387e-105,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
4,Q5WZU6,99.3%,792.0,6.4193300000000004e-105,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
5,A0A193HI95,99.3%,792.0,6.4193300000000004e-105,unreviewed,
6,A0A128LCR8,98.6%,789.0,1.75362e-104,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
7,A0A131BMT3,98.6%,788.0,2.7744599999999998e-104,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
8,A0A140J9F8,95.3%,767.0,4.3664400000000004e-101,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"
9,A0A0W0VPN0,95.3%,764.0,1.20555e-100,unreviewed,"DNA bindingtranscription factor activity, sequence-specific DNA binding"


NameError: name 'results_with_functions' is not defined