# Alinhamento múltiplo do gene ARHGAP24

In [6]:
from Bio import SeqIO
from Bio.Blast import NCBIWWW, NCBIXML
import requests
from io import StringIO                  

Dados da proteina através do Uniprot 

In [7]:
def fetch_protein_sequence(uniprot_id):
    url = f"https://rest.uniprot.org/uniprotkb/{uniprot_id}.fasta"
    response = requests.get(url)
    
    if response.ok:
        # Extract the protein sequence from the FASTA format
        fasta_data = response.text
        fasta_io = StringIO(fasta_data)
        record = SeqIO.read(fasta_io, "fasta")
        return record.seq
    else:
        print(f"Failed to fetch protein sequence from {url}.")
        return None

Obter os resultados do BlastP

In [8]:
def run_blast(sequence, blast_program="blastp", database="swissprot", outfile="blast_results.xml"):
    # Run BLAST with the given sequence
    result_handle = NCBIWWW.qblast(blast_program, database, sequence)
    
    # Save the results to a file
    with open(outfile, "w") as out_file:
        out_file.write(result_handle.read())
    
    result_handle.close()

Salvar os resultados do Blast num ficheiro xml de nome "blast_results"

In [9]:
if __name__ == "__main__":
    uniprot_id = "Q8N264"  # UniProt ID of the protein you want to fetch and BLAST

    # Fetch protein sequence from UniProt
    protein_sequence = fetch_protein_sequence(uniprot_id)

    if protein_sequence:
        print(f"Protein sequence for {uniprot_id}:\n{protein_sequence}")

        # Run BLAST with the obtained protein sequence
        run_blast(protein_sequence, blast_program="blastp", database="swissprot", outfile="blast_results1.xml")

        print(f"BLAST results saved to blast_results1.xml")

Protein sequence for Q8N264:
MEENNDSTENPQQGQGRQNAIKCGWLRKQGGFVKTWHTRWFVLKGDQLYYFKDEDETKPLGTIFLPGNKVSEHPCNEENPGKFLFEVVPGGDRDRMTANHESYLLMASTQNDMEDWVKSIRRVIWGPFGGGIFGQKLEDTVRYEKRYGNRLAPMLVEQCVDFIRQRGLKEEGLFRLPGQANLVKELQDAFDCGEKPSFDSNTDVHTVASLLKLYLRELPEPVIPYAKYEDFLSCAKLLSKEEEAGVKELAKQVKSLPVVNYNLLKYICRFLDEVQSYSGVNKMSVQNLATVFGPNILRPKVEDPLTIMEGTVVVQQLMSVMISKHDCLFPKDAELQSKPQDGVSNNNEIQKKATMGQLQNKENNNTKDSPSRQCSWDKSESPQRSSMNNGSPTALSGSKTNSPKNSVHKLDVSRSPPLMVKKNPAFNKGSGIVTNGSFSSSNAEGLEKTQTTPNGSLQARRSSSLKVSGTKMGTHSVQNGTVRMGILNSDTLGNPTNVRNMSWLPNGYVTLRDNKQKEQAGELGQHNRLSTYDNVHQQFSMMNLDDKQSIDSATWSTSSCEISLPENSNSCRSSTTTCPEQDFFGGNFEDPVLDGPPQDDLSHPRDYESKSDHRSVGGRSSRATSSSDNSETFVGNSSSNHSALHSLVSSLKQEMTKQKIEYESRIKSLEQRNLTLETEMMSLHDELDQERKKFTMIEIKMRNAERAKEDAEKRNDMLQKEMEQFFSTFGELTVEPRRTERGNTIWIQ
BLAST results saved to blast_results1.xml


Abrir o ficheiro xml de nome "blast_results" e lê-lo

In [10]:
result_handle=open("blast_results1.xml")
record=NCBIXML.read(result_handle)

Parâmetros globais da pesquisa realizada no Blast

In [11]:
print("A base de dados utilizada foi", record.database)
print("A matriz de substituição utilizada no alinhamento foi", record.matrix)
print("Os parâmetros de espaçamento do alinhamento são", record.gap_penalties)

A base de dados utilizada foi swissprot
A matriz de substituição utilizada no alinhamento foi BLOSUM62
Os parâmetros de espaçamento do alinhamento são (11, 1)


Número de sequências homólogas da sequência nucleotídica em questão encontradas pelo BLAST, ou seja, o número de alinhamentos retornados (número de hits).

In [12]:
nhits=len(record.alignments)
print("O número de alinhamentos retornados é", nhits)

O número de alinhamentos retornados é 50


Identificar a lista de acession numbers, os e-values, os comprimentos dos alinhamentos e a identificação das sequências homólogas dos alinhamentos obtidas na pesquisa

In [13]:
resultado=[]
for alignment in record.alignments:
    evalue=alignment.hsps[0].expect
    score = alignment.hsps[0].score
    identities = alignment.hsps[0].identities
    accession=alignment.accession
    length=alignment.hsps[0].align_length
    sequence=alignment.title
    resultado.append("\n" + "\n" + str(accession) + " > " + " e-value:"+ str(evalue) + "," + " score: " + str(score) + "," + " identities: " + str(identities) + " e" + " comprimento:" + str(length) + "\n" + "\nsequência:" + str(sequence) )

print("Os e-values e comprimento dos alinhamentos obtidos para cada sequência são")
print(" ")
for s in resultado:
    print(s)

Os e-values e comprimento dos alinhamentos obtidos para cada sequência são
 


Q8N264 >  e-value:0.0, score: 4038.0, identities: 748 e comprimento:748

sequência:sp|Q8N264.2| RecName: Full=Rho GTPase-activating protein 24; AltName: Full=Filamin-A-associated RhoGAP; Short=FilGAP; AltName: Full=RAC1- and CDC42-specific GTPase-activating protein of 72 kDa; Short=RC-GAP72; AltName: Full=Rho-type GTPase-activating protein 24; AltName: Full=RhoGAP of 73 kDa; AltName: Full=Sarcoma antigen NY-SAR-88; AltName: Full=p73RhoGAP [Homo sapiens]


Q5U2Z7 >  e-value:0.0, score: 3743.0, identities: 696 e comprimento:749

sequência:sp|Q5U2Z7.2| RecName: Full=Rho GTPase-activating protein 24; AltName: Full=Down-regulated in nephrectomized rat kidney #2; AltName: Full=Rho-type GTPase-activating protein 24 [Rattus norvegicus]


Q8C4V1 >  e-value:0.0, score: 3700.0, identities: 692 e comprimento:749

sequência:sp|Q8C4V1.2| RecName: Full=Rho GTPase-activating protein 24; AltName: Full=Rho-type GTPase-activat