# Alinhamento Múltiplo - Gene LYPLAL1

1. Carregamento do package e dos módulos necessários

In [1]:
from Bio.Blast import NCBIXML
from Bio.Blast import NCBIWWW
from Bio import SeqIO
from Bio import Entrez

2. O seguinte código serve para guardar o ficheiro corresponde à sequência de aminoácidos que é codificada pelo gene LYPLAL1 em formato fasta, de modo a que as sequências homológas obtidas possam servir de input para a construção de árvores filogenéticas. Como tal utiliza-se o módulo Bio.SeqIO que permite a leitura de sequências de um arquivo, bem como escrever sequências para outro arquivo

In [2]:
seqrecord=SeqIO.read(open("LYPLAL1.fasta"),format="fasta")

3. De seguida procede-se à pesquisa remota no BLAST, por sequências homólogas similares utilizando-se a base de dados biológicos Uniprot/Swissprot. Para tal, recorreu-se ao módulo Bio.NCBIWWW que permite aceder à versão WWW do blast forncida pelo NCBI.

In [3]:
result_handle=NCBIWWW.qblast("blastp", "swissprot", seqrecord.format("fasta"))

4. O código abaixo implementado permite guardar os resultados obtidos anteriormente num ficheiro no formato xml para posterior análise. Como tal, foi necessário recorrer ao módulo Bio.NCBIXML.

In [4]:
save_file=open("blast-LYPLAL1.xml", "w")
save_file.write(result_handle.read())
save_file.close()
result_handle.close()

In [5]:
result_handle=open("blast-LYPLAL1.xml")
record=NCBIXML.read(result_handle)

5. De seguida implementou-se um código que permitir retornar os parâmetros globais da pesquisa realizada no BLAST, nomeadamente a base de dados utilizada, a matriz de substituição utilizada no alinhamento, bem como os parâmetros de espaçamentos (gap penalties).

In [6]:
print("Parâmetros Globais")
print(" ")
print("base de dados:", record.database)
print("matriz de substituição:", record.matrix)
print("parâmetros de espaçamento:", record.gap_penalties)

Parâmetros Globais
 
base de dados: swissprot
matriz de substituição: BLOSUM62
parâmetros de espaçamento: (11, 1)


6.  Pretendeu-se também obter o número de sequências homólogas (também designaddo por ocorrências) à sequência nucleotídica em análise LYPLAL1, encontradas na pesquisa BLAST, isto é, o número de alinhamentos retornados (número de hits).

In [7]:
nhits=len(record.alignments)
print("número de alinhamentos:", nhits)

número de alinhamentos: 50


7. O seguinte código permite identificar a lista de acession numbers, os e-values e os comprimentos dos alinhamentos dos alinhamentos obtidos na pesquisa. Um acession number corresponde ao identificador único que é dado a uma sequência de um polímero biológico (DNA, RNA, proteína), quando as sequências (nucleotídicas ou de aminoácidos) são subtmetidas a um banco de dados. Já o e-value corresponde à probabilidade de alinhamento aleatório, isto é, um cálculo estático baseado na qualidade do alinhamento e o tamanho da base de dados. Ou seja, o e-value é um parâmetro que descreve o número de hits que se pode encontrar ao efetuar a pesquisa num base de dados de determinado tamanho específico. Geralmente, quanto mais próximo de zero foi o e-value, mais significativa é a correspondência dos alinhamentos retornados. No entanto, para alinahmentos mais curtos o e-value pode ser relativamente alto, dado que o cálculo do e-value tem em consideração o tamanho da sequência inicial (query), e como tal sequências mais curtas têm maior probabilidade de ocorrer num banco de dados. Obteve-se também o comprimento  dos alinhamentos retornados e a identificação das sequências homológas.

In [8]:
Entrez.email="pg50589@alunos.uminho.pt"

In [9]:
resultado=[]
for alignment in record.alignments:
    evalue=alignment.hsps[0].expect
    accession=alignment.accession
    length=alignment.hsps[0].align_length
    sequence=alignment.title
    resultado.append(str(accession) + " - " + " e-value:"+ str(evalue) + " - " + " length:" + str(length) + "\nsequência:" + str(sequence))

print("E-values e comprimento dos alinhamentos obtidos:")
print(" ")
for s in resultado:
    print(s)
print(" ")

E-values e comprimento dos alinhamentos obtidos:
 
Q5VWZ2 -  e-value:5.7891e-177 -  length:246
sequência:sp|Q5VWZ2.3| RecName: Full=Lysophospholipase-like protein 1 [Homo sapiens]
Q5R8C2 -  e-value:3.47644e-173 -  length:246
sequência:sp|Q5R8C2.3| RecName: Full=Lysophospholipase-like protein 1 [Pongo abelii]
Q3UFF7 -  e-value:8.26396e-133 -  length:246
sequência:sp|Q3UFF7.3| RecName: Full=Lysophospholipase-like protein 1 [Mus musculus]
O95372 -  e-value:9.77899e-26 -  length:231
sequência:sp|O95372.1| RecName: Full=Acyl-protein thioesterase 2; Short=APT-2; AltName: Full=Lysophospholipase II; Short=LPL-II; Short=LysoPLA II; AltName: Full=Palmitoyl-protein hydrolase [Homo sapiens]
Q6BSS8 -  e-value:3.4245e-25 -  length:223
sequência:sp|Q6BSS8.2| RecName: Full=Acyl-protein thioesterase 1; AltName: Full=Palmitoyl-protein hydrolase [Debaryomyces hansenii CBS767]
O75608 -  e-value:3.87695e-25 -  length:229
sequência:sp|O75608.1| RecName: Full=Acyl-protein thioesterase 1; Short=APT-1; Short=h