# Alinhamento Múltiplo - Gene PDGFC

1. Carregamento do package e dos módulos necessários

In [4]:
from Bio.Blast import NCBIXML
from Bio.Blast import NCBIWWW
from Bio import SeqIO
from Bio import Entrez

2. O seguinte código serve para guardar o ficheiro corresponde à sequência de aminoácidos que é codificada pelo gene PDGFC em formato fasta, de modo a que as sequências homológas obtidas possam servir de input para a construção de árvores filogenéticas. Como tal utiliza-se o módulo Bio.SeqIO que permite a leitura de sequências de um arquivo, bem como escrever sequências para outro arquivo.

In [5]:
seqrecord=SeqIO.read(open("PDGFC.fasta"),format="fasta")

3. De seguida procede-se à pesquisa remota no BLAST, por sequências homólogas similares utilizando-se a base de dados biológicos Uniprot/Swissprot. Para tal, recorreu-se ao módulo Bio.NCBIWWW que permite aceder à versão WWW do blast fornecida pelo NCBI.

In [6]:
result_handle=NCBIWWW.qblast("blastp", "swissprot", seqrecord.format("fasta"))

4. O código abaixo implementado permite guardar os resultados obtidos obtidos anteriormente num ficheiro no formato xml para posterior análise. Como tal, foi necessário recorrer ao módulo Bio.NCBIXML.

In [7]:
save_file=open("blast-PDGFC.xml", "w")
save_file.write(result_handle.read())
save_file.close()
result_handle.close()

In [8]:
result_handle=open("blast-PDGFC.xml")
record=NCBIXML.read(result_handle)

5. De seguida implementou-se um código que permitir retornar os parâmetros globais da pesquisa realizada no BLAST, nomeadamente a base de dados utilizada, a matriz de substituição utilizada no alinhamento, bem como os parâmetros de espaçamentos (gap penalties).

In [10]:
print("Parâmetros Globais")
print("base de dados:", record.database)
print("matriz de substituição:", record.matrix)
print("parâmetros de espaçamento:", record.gap_penalties)

Parâmetros Globais
base de dados: swissprot
matriz de substituição: BLOSUM62
parâmetros de espaçamento: (11, 1)


6. Pretendeu-se também obter o número de sequências homólogas (também designicado por ocorrências) à sequência nucleotídica em análise PDGFC, encontradas na pesquisa BLAST, isto é, o número de alinhamentos retornados (número de hits).

In [11]:
nhits=len(record.alignments)
print("número de alinhamentos:", nhits)

número de alinhamentos: 50


7. O seguine código permite identificar a lista de acession numbers, os e-values e os comprimentos dos alinhamentos obtidos na pesquisa. O acession number corresponde ao identificador único que é dado a uma sequência de um polímero biológico (DNA, RNA, proteína), quando as sequências (nucleotídicas ou de aminoácidos) são subtmetidas a um banco de dados. Já o e-value corresponde à probabilidade de alinhamento aleatório, isto é, um cálculo estático baseado na qualidade do alinhamento e o tamanho da base de dados. Ou seja, o e-value é um parâmetro que descreve o número de hits que se pode encontrar ao efetuar a pesquisa num base de dados de determinado tamanho específico. Geralmente, quanto mais próximo de zero foi o e-value, mais significativa é a correspondência dos alinhamentos retornados. No entanto, para alinahmentos mais curtos o e-value pode ser relativamente alto, dado que o cálculo do e-value tem em consideração o tamanho da sequência inicial (query), e como tal sequências mais curtas têm maior probabilidade de ocorrer num banco de dados. Obteve-se também o comprimento  dos alinhamentos retornados e a identificação das sequências homológas.

In [12]:
Entrez.email="pg50589@alunos.uminho.pt"

In [13]:
resultado=[]
for alignment in record.alignments:
    evalue=alignment.hsps[0].expect
    accession=alignment.accession
    length=alignment.hsps[0].align_length
    sequence=alignment.title
    resultado.append(str(accession) + " - " + " e-value:"+ str(evalue) + " - " + " length:" + str(length) + "\nsequência:" + str(sequence))

print("E-values e comprimento dos alinhamentos obtidos:")
print(" ")
for s in resultado:
    print(s)

E-values e comprimento dos alinhamentos obtidos:
 
Q9NRA1 -  e-value:0.0 -  length:345
sequência:sp|Q9NRA1.2| RecName: Full=Platelet-derived growth factor C; Short=PDGF-C; AltName: Full=Fallotein; AltName: Full=Spinal cord-derived growth factor; Short=SCDGF; AltName: Full=VEGF-E; Contains: RecName: Full=Platelet-derived growth factor C, latent form; Short=PDGFC latent form; Contains: RecName: Full=Platelet-derived growth factor C, receptor-binding form; Short=PDGFC receptor-binding form; Flags: Precursor [Homo sapiens]
Q8CI19 -  e-value:0.0 -  length:336
sequência:sp|Q8CI19.2| RecName: Full=Platelet-derived growth factor C; Short=PDGF-C; AltName: Full=Fallotein; AltName: Full=Spinal cord-derived growth factor; Short=SCDGF; AltName: Full=VEGF-E; Contains: RecName: Full=Platelet-derived growth factor C, latent form; Short=PDGFC latent form; Contains: RecName: Full=Platelet-derived growth factor C, receptor-binding form; Short=PDGFC receptor-binding form; Flags: Precursor [Mus musculus]
Q