Análise da sequência e das features presentes no NCBI - GENE ELP4
Nota:Para a realização de todo o código do trabalho teve-se em conta o tutorial do Biopython. 
Consoante os códigos que estavam disponíveis no tutorial, tentamos adaptá-los aos genes de interesse, neste caso tentamos adaptar ao gene ELP4.

1.O objetivo principal de todo o código que vai ser descrito em baixo é obter o ficheiro em formato GenBank da sequência nucleotídica do gene ELP4, na sua versão curada, mais especificamente o ficheiro em formato GenBank da sequência nucleotídica NG_034086.1.
Para tal, numa primeira fase, o código apresentado permite-nos obter uma lista com todos os IDs das sequências nucleotídicas, relacionadas com o gene ELP4 no organismo Homo Sapiens, curadas e não curadas (onde se encontrará então a sequência nucleotídica que nos interessa obter o seu GenBank, para posteriormente obtermos todas informações que desejamos). Neste código recorreu-se a funções do Bio.Entrez tais como a Entez.esearch (especificamente utilizada para pesquisar o gene ELP4 no organismo Homo Sapiens) e a Entrez.read. 
Obteve-se assim 16 IDs diferentes, que se encontram dispostos numa lista à qual denominamos de IdList.

In [1]:
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
Entrez.tool='Demoscript'
handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND ELP4[Gene]",idtype="acc")
record=Entrez.read(handle)
record["Count"]
record["IdList"] 

['NC_000011.10', 'NG_008679.1', 'NM_019040.5', 'NM_001288726.2', 'NM_001288725.2', 'NG_034086.1', 'DQ894651.2', 'CM000262.1', 'CH471064.2', 'BC012514.1', 'AY413814.1', 'AB463022.1', 'Z83001.1', 'AM393857.1', 'AM393460.1', 'DQ891468.2']

2.Posteriormente, a se ter a lista com todos os IDs, detetamos o ID da sequência nucleotídica pretendida: NG_034086.1. Recorreu-se a função Entrez.efetch para se recuperar o registo completo do Entrez, neste caso o resgisto do GenBank. Posteriormente, imprimiu-se então o ficheiro em formato GenBank da sequência nucleotidica do gene ELP4 no organismo Homo Sapiens,NG_034086.1.

In [2]:
from Bio import Entrez
Entrez.email = "joanafigueiredo2014@gmail.com"
handle = Entrez.efetch(db="nucleotide", id="NG_034086.1", rettype="gb", retmode="text")
text = handle.read()
print(text)

LOCUS       NG_034086             281797 bp    DNA     linear   PRI 03-AUG-2019
DEFINITION  Homo sapiens elongator acetyltransferase complex subunit 4 (ELP4),
            RefSeqGene on chromosome 11.
ACCESSION   NG_034086
VERSION     NG_034086.1
KEYWORDS    RefSeq; RefSeqGene.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
COMMENT     REVIEWED REFSEQ: This record has been curated by NCBI staff. The
            reference sequence was derived from AC108456.7, AC131571.4,
            KF510367.1, Z83306.1, Z83001.1 and Z83307.1.
            This sequence is a reference standard in the RefSeqGene project.
            
            Summary: This gene encodes a component of the six subunit elongator
            complex, a histone acetyltransferase complex that associates
            directly wi

3.Depois de se ter o ficheiro GenBank é possível obter diferentes dados que nos são fornecidos por ele.
Recorreu-se agora não só o módulo Bio.Entrez como também ao módulo Bio.SeqIO. Este último permite não só ler sequências de um arquivo e escrever sequências para um arquivo.
O código abaixo, permite-nos, numa primeira fase, obter informações a partir do ficheiro tais como: o ID (record.id), o nome da sequência ( record.name), a sequência nucleotídica e o seu comprimento ( len(record)), a descrição da sequência ( record.description ),as anotações ( record.annotations), o organismo ( record.annotations["organism"] )e a taxonomia (record.annotations["taxonomy"]).
Para além disso, sabe-se que as anotações são dadas sobe a forma de um dicionário e, o código abaixo permite também obter as chaves do dicionário e os respetivos valores associados as chaves.

In [3]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
handle=Entrez.efetch(db="nucleotide", id="NG_034086.1", rettype="gb", retmode="text")
record=SeqIO.read(handle,"genbank")
handle.close

<function TextIOWrapper.close()>

In [4]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
#identificador da sequencia
ID=record.id
print(ID)
#sequencia
nome=record.name
print(nome)
sequencia=record.seq
#print(sequencia)
print(len(record.seq))
#descriptions
description=record.description
print(description)

NG_034086.1
NG_034086
281797
Homo sapiens elongator acetyltransferase complex subunit 4 (ELP4), RefSeqGene on chromosome 11


In [5]:
#annotations:dicionário que contém informações adicionais sobre a sequência
annotations=record.annotations
print(annotations)
organism=record.annotations["organism"]
print(organism)
taxonomy=record.annotations["taxonomy"]
print(taxonomy)
#chaves do dicionário que forma as anotações
keys=record.annotations.keys()
print(keys)
#valores correspondentes as chaves do dicionário
values=record.annotations.values()
print(values)

{'molecule_type': 'DNA', 'topology': 'linear', 'data_file_division': 'PRI', 'date': '03-AUG-2019', 'accessions': ['NG_034086'], 'sequence_version': 1, 'keywords': ['RefSeq', 'RefSeqGene'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'comment': 'REVIEWED REFSEQ: This record has been curated by NCBI staff. The\nreference sequence was derived from AC108456.7, AC131571.4,\nKF510367.1, Z83306.1, Z83001.1 and Z83307.1.\nThis sequence is a reference standard in the RefSeqGene project.\nSummary: This gene encodes a component of the six subunit elongator\ncomplex, a histone acetyltransferase complex that associates\ndirectly with RNA polymerase II during transcriptional elongation.\nThe human gene can partially complement sensitivity phenotypes of\nyeast ELP4 deletion mutants. This 

4.Para além do que foi mencionado em cima, também se pode extrair do ficheiro em formato GenBank: a quantidade de features (len(record.features), a lista de features e ainda, o tipo de features e a localização de cada uma delas.Para tal, recorreu-se ao módulo Bio.SeqFeature, tendo em conta também os dois já mencionados no código em cima. O código para extrair informações sobre as features encontra-se em baixo.

In [6]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
from Bio import SeqFeature
feat=record.features
tipos_features=[]
posicoes_features=[]
for f in feat:
    posicoes_features.append(f.location)
    if f.type in tipos_features:
        f=+1
    else:
        tipos_features.append(f.type)
print(feat)
print(tipos_features)
print(posicoes_features)


#Quantidade de features
print(len(record.features))

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(281797), strand=1), type='source'), SeqFeature(FeatureLocation(BeforePosition(0), ExactPosition(4894), strand=-1), type='gene'), SeqFeature(FeatureLocation(BeforePosition(4790), ExactPosition(4894), strand=-1), type='mRNA'), SeqFeature(FeatureLocation(BeforePosition(4790), ExactPosition(4894), strand=-1), type='mRNA'), SeqFeature(FeatureLocation(ExactPosition(5000), ExactPosition(279797), strand=1), type='gene'), SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(5000), ExactPosition(5279), strand=1), FeatureLocation(ExactPosition(15327), ExactPosition(15363), strand=1), FeatureLocation(ExactPosition(34933), ExactPosition(35055), strand=1), FeatureLocation(ExactPosition(90041), ExactPosition(90173), strand=1), FeatureLocation(ExactPosition(99039), ExactPosition(99179), strand=1), FeatureLocation(ExactPosition(122381), ExactPosition(122466), strand=1), FeatureLocation(ExactPosition(127488), ExactPosition(127677), strand

5.A partir da lista de features e juntamente com o código descrito abaixo, identificou-se as sequências codificantes associadas a este registo. Através dos “qualifiers” associados, determinou-se ainda qual a proteína codificada e imprimiu-se a sequência da mesma.

In [7]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
from Bio import SeqFeature
featcds=[]
for i in range(len(feat)):
    if feat[i].type=="CDS":
        featcds.append(i)
    for k in featcds:
        product=feat[k].qualifiers["product"] #Da a proteína codificada
    for k in featcds:
        translation=feat[k].qualifiers["translation"]
print(product)
print(translation)

['elongator complex protein 4 isoform 1']
['MAAVATCGSVAASTGSAVATASKSNVTSFQRRGPRASVTNDSGPRLVSIAGTRPSVRNGQLLVSTGLPALDQLLGGGLAVGTVLLIEEDKYNIYSPLLFKYFLAEGIVNGHTLLVASAKEDPANILQELPAPLLDDKCKKEFDEDVYNHKTPESNIKMKIAWRYQLLPKMEIGPVSSSRFGHYYDASKRMPQELIEASNWHGFFLPEKISSTLKVEPCSLTPGYTKLLQFIQNIIYEEGFDGSNPQKKQRNILRIGIQNLGSPLWGDDICCAENGGNSHSLTKFLYVLRGLLRTSLSACIITMPTHLIQNKAIIARVTTLSDVVVGLESFIGSERETNPLYKDYHGLIHIRQIPRLNNLICDESDVKDLAFKLKRKLFTIERLHLPPDLSDTVSRSSKMDLAESAKRLGPGCGMMAGGKKHLDF']


6.Código que indica o número de genes anotados no registo da feature tipo : “gene”.

In [11]:
ngenes=0
featgene=[]
for i in range(len(feat)):
    if feat[i].type=="gene":
        ngenes=+1
        featgene.append(i)
print(len(featgene))

3
