Análise da sequência e das features presentes no NCBI - GENE TRMT61A
Nota:Para a realização de todo o código do trabalho teve-se em conta o tutorial do Biopython. 
Consoante os códigos que estavam disponíveis no tutorial, tentamos adaptá-los aos genes de interesse, neste caso tentamos adaptar ao gene TRMT61A.

1.O objetivo principal de todo o código que vai ser descrito em baixo é obter o ficheiro em formato GenBank da sequência nucleotídica do gene TRMT61A,mais especificamente o ficheiro em formato GenBank da sequência nucleotídica NC_000014.9.Para tal, numa primeira fase, o código apresentado permite-nos obter uma lista com todos os IDs das sequências nucleotídicas, relacionadas com o gene TRMT61A no organismo Homo Sapiens, curadas e não curadas (onde se encontrará então a sequência nucleotídica que nos interessa obter o seu GenBank, para posteriormente obtermos todas informações que desejamos). Neste código recorreu-se a funções do Bio.Entrez tais como a Entez.esearch (especificamente utilizada para pesquisar o gene TRMT61A no organismo Homo Sapiens) e a Entrez.read. Obteve-se assim 5 IDs diferentes, que se encontram dispostos numa lista à qual denominamos de IdList.

In [1]:
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
Entrez.tool='Demoscript'
handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND TRMT61A[Gene]",idtype="acc")
record=Entrez.read(handle)
record["Count"]
record["IdList"] 


['NC_000014.9', 'NM_152307.3', 'BC016033.2', 'BC010167.2', 'AB590975.1']

2.Posteriormente, a se ter a lista com todos os IDs, detetamos o ID da sequência nucleotídica pretendida: NC_000014.9. Recorreu-se a função Entrez.efetch para se recuperar o registo completo do Entrez, neste caso o resgisto do GenBank. Posteriormente, imprimiu-se então o ficheiro em formato GenBank da sequência nucleotidica do gene TRMT61A no organismo Homo Sapiens,NC_000014.9.

In [2]:
from Bio import Entrez
Entrez.email = "joanafigueiredo2014@gmail.com"
handle = Entrez.efetch(db="nucleotide", id="NC_000014.9", rettype="gb", retmode="text")
text = handle.read()
print(text)

#Temos um problema o ficheiro em formato GenBank não é exatamente igual ao ficheiro do NCBI

LOCUS       NC_000014          107043718 bp    DNA     linear   CON 09-DEC-2019
DEFINITION  Homo sapiens chromosome 14, GRCh38.p13 Primary Assembly.
ACCESSION   NC_000014
VERSION     NC_000014.9
DBLINK      BioProject: PRJNA168
            Assembly: GCF_000001405.39
KEYWORDS    RefSeq.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 107043718)
  CONSRTM   International Human Genome Sequencing Consortium
  TITLE     Finishing the euchromatic sequence of the human genome
  JOURNAL   Nature 431 (7011), 931-945 (2004)
   PUBMED   15496913
REFERENCE   2  (bases 1 to 107043718)
  AUTHORS   Heilig,R., Eckenberg,R., Petit,J.L., Fonknechten,N., Da Silva,C.,
            Cattolico,L., Levy,M., Barbe,V., de Berardinis,V., Ureta-Vidal,A.,
            Pelletier,E., Vico,V., 

3.Depois de se ter o ficheiro GenBank é possível obter diferentes dados que nos são fornecidos por ele.
Recorreu-se agora não só o módulo Bio.Entrez como também ao módulo Bio.SeqIO. Este último permite não só ler sequências de um arquivo e escrever sequências para um arquivo.
O código abaixo, permite-nos, numa primeira fase, obter informações a partir do ficheiro tais como: o ID (record.id), o nome da sequência ( record.name), a sequência nucleotídica e o seu comprimento ( len(record)), a descrição da sequência ( record.description ),as anotações ( record.annotations), o organismo ( record.annotations["organism"] )e a taxonomia (record.annotations["taxonomy"]).
Para além disso, sabe-se que as anotações são dadas sobe a forma de um dicionário e, o código abaixo permite também obter as chaves do dicionário e os respetivos valores associados as chaves.
 

In [3]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
handle=Entrez.efetch(db="nucleotide", id="NC_000014.9", rettype="gb", retmode="text")
record=SeqIO.read(handle,"genbank")
handle.close

<function TextIOWrapper.close()>

In [4]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
#identificador da sequencia
ID=record.id
print(ID)
#sequencia
nome=record.name
print(nome)
sequencia=record.seq
#print(sequencia)
print(len(record.seq))
#descriptions
description=record.description
print(description)

NC_000014.9
NC_000014
107043718
Homo sapiens chromosome 14, GRCh38.p13 Primary Assembly


In [5]:
#annotations:dicionário que contém informações adicionais sobre a sequência
annotations=record.annotations
print(annotations)
organism=record.annotations["organism"]
print(organism)
taxonomy=record.annotations["taxonomy"]
print(taxonomy)
#chaves do dicionário que forma as anotações
keys=record.annotations.keys()
print(keys)
#valores correspondentes as chaves do dicionário
values=record.annotations.values()
print(values)

{'molecule_type': 'DNA', 'topology': 'linear', 'data_file_division': 'CON', 'date': '09-DEC-2019', 'accessions': ['NC_000014'], 'sequence_version': 9, 'keywords': ['RefSeq'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='Finishing the euchromatic sequence of the human genome', ...), Reference(title='The DNA sequence and analysis of human chromosome 14', ...), Reference(title='Initial sequencing and analysis of the human genome', ...)], 'comment': 'REFSEQ INFORMATION: The reference sequence is identical to\nCM000676.2.\nOn Feb 3, 2014 this sequence version replaced NC_000014.8.\nAssembly Name: GRCh38.p13 Primary Assembly\nThe DNA sequence is composed of genomic sequence, primarily\nfinished clones that were sequenced as part of the Human Genome\

4.Para além do que foi mencionado em cima, também se pode extrair do ficheiro em formato GenBank: a quantidade de features (len(record.features), a lista de features e ainda, o tipo de features e a localização de cada uma delas.Para tal, recorreu-se ao módulo Bio.SeqFeature, tendo em conta também os dois já mencionados no código em cima. O código para extrair informações sobre as features encontra-se em baixo.

In [6]:
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
from Bio import SeqFeature
feat=record.features
tipos_features=[]
posicoes_features=[]
for f in feat:
    posicoes_features.append(f.location)
    if f.type in tipos_features:
        f=+1
    else:
        tipos_features.append(f.type)
print(feat)
print(tipos_features)
print(posicoes_features)


#Quantidade de features
print(len(feat))

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(107043718), strand=1), type='source')]
['source']
[FeatureLocation(ExactPosition(0), ExactPosition(107043718), strand=1)]
1


5.A partir da lista de features e juntamente com o código descrito abaixo, identificou-se as sequências codificantes associadas a este registo. Através dos “qualifiers” associados, determinou-se ainda qual a proteína codificada e imprimiu-se a sequência da mesma.

6.Código que indica o número de genes anotados no registo da feature tipo : “gene”.

In [None]:
#não funciona porque o ficheiro GenBank fornecido não contém toda a informação, nem a informação totalmente correta, como por exemplo o tamanho da sequência não está de acordo com o obtido no NCBI
from Bio import SeqIO
from Bio import Entrez
Entrez.email="joanafigueiredo2014@gmail.com"
from Bio import SeqFeature
featcds=[]
for i in range(len(feat)):
    if feat[i].type=="CDS":
        featcds.append(i)
    for k in featcds:
        product=feat[k].qualifiers["product"] #Da a proteína codificada
    for k in featcds:
        translation=feat[k].qualifiers["translation"]
print(product)
print(translation)

In [None]:
ngenes=0
featgene=[]
for i in range(len(feat)):
    if feat[i].type=="gene":
        ngenes=+1
        featgene.append(i)
print(len(featgene))