# Análise da sequência e das features presentes no NCBI

Carregamento do package e dos módulos necessários

In [6]:
from Bio import SeqIO #Importar "SeqIO"
from Bio import Seq

Após procurar no site NCBI o registo Genbank correspondente ao gene IRS1, e gravar o ficheiro no formato “genbank”, foi usado o BioPython para carregar o ficheiro para análise.

In [7]:
record=SeqIO.read("sequence-KLF14.gb","genbank")
record

SeqRecord(seq=Seq('GGGCGGCGGCGGCAGCGGCGGCTGCGGCGGCGGCGGCGGCAGCAGGCGGCAGGC...AAA'), id='NC_000007.14', name='NC_000007', description='Homo sapiens chromosome 7, GRCh38.p14 Primary Assembly', dbxrefs=['BioProject:PRJNA168', 'Assembly:GCF_000001405.40'])

É então possível obter informações a partir do ficheiro, tais como: o ID, o nome da sequência, o seu comprimento, a descrição da sequência e ainda a própria sequência nucleotídica

In [8]:
print('ID:',record.id)
print("")
print('Nome:',record.name)
print("")
print('Tamanho da sequência:',len(record.seq))
print("")
print('Descrição:',record.description)
print("")
print('Sequência nucleotídica:',record.seq)

ID: NC_000007.14

Nome: NC_000007

Tamanho da sequência: 3511

Descrição: Homo sapiens chromosome 7, GRCh38.p14 Primary Assembly

Sequência nucleotídica: GGGCGGCGGCGGCAGCGGCGGCTGCGGCGGCGGCGGCGGCAGCAGGCGGCAGGCGGCGAGCACCCGGCCTCCTGCTTCTCGCTCCGAGGCTGCGGGACGGACGCTCCCGGGAACTCCGTCGCCCGCGGCCGGCCGCGTTCGGACGGCGCTCGCCGGCGGCCGGGCGGTCCCAGCATGTCGGCCGCCGTGGCGTGCCTGGACTACTTCGCCGCCGAGTGCCTGGTGTCCATGTCCGCGGGCGCCGTGGTTCACCGCCGCCCGCCGGACCCCGAGGGCGCGGGTGGAGCCGCTGGCTCGGAGGTGGGTGCGGCGCCGCCGGAGTCCGCTCTGCCGGGTCCGGGGCCACCGGGGCCCGCGTCGGTCCCCCAGCTCCCGCAGGTCCCCGCCCCCAGCCCCGGCGCGGGCGGCGCCGCGCCCCACCTGCTGGCTGCAAGCGTCTGGGCGGACTTGCGCGGCAGCTCTGGCGAGGGCTCCTGGGAGAACTCGGGGGAAGCTCCACGCGCCTCGTCCGGCTTCTCCGACCCGATCCCGTGCTCCGTCCAGACCCCGTGCTCCGAGCTGGCTCCCGCCTCCGGCGCCGCGGCGGTCTGCGCTCCCGAGAGCTCCTCCGATGCGCCCGCCGTCCCAAGCGCGCCTGCTGCCCCGGGCGCACCAGCAGCCTCTGGTGGGTTCTCTGGAGGGGCCCTAGGGGCAGGCCCCGCCCCCGCCGCGGATCAGGCGCCCCGGAGGAGGTCTGTCACACCTGCTGCCAAGCGCCACCAATGCCCCTTCCCGGGCTGCACCAAAGCCTATTACAAGTCGTCGCACCTCAAGTCCCACCAGCGCACCCACACGGGTGAGCGCCCT

Sabe-se que as anotações são dadas sob a forma de um dicionário e o código permite obter as chaves do dicionário e os respetivos valores associados.
A partir das anotações, obtém-se informação como o organismo a que pertence a sequência e a sua classificação taxonómica. Extrai-se ainda o Id da sequência, o tipo de molécula, a sua descrição, entre outros.



In [9]:
#annotations: dicionário que contém informações adicionais sobre a sequência
annotations=record.annotations
print(annotations)
print("")


fonte= record.annotations["source"]
print ("Fonte: ",fonte) 
print("")

organismo=record.annotations["organism"]
print("Espécie: ",organismo)
print("")

taxonomia=record.annotations["taxonomy"]
print("Taxonomia: ",taxonomia)
print("")

tipo= record.annotations["molecule_type"]
print ("Tipo de molécula: ",tipo)
print("")

topologia=record.annotations["topology"]
print ("Topologia: ",topologia )
print("")

divisao= record.annotations["data_file_division"]
print ("Data file division: ",divisao)
print("")

data=record.annotations["date"]
print ("Data: ",data)
print("")

identificador=record.annotations["accessions"]
print("ID NCBI da sequência nucleotídica: ",identificador)

versao=record.annotations["sequence_version"]
print ("Versão da sequência:",versao)
print("")

palavras=record.annotations["keywords"]
print("Palavras-chave: ",palavras)
print("")


{'molecule_type': 'DNA', 'topology': 'linear', 'data_file_division': 'CON', 'date': '06-APR-2022', 'accessions': ['NC_000007', 'REGION:', 'complement(130730697..130734207)'], 'sequence_version': 14, 'keywords': ['RefSeq'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='Finishing the euchromatic sequence of the human genome', ...), Reference(title='The DNA sequence of human chromosome 7', ...), Reference(title='Initial sequencing and analysis of the human genome', ...)], 'comment': 'REFSEQ INFORMATION: The reference sequence is identical to\nCM000669.2.\nOn Feb 3, 2014 this sequence version replaced NC_000007.13.\nAssembly Name: GRCh38.p14 Primary Assembly\nThe DNA sequence is composed of genomic sequence, primarily\nfinished clones that were seq

Para além do anteriormente visto, também se pode extrair do ficheiro a quantidade de features, a lista de features e ainda, o tipo de features e a localização de cada uma delas.


In [10]:
feat=record.features
print("As features são: ",feat)


As features são:  [SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(3511), strand=1), type='source'), SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(3511), strand=1), type='gene'), SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(3511), strand=1), type='mRNA'), SeqFeature(FeatureLocation(ExactPosition(174), ExactPosition(1146), strand=1), type='CDS'), SeqFeature(FeatureLocation(ExactPosition(252), ExactPosition(414), strand=1), type='misc_feature'), SeqFeature(FeatureLocation(ExactPosition(453), ExactPosition(522), strand=1), type='misc_feature'), SeqFeature(FeatureLocation(ExactPosition(597), ExactPosition(657), strand=1), type='misc_feature'), SeqFeature(FeatureLocation(ExactPosition(669), ExactPosition(759), strand=1), type='misc_feature'), SeqFeature(FeatureLocation(ExactPosition(1008), ExactPosition(1143), strand=1), type='misc_feature')]


In [11]:
print("O número de features é: ",len(record.features))
print("")
print("O tipo e localização das features são: ")
for f in record.features: 
    print(f.type, f.location)


O número de features é:  9

O tipo e localização das features são: 
source [0:3511](+)
gene [0:3511](+)
mRNA [0:3511](+)
CDS [174:1146](+)
misc_feature [252:414](+)
misc_feature [453:522](+)
misc_feature [597:657](+)
misc_feature [669:759](+)
misc_feature [1008:1143](+)


A partir da lista de features e juntamente com o código descrito abaixo, identificou-se as sequências codificantes associadas a este registo e a sua localização.

Através dos qualifiers associados, determinou-se ainda qual a proteína codificada, e o seu significado biológico, e imprimiu-se a sequência da mesma.

In [12]:
featcds=[]

for i in range(len(record.features)):
    if record.features[i].type=="CDS":
        featcds.append(i)
    
print("Índices das sequências codificantes: ",featcds)


Índices das sequências codificantes:  [3]


In [13]:
for k in featcds:
    print("Identificação da proteína: ",record.features[k].qualifiers["product"])
    print("Sequência da proteína: ",record.features[k].qualifiers["translation"])
    print("")

Identificação da proteína:  ['Krueppel-like factor 14']
Sequência da proteína:  ['MSAAVACLDYFAAECLVSMSAGAVVHRRPPDPEGAGGAAGSEVGAAPPESALPGPGPPGPASVPQLPQVPAPSPGAGGAAPHLLAASVWADLRGSSGEGSWENSGEAPRASSGFSDPIPCSVQTPCSELAPASGAAAVCAPESSSDAPAVPSAPAAPGAPAASGGFSGGALGAGPAPAADQAPRRRSVTPAAKRHQCPFPGCTKAYYKSSHLKSHQRTHTGERPFSCDWLDCDKKFTRSDELARHYRTHTGEKRFSCPLCPKQFSRSDHLTKHARRHPTYHPDMIEYRGRRRTPRIDPPLTSEVESSASGSGPGPAPSFTTCL']



In [14]:
for k in featcds:
    coding_dna = record.features[k].extract(record.seq)
    print("DNA: ", coding_dna)
    print("")

DNA:  ATGTCGGCCGCCGTGGCGTGCCTGGACTACTTCGCCGCCGAGTGCCTGGTGTCCATGTCCGCGGGCGCCGTGGTTCACCGCCGCCCGCCGGACCCCGAGGGCGCGGGTGGAGCCGCTGGCTCGGAGGTGGGTGCGGCGCCGCCGGAGTCCGCTCTGCCGGGTCCGGGGCCACCGGGGCCCGCGTCGGTCCCCCAGCTCCCGCAGGTCCCCGCCCCCAGCCCCGGCGCGGGCGGCGCCGCGCCCCACCTGCTGGCTGCAAGCGTCTGGGCGGACTTGCGCGGCAGCTCTGGCGAGGGCTCCTGGGAGAACTCGGGGGAAGCTCCACGCGCCTCGTCCGGCTTCTCCGACCCGATCCCGTGCTCCGTCCAGACCCCGTGCTCCGAGCTGGCTCCCGCCTCCGGCGCCGCGGCGGTCTGCGCTCCCGAGAGCTCCTCCGATGCGCCCGCCGTCCCAAGCGCGCCTGCTGCCCCGGGCGCACCAGCAGCCTCTGGTGGGTTCTCTGGAGGGGCCCTAGGGGCAGGCCCCGCCCCCGCCGCGGATCAGGCGCCCCGGAGGAGGTCTGTCACACCTGCTGCCAAGCGCCACCAATGCCCCTTCCCGGGCTGCACCAAAGCCTATTACAAGTCGTCGCACCTCAAGTCCCACCAGCGCACCCACACGGGTGAGCGCCCTTTCTCCTGCGACTGGCTCGACTGCGACAAGAAGTTTACGCGTTCCGACGAGCTGGCCCGCCACTACAGGACGCACACGGGCGAGAAGCGCTTCTCCTGCCCCCTCTGCCCCAAGCAGTTCTCCCGGAGCGACCACCTGACCAAGCATGCTCGCCGCCACCCAACCTATCATCCAGATATGATCGAGTACCGGGGACGTCGTCGAACTCCCCGCATCGACCCGCCACTCACCAGCGAGGTGGAAAGCTCCGCCTCCGGCTCCGGTCCCGGCCCGGCGCCCAGCTTCACCACCTGCCTGTAG



Foi também possível verificar qual o número de genes anotados no registo (feature tipo “gene”) e os seus qualifiers, ou seja, quais estão anotados em cada uma das cadeias 

In [15]:
featgene=[]
for i in range(len(record.features)):
    if record.features[i].type=="gene":
        featgene.append(i)
print("Numero de features tipo gene: ",len(featgene))


Numero de features tipo gene:  1


In [16]:
for i in featgene:
    print(record.features[i].qualifiers["gene"])

['KLF14']
