Análise da sequência e das features presentes no NCBI

Carregamento do package e dos módulos necessários

In [3]:
from Bio import SeqIO #Importar "SeqIO"
from Bio import Seq

Após procurar no site NCBI o registo Genbank correspondente ao gene IRS1, e gravar o ficheiro no formato “genbank”, foi usado o BioPython para carregar o ficheiro para análise.

In [4]:
record=SeqIO.read("sequence-IRS1.gb","genbank")
record

SeqRecord(seq=Seq('GGCGGCTGCCCGGCTGCCGAGCGCGGAGGCTCCGTCACGTGTTTTTCTCCTCCG...TGA'), id='NC_000002.12', name='NC_000002', description='Homo sapiens chromosome 2, GRCh38.p14 Primary Assembly', dbxrefs=['BioProject:PRJNA168', 'Assembly:GCF_000001405.40'])

É então possível obter informações a partir do ficheiro, tais como: o ID, o nome da sequência, o seu comprimento, a descrição da sequência e ainda a própria sequência nucleotídica

In [5]:
print('ID:',record.id)
print("")
print('Nome:',record.name)
print("")
print('Tamanho da sequência:',len(record.seq))
print("")
print('Descrição:',record.description)
print("")
print('Sequência nucleotídica:',record.seq)

ID: NC_000002.12

Nome: NC_000002

Tamanho da sequência: 68509

Descrição: Homo sapiens chromosome 2, GRCh38.p14 Primary Assembly

Sequência nucleotídica: GGCGGCTGCCCGGCTGCCGAGCGCGGAGGCTCCGTCACGTGTTTTTCTCCTCCGAGTGAGACGGCGGCGCGGTCGGAGGGGGCCGGCGCGCAGAGCCAGACGCCGCCGCTTGTTTTGGTTGGGGCTCTCGGCAACTCTCCGAGGAGGAGGAGGAGGAGGGAGGAGGGGAGAAGTAACTGCAGCGGCAGCGCCTCCCGAGGAACAGGCGTCTTCCCCGAACCCTTCCCAAACCTCCCCCATCCCCTCTCGCCCTTGTCCCCTCCCCTCCTCCCCAGCCGCCTGGAGCGAGGGGCAGGGATGAGTCTGTCCCTCCGGCCGGTCCCCAGCTGCAGTGGCTGCCCGGTATCGTTTCGCATGGAAAAGCCACTTTCTCCACCCGCCGAGATGGGCCCGGATGGGGGCTGCAGAGGACGCGCCCGCGGGCGGCGGCAGCAGCAGCAGCAGCAGCAGCAGCAACAGCAACAGCCGCAGCGCCGCGGTCTCTGCGACTGAGCTGGTATTTGGGCGGCTGGTGGCGGCTGGGACGGTTGGGGGGTGGGAGGAGGCGAAGGAGGAGGGAGAACCCCGTGCAACGTTGGGACTTGGCAACCCGCCTCCCCCTGCCCAAGGATATTTAATTTGCCTCGGGAATCGCTGCTTCCAGAGGGGAACTCAGGAGGGAAGGCGCGCGCGCGCGCGCGCTCCTGGAGGGGCACCGCAGGGACCCCCGACTGTCGCCTCCCTGTGCCGGACTCCAGCCGGGGCGACGAGAGATGCATCTTCGCTCCTTCCTGGTGGCGGCGGCGGCTGAGAGGAGACTTGGCTCTCGGAGGATCGGGGCTGCCCTCACCCCGGACGCACTGCCT

Sabe-se que as anotações são dadas sob a forma de um dicionário e o código permite obter as chaves do dicionário e os respetivos valores associados.
A partir das anotações, obtém-se informação como o organismo a que pertence a sequência e a sua classificação taxonómica. Exrtrai-se ainda o Id da sequência, o tipo de molécula, a sua descrição, entre outros.



In [14]:
#annotations: dicionário que contém informações adicionais sobre a sequência
annotations=record.annotations
print(annotations)
print("")

fonte= record.annotations["source"]
print ("Fonte: ",fonte) 
print("")

organismo=record.annotations["organism"]
print("Espécie: ",organismo)
print("")

taxonomia=record.annotations["taxonomy"]
print("Taxonomia: ",taxonomia)
print("")

tipo= record.annotations["molecule_type"]
print ("Tipo de molécula: ",tipo)
print("")

topologia=record.annotations["topology"]
print ("Topologia: ",topologia )
print("")

divisao= record.annotations["data_file_division"]
print ("Data file division: ",divisao)
print("")

data=record.annotations["date"]
print ("Data: ",data)
print("")

identificador=record.annotations["accessions"]
print("ID NCBI da sequência nucleotídica: ",identificador)

versao=record.annotations["sequence_version"]
print ("Versão da sequência:",versao)
print("")

palavras=record.annotations["keywords"]
print("Palavras-chave: ",palavras)
print("")



{'molecule_type': 'DNA', 'topology': 'linear', 'data_file_division': 'CON', 'date': '06-APR-2022', 'accessions': ['NC_000002', 'REGION:', 'complement(226731312..226799820)'], 'sequence_version': 12, 'keywords': ['RefSeq'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='Generation and annotation of the DNA sequences of human chromosomes 2 and 4', ...), Reference(title='Finishing the euchromatic sequence of the human genome', ...), Reference(title='Initial sequencing and analysis of the human genome', ...)], 'comment': 'REFSEQ INFORMATION: The reference sequence is identical to\nCM000664.2.\nOn Feb 3, 2014 this sequence version replaced NC_000002.11.\nAssembly Name: GRCh38.p14 Primary Assembly\nThe DNA sequence is composed of genomic sequence, pri

Para além do anteriormente visto, também se pode extrair do ficheiro a quantidade de features, a lista de features e ainda, o tipo de features e a localização de cada uma delas.


In [7]:
feat=record.features
print("As features são: ",feat)


As features são:  [SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(68509), strand=1), type='source'), SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(68509), strand=1), type='gene'), SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(0), ExactPosition(4832), strand=1), FeatureLocation(ExactPosition(63570), ExactPosition(68509), strand=1)], 'join'), type='mRNA', location_operator='join'), SeqFeature(FeatureLocation(ExactPosition(17493), ExactPosition(17788), strand=-1), type='misc_feature'), SeqFeature(FeatureLocation(ExactPosition(17493), ExactPosition(17788), strand=1), type='regulatory'), SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(0), ExactPosition(4832), strand=1), FeatureLocation(ExactPosition(13509), ExactPosition(15674), strand=1)], 'join'), type='mRNA', location_operator='join'), SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(0), ExactPosition(4832), strand=1), FeatureLocation(ExactPosition(7435), ExactPosition(9380), str

In [8]:
print("O número de features é: ",len(record.features))
print("")
print("O tipo e localização das features são: ")
for f in record.features: 
    print(f.type, f.location)


O número de features é:  56

O tipo e localização das features são: 
source [0:68509](+)
gene [0:68509](+)
mRNA join{[0:4832](+), [63570:68509](+)}
misc_feature [17493:17788](-)
regulatory [17493:17788](+)
mRNA join{[0:4832](+), [13509:15674](+)}
mRNA join{[0:4832](+), [7435:9380](+)}
CDS [1082:4811](+)
CDS [1082:4811](+)
CDS [1082:4811](+)
misc_feature [1088:1493](+)
misc_feature [1088:1091](+)
misc_feature [1376:1379](+)
misc_feature [1865:2372](+)
misc_feature [1889:1892](+)
misc_feature [2000:2003](+)
misc_feature [2015:2018](+)
misc_feature [2048:2051](+)
misc_feature [2069:2072](+)
misc_feature [2114:2117](+)
misc_feature [2123:2126](+)
misc_feature [2336:2339](+)
misc_feature [2417:2420](+)
misc_feature [2438:2441](+)
misc_feature [2474:2486](+)
misc_feature [2474:2477](+)
misc_feature [2660:2663](+)
misc_feature [2732:2744](+)
misc_feature [2855:2930](+)
misc_feature [2915:2927](+)
misc_feature [2915:2918](+)
misc_feature [2966:2969](+)
misc_feature [2975:2987](+)
misc_feature 

A partir da lista de features e juntamente com o código descrito abaixo, identificou-se as sequências codificantes associadas a este registo e a sua localização.

Através dos qualifiers associados, determinou-se ainda qual a proteína codificada, e o seu significado biológico, e imprimiu-se a sequência da mesma.

In [9]:
featcds=[]

for i in range(len(record.features)):
    if record.features[i].type=="CDS":
        featcds.append(i)
    
print("Índices das sequências codificantes: ",featcds)


Índices das sequências codificantes:  [7, 8, 9]


In [39]:
for k in featcds:
    print("Identificação da proteína: ",record.features[k].qualifiers["product"])
    print("Sequência da proteína: ",record.features[k].qualifiers["translation"])
    print("")

Identificação da proteína:  ['insulin receptor substrate 1 isoform X1']
Sequência da proteína:  ['MASPPESDGFSDVRKVGYLRKPKSMHKRFFVLRAASEAGGPARLEYYENEKKWRHKSSAPKRSIPLESCFNINKRADSKNKHLVALYTRDEHFAIAADSEAEQDSWYQALLQLHNRAKGHHDGAAALGAGGGGGSCSGSSGLGEAGEDLSYGDVPPGPAFKEVWQVILKPKGLGQTKNLIGIYRLCLTSKTISFVKLNSEAAAVVLQLMNIRRCGHSENFFFIEVGRSAVTGPGEFWMQVDDSVVAQNMHETILEAMRAMSDEFRPRSKSQSSSNCSNPISVPLRRHHLNNPPPSQVGLTRRSRTESITATSPASMVGGKPGSFRVRASSDGEGTMSRPASVDGSPVSPSTNRTHAHRHRGSARLHPPLNHSRSIPMPASRCSPSATSPVSLSSSSTSGHGSTSDCLFPRRSSASVSGSPSDGGFISSDEYGSSPCDFRSSFRSVTPDSLGHTPPARGEEELSNYICMGGKGPSTLTAPNGHYILSRGGNGHRCTPGTGLGTSPALAGDEAASAADLDNRFRKRTHSAGTSPTITHQKTPSQSSVASIEEYTEMMPAYPPGGGSGGRLPGHRHSAFVPTRSYPEEGLEMHPLERRGGHHRPDSSTLHTDDGYMPMSPGVAPVPSGRKGSGDYMPMSPKSVSAPQQIINPIRRHPQRVDPNGYMMMSPSGGCSPDIGGGPSSSSSSSNAVPSGTSYGKLWTNGVGGHHSHVLPHPKPPVESSGGKLLPCTGDYMNMSPVGDSNTSSPSDCYYGPEDPQHKPVLSYYSLPRSFKHTQRPGEPEEGARHQHLRLSTSSGRLLYAATADDSSSSTSSDSLGGGYCGARLEPSLPHPHHQVLQPHLPRKVDTAAQTNSRLARPTRLSLGDPKASTLPRAREQQQQQQPLLHPPEPKSPGEYVNIEFG

In [10]:
for k in featcds:
    coding_dna = record.features[k].extract(record.seq)
    print("DNA: ", coding_dna)
    print("")

DNA:  ATGGCGAGCCCTCCGGAGAGCGATGGCTTCTCGGACGTGCGCAAGGTGGGCTACCTGCGCAAACCCAAGAGCATGCACAAACGCTTCTTCGTACTGCGCGCGGCCAGCGAGGCTGGGGGCCCGGCGCGCCTCGAGTACTACGAGAACGAGAAGAAGTGGCGGCACAAGTCGAGCGCCCCCAAACGCTCGATCCCCCTTGAGAGCTGCTTCAACATCAACAAGCGGGCTGACTCCAAGAACAAGCACCTGGTGGCTCTCTACACCCGGGACGAGCACTTTGCCATCGCGGCGGACAGCGAGGCCGAGCAAGACAGCTGGTACCAGGCTCTCCTACAGCTGCACAACCGTGCTAAGGGCCACCACGACGGAGCTGCGGCCCTCGGGGCGGGAGGTGGTGGGGGCAGCTGCAGCGGCAGCTCCGGCCTTGGTGAGGCTGGGGAGGACTTGAGCTACGGTGACGTGCCCCCAGGACCCGCATTCAAAGAGGTCTGGCAAGTGATCCTGAAGCCCAAGGGCCTGGGTCAGACAAAGAACCTGATTGGTATCTACCGCCTTTGCCTGACCAGCAAGACCATCAGCTTCGTGAAGCTGAACTCGGAGGCAGCGGCCGTGGTGCTGCAGCTGATGAACATCAGGCGCTGTGGCCACTCGGAAAACTTCTTCTTCATCGAGGTGGGCCGTTCTGCCGTGACGGGGCCCGGGGAGTTCTGGATGCAGGTGGATGACTCTGTGGTGGCCCAGAACATGCACGAGACCATCCTGGAGGCCATGCGGGCCATGAGTGATGAGTTCCGCCCTCGCAGCAAGAGCCAGTCCTCGTCCAACTGCTCTAACCCCATCAGCGTCCCCCTGCGCCGGCACCATCTCAACAATCCCCCGCCCAGCCAGGTGGGGCTGACCCGCCGATCACGCACTGAGAGCATCACCGCCACCTCCCCGGCCAGCATGGTGGGCGGGAAGCCAGGCTCCTTCCGTGTCCGCGCCTCCAGTGACG

Foi também possível verificar qual o número de genes anotados no registo (feature tipo “gene”) e os seus qualifiers, ou seja, quais estão anotados em cada uma das cadeias 

In [11]:
featgene=[]
for i in range(len(record.features)):
    if record.features[i].type=="gene":
        featgene.append(i)
print("Numero de features tipo gene: ",len(featgene))


Numero de features tipo gene:  1


In [12]:
for i in featgene:
    print(record.features[i].qualifiers["gene"])

['IRS1']
