Análise da sequência e das features presentes no NCBI para o gene WFS1.

1.Inicialmente, com o objetivo de obter a sequência nucleotídica do gene WFS1, o código permitirá retornar todos os ID´s das sequências nucleotídicas associadas ao gene WFS1, para o ser humano. Entre estas, irá ser retornada a sequência da qual retiraremos o GenBank e consequentemente, todas as informações importantes sobre este gene. Assim, recorrendo ao Bio.Entrez package, foram usados os comandos Entrez.esearch que permite pesquisar, em particular o gene WFS1 do Homo Sapiens, e o comando Entrez.read que irá retornar os resultados das funções acima efetuadas. Obtive-se uma lista de 20 diferentes Id´s.

In [1]:
from Bio import Entrez

Entrez.email="grupo19@gmail.com"

Entrez.tool='Demoscript'
handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND WFS1[Gene]",idtype="acc")
record=Entrez.read(handle)
record["Count"]
record["IdList"] 

['NG_011700.1', 'NM_001145853.1', 'NM_006005.3', 'NC_060928.1', 'NC_000004.12', 'MT832014.1', 'MT832013.1', 'MT832012.1', 'MT832011.1', 'MT832010.1', 'KP744537.1', 'EU176760.1', 'KU178396.1', 'KU178395.1', 'CM000255.1', 'CH471131.2', 'AB839161.1', 'AB839160.1', 'KC890796.1', 'AY417516.1']

Usando a sequência nucleotídica pretendida: NG_011700.1, usou-se o comando Entrez.efetch, novamente do Bio.Entrez package, que permite recuperar registros no formato solicitado, neste caso, GenBank. De seguida fez-se o print deste ficheiro em GenBank, representativo do gene WFS1 no organismo humano.

In [2]:
from Bio import Entrez

Entrez.email = "grupo19@gmail.com"

handle = Entrez.efetch(db="nucleotide", id="NG_011700.1", rettype="gb", retmode="text")
text = handle.read()
print(text)

LOCUS       NG_011700              40416 bp    DNA     linear   PRI 01-JAN-2023
DEFINITION  Homo sapiens wolframin ER transmembrane glycoprotein (WFS1),
            RefSeqGene (LRG_1417) on chromosome 4.
ACCESSION   NG_011700
VERSION     NG_011700.1
KEYWORDS    RefSeq; RefSeqGene.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 40416)
  AUTHORS   Barrett,T., Tranebjaerg,L., Gupta,R., Rendtorff,N.D., Williams,D.,
            Wright,B. and Dias,R.
  TITLE     WFS1 Spectrum Disorder
  JOURNAL   (in) Adam MP, Everman DB, Mirzaa GM, Pagon RA, Wallace SE, Bean
            LJH, Gripp KW and Amemiya A (Eds.);
            GENEREVIEWS(R);
            (1993)
   PUBMED   20301750
REFERENCE   2  (bases 1 to 40416)
  AUTHORS   Shearer,A.E., Hildebrand,M.S. and Smith,R.J.H.
 

2.Após ter o ficheiro guardado, o passo seguinte serviu para verificar algumas outras informações de interesse, tais como, o Id, o nome, o tamanho e a descrição da sequência nucleotídica. Para isto,usou-se o módulo Bio.SeqIO e o módulo Bio.Entrez. O módulo Bio.SeqIO facilita a análise da dados de entrada e de saída, relativos a sequências.

In [14]:
from Bio import SeqIO
from Bio import Entrez

Entrez.email="grupo19@gmail.com"

handle=Entrez.efetch(db="nucleotide", id="NG_011700.1", rettype="gb", retmode="text")
record=SeqIO.read(handle,"genbank")
handle.close

<function TextIOWrapper.close()>

In [15]:
from Bio import SeqIO
from Bio import Entrez

Entrez.email="grupo19@gmail.com"

Id=record.id
print('O Id é:', Id)

nome=record.name
print('O nome da sequência é:',nome)

sequencia=record.seq
tamanho=len(sequencia)
print('O tamanho da sequência é:', tamanho)

descricao=record.description
print('A descricao da sequência nucleotídica é:', descricao)

O Id é: NG_011700.1
O nome da sequência é: NG_011700
O tamanho da sequência é: 40416
A descricao da sequência nucleotídica é: Homo sapiens wolframin ER transmembrane glycoprotein (WFS1), RefSeqGene (LRG_1417) on chromosome 4


3.Nesta parte retornou-se as anotações, ou seja, um dicionário que contém informações adicionais sobre a sequência. Desta forma, obtiveram-se resultados para as anotações de interessse, nomeadamente, para o organismo, para a taxonomia, para o tipo de molécula, para a topologia, para o data file division, para a versão da sequência a, ainda, para a fonte. O código retorna, do dicionário, a chave correspondente.

In [16]:
#chaves do dicionário que forma as anotações
chaves=record.annotations.keys()
print(chaves)

dict_keys(['molecule_type', 'topology', 'data_file_division', 'date', 'accessions', 'sequence_version', 'keywords', 'source', 'organism', 'taxonomy', 'references', 'comment'])


In [6]:
organismo=record.annotations["organism"]
print('O organismo é:', organismo)

taxonomia=record.annotations["taxonomy"]
print('A taxonomia é:', taxonomia)

tipo=record.annotations["molecule_type"]
print('O tipo de molécula é:', tipo)

topologia=record.annotations["topology"]
print('A topologia é:', topologia)

data= record.annotations["data_file_division"]
print ('A data file division é:', data)

sequencia=record.annotations["sequence_version"]
print ('A versão da sequencia é:', sequencia)

fonte=record.annotations["source"]
print ('A fonte é:', fonte)

O organismo é: Homo sapiens
A taxonomia é: ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
O tipo de molécula é: DNA
A topologia é: linear
A data file division é: PRI
A versão da sequencia é: 1
A fonte é: Homo sapiens (human)


4. Adicionalmente, de forma a extrair informações sobre as features, começa-se por extrair do ficheiro em formato GenBank a quantidade de features, com recurso ao len(record.features), a lista de features, o tipo de features e a localização de cada uma delas. Isto é possível recorrendo ao módulo Bio.SeqFeature, e ao SeqIO e Entrez, já apresentados anteriormente.

In [7]:
from Bio import SeqIO
from Bio import Entrez
from Bio import SeqFeature

Entrez.email="grupo19@gmail.com"

features=record.features
tipos_de_features=[]
localizacao_das_features=[]
for f in features:
    localizacao_das_features.append(f.location)
    if f.type in tipos_de_features:
        f=+1
    else:
        tipos_de_features.append(f.type)
        
#lista de features
print(features)
        

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(40416), strand=1), type='source'), SeqFeature(FeatureLocation(ExactPosition(5000), ExactPosition(38416), strand=1), type='gene'), SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(5000), ExactPosition(5165), strand=1), FeatureLocation(ExactPosition(12601), ExactPosition(12838), strand=1), FeatureLocation(ExactPosition(22243), ExactPosition(22326), strand=1), FeatureLocation(ExactPosition(24137), ExactPosition(24282), strand=1), FeatureLocation(ExactPosition(26347), ExactPosition(26518), strand=1), FeatureLocation(ExactPosition(27067), ExactPosition(27148), strand=1), FeatureLocation(ExactPosition(30191), ExactPosition(30340), strand=1), FeatureLocation(ExactPosition(35807), ExactPosition(38416), strand=1)], 'join'), type='mRNA', location_operator='join'), SeqFeature(FeatureLocation(ExactPosition(5000), ExactPosition(5165), strand=1), type='exon'), SeqFeature(FeatureLocation(ExactPosition(12601), ExactPosition(12838), 

In [8]:
#tipos de features
print('Os tipos de features são:', tipos_de_features)

#posicao das features
print('A localização das features é:', localizacao_das_features)

#quantidade de features
print('Existem', len(record.features), 'features') 

Os tipos de features são: ['source', 'gene', 'mRNA', 'exon', 'CDS', 'misc_feature']
A localização das features é: [FeatureLocation(ExactPosition(0), ExactPosition(40416), strand=1), FeatureLocation(ExactPosition(5000), ExactPosition(38416), strand=1), CompoundLocation([FeatureLocation(ExactPosition(5000), ExactPosition(5165), strand=1), FeatureLocation(ExactPosition(12601), ExactPosition(12838), strand=1), FeatureLocation(ExactPosition(22243), ExactPosition(22326), strand=1), FeatureLocation(ExactPosition(24137), ExactPosition(24282), strand=1), FeatureLocation(ExactPosition(26347), ExactPosition(26518), strand=1), FeatureLocation(ExactPosition(27067), ExactPosition(27148), strand=1), FeatureLocation(ExactPosition(30191), ExactPosition(30340), strand=1), FeatureLocation(ExactPosition(35807), ExactPosition(38416), strand=1)], 'join'), FeatureLocation(ExactPosition(5000), ExactPosition(5165), strand=1), FeatureLocation(ExactPosition(12601), ExactPosition(12838), strand=1), CompoundLocati

5.De seguida identifica-se as sequências codificantes associada a este registo recorrendo à lista de features e ao código seguinte. Através dos “qualifiers” associados, determinou-se ainda qual a proteína codificada e imprimiu-se a sequência da mesma.

In [9]:
from Bio import SeqIO
from Bio import Entrez
from Bio import SeqFeature

Entrez.email="grupo19@gmail.com"

featcds=[]
numero_cds=0
for i in range(len(features)):
    if features[i].type=="CDS":
        featcds.append(i)
        numero_cds+=1
    for k in featcds:
        id_proteina=features[k].qualifiers["protein_id"]
        produto=features[k].qualifiers["product"] 
        translacao=features[k].qualifiers["translation"]

#qualifiers associados às sequências codificantes do registo do gene
print('O id da proteína é',id_proteina)
print('A proteína codificada é', produto) 
print('A sequência da proteína codificada é', translacao) 

O id da proteína é ['NP_005996.2']
A proteína codificada é ['wolframin']
A sequência da proteína codificada é ['MDSNTAPLGPSCPQPPPAPQPQARSRLNATASLEQERSERPRAPGPQAGPGPGVRDAAAPAEPQAQHTRSRERADGTGPTKGDMEIPFEEVLERAKAGDPKAQTEVGKHYLQLAGDTDEELNSCTAVDWLVLAAKQGRREAVKLLRRCLADRRGITSENEREVRQLSSETDLERAVRKAALVMYWKLNPKKKKQVAVAELLENVGQVNEHDGGAQPGPVPKSLQKQRRMLERLVSSESKNYIALDDFVEITKKYAKGVIPSSLFLQDDEDDDELAGKSPEDLPLRLKVVKYPLHAIMEIKEYLIDMASRAGMHWLSTIIPTHHINALIFFFIVSNLTIDFFAFFIPLVIFYLSFISMVICTLKVFQDSKAWENFRTLTDLLLRFEPNLDVEQAEVNFGWNHLEPYAHFLLSVFFVIFSFPIASKDCIPCSELAVITGFFTVTSYLSLSTHAEPYTRRALATEVTAGLLSLLPSMPLNWPYLKVLGQTFITVPVGHLVVLNVSVPCLLYVYLLYLFFRMAQLRNFKGTYCYLVPYLVCFMWCELSVVILLESTGLGLLRASIGYFLFLFALPILVAGLALVGVLQFARWFTSLELTKIAVTVAVCSVPLLLRWWTKASFSVVGMVKSLTRSSMVKLILVWLTAIVLFCWFYVYRSEGMKVYNSTLTWQQYGALCGPRAWKETNMARTQILCSHLEGHRVTWTGRFKYVRVTDIDNSAESAINMLPFFIGDWMRCLYGEAYPACSPGNTSTAEEELCRLKLLAKHPCHIKKFDRYKFEITVGMPFSSGADGSRSREEDDVTKDIVLRASSEFKSVLLSLRQGSLIEFSTILEGRLGSKWPVFELKAISCLNCMAQLSPTRRHVKIEHDWRSTVHGAVKFAFDFFFFPFLS

6.Por fim, apresenta-se o número de genes anotados no registo da feature do tipo : “gene”.

In [10]:
n_genes=0
feat_gene=[]
for i in range(len(features)):
    if features[i].type=="gene":
        n_genes=+1
        feat_gene.append(i)
print('O número de features do tipo gene é', len(feat_gene))

for i in feat_gene:
    print(record.features[i].qualifiers["gene"])

O número de features do tipo gene é 1
['WFS1']
