Análise da sequência e das features presentes no NCBI para o gene GRB14.

1.Inicialmente, com o objetivo de obter a sequência nucleotídica do gene GRB14, o código permitirá retornar todos os ID´s das sequências nucleotídicas associadas ao gene GRB14, para o ser humano. Entre estas, irá ser retornada a sequência da qual retiraremos o GenBank e consequentemente, todas as informações importantes sobre este gene. Assim, recorrendo ao Bio.Entrez package, foram usados os comandos Entrez.esearch que permite pesquisar, em particular o gene GRB14 do Homo Sapiens, e o comando Entrez.read que irá retornar os resultados das funções acima efetuadas. Obtive-se uma lista de 18 diferentes Id´s.

In [2]:
from Bio import Entrez

Entrez.email="grupo19@gmail.com"

Entrez.tool='Demoscript'
handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND GRB14[Gene]",idtype="acc")
record=Entrez.read(handle)
record["Count"]
record["IdList"] 

['NM_001303422.2', 'NM_004490.3', 'NG_052839.1', 'NC_060926.1', 'NC_000002.12', 'XR_427085.4', 'XM_047444014.1', 'XM_047444013.1', 'XM_011511022.2', 'EU832411.1', 'AC107075.4', 'AC110086.3', 'CM000253.1', 'CH471058.2', 'BC053559.1', 'AY419442.1', 'L76687.1', 'AB527527.1']

Usando a sequência nucleotídica pretendida: NC_000002.12, usou-se o comando Entrez.efetch, novamente do Bio.Entrez package, que permite recuperar registros no formato solicitado, neste caso, GenBank. De seguida fez-se o print deste ficheiro em GenBank, representativo do gene WFS1 no organismo humano

In [10]:
from Bio import Entrez

Entrez.email = "grupo19@gmail.com"

handle = Entrez.efetch(db="nucleotide", id="NC_000002.12", rettype="gb", retmode="text")
text = handle.read()
print(text)

LOCUS       NC_000002          242193529 bp    DNA     linear   CON 06-APR-2022
DEFINITION  Homo sapiens chromosome 2, GRCh38.p14 Primary Assembly.
ACCESSION   NC_000002
VERSION     NC_000002.12
DBLINK      BioProject: PRJNA168
            Assembly: GCF_000001405.40
KEYWORDS    RefSeq.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 242193529)
  AUTHORS   Hillier,L.W., Graves,T.A., Fulton,R.S., Fulton,L.A., Pepin,K.H.,
            Minx,P., Wagner-McPherson,C., Layman,D., Wylie,K., Sekhon,M.,
            Becker,M.C., Fewell,G.A., Delehaunty,K.D., Miner,T.L., Nash,W.E.,
            Kremitzki,C., Oddy,L., Du,H., Sun,H., Bradshaw-Cordum,H., Ali,J.,
            Carter,J., Cordes,M., Harris,A., Isak,A., van Brunt,A., Nguyen,C.,
            Du,F., Courtney,L., Kalicki

Usando a sequência nucleotídica pretendida: NG_052839, usou-se o comando Entrez.efetch, novamente do Bio.Entrez package, que permite recuperar registros no formato solicitado, neste caso, GenBank. De seguida fez-se o print deste ficheiro em GenBank, representativo do gene GRB14 no organismo humano.

In [11]:
from Bio import SeqIO
from Bio import Entrez

Entrez.email="grupo19@gmail.com"

handle=Entrez.efetch(db="nucleotide", id="NC_000002.12", rettype="gb", retmode="text")
record=SeqIO.read(handle,"genbank")
handle.close

<function TextIOWrapper.close()>

In [12]:
from Bio import SeqIO
from Bio import Entrez

Entrez.email="grupo19@gmail.com"

Id=record.id
print('O Id é:', Id)

nome=record.name
print('O nome da sequência é:',nome)

sequencia=record.seq
tamanho=len(sequencia)
print('O tamanho da sequência é:', tamanho)

descricao=record.description
print('A descricao da sequência nucleotídica é:', descricao)

O Id é: NC_000002.12
O nome da sequência é: NC_000002
O tamanho da sequência é: 242193529
A descricao da sequência nucleotídica é: Homo sapiens chromosome 2, GRCh38.p14 Primary Assembly


Nesta parte retornou-se as anotações, ou seja, um dicionário que contém informações adicionais sobre a sequência. Desta forma, obteviram-se resultados para as anotações de interessse, nomeadamente, para o organismo, para a taxonomia, para o tipo de molécula, para a topologia, para o data file division, para a versão da sequência a, ainda, para a fonte. O código retorna, do dicionário, a chave correspondente.

In [13]:
#chaves do dicionário que forma as anotações
chaves=record.annotations.keys()
print(chaves)

dict_keys(['molecule_type', 'topology', 'data_file_division', 'date', 'accessions', 'sequence_version', 'keywords', 'source', 'organism', 'taxonomy', 'references', 'comment', 'structured_comment', 'contig'])


In [14]:
organismo=record.annotations["organism"]
print('O organismo é:', organismo)

taxonomia=record.annotations["taxonomy"]
print('A taxonomia é:', taxonomia)

tipo=record.annotations["molecule_type"]
print('O tipo de molécula é:', tipo)

topologia=record.annotations["topology"]
print('A topologia é:', topologia)

data= record.annotations["data_file_division"]
print ('A data file division é:', data)

sequencia=record.annotations["sequence_version"]
print ('A versão da sequencia é:', sequencia)

fonte=record.annotations["source"]
print ('A fonte é:', fonte)

O organismo é: Homo sapiens
A taxonomia é: ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
O tipo de molécula é: DNA
A topologia é: linear
A data file division é: CON
A versão da sequencia é: 12
A fonte é: Homo sapiens (human)


4.Adicionalmente, de forma a extrair informações sobre as features, começa-se por extrair do ficheiro em formato GenBank a quantidade de features, com recurso ao len(record.features), a lista de features, o tipo de features e a localização de cada uma delas. Isto é possível recorrendo ao módulo Bio.SeqFeature, e ao SeqIO e Entrez, já apresentados anteriormente.

In [15]:
from Bio import SeqIO
from Bio import Entrez
from Bio import SeqFeature

Entrez.email="grupo19@gmail.com"

features=record.features
tipos_de_features=[]
localizacao_das_features=[]
for f in features:
    localizacao_das_features.append(f.location)
    if f.type in tipos_de_features:
        f=+1
    else:
        tipos_de_features.append(f.type)
        
#lista de features
print(features)


[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(242193529), strand=1), type='source')]


In [8]:
#tipos de features
print('Os tipos de features são:', tipos_de_features)

#posicao das features
print('A localização das features é:', localizacao_das_features)

#quantidade de features
print('Existem', len(record.features), 'features') 

Os tipos de features são: ['source', 'gene', 'mRNA', 'exon', 'CDS', 'misc_feature']
A localização das features é: [FeatureLocation(ExactPosition(0), ExactPosition(136445), strand=1), FeatureLocation(ExactPosition(5368), ExactPosition(134434), strand=1), CompoundLocation([FeatureLocation(ExactPosition(5368), ExactPosition(5732), strand=1), FeatureLocation(ExactPosition(7031), ExactPosition(7164), strand=1), FeatureLocation(ExactPosition(79034), ExactPosition(79191), strand=1), FeatureLocation(ExactPosition(99715), ExactPosition(99837), strand=1), FeatureLocation(ExactPosition(101772), ExactPosition(101847), strand=1), FeatureLocation(ExactPosition(104733), ExactPosition(104871), strand=1), FeatureLocation(ExactPosition(117998), ExactPosition(118109), strand=1), FeatureLocation(ExactPosition(118300), ExactPosition(118396), strand=1), FeatureLocation(ExactPosition(124515), ExactPosition(124596), strand=1), FeatureLocation(ExactPosition(129360), ExactPosition(129477), strand=1), FeatureLoc

5.De seguida identifica-se as sequências codificantes associada a este registo recorrendo à lista de features e ao código seguinte. Através dos “qualifiers” associados, determinou-se ainda qual a proteína codificada e imprimiu-se a sequência da mesma.

In [17]:
from Bio import SeqIO
from Bio import Entrez
from Bio import SeqFeature

Entrez.email="grupo19@gmail.com"

featcds=[]
numero_cds=0

for i in range(len(features)):
    if features[i].type=="CDS":
        featcds.append(i)
        numero_cds+=1
    for k in featcds:
        id_proteina=features[k].qualifiers["protein_id"]
    for k in featcds:
        produto=features[k].qualifiers["product"] 
    for k in featcds:
        translacao=features[k].qualifiers["translation"]

#qualifiers associados às sequências codificantes do registo do gene
print('O id da proteína é',id_proteina)
print('A proteína codificada é', produto) 
print('A sequência da proteína codificada é', translacao) 

O id da proteína é ['NP_004481.2']
A proteína codificada é ['growth factor receptor-bound protein 14 isoform 1']
A sequência da proteína codificada é ['MTTSLQDGQSAASRAAARDSPLAAQVCGAAQGRGDAHDLAPAPWLHARALLPLPDGTRGCAADRRKKKDLDVPEMPSIPNPFPELCCSPFTSVLSADLFPKANSRKKQVIKVYSEDETSRALDVPSDITARDVCQLLILKNHYIDDHSWTLFEHLPHIGVERTIEDHELVIEVLSNWGIEEENKLYFRKNYAKYEFFKNPMYFFPEHMVSFATETNGEISPTQILQMFLSSSTYPEIHGFLHAKEQGKKSWKKIYFFLRRSGLYFSTKGTSKEPRHLQFFSEFGNSDIYVSLAGKKKHGAPTNYGFCFKPNKAGGPRDLKMLCAEEEQSRTCWVTAIRLLKYGMQLYQNYMHPYQGRSGCSSQSISPMRSISENSLVAMDFSGQKSRVIENPTEALSVAVEEGLAWRKKGCLRLGTHGSPTASSQSSATNMAIHRSQPWFHHKISRDEAQRLIIQQGLVDGVFLVRDSQSNPKTFVLSMSHGQKIKHFQIIPVEDDGEMFHTLDDGHTRFTDLIQLVEFYQLNKGVLPCKLKHYCARIAL']


6.Por fim, apresenta-se o número de genes anotados no registo da feature do tipo : “gene”.

In [18]:
n_genes=0
feat_gene=[]
for i in range(len(features)):
    if features[i].type=="gene":
        n_genes=+1
        feat_gene.append(i)
print('O número de features do tipo gene é', len(feat_gene))


O número de features do tipo gene é 0
