# Análise da sequência e das features presentes no *NCBI*

Nesta fase do projeto é proposto o desenvolvimento de *scripts* em *BioPython* que sejam capazes de aceder ao *NCBI* e guardar os ficheiros correspondentes aos genes escolhidos e ainda, se possivel, explorar variantes. 

É ainda da competência desta etapa explorar esses ficheiros e analisar as informações complementares, como anotações, features e qualifiers.

Para tal ser possível, começou-se por-se por importar o módulo Entrez, que providencia código para aceder ao *NCBI* através da *World Wide Web*. E ainda o objeto SeqIO, o qual fornece um conjunto de interfaces para trabalhar com vários formatos de sequências biológicas como ficheiros *fasta* ou *genBank*.


In [2]:
from Bio import Entrez
from Bio import SeqIO


Deste modo, através do *Entrez.esearch* realiza-se uma busca no *NCBI* por sequências de nucleotidos relacionados com os genes de interesse (*MTNR1B[Gene]* e *SLC30A8[Gene]*) e com o organismo *Homo sapiens[Orgn]*.

Com isto pretende-se detetar se existo algum tipo de conexão nucleotidica entre os dois genes. Atente-se ainda que a lista retorna IDs de sequências de nucleotidos que podem variar desde: sequências parciais, sequências transcritas ou sequências de cDNA, etc

In [5]:
Entrez.email = "pg50664@alunos.uminho.pt"

handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND MTNR1B[Gene]",idtype="acc")
handle2=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND SLC30A8[Gene]",idtype="acc")
record=Entrez.read(handle)
record2=Entrez.read(handle2)

print("Lista de IDs do gene MTNR1B:\n\n",record["IdList"], "\n")
print("Lista de IDs do gene SLC30A8:\n\n",record2["IdList"], "\n")
handle.close() 
handle2.close() 


elementos_comum = set(record["IdList"]) & set(record2["IdList"])
print("ID em comum nas duas listas: ",elementos_comum)

Lista de IDs do gene MTNR1B:

 ['NM_005959.5', 'NG_028160.1', 'NC_060935.1', 'NC_000011.10', 'XM_011542839.3', 'XM_017017777.2', 'AF467654.1', 'AY114100.1', 'CM000262.1', 'CH471065.1', 'BC069163.1', 'AY408030.1', 'U25341.1', 'AY521019.1'] 

Lista de IDs do gene SLC30A8:

 ['NM_001172815.3', 'NM_001172811.2', 'NM_001172813.2', 'NM_001172814.2', 'NM_173851.3', 'NG_016991.1', 'NC_060932.1', 'NC_000008.11', 'XM_024447083.2', 'KR712225.1', 'KR711678.1', 'CM000259.1', 'CH471060.1', 'AY117411.1', 'AB528236.1', 'AM392521.1', 'AM393307.1', 'EF560713.1'] 

ID em comum nas duas listas:  set()


Ao investigar os IDs obtidos diretamente no NCBI, é possível concluir que o ID relacionado ao gene MTNR1B é o 'NG_028160.1', o qual se encontra em segundo lugar na lista de IDs.
Relativamente ao outro gene, SLC30A8, o ID correspondente é o 6º da lista, ou seja, o 'NG_016991.1'. Além disto, como não há IDS comum às duas listas é possivel afirmar que estes genes não têm nenhum tipo de relação genéticamente.

Seguidamente, procede-se ao escrutínio das 2 sequências e das suas *features*, recorrendo ao SeqIO.parse().
Para tal recorre-se à função efetch que faz download da informação relativa ao gene cujo ID é colocado no seu argumento de entrada id.

Analisando primeiro a sequência MTNR1B , é possivel recolher informações como o seu ID, descrição, comprimento da sequência, organismo de origem, e outras anotações ( que consiste num dicionário de informações adicionais acerca da sequência, que permite a adição de mais informação 'não estruturada' à sequência).

In [34]:
#GENE MTNR1B

handle = Entrez.efetch(db="nucleotide", id="NG_028160.1", rettype="gb", retmode="text") 
seq_record=SeqIO.read(handle, "genbank")
print ("ID: ",seq_record.id, " com ", len(seq_record.features), " features ")
print (seq_record.description)
print ("Comprimento da sequência: ", len(seq_record))
print ("De: ", seq_record.annotations["source"],"\n")
print ("Outras Anotações:")
print (" -Tipo de Molécula: ", seq_record.annotations["molecule_type"])
print (" -Topologia: ", seq_record.annotations["topology"])
print (" -Data: ", seq_record.annotations["date"])
print (" -Versão da Sequência:", seq_record.annotations["sequence_version"])
print (" -KeyWords: ", seq_record.annotations["keywords"])
print (" -Organismo: ", seq_record.annotations["organism"])
print (" -Taxonomia: ", seq_record.annotations["taxonomy"])
handle.close()

ID:  NG_028160.1  com  14  features 
Homo sapiens melatonin receptor 1B (MTNR1B), RefSeqGene on chromosome 11
Comprimento da sequência:  20160
De:  Homo sapiens (human) 

Outras Anotações:
 -Tipo de Molécula:  DNA
 -Topologia:  linear
 -Data:  17-SEP-2022
 -Versão da Sequência: 1
 -KeyWords:  ['RefSeq', 'RefSeqGene']
 -Organismo:  Homo sapiens
 -Taxonomia:  ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']


Repetindo o processo anterior para o outro gene de interesse para o estudo em questão, SLC30A8, obtemos: 

In [36]:
#GENE SLC30A8

handle = Entrez.efetch(db="nucleotide", id="NG_016991.1", rettype="gb", retmode="text") 
seq_record=SeqIO.read(handle, "genbank")
print ("ID: ",seq_record.id, " com ", len(seq_record.features), " features ")
print (seq_record.description)
print ("Comprimento da sequência: ", len(seq_record))
print ("De: ", seq_record.annotations["source"],"\n")
print ("Outras Anotações:")
print (" -Tipo de Molécula: ", seq_record.annotations["molecule_type"])
print (" -Topologia: ", seq_record.annotations["topology"])
print (" -Data: ", seq_record.annotations["date"])
print (" -Versão da Sequência:", seq_record.annotations["sequence_version"])
print (" -KeyWords: ", seq_record.annotations["keywords"])
print (" -Organismo: ", seq_record.annotations["organism"])
print (" -Taxonomia: ", seq_record.annotations["taxonomy"])
handle.close()

ID:  NG_016991.1  com  22  features 
Homo sapiens solute carrier family 30 member 8 (SLC30A8), RefSeqGene on chromosome 8
Comprimento da sequência:  233442
De:  Homo sapiens (human) 

Outras Anotações:
 -Tipo de Molécula:  DNA
 -Topologia:  linear
 -Data:  17-SEP-2022
 -Versão da Sequência: 1
 -KeyWords:  ['RefSeq', 'RefSeqGene']
 -Organismo:  Homo sapiens
 -Taxonomia:  ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']


Em seguida, as características da sequência são examinadas usando objetos SeqFeature. Esses objetos permitem armazenar informações sobre anotações das sequências de forma estruturada, seguindo o formato da tabela de características do GenBank.
Os seus principais atributos são:
   
   • location: localização da feature na sequência (pode ser uma posição, um 
    intervalo, etc.)
   
   • type: diz o tipo da feature (string)
   
   • qualifiers: informação adicional (dicionário)

Assim iniciou-se pelo estudo do primeiro gene, MTNR1B:

In [43]:
from Bio import Entrez
from Bio import SeqIO


handle = Entrez.efetch(db="nucleotide", rettype="gb", retmode="text", id="NG_028160.1") 
seq_record=SeqIO.read(handle, "genbank")
features=seq_record.features
tipos_features=[]
posicoes_features=[]
qualifiers_features=[]
num=0


for feature in features:
    print("Localização exata desta feature é de:", feature.location.start, "até", feature.location.end)
    print("Os seus Qualifiers são:", feature.qualifiers, "\n")
    print("-------------------------------------------")
    if feature.type not in tipos_features:
        tipos_features.append(feature.type)
        
print("O número de features é: ",len(seq_record.features),)
print("Os tipos de features são: ",tipos_features)
for tipo in tipos_features:
    for feature in features:
        if feature.type==tipo:
            num+=1
    print("O número das features do tipo",tipo,"são:", num)
    num=0

print("------------------------------------------------------------------ \n")
featcds = [ ]
for feature in features:
    if feature.type == "CDS":
        featcds.append(feature)
        print ("Localização das features do tipo cds vai de:",feature.location.start, "até",feature.location.end,"mais especificamente:", feature.location,"\n")
print("Número de features do tipo cds:",len(featcds))
for k in range(len(featcds)):
    product=featcds[k].qualifiers["product"] 
    print("\n Nome da Proteina:",product)
    translation=featcds[k].qualifiers["translation"]
    print("Respectiva translação:",translation)
print("-------------------------------------------")
handle.close() 

Localização exata desta feature é de: 0 até 20160
Os seus Qualifiers são: {'organism': ['Homo sapiens'], 'mol_type': ['genomic DNA'], 'db_xref': ['taxon:9606'], 'chromosome': ['11'], 'map': ['11q14.3']} 

-------------------------------------------
Localização exata desta feature é de: 5028 até 18160
Os seus Qualifiers são: {'gene': ['MTNR1B'], 'gene_synonym': ['FGQTL2; MEL-1B-R; MT2'], 'note': ['melatonin receptor 1B'], 'db_xref': ['GeneID:4544', 'HGNC:HGNC:7464', 'MIM:600804']} 

-------------------------------------------
Localização exata desta feature é de: 5028 até 18160
Os seus Qualifiers são: {'gene': ['MTNR1B'], 'gene_synonym': ['FGQTL2; MEL-1B-R; MT2'], 'product': ['melatonin receptor 1B'], 'transcript_id': ['NM_005959.5'], 'db_xref': ['GeneID:4544', 'HGNC:HGNC:7464', 'MIM:600804']} 

-------------------------------------------
Localização exata desta feature é de: 5028 até 5326
Os seus Qualifiers são: {'gene': ['MTNR1B'], 'gene_synonym': ['FGQTL2; MEL-1B-R; MT2'], 'inference

Deste modo,na alínea anterior, foi possivel determinar para o gene MTNR1B, a localização exata e os qualifiers para cada um dos features respetivamente, e ainda o número de features total, os tipos de features existentes e o número de cada tipo, por essa ordem.

Também se destacou as *features* do tipo cds (sequências codificadoras), para mostrar mais possibilidades e opções de seleção das ferramentas BioPython. Com a identificação das features codificadoras (cds), foi possível identificar também a proteína codificada por essa feature e a respectiva sequência de translação. Neste caso a proteina codificada é a  melatonin receptor type 1B que corresponde então ao MTNR1B, como previsto na literatura.

É possivel ainda usar os campos de referências externas para identificar identificadores de outras bases de dados, através do atributo 'db_xref' dos qualifiers.


In [44]:
from Bio import Entrez
from Bio import SeqIO


handle = Entrez.efetch(db="nucleotide", rettype="gb", retmode="text", id="NG_016991.1") 
seq_record=SeqIO.read(handle, "genbank")
features=seq_record.features
tipos_features=[]
posicoes_features=[]
qualifiers_features=[]
num=0


for feature in features:
    print("Localização exata desta feature é de:", feature.location.start, "até", feature.location.end)
    print("Os seus Qualifiers são:", feature.qualifiers, "\n")
    print("-------------------------------------------")
    if feature.type not in tipos_features:
        tipos_features.append(feature.type)
        
print("O número de features é: ",len(seq_record.features),)
print("Os tipos de features são: ",tipos_features)
for tipo in tipos_features:
    for feature in features:
        if feature.type==tipo:
            num+=1
    print("O número das features do tipo",tipo,"são:", num)
    num=0

print("------------------------------------------------------------------ \n")
featcds = [ ]
for feature in features:
    if feature.type == "CDS":
        featcds.append(feature)
        print ("Localização das features do tipo cds vai de:",feature.location.start, "até",feature.location.end,"mais especificamente:", feature.location,"\n")
print("Número de features do tipo cds:",len(featcds))
for k in range(len(featcds)):
    product=featcds[k].qualifiers["product"] 
    print("\n Nome da Proteina:",product)
    translation=featcds[k].qualifiers["translation"]
    print("Respectiva translação:",translation)
print("-------------------------------------------")
handle.close() 

Localização exata desta feature é de: 0 até 233442
Os seus Qualifiers são: {'organism': ['Homo sapiens'], 'mol_type': ['genomic DNA'], 'db_xref': ['taxon:9606'], 'chromosome': ['8'], 'map': ['8q24.11']} 

-------------------------------------------
Localização exata desta feature é de: 72673 até 72976
Os seus Qualifiers são: {'gene': ['RN7SL228P'], 'note': ['RNA, 7SL, cytoplasmic 228, pseudogene'], 'pseudo': [''], 'db_xref': ['GeneID:106480983', 'HGNC:HGNC:46244']} 

-------------------------------------------
Localização exata desta feature é de: 189722 até 231442
Os seus Qualifiers são: {'gene': ['SLC30A8'], 'gene_synonym': ['ZnT-8; ZNT8'], 'note': ['solute carrier family 30 member 8'], 'db_xref': ['GeneID:169026', 'HGNC:HGNC:20303', 'MIM:611145']} 

-------------------------------------------
Localização exata desta feature é de: 189722 até 231442
Os seus Qualifiers são: {'gene': ['SLC30A8'], 'gene_synonym': ['ZnT-8; ZNT8'], 'product': ['solute carrier family 30 member 8, transcript


Aplicando novamente o mesmo raciocinio, para o gene SLC30A8, foi possivel eterminar para o gene MTNR1B, a localização exata e os qualifiers para cada um dos features respetivamente, e ainda o número de features total, os tipos de features existentes e o número de cada tipo, por essa ordem.
Este, no entanto, apesar de ter apresentando apenas 1 feature do tipo cds tal como o anterior, o seu número total de features é superior (22>14), realçando a variedade de funções geneticas compreendidas neste gene em particular, especialmente por apresentar 3 features do tipo 'gene'.

Mais uma vez, a proteina codificada é, como esperado,a proton-coupled zinc antiporter SLC30A8 isoform a que corresponde ao gene em estudo, como previsto na literatura.

É possivel ainda usar os campos de referências externas para identificar identificadores de outras bases de dados, através do atributo 'db_xref' dos qualifiers.


Para concluir, apesar de os dois genes não terem uma ligação genetica como foi previsto na primera etapa desta fase, ambos pertecem ao mesmo organismo, à espécie Homo sapiens. A sua taxonomia completa começa em “Eucariota”, e termina em “Homo”. São moléculas de DNA, na qual o primeiro gene(MTNR1B) está localizado no cromossoma 11, e o segundo(SLC30A8) no cromossoma 8

O primeiro gene codifica a proteina 'melatonin receptor type 1B', responsável por regular a produção e liberação de melatonina, uma hormona produzida pelo cérebro que afeta o sono e o ritmo circadiano. A mutação ou ausência desta proteina pode levar a problemas de sono e distúrbios relacionados, o que está relacionado com o desenvolvimento de doenças como diabtes tipo2.

O segundo gene codifica a 'proton-coupled zinc antiporter SLC30A8 isoform ',uma proteína transmembranar que transporta zinco através da membrana celular. Deficiências ou alterações na atividade desta proteína podem estar relacionadas a doenças como diabetes tipo 2 e doenças neurodegenerativas.