# Análise da sequência e das features presentes no NCBI

Nesta etapa do trabalho elaboraram-se _scripts_ em _BioPyhton_ com o propósito de aceder ao NCBI e, posteriormente, guardar os ficheiros referentes aos genes de interesse, SERPINB7 e SGCD. A partir desses ficheiros, foi possível explorar variantes dos genes em questão e, ainda, explorar as respetivas anotações, _features_ e _qualifiers_. 


Posto isto, começou-se por __acessar ao NCBI__ e, para tal, foi necessário importar o ___módulo_Entrez___ fornecido pela biblioteca _Biopython_. O módulo _Entrez_ permite aceder às bases de dados que se encontram no NCBI.


In [1]:
from Bio import Entrez

Através do ___Entrez.esearch___ pôde-se acessar ao identificador de acesso do _GenBank_ específico para cada um dos genes. Assim, fez-se por encontrar, especificamente, os __IDs associados a cada um dos genes em _Homo Sapiens___, ou seja, em Humanos.

In [4]:
Entrez.email = "bialvadia@gmail.com"

handle1=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND SERPINB7[Gene]", idtype="acc")
handle2=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND SGCD[Gene]", idtype="acc")
record1=Entrez.read(handle1)
record2=Entrez.read(handle2)

print("ID's do gene SERPINB7:")
print(record1["IdList"])
print('')
print("ID's do gene SGCD:")
print(record2["IdList"])

handle1.close()
handle2.close()


ID's do gene SERPINB7:
['NC_000018.10', 'NC_060942.1', 'XM_054319290.1', 'XM_024451278.1', 'NM_001261830.2', 'NM_001261831.2', 'NM_001040147.3', 'NM_003784.4', 'NG_034150.1', 'CM000269.1', 'CH471096.1', 'BC106744.2', 'BC106743.2', 'BC069442.1', 'BC069547.1', 'BC069417.1', 'NT_086329.2', 'AY401223.1']

ID's do gene SGCD:
['NM_000337.6', 'NM_001128209.2', 'NM_172244.3', 'NC_000005.10', 'NC_060929.1', 'XM_054353132.1', 'XM_054353131.1', 'XM_054353130.1', 'XM_054353129.1', 'XM_054353128.1', 'XM_054353127.1', 'XM_005265967.3', 'XM_047417520.1', 'XM_047417519.1', 'XM_047417518.1', 'XM_017009724.2', 'XM_005265966.6', 'MF796224.1', 'MF796223.1', 'NG_008693.2']


Analisando os ID's obtidos, pôde constatar-se que o identificador único de acesso ao GenBank referente ao gene SERPINB7 é 'NG_034150.1' e o referente ao gene SGDC é 'NG_008693.2'.

De seguida, com os identificadores obtidos e através do _Entrez.efetch_, pôde-se acessar a informações referentes a cada um dos genes no _GenBank_.
De notar que foi necessário importar o objeto _SeqIO_ da biblioteca _Biopython_, que é uma ferramenta que permite a manipulação de sequências biológicas em diversos formatos, tais como fasta ou genBank.

As anotações são informações gerais associadas a uma sequência biológica, podendo incluir informações, tais como: tipo de molécula, organismo de origem, tamanho da sequência, datas, versões, etc.

Por sua vez, as _features_ referem-se a características acerca de partes específicas de uma sequência, tais como genes, exões, intrões, etc.

Por outro lado, os _qualifiers_ são atributos associados a cada _feature_, ou seja, fornecem informações adicionais acerca destas.

### Anotações e _features_ referentes ao gene SERPINB7

In [3]:
from Bio import SeqIO

handle1 = Entrez.efetch(db="nucleotide", id="NG_034150.1", rettype="gb", retmode="text")
seq_record1=SeqIO.read(handle1, "genbank")
print("Anotações referentes ao gene SERPINB7:")
print("ID: ", seq_record1.id)
print("Nome: ", seq_record1.name)
print("Descrição: ", seq_record1.description)
print("Número de Features: ", len(seq_record1.features))
print(" Tipo de Molécula: ", seq_record1.annotations["molecule_type"])
print(" Topologia: ", seq_record1.annotations["topology"])
print(" Data: ", seq_record1.annotations["date"])
print(" Versão da sequência: ", seq_record1.annotations["sequence_version"])
print(" Palavras chave: ", seq_record1.annotations["keywords"])
print(" Fonte: ", seq_record1.annotations["source"])
print(" Organismo: ", seq_record1.annotations["organism"])
print(" Taxonomia: ", seq_record1.annotations["taxonomy"])
print("Sequência: ", seq_record1.seq[:150], "...")
print("Comprimento da sequência: ", len(seq_record1.seq))

handle1.close()  

Anotações referentes ao gene SERPINB7:
ID:  NG_034150.1
Nome:  NG_034150
Descrição:  Homo sapiens serpin family B member 7 (SERPINB7), RefSeqGene on chromosome 18
Número de Features:  15
 Tipo de Molécula:  DNA
 Topologia:  linear
 Data:  01-JAN-2023
 Versão da sequência:  1
 Palavras chave:  ['RefSeq', 'RefSeqGene']
 Fonte:  Homo sapiens (human)
 Organismo:  Homo sapiens
 Taxonomia:  ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
Sequência:  ATCCACCTTCTAGGCTTTCAATGTACACTGTCTTCATGAAGAAAGTGTATAGGATGTGGAACAGAGACACTACTGAGGTTTCTTAATCAATTTTCTAGACTCACAGTCATGTCAATAGTCTTGGAAGTCTTGACAAAGGTCTAATATCTA ...
Comprimento da sequência:  59330


### Anotações e _features_ referentes ao gene SGCD

In [15]:
handle2 = Entrez.efetch(db="nucleotide", id="NG_008693.2", rettype="gb", retmode="text")
seq_record2=SeqIO.read(handle2, "genbank")
print("Anotações referentes ao gene SGCD:")
print("ID: ", seq_record2.id)
print("Nome: ", seq_record2.name)
print("Descrição: ", seq_record2.description)
print("Número de Features: ", len(seq_record2.features))
print(" Tipo de Molécula: ", seq_record2.annotations["molecule_type"])
print(" Topologia: ", seq_record2.annotations["topology"])
print(" Data: ", seq_record2.annotations["date"])
print(" Versão da sequência: ", seq_record2.annotations["sequence_version"])
print(" Palavras chave: ", seq_record2.annotations["keywords"])
print(" Fonte: ", seq_record2.annotations["source"])
print(" Organismo: ", seq_record2.annotations["organism"])
print(" Taxonomia: ", seq_record2.annotations["taxonomy"])
print("Sequência: ", seq_record2.seq[:150], "...")
print("Comprimento da sequência: ", len(seq_record2.seq))


handle2.close()

Anotações referentes ao gene SGCD:
ID:  NG_008693.2
Nome:  NG_008693
Descrição:  Homo sapiens sarcoglycan delta (SGCD), RefSeqGene (LRG_205) on chromosome 5
Número de Features:  13
 Tipo de Molécula:  DNA
 Topologia:  linear
 Data:  05-JUN-2020
 Versão da sequência:  2
 Palavras chave:  ['RefSeq', 'RefSeqGene']
 Fonte:  Homo sapiens (human)
 Organismo:  Homo sapiens
 Taxonomia:  ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
Sequência:  ATCTAGATTCTTGTATCTACTTCAACTTTCAATTTATTGTGATATGTTGTTTTGGTTGAAGTATATGAAGAAAATCTGGTCTCATATAGGTATGTAGTGGAAAGGGAATGGGCATTTTAATATCCTTTGCAGATAATTGTGAATGTTGTC ...
Comprimento da sequência:  904446


### _Qualifiers_ referentes ao gene SERPINB7

In [35]:
features1 = seq_record1.features
tipos1 = []
for feature1 in features1:
    if feature1.type not in tipos1:
        tipos1.append(feature1.type)

print("Nº total de features: ", len(features1))

num1 = 0
for tipo1 in tipos1:
    for feature1 in features1:
        if feature1.type == tipo1:
            num1 = num1 + 1
    print("Features do tipo", tipo1, ":", num1)
    num1 = 0

print("\n")

for feature1 in features1:
    print("Tipo da Feature:", feature1.type)
    print("Localização:", feature1.location)
    print("Qualifiers:")
    qualifiers=feature1.qualifiers
    for chave, valor in qualifiers.items():
        print(f" {chave}: {', '.join(valor)}")
        
    print("\n")

    
cds=[]
numero_cds=0
for i in range(len(features1)):
    if features1[i].type=="CDS":
        cds.append(i)
        numero_cds = numero_cds + 1
    for k in cds:
        id_proteina=features1[k].qualifiers["protein_id"]
        produto=features1[k].qualifiers["product"] 
        translacao=features1[k].qualifiers["translation"]

print("Qualifiers associados às sequências codificantes do registo do gene:")
print(' O id da proteína é',id_proteina)
print(' A proteína codificada é', produto) 
print(' A sequência da proteína codificada é', translacao) 


Nº total de features:  15
Features do tipo source : 1
Features do tipo gene : 1
Features do tipo mRNA : 1
Features do tipo exon : 8
Features do tipo CDS : 1
Features do tipo misc_feature : 3


Tipo da Feature: source
Localização: [0:59330](+)
Qualifiers:
 organism: Homo sapiens
 mol_type: genomic DNA
 db_xref: taxon:9606
 chromosome: 18
 map: 18q21.33


Tipo da Feature: gene
Localização: [27371:57324](+)
Qualifiers:
 gene: SERPINB7
 gene_synonym: MEGSIN; PPKN; TP55
 note: serpin family B member 7
 db_xref: GeneID:8710, HGNC:HGNC:13902, MIM:603357


Tipo da Feature: mRNA
Localização: join{[27371:27670](+), [34308:34494](+), [44346:44397](+), [45114:45231](+), [48219:48337](+), [50557:50700](+), [52819:52966](+), [56190:57324](+)}
Qualifiers:
 gene: SERPINB7
 gene_synonym: MEGSIN; PPKN; TP55
 product: serpin family B member 7, transcript variant 1
 transcript_id: NM_003784.4
 db_xref: GeneID:8710, HGNC:HGNC:13902, MIM:603357


Tipo da Feature: exon
Localização: [27371:27670](+)
Qualifier

### _Qualifiers_ referentes ao gene SGCD

In [34]:
tipos2 = []
for feature2 in features2:
    if feature2.type not in tipos2:
        tipos2.append(feature2.type)

print("Nº total de features: ", len(features2))

num2 = 0
for tipo2 in tipos2:
    for feature2 in features2:
        if feature2.type == tipo2:
            num2 = num2 + 1
    print("Features do tipo", tipo2, ":", num2)
    num2 = 0

print("\n")
    
for feature2 in features2:
    print("Tipo da Feature:", feature2.type)
    print("Localização:", feature2.location)
    print("Qualifiers:")
    qualifiers2=feature2.qualifiers
    for chave, valor in qualifiers2.items():
        print(f" {chave}: {', '.join(valor)}")
        
    print("\n")


cds=[]
numero_cds=0
for i in range(len(features2)):
    if features2[i].type=="CDS":
        cds.append(i)
        numero_cds = numero_cds + 1
    for k in cds:
        id_proteina=features2[k].qualifiers["protein_id"]
        produto=features2[k].qualifiers["product"] 
        translacao=features2[k].qualifiers["translation"]

print("Qualifiers associados às sequências codificantes do registo do gene:")
print(' O id da proteína é',id_proteina)
print(' A proteína codificada é', produto) 
print(' A sequência da proteína codificada é', translacao) 

Nº total de features:  13
Features do tipo source : 1
Features do tipo gene : 1
Features do tipo mRNA : 1
Features do tipo exon : 9
Features do tipo CDS : 1


Tipo da Feature: source
Localização: [0:904446](+)
Qualifiers:
 organism: Homo sapiens
 mol_type: genomic DNA
 db_xref: taxon:9606
 chromosome: 5
 map: 5q33.2-q33.3


Tipo da Feature: gene
Localização: [461413:902446](+)
Qualifiers:
 gene: SGCD
 gene_synonym: 35DAG; CMD1L; DAGD; LGMDR6; SG-delta; SGCDP; SGD
 note: sarcoglycan delta
 db_xref: GeneID:6444, HGNC:HGNC:10807, MIM:601411


Tipo da Feature: mRNA
Localização: join{[461413:461889](+), [464190:464236](+), [479145:479334](+), [643257:643359](+), [723887:723975](+), [729588:729708](+), [782120:782193](+), [892238:892362](+), [893874:902446](+)}
Qualifiers:
 gene: SGCD
 gene_synonym: 35DAG; CMD1L; DAGD; LGMDR6; SG-delta; SGCDP; SGD
 product: sarcoglycan delta, transcript variant 1
 transcript_id: NM_000337.5
 db_xref: GeneID:6444, LRG:t1, HGNC:HGNC:10807, MIM:601411


Tipo da

Nas _features_ apresentadas acima, destacam-se as _features_ do tipo _cds_, que correspondem a _features_ codificadoras. Com esta informações, pôde-se identificar a proteína codificada por essa _feature_. Identificou-se também a tradução da sequência de DNA codificante para a proteína em questão.

A proteína codificada pela sequência CDS do gene SERPINB7 é denominada de _serpin B7 isoform 1_. Já a proteína codificada pela sequência CDS do gene SGCD é denominada _delta-sarcoglycan isoform 1_.