# Análise de sequências e features no NCBI 

In [14]:
from Bio import Entrez
from Bio import SeqIO

## Funções para aceder, extraír e guardar informação do NCBI 

In [15]:
Entrez.email = input("Insira o seu e-mail: ")

def access_ncbi_seq(accession: str, database: str, format: str):
    """
    Função para aceder, extrair e guardar a informação de sequências do NCBI
    Recebe o accession id da sequência, a respetiva base de dados ('nucleotide' ou 'protein'),
    o formato em que queremos trabalhar a informação ('gb' ou 'faa')
    """
    handle = Entrez.efetch(db=database, id=accession, rettype=format, retmode="text")
    record = SeqIO.read(handle, format)
    handle.close()

    return record

In [16]:
def seq_annotations(record):
    """
    Função que mostra as anotações do ficheiro GenBank criado
    Recebe o record obtido ao ler o ficheiro através da função access_ncbi_seq
    """
    print("ID:", record.id)
    print("Nome:", record.name)
    print("Descrição:", record.description)
    print("Comprimento da sequência:", len(record))
    print("Anotações gerais:\n", record.annotations)
    if len(record.dbxrefs) != 0:
        print("Referências a Bases de Dados Externas:", record.dbxrefs)

In [17]:
def seq_features_qualifiers(record):
    """
    Função que mostra as features e os seus qualifiers
    Recebe o record obtido ao ler o ficheiro através da função access_ncbi_seq
    """
    print(len(record.features), "features\n")
    print("Tipo e Localização:")
    for feature in record.features:
        print(feature.type, feature.location)
    print("\nQualifiers:")
    for k in range(len(record.features)):
        print(record.features[k].qualifiers)

## Análise, features e qualifiers das sequências de mRNA

In [18]:
# Aceder e imprimir anotações para o gene WDR36 (mRNA)
wdr36_mrna_record = access_ncbi_seq("NM_139281", "nucleotide", "gb")
print("Anotações para o gene WDR36 (mRNA):")
seq_annotations(wdr36_mrna_record)

# Aceder e imprimir features e qualifiers para o gene WDR36 (mRNA)
print("\nFeatures e Qualifiers para o gene WDR36 (mRNA):")
seq_features_qualifiers(wdr36_mrna_record)

Anotações para o gene WDR36 (mRNA):
ID: NM_139281.3
Nome: NM_139281
Descrição: Homo sapiens WD repeat domain 36 (WDR36), mRNA
Comprimento da sequência: 6416
Anotações gerais:
 {'molecule_type': 'mRNA', 'topology': 'linear', 'data_file_division': 'PRI', 'date': '05-APR-2023', 'accessions': ['NM_139281'], 'sequence_version': 3, 'keywords': ['RefSeq', 'MANE Select'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='WDR36-Associated Neurodegeneration: A Case Report Highlights Possible Mechanisms of Normal Tension Glaucoma', ...), Reference(title='Nucleolar maturation of the human small subunit processome', ...), Reference(title='An Application of NGS for WDR36 Gene in Taiwanese Patients with Juvenile-Onset Open-Angle Glaucoma', ...), Reference(title='

## Análise descritiva da sequência

## Análise, features e qualifiers da proteína

In [19]:
# Aceder e imprimir anotações para a proteína do gene WDR36
wdr36_protein_record = access_ncbi_seq("NP_644810.2", "protein", "gb")
print("\nAnotações para a proteína do gene WDR36:")
seq_annotations(wdr36_protein_record)

# Aceder e imprimir features e qualifiers para a proteína do gene WDR36
print("\nFeatures e Qualifiers para a proteína do gene WDR36:")
seq_features_qualifiers(wdr36_protein_record)


Anotações para a proteína do gene WDR36:
ID: NP_644810.2
Nome: NP_644810
Descrição: WD repeat-containing protein 36 [Homo sapiens]
Comprimento da sequência: 895
Anotações gerais:
 {'topology': 'linear', 'data_file_division': 'PRI', 'date': '05-APR-2023', 'accessions': ['NP_644810'], 'sequence_version': 2, 'db_source': 'REFSEQ: accession NM_139281.3', 'keywords': ['RefSeq', 'MANE Select'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='WDR36-Associated Neurodegeneration: A Case Report Highlights Possible Mechanisms of Normal Tension Glaucoma', ...), Reference(title='Nucleolar maturation of the human small subunit processome', ...), Reference(title='An Application of NGS for WDR36 Gene in Taiwanese Patients with Juvenile-Onset Open-Angle Glaucoma

## Análise descritiva da proteina

## Resumo: