# Análise de sequências e features no NCBI

In [7]:
from Bio import Entrez
from Bio import SeqIO

## Funções para aceder, extraír e guardar informação do NCBI 

In [8]:
Entrez.email = input("Insira o seu e-mail: ")

def access_ncbi_seq(accession: str, database: str, format: str):
    """
    Função para aceder, extrair e guardar a informação de sequências do NCBI
    Recebe o accession id da sequência, a respetiva base de dados ('nucleotide' ou 'protein'),
    o formato em que queremos trabalhar a informação ('gb' ou 'faa')
    """
    handle = Entrez.efetch(db=database, id=accession, rettype=format, retmode="text")
    record = SeqIO.read(handle, format)
    handle.close()

    return record

In [9]:
def seq_annotations(record):
    """
    Função que mostra as anotações do ficheiro GenBank criado
    Recebe o record obtido ao ler o ficheiro através da função access_ncbi_seq
    """
    print("ID:", record.id)
    print("Nome:", record.name)
    print("Descrição:", record.description)
    print("Comprimento da sequência:", len(record))
    print("Anotações gerais:\n", record.annotations)
    if len(record.dbxrefs) != 0:
        print("Referências a Bases de Dados Externas:", record.dbxrefs)

In [10]:
def seq_features_qualifiers(record):
    """
    Função que mostra as features e os seus qualifiers
    Recebe o record obtido ao ler o ficheiro através da função access_ncbi_seq
    """
    print(len(record.features), "features\n")
    print("Tipo e Localização:")
    for feature in record.features:
        print(feature.type, feature.location)
    print("\nQualifiers:")
    for k in range(len(record.features)):
        print(record.features[k].qualifiers)

## Análise, features e qualifiers das sequências de mRNA

In [11]:
# Aceder e imprimir anotações para o gene TSLP (mRNA)
tslp_mrna_record = access_ncbi_seq("NM_033035", "nucleotide", "gb")
print("Anotações para o gene TSLP (mRNA)(curated):")
seq_annotations(tslp_mrna_record)

# Aceder e imprimir features e qualifiers para o gene TSLP (mRNA)
print("\nFeatures e Qualifiers para o gene TSLP (mRNA)(curated):")
seq_features_qualifiers(tslp_mrna_record)


Anotações para o gene TSLP (mRNA)(curated):
ID: NM_033035.5
Nome: NM_033035
Descrição: Homo sapiens thymic stromal lymphopoietin (TSLP), transcript variant 1, mRNA
Comprimento da sequência: 2610
Anotações gerais:
 {'molecule_type': 'mRNA', 'topology': 'linear', 'data_file_division': 'PRI', 'date': '15-OCT-2023', 'accessions': ['NM_033035'], 'sequence_version': 5, 'keywords': ['RefSeq', 'MANE Select'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='Integration analysis using bioinformatics and experimental validation on the clinical and biological significance of TSLP in cancers', ...), Reference(title='Thymic Stromal Lymphopoietin (TSLP), Its Isoforms and the Interplay with the Epithelium in Allergy and Asthma', ...), Reference(title='The short 

## Análise Descritiva da Sequência:

O gene TSLP (transcript variant 1, mRNA) possui uma sequência de 2610 bases e está localizado no cromossoma 5 (5q22.1) em *Homo sapiens* ([RefSeq: NM_033035.5](https://www.ncbi.nlm.nih.gov/nuccore/NM_033035.5)). Algumas características importantes da sequência e sua interpretação em relação à resposta imune e doenças inflamatórias são:

- **Localização e Variantes:**
  - O gene TSLP possui múltiplos exons e variantes de transcrito resultantes de splicing alternativo, o que pode contribuir para a diversidade funcional. A região genômica mostra a presença de elementos regulatórios, como locais de poliadenilação (polyA sites) e sequências de sinal.

- **Expressão e Regulação:**
  - É observável a evidência de poliadenilação e localização de sítios de iniciação.


## Análise, features e qualifiers da proteína

In [12]:
# Aceder e imprimir anotações para a proteína do gene TSLP
tslp_protein_record = access_ncbi_seq("NP_149024.1", "protein", "gb")
print("\nAnotações para a proteína do gene TSLP(curated):")
seq_annotations(tslp_protein_record)

# Aceder e imprimir features e qualifiers para a proteína do gene TSLP
print("\nFeatures e Qualifiers para a proteína do gene TSLP(curated):")
seq_features_qualifiers(tslp_protein_record)


Anotações para a proteína do gene TSLP(curated):
ID: NP_149024.1
Nome: NP_149024
Descrição: thymic stromal lymphopoietin isoform 1 precursor [Homo sapiens]
Comprimento da sequência: 159
Anotações gerais:
 {'topology': 'linear', 'data_file_division': 'PRI', 'date': '15-OCT-2023', 'accessions': ['NP_149024'], 'sequence_version': 1, 'db_source': 'REFSEQ: accession NM_033035.5', 'keywords': ['RefSeq', 'MANE Select'], 'source': 'Homo sapiens (human)', 'organism': 'Homo sapiens', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='Integration analysis using bioinformatics and experimental validation on the clinical and biological significance of TSLP in cancers', ...), Reference(title='Thymic Stromal Lymphopoietin (TSLP), Its Isoforms and the Interplay with the Epithelium in Allergy and Asthma', ...), Reference(titl

## Análise Descritiva da Proteína:

A proteína TSLP é um regulador chave em doenças alérgicas, desempenhando um papel crucial na resposta imune ([Breiteneder et al., 2020](https://pubmed.ncbi.nlm.nih.gov/32049192/)). Alguns pontos relevantes sobre a proteína e sua relação com alergias e doenças inflamatórias são:

- **Proteína Codificada (TSLP isoform 1 precursor):**
  - A proteína codificada é identificada como TSLP isoform 1 precursor, cuja função é crucial na sinalização imune, especialmente em respostas alérgicas e inflamatórias. A tradução da sequência gera uma proteína com características importantes, como um sinal peptídico, peptídeo maduro, e domínios específicos relacionados à função biológica da TSLP.

- **Função Biológica:**
  - A TSLP é uma citoquina hematopoiética que sinaliza através de um complexo recetor heterodímero, impactando principalmente células mieloides. Induz a liberação de quimiocinas atrativas para células T e a maturação de células dendríticas, promovendo respostas de células T helper tipo 2 (TH2).

- **Isoformas e Atividade:**
  - Existem isoformas da TSLP, sendo a isoforma mais longa (lfTSLP) relacionada a processos inflamatórios, incluindo asma e COPD. A isoforma mais curta (sfTSLP) exibe atividade antimicrobiana, evidenciando um papel dual na resposta imune.

- **Relação com Doenças:**
  - A expressão desregulada da TSLP está associada a doenças atópicas, destacando seu papel em doenças alérgicas, como a asma. Biomarcadores relacionados à TSLP são cruciais para diagnóstico e previsão de respostas terapêuticas em doenças alérgicas.

## Resumo:
*Em resumo, a análise descritiva da sequência e da proteína TSLP destaca sua importância na regulação da resposta imune e seu potencial como alvo terapêutico em doenças alérgicas e inflamatórias. A compreensão desses aspectos é essencial para avanços no diagnóstico e tratamento de condições como a esofagite eosinofílica e outras doenças relacionadas.*