# Análise da sequência e das features presentes no NCBI

### Transferência do ficheiro correspondente ao gene de interesse

De forma a realizar a transferência do ficheiro correspondente ao gene de interesse, em primeiro lugar, foi efetuada uma pesquisa no NCBI de forma a identificar o Accesion Number do gene de interesse. 

**Accession Number**: NC_000006

Assim, torna-se possível proceder à gravação do ficheiro de interesse. 

Utilizando a função **pesquisa_ncbi** e colocando os seguintes parâmetros na função:

In [None]:
pesquisa_ncbi(email,'NC_000006',db='nuccore',rettype='gb',retmax=1,save='y',display='n')

Foi gravado com sucesso o ficheiro pretendido.

### Transferência do ficheiro correspondente à proteína de interesse

Passando agora para a identificação e preparação de dados relacionados à proteína codificada pelo gene HLA-DQA1 para análises subsequentes. Utilizando a função pesquisa_ncbi, direcionamos a pesquisa para a base de dados 'protein' da NCBI, procurando recuperar informações específicas sobre a proteína de interesse.

In [None]:
pesquisa_ncbi(email,'DQA1_HUMAN',db='protein')

Através do output gerado pela função conseguimos obter o Accession Number da proteína codificada pelo gene de interesse. Procedemos à gravação do ficheiro da mesma.

In [None]:
pesquisa_ncbi(email,'P01909',db='protein',retmax=1,rettype='fasta',save='Y',display='n')

### Análise da sequência

Para realizar a análise da sequência genética, fez-me uma função denominada **parsing** que realiza a análise de um arquivo no formato GenBank, utilizando a biblioteca BioPython. Ao receber o nome do arquivo como parâmetro, a função utiliza o módulo SeqIO para realizar a leitura do conteúdo GenBank. De seguida, extrai as diversas informações relevantes sobre a sequência genética contida no arquivo.

Os principais dados apresentados incluem o ID do gene, o nome do gene, a descrição associada à sequência e o comprimento da sequência em pares de bases (bp). 

In [5]:
parsing("NC_000006.gbk")

ID do gene: NC_000006.12
Nome do gene: NC_000006
Descrição do gene Homo sapiens chromosome 6, GRCh38.p14 Primary Assembly
Comprimento da sequência: 170805979 bp


### Verificação das anotações correspondentes aos genes de interesse

A função **anot** foi desenvolvida para extrair e apresentar informações sobre as anotações contidas no arquivo GenBank sobre o gene de interesse, utilizando a biblioteca BioPython. Ao receber o nome do ficheiro como parâmetro, a função lê o conteúdo GenBank usando o módulo SeqIO.

A função conta e dá como output a quantidade total de anotações presentes no ficheiro. Além disso, permite ter acesso a uma lista detalhada de cada anotação.


In [None]:
anot("NC_000006.gbk")

### Output

**Quantidade de Anotações**: Existem 14 anotações associadas a esta sequência genética.

**Lista de Anotações**:

- **molecule_type**: molécula é do tipo DNA.
- **topology**: topologia linear.
- **data_file_division**: divisão do arquivo de dados é CON.
- **date**: data associada a esta sequência é 07 de outubro de 2023.
- **accessions**: acesso à sequência é feito através do identificador 'NC_000006'.
- **sequence_version**: versão da sequência é a 12.
- **keywords**: sequência é marcada como 'RefSeq'.
- **source**: *Homo sapiens* (humano).
- **organism**: O organismo relacionado à sequência é *Homo sapiens*.
- **taxonomy**: A classificação taxonómica detalhada do organismo.
- **references**: lista de referências bibliográficas associadas à sequência.
- **comment**: informação adicional relacionada à sequência, destacando que a sequência de referência é idêntica à CM000668.2.

### Verificação e análise da informação complementar fornecida pela lista de *features* e *qualifiers*

Para realizar a análise da informação complementar foi implementada uma função denominada **features_qualifiers** que dá como output informação sobre as features da sequência de interesse bem como os qualifiers associados às mesmas.

In [9]:
features_qualifiers("NC_000006.gbk")

Quantidade de features: 1
type: source
location: [0:170805979](+)
qualifiers:
    Key: chromosome, Value: ['6']
    Key: db_xref, Value: ['taxon:9606']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Homo sapiens']



A sequência analisada possui uma única feature do tipo "source", encontra-se portanto associada à origem da sequência e fornece informações importantes, conforme detalhado a seguir:

- **Tipo de Feature**: "source"
- **Localização**: A feature "source" abrange toda a extensão da sequência, indicando que vai do início (0) até a posição 170.805.979, com orientação positiva (+).

- **Qualificadores**:
    - **Cromossoma**: A sequência está localizada no cromossoma 6.
    - **Referência de Base de Dados**: O número de referência da sequência está vinculado ao identificador de taxonomia 9606.
    - **Tipo Molecular**: A molécula é classificada como DNA genómico.
    - **Organismo**: O organismo associado à sequência é o *Homo sapiens*.