### Função **pesquisa_ncbi**

Para realizar a **análise de literatura**, foi desenvolvida uma função com o objetivo de realizar a pesquisa de bibliografia na base de dados NCBI através do BioPython. Esta função oferece uma abordagem flexível uma vez que permite a adaptação de parâmetros conforme os objetivos desejados.

A função escrita recebe um email e um termo de pesquisa como entrada, depois, oferece a capacidade de selecionar a base de dados desejada conforme o leque de bases de dados disponíveis. Por exemplo, podemos selecionar:

- pubmed
- gene
- nuccore
- protein
- ...

Além disso, o número de resultados que integram o output pode ser maleável, tal como o tipo de informação a ser extraído (como abstracts ou sequências genéticas) e também o formato do output. 

### Função **pesquisa_ncbi** aplicada

Passando agora à utilização da função com os parâmetros pretendidos. Foi definido o email e o termo de pesquisa pretendido de forma a diminuir o espetro de resultados

In [3]:
email = 'pg52648@alunos.uminho.pt'
termo = 'hla-dqa1'

In [None]:
pesquisa_ncbi(email,termo)

Dos 2011 resultados encontrados, foram processados processados somente 5 resultados uma vez que o retmax definido foi "5".

O primeiro resultado apresentado é um artigo intitulado de "The genome-wide association study of serum IgE levels demonstrated the shared 
genetic background in allergic diseases", publicado em janeiro de 2024 na revista Clinical Immunology. O estudo foi conduzido por 8 autores que se encontram listados acima em conjunto com informação relevante sobre os mesmos.

No final do output são também fornecidos tanto o DOI e o PMID.

Podemos concluir que o output da função **pesquisa_ncbi** permite a extração de informações relevantes na análise dos genes a nível da análise de artigos científicos disponíveis em diversas bases de dados. 

### Flexibilidade da função pesquisa_ncbi

Como foi descrito anteriormente, é possível adaptar os parâmetros da função de forma a atingir os objetivos esperados. Desta forma, é possível:

- **Manipular quantidade de resultados processados**

Podemos manipular a quantidade de resultados apresentados modificando o número do parâmetro "retmax". Na função seguinte foi alterado o parâmetro "retmax" para "1" de modo a ser processo um único resultado.

In [None]:
pesquisa_ncbi(email,termo,retmax=1)

Podemos observar que, dos 2011 resultados obtidos, apenas 1 foi processado.

Para além da alteração da quantidade de resultados processados é igualmente possível realizar as seguintes manipulações da função:

-  **Manipular o display do output**

-  **Manipulação da gravação do ficheiro**

A manipulação do display do output é alcançada através da alteração do parâmetro "display" e o modo de gravação dos resultados processados é feita através da alteração do parâmetro "save".

In [None]:
# Pesquisa com output, sem display legível e permitindo a gravação dos resultados processados
pesquisa_ncbi(email,termo,save='y',display='n')

Como podemos observar pelo resultado apresentado, não ocorreu o display legível dos resultados e o ficheiro foi gravado.

Também é possível realizar a seguinte manipulação da função:

- **Manipular bases de dados onde a pesquisa é efetuada**

O parâmetro "db" pode ser alterado de forma a alterar a base de dados onde a pesquisa é realizada. No seguinte exemplo podemos observar que a base de dados selecionada para efeitos de pesquisa dos resultados foi a "nuccore".

In [None]:
# Pesquisa em base de dados de nucleotide/protein/gene
pesquisa_ncbi(email,termo,db='nuccore')

A execução da função pesquisa_ncbi para a base de dados 'nuccore' resultou na identificação de 1769 entradas relacionadas. Destas, foram processados os primeiros 5 resultados.

O primeiro resultado apresentado é o registo com o Accession Number OY986031, correspondente a um alelo do gene do antígeno de classe II do MHC em Homo sapiens (HLA-DQA1).

O output dos resultados da pesquisa na base de dados "nuccore" foi em formato "genbank". Nos resultados são incorporados detalhes característicos desse tipo de formato incluindo a origem da sequência, características e a própria sequência, sendo essas informações enriquecedoras no que toca ao aprofundamento da análise do gene em questão. 


### Transferência do ficheiro correspondente ao gene de interesse

De forma a realizar a transferência do ficheiro correspondente ao gene de interesse, em primeiro lugar, foi efetuada uma pesquisa na base de dados "gene" de forma a identificar o ID do gene de interesse. 

In [None]:
pesquisa_ncbi(email,"HLA-DQA1",db='gene',retmax=15)

Através da análise do output da função anterior, podemos observar que o ID correspondente ao gene de interesse é o "3117". Assim, torna-se possível proceder à gravação do ficheiro de interesse. 

Utilizando a função **pesquisa_ncbi** e colocando os seguintes parâmetros na função:

In [None]:
pesquisa_ncbi(email,'3117',db='gene',rettype='gb',retmax=1,save='y',display='n')

Foi gravado com sucesso o ficheiro pretendido.

### Transferência do ficheiro correspondente à proteína de interesse

Passando agora para a identificação e preparação de dados relacionados à proteína codificada pelo gene HLA-DQA1 para análises subsequentes. Utilizando a função pesquisa_ncbi, direcionamos a pesquisa para a base de dados 'protein' da NCBI, procurando recuperar informações específicas sobre a proteína de interesse.

In [None]:
pesquisa_ncbi(email,'DQA1_HUMAN',db='protein')

Como conseguimos obter o Accession Number da proteína codificada pelo gene de interesse, procedemos à gravação do ficheiro da mesma.

In [None]:
pesquisa_ncbi(email,'P01909',db='protein',retmax=1,rettype='fasta',save='Y',display='n')