# **INTRODUÇÃO AO BIOPYTHON**

Por estarmos utilizando o Jupyter Notebook, então consequentemente estamos usando a linguagem de programação Python em sua versão 3.9.

Para realizar o alinhamento de sequências, inicialmente faremos uso da biblioteca Biopython. Esta biblioteca escrita em Python possui um conjunto de ferramentas que possibilita realizar o tratamento e exploração de dados biológicos.

Para instalar é necessário executar o seguinte comando:

In [2]:
!pip install biopython

Collecting biopython
  Downloading biopython-1.81-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m0:01[0m:01[0m
Installing collected packages: biopython
Successfully installed biopython-1.81


Note que ao instalar você observará essa saída com uma mensagem final de que foi instalado com sucesso. Caso deseje desistalar a biblioteca, execute em seu CMD (Windows) ou Terminal (Linux):

```pip uninstall biopython```

Tanto para instalar um pacote quanto para desinstalar é necessário que tenha a exclamação (!) no início do comando, fazendo assim parte da sintaxe. Ou seja, qualquer comando que normalmente seria executado em um terminal linux deverá ser precedido pela exclamação para que seja executado no próprio notebook do Jupyter.

O usuário poderá verificar a versão do Biopython instalado através do seguinte código:

In [1]:
import Bio
import ipywidgets
print(Bio.__version__)
print(ipywidgets.__version__)

1.81
7.6.5


### Análise de sequências

Agora que você usuário já possui o Biopython instalado, então poderemos realizar a importação de alguns módulos da biblioteca para que seja explorada uma determinada sequência de nucleotídeos ou de aminoácidos. Para isso, execute as células a seguir:

In [3]:
# Da biblioteca Bio.seq importe o método "seq"
from Bio.Seq import Seq

In [4]:
# criar uma variável que recebe a sequência de nucleotídeos a ser analisada

minha_seq = Seq("CATGTAGACTAG")

In [5]:
# Aqui vamos imprimir algumas informações da nossa sequência alvo (minha_seq).

print(f"A sequência {minha_seq} possui {len(minha_seq)} bases de comprimento.")
print(f"A sequência complementar é {minha_seq.complement()}.")
print(f"A sequência reversa complementar é {minha_seq.reverse_complement()}.")
print(f"A sequência de aminoácidos traduzida é {minha_seq.translate()}.")

A sequência CATGTAGACTAG possui 12 bases de comprimento.
A sequência complementar é GTACATCTGATC.
A sequência reversa complementar é CTAGTCTACATG.
A sequência de aminoácidos traduzida é HVD*.


O asterísco (*) indica o término da sequência proteica ou de aminoácidos.

### Abrindo um arquivo fasta (.fasta)

In [6]:
# Abrindo utilizando apenas funções built-in do Python

with open('query_1.fasta', 'r') as file:
    lines = file.readlines()
    for line in lines[:7]:
        # apenas será exibida as 7 primeiras linhas do arquivo
        print(line.rstrip())

>AF170105.1 Leishmania donovani hypoxanthine-guanine phosphoribosyltransferase HGPRT (hgprt) and xanthine phosphoribosyltransferase XPRT (xprt) genes, complete cds
GGAATTCAGTGTGCGTGCACCCATAAATATACATTTAAGTCCACATCACAGCGACTCAACGATCTTGCTC
GATCCCTCCTCCCTCCCTTCTTCCCTCTCTGTGAATCCTCGCTTACTCTCATGTGTATGGAAGCAACCAT
TATCCATCAGACCCCACCTCTCTTTTCCTTTACCTTCACTATCCCATGAGCAACTCGGCCAAGTCGCCCT
CCGGCCCCGTCGGTGATGAGGGGCGGCGCAACTATCCGATGTCAGCCCACACCCTCGTCACACAGGAGCA
GGTGTGGGCCGCCACGGCGAAGTGCGCAAAGAAGATTGCAGAGGACTACAGAAGTTTTAAGTTGACGACC
GACAACCCGCTCTACCTGCTGTGCGTGCTCAAGGGCAGCTTCATCTTCACGGCCGACCTTGCCCGCTTTC


É importante entender a estrutura de uma arquivo fasta. A primeira linha do arquivo fasta sempre o primeiro caractere é um sinal de maior que (**>**). Indicando assim o cabeçalho do arquivo, onde contém informações como o código ou ID da sequência, o organismo, o nome do gene e entre outras informações. Após a primeira linha é que podemos observar a sequência, seja ela de nucleotídeos ou aminoácidos.

In [7]:
# Da biblioteca Bio importe o método "SeqIO"
from Bio import SeqIO

In [8]:
for seq_record in SeqIO.parse("query_1.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

AF170105.1
Seq('GGAATTCAGTGTGCGTGCACCCATAAATATACATTTAAGTCCACATCACAGCGA...CAG')
4362


Observe que ao imprimir **se_record.id** é retornado o ID dessa sequência. Além disso, parte da sequência é retornada e, além disso, por último a quantidade de bases nucleotídicas. Seguiremos com um exemplo de um arquivo fasta, porém com uma sequência de aminoácidos.

In [9]:
for seq_record in SeqIO.parse('query_2.fasta', 'fasta'):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

AAD50967.1
Seq('MLPTHSCKGFVDAQGRVFVDGREYPMASGIVATEDVIQTNIKAMAHTIAKDYKS...AKL')
241


Novamente, ao imprimir **se_record.id** obtêm o ID da sequência de consulta, neste caso **AAD50967.1**. Em seguida é retornado parte da sequência de aminoácidos da proteína. E por último é retornada a quantidade de aminoácidos, que neste caso são 241. Ultilizando este ID é possível realizar a busca desta proteína no NCBI (https://www.ncbi.nlm.nih.gov/). Lá você poderá obter outras informações úteis acerca desta sequência.

No notebook 2 será introduzida a realização de alinhamentos de sequências de nucleotídeos ou aminoácidos.