Lucas Cecilio da Silva

RA: 11202231220

# **Projeto Final de Bases Computacionais da Ciência (BCC)**

### O uso da biblioteca Biopython com o Google Colab na matéria de Evolução e Diversificação da Vida na Terra

*O Notebook se baseia em como aplicar algumas funções da biblioteca Biopython na aula da Semana 6 de Evolução e Diversificação da Vida na Terra, onde fomos introduzidos aos conceitos de DNA e RNA, bem como sua replicação, transcrição e tradução.*

## **Sumário**


1.   Introdução ao Biopython;
2.   Manipulação de sequências;
1.   Operações básicas com sequências;
2.   Concatenar (Juntar uma string na outra);
1.   Comparar objetos de sequência;
2.   Leitura e gravação de arquivos;
1.   Bioinformática estrutural de proteínas;
2.   Conclusão;
1.   Referências.





### **Introdução ao Biopython**

O primeiro passo para inicializar a biblioteca Biopython no Google Colab é instalá-la.

Para isso devemos realizar a aplicação do seguinte código:



In [None]:
!pip3 install biopython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Depois de instalado, há uma série de utilidades no Biopython que são possíveis para a área da biologia como um todo.

Neste notebook iremos abordar somente as que podem ser utilizadas para os fins educacionais da matéria de EDVT relacionadas a uma determinada sequência de DNA. 



### **Manipulação de sequências**

Uma das funções básicas do Biopython é a análise de sequências. Para realizá-la, é necessário importar o módulo Seq com o comando:

In [None]:
from Bio.Seq import Seq

Em Biopython, sequências devem ser declaradas com o método Seq( ):

Por exemplo, podemos adicionar uma sequência aleatória (tendo em vista o conceito básico de sequências, onde aprendemos em aula que elas são formadas por quatro letras: "A", "C", "G", "T").



Essa será a sequência inicial:

In [None]:
seq_1 = Seq("ACGTACGACGTATGATAATAGATAG")
print('Sequência inicial:', seq_1)

Sequência inicial: ACGTACGACGTATGATAATAGATAG


Após declarada, a sequência pode ser manipulada como um objeto do tipo Seq. Por exemplo, para obter o **reverso complementar** da sequência declarada anteriormente, utilizamos o seguinte comando:

In [None]:
rev_compl = seq_1.reverse_complement()
print('Reverso complementar:', rev_compl)

Reverso complementar: CTATCTATTATCATACGTCGTACGT


Podemos ainda obter a sequência transcrita utilizando o comando transcribe():

In [None]:
rna = seq_1.transcribe()
print('Sequência transcrita:', rna)

Sequência transcrita: ACGUACGACGUAUGAUAAUAGAUAG


Além disso, por fim, podemos obter a sequência de aminoácidos a partir da tradução da sequência, utilizando o seguinte comando:

In [None]:
protein = seq_1.translate()
print('Sequência da proteína:', protein)

Sequência da proteína: TYDV***I




### **Operações básicas com sequências**

É possível realizar operações básicas com objetos do tipo Seq como se fossem do tipo string. Para realizar buscas de fragmentos de sequências dentro de uma sequência, utilizamos o seguinte comando:


In [None]:
print(seq_1.count('TACGA'))

1


Para enumerar uma sequência colocando uma linha para cada letra, utilizamos o seguinte comando:

In [None]:
for i, n in enumerate(seq_1):
  print(i, n)

0 A
1 C
2 G
3 T
4 A
5 C
6 G
7 A
8 C
9 G
10 T
11 A
12 T
13 G
14 A
15 T
16 A
17 A
18 T
19 A
20 G
21 A
22 T
23 A
24 G


Podemos ainda reverter sequências da mesma forma que revertemos strings, usando seq_1[::-1] para tal.

Nesse caso, os valores inseridos em colchetes indicam:

[posição de início : posição final : passo]

Como os valores de posição de início e fim foram deixados em branco, todas as letras da string são utilizadas. O valor de passo -1 indica que a sequência deve receber o valor reverso.

In [None]:
print('Sequência string original:',seq_1)
print('Sequência string reversa:', seq_1[::-1])

Sequência string original: ACGTACGACGTATGATAATAGATAG
Sequência string reversa: GATAGATAATAGTATGCAGCATGCA


Se quisermos calcular o conteúdo GC (Guaninas e Citosinas) na sequência, a primeira coisa a se fazer é importar GC pela biblioteca Bio.SeqUtils:

In [None]:
from Bio.SeqUtils import GC

Depois de importada a biblioteca, utilizamos o seguinte comando:

In [None]:
print(GC(seq_1))

36.0




Podemos também converter objetos de sequência em strings usando a função str(). Para testar isso, vamos criar uma nova variável chamada seq2:

In [None]:
seq_2 = str(seq_1)
type(seq_2)
print(type(seq_2))

<class 'str'>


Além disso, é possível converter a string em um objeto de sequência do Biopython usando a função Seq():


In [None]:
seq_2 = Seq(seq_2)
print(type(seq_2))

<class 'Bio.Seq.Seq'>


### **Concatenar (juntar uma string na outra)**

É possível unir sequências diferentes usando o operador de concatenação (+):

In [None]:
seq_x = seq_1 + seq_2 
print(seq_x)
print(type(seq_x))

ACGTACGACGTATGATAATAGATAGACGTACGACGTATGATAATAGATAG
<class 'Bio.Seq.Seq'>


### **Comparar objetos de sequência**

É possível também comparar objetos de sequência usando o operador de igualdade (==), obtendo assim uma resposta True (caso verídico) ou uma resposta False (caso falso):

In [None]:
seq_1 == seq_2

True

### **Leitura e gravação de arquivos**

Podemos ler dados reais de arquivos DNA com a biblioteca ensinada em aula, a pandas:

In [None]:
import pandas as pd
Informações_DNA_Reais = pd.read_csv('http://bioinfo.dcc.ufmg.br/betagdb/data/betagdb_glucose_tolerant_sequences.fasta')

In [None]:
Informações_DNA_Reais['>Chamoli et al. (2016) tr|I3QIG4|I3QIG4_BACIU 6-phospho-beta-glucosidase (Fragment) OS=Bacillus subtilis GN=bg1 PE=3 SV=1 ']

0      MSSNEKRFPEGFLWGGAVAANQVEGAYNEGGKGLSTADVSPNGIMS...
1      GIDFYHRYKEDIALFAEMGFKAFRTSIAWTRIFPNGDEEEPNEEGL...
2      IEPVVTISHYEMPLGLVKNYGGWKNRKVIEFYERYAKTVFKRYQHK...
3      HAPFTGGGLVFEEGENKLNAMYQAAHHQFVASALAVKAGHDIIPDS...
4      TSKPEDVFAAMENERKTLFFSDVQARGAYPGYMKRYLAENNIEIEM...
                             ...                        
217    NKGDRNNLTLWNNGDNLIKAVADANENTVVVIHSVGPVLMNEWINH...
218    ESGNSLADIVLGKVNPSGRLPYTIAKNHDDYNVHPDPADNVVYSEK...
219    PLFPFGHGLSYTSFKYSGIKVKAKKKNDSVTVTASVMVKNSGKLPG...
220    GEPPKTLRGFEKVFIKKDSSSKVEFEFTKTELSIWDTKTKSWVIPS...
221                                             RQTATFTL
Name: >Chamoli et al. (2016) tr|I3QIG4|I3QIG4_BACIU 6-phospho-beta-glucosidase (Fragment) OS=Bacillus subtilis GN=bg1 PE=3 SV=1 , Length: 222, dtype: object

### **Bioinformática estrutural de proteínas**

A blibioteca Biopython fornece o módulo Bio.PDB que permite a leitura e manipulação de estruturas de proteínas diretamente do Protein Data Bank (PDB). Para utilizá-lo, deve-se inicialmente importar o módulo Bio.PDB:

In [None]:
from Bio.PDB import *

Para fazer o download de um arquivo PDB, utilizamos o método retrieve_pdb_file() informando o código identificador de quatro dígitos. Porém, deve-se incialmente obter a lista atualizada de arquivos do PDB usando o comando PDBList(). Por exemplo, para realizar o download da estrutura da proteína beta-glicosidase de PDB ID 4MDP, fazemos:

In [None]:
pdb = PDBList()
pdb.retrieve_pdb_file('4MDP')

Structure exists: '/content/md/4mdp.cif' 




'/content/md/4mdp.cif'

Para ver os dados da estrutura da proteína (passando pelos modelos disponíveis, pelas cadeias, resíduos e átomos) utilizamos a seguinte sequência de códigos:

In [None]:
# O método Parser() converte o arquivo de sequência em um iterador (objeto que permite percorrer uma coleção de elementos, particularmente listas) que retorna os SeqRecords (gravações feitas na sequência).
parser = MMCIFParser()
estrutura = parser.get_structure('4mdp', 'md/4mdp.cif')

print(estrutura)


<Structure id=4mdp>


In [None]:
# estrutura -> modelos -> cadeias -> resíduos -> átomos

for modelo in estrutura:
  print(modelo)
  for cadeia in modelo:
    print(cadeia)
    for residuo in cadeia:
      nome = residuo.get_resname()
      if nome != 'HOH':
        print(nome, residuo.id[1])

<Model id=0>
<Chain id=A>
SER 0
MET 1
SER 2
LEU 3
PRO 4
PRO 5
ASP 6
PHE 7
LYS 8
TRP 9
GLY 10
PHE 11
ALA 12
THR 13
ALA 14
ALA 15
TYR 16
GLN 17
ILE 18
GLU 19
GLY 20
SER 21
VAL 22
ASN 23
GLU 24
ASP 25
GLY 26
ARG 27
GLY 28
PRO 29
SER 30
ILE 31
TRP 32
ASP 33
THR 34
PHE 35
CYS 36
ALA 37
ILE 38
PRO 39
GLY 40
LYS 41
ILE 42
ALA 43
ASP 44
GLY 45
SER 46
SER 47
GLY 48
ALA 49
VAL 50
ALA 51
CYS 52
ASP 53
SER 54
TYR 55
LYS 56
ARG 57
THR 58
LYS 59
GLU 60
ASP 61
ILE 62
ALA 63
LEU 64
LEU 65
LYS 66
GLU 67
LEU 68
GLY 69
ALA 70
ASN 71
SER 72
TYR 73
ARG 74
PHE 75
SER 76
ILE 77
SER 78
TRP 79
SER 80
ARG 81
ILE 82
ILE 83
PRO 84
LEU 85
GLY 86
GLY 87
ARG 88
ASN 89
ASP 90
PRO 91
ILE 92
ASN 93
GLN 94
LYS 95
GLY 96
ILE 97
ASP 98
HIS 99
TYR 100
VAL 101
LYS 102
PHE 103
VAL 104
ASP 105
ASP 106
LEU 107
ILE 108
GLU 109
ALA 110
GLY 111
ILE 112
THR 113
PRO 114
PHE 115
ILE 116
THR 117
LEU 118
PHE 119
HIS 120
TRP 121
ASP 122
LEU 123
PRO 124
ASP 125
ALA 126
LEU 127
ASP 128
LYS 129
ARG 130
TYR 131
GLY 132
GLY 133
PHE 134
LEU 

### **Conclusão:**

Há uma série de utilidades no Biopython que são possíveis para a área da biologia como um todo. 


O objetivo deste notebook foi apresentar com alguns exemplos práticos, uma utilidade do Biopython para os fins educacionais da matéria de Evolução e Diversificação da Vida na Terra (EDVT) relacionadas a uma determinada sequência de DNA (Matéria da Semana 6). 


É possível acessar o site oficial do Biopython, e conferir também outras das suas demasiadas utilidades, utilizando o link: https://biopython.org.

### **Referências:**

https://biopython.org/


https://moodle.ufabc.edu.br/mod/page/view.php?id=198141


https://www.youtube.com/watch?time_continue=26&v=U1hnrmyxk1M


https://bioinfo.com.br/biopython-uma-breve-introducao-a-manipulacao-de-dados-biologicos-em-python-usando-colab/


https://colab.research.google.com/github/BMClab/BasesComputacionais/blob/master/aula5/BasesDeDados.ipynb