<a href="https://colab.research.google.com/github/josehenriqueprogramador/Jupyter_Analise_de_Dados/blob/master/biopython.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **PARTE 1 - Verificando se o Biopython está instalado**

In [None]:
# importando todo o pacote (testa se ele está instalado)
import Bio


## Instalando Biopython (no Colab)

In [None]:
# instalando o Biopython no Colab

!pip3 install biopython

Collecting biopython
[?25l  Downloading https://files.pythonhosted.org/packages/5a/42/de1ed545df624180b84c613e5e4de4848f72989ce5846a74af6baa0737b9/biopython-1.79-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (2.3MB)
[K     |████████████████████████████████| 2.3MB 5.0MB/s 
Installing collected packages: biopython
Successfully installed biopython-1.79


# **PARTE 2 - Manipulando sequências**

In [None]:
# Manipulação básica de sequências
from Bio.Seq import Seq

# Declarando uma sequência
seq1 = Seq("ACGTAGCTACGATCACAGCTA")
print("Minha sequência é", seq1)

# Reverso complementar
rc = seq1.reverse_complement()
print("O reverso complementar é", rc)

# Transcrição
rna = seq1.transcribe()
print("A sequência transcrita é", rna)

# Tradução
protein = seq1.translate()
print("A sequência da proteína é", protein)

Minha sequência é ACGTAGCTACGATCACAGCTA
O reverso complementar é TAGCTGTGATCGTAGCTACGT
A sequência transcrita é ACGUAGCUACGAUCACAGCUA
A sequência da proteína é T*LRSQL


### **2.1 Conteúdo GC**

In [None]:
# importando método que calcula conteúdo GC
from Bio.SeqUtils import GC

# Obtendo índices dos nucleotídeos da sequência
print("Obtendo índices dos nucleotídeos da sequência")
for i, n in enumerate(seq1):
  print(i, n)

# Buscar substrings
print("Buscando quantas vezes a substring TACGA na variável seq1")
print(seq1.count('TACGA'))

# Reverter sequência
print("Reverter sequência")
print(seq1)
print(seq1[::-1])

# Conteúdo GC
print("Conteúdo GC")
print(GC(seq1))

# Converter objetos de sequência em strings
print("Convertendo objetos Seq em strings")
seq2 = str(seq1)
print(type(seq2))

seq2 = Seq(seq2)
print(type(seq2))

# Concatenar
print("Unindo strings")
seqs = seq1 + seq2
print(seqs)
print(type(seqs))

# verificando se strings são iguais
print("Comparando sequências")
seq1 == seq2

Obtendo índices dos nucleotídeos da sequência
0 A
1 C
2 G
3 T
4 A
5 G
6 C
7 T
8 A
9 C
10 G
11 A
12 T
13 C
14 A
15 C
16 A
17 G
18 C
19 T
20 A
Buscando quantas vezes a substring TACGA na variável seq1
1
Reverter sequência
ACGTAGCTACGATCACAGCTA
ATCGACACTAGCATCGATGCA
Conteúdo GC
47.61904761904762
Convertendo objetos Seq em strings
<class 'str'>
<class 'Bio.Seq.Seq'>
Unindo strings
ACGTAGCTACGATCACAGCTAACGTAGCTACGATCACAGCTA
<class 'Bio.Seq.Seq'>
Comparando sequências


True

### **2.2 Ler e gravar arquivos**

In [None]:
# GRAVANDO ARQUIVOS
# Importando o método SeqIO
from Bio import SeqIO 
from Bio.SeqRecord import SeqRecord
import re

gravar = []
for i in SeqIO.parse("seq.fasta", "fasta"):
  nome = i.id
  descricao = i.description
  seq = i.seq 

  # coletando o id do uniprot
  id_uniprot = re.findall('\|.*\|', descricao)
  id_uniprot = id_uniprot[0].replace("|", "")
  
  # seqrecord
  aux = SeqRecord(seq, id = id_uniprot, description='' )
  gravar.append(aux)

# criando um novo arquivo fasta
SeqIO.write(gravar, "seq2.fasta", "fasta")

1

# **PARTE 3 - Bioinformática estrutural**

In [None]:
from Bio.PDB import *

pdb = PDBList()
pdb.retrieve_pdb_file('4MDP')



Downloading PDB structure '4MDP'...


'/content/md/4mdp.cif'

In [None]:
from Bio.PDB import *
parser = MMCIFParser()

estrutura = parser.get_structure('4mdp', 'md/4mdp.cif')

print(estrutura)

# estrutura -> modelos -> cadeias -> resíduos -> átomos
for modelo in estrutura:
  print(modelo)

  for cadeia in modelo:
    print(cadeia)

    for residuo in cadeia:
      nome = residuo.get_resname()
      if nome != 'HOH':
        print(nome, residuo.id[1])

        #for atomo in residuo:
          #print(atomo.id) # id
          #print(atomo.coord) # coordenadas x, y, z

# distancia euclidiana entre lys 475 e leu 468 - ca
R1 = estrutura[0]['A'][475]['CA']
R2 = estrutura[0]['A'][476]['CA']

distancia = R1 - R2
print(distancia, 'angstrons')

<Structure id=4mdp>
<Model id=0>
<Chain id=A>
SER 0
MET 1
SER 2
LEU 3
PRO 4
PRO 5
ASP 6
PHE 7
LYS 8
TRP 9
GLY 10
PHE 11
ALA 12
THR 13
ALA 14
ALA 15
TYR 16
GLN 17
ILE 18
GLU 19
GLY 20
SER 21
VAL 22
ASN 23
GLU 24
ASP 25
GLY 26
ARG 27
GLY 28
PRO 29
SER 30
ILE 31
TRP 32
ASP 33
THR 34
PHE 35
CYS 36
ALA 37
ILE 38
PRO 39
GLY 40
LYS 41
ILE 42
ALA 43
ASP 44
GLY 45
SER 46
SER 47
GLY 48
ALA 49
VAL 50
ALA 51
CYS 52
ASP 53
SER 54
TYR 55
LYS 56
ARG 57
THR 58
LYS 59
GLU 60
ASP 61
ILE 62
ALA 63
LEU 64
LEU 65
LYS 66
GLU 67
LEU 68
GLY 69
ALA 70
ASN 71
SER 72
TYR 73
ARG 74
PHE 75
SER 76
ILE 77
SER 78
TRP 79
SER 80
ARG 81
ILE 82
ILE 83
PRO 84
LEU 85
GLY 86
GLY 87
ARG 88
ASN 89
ASP 90
PRO 91
ILE 92
ASN 93
GLN 94
LYS 95
GLY 96
ILE 97
ASP 98
HIS 99
TYR 100
VAL 101
LYS 102
PHE 103
VAL 104
ASP 105
ASP 106
LEU 107
ILE 108
GLU 109
ALA 110
GLY 111
ILE 112
THR 113
PRO 114
PHE 115
ILE 116
THR 117
LEU 118
PHE 119
HIS 120
TRP 121
ASP 122
LEU 123
PRO 124
ASP 125
ALA 126
LEU 127
ASP 128
LYS 129
ARG 130
TYR 131
GLY 132
