# Análise de sequências

## O módulo Seq do Biopython possui vários métodos para a análise de sequências

In [3]:
from Bio.Seq import Seq

# Métodos:

>translate() -> Traduz a sequência de DNA ou RNA para a sequência de aminoácidos

>transcribe() -> Traz a sequência de DNA para RNA

>reverse_complement() -> Traz a sequência de DNA complementar

>len() -> Traz o comprimento da sequência

>count() -> Traz a quantidade de ocorrências de uma subsequência

>find() -> Traz a primeiras região de ocorrência de uma subsequência.


In [4]:
sequencia_dna = Seq("ATGCGAGCTAGCGA")

In [5]:
print(sequencia_dna)

ATGCGAGCTAGCGA


In [6]:
len(sequencia_dna)

14

In [7]:
print(sequencia_dna.transcribe())

AUGCGAGCUAGCGA


In [8]:
print(sequencia_dna.reverse_complement())

TCGCTAGCTCGCAT


In [9]:
print(sequencia_dna.translate())

MRAS




In [10]:
print(sequencia_dna.count("GCG"))

2


In [11]:
print(sequencia_dna.find("GCG"))

2


# Arquivos FASTA

### Os arquivos FASTA são um formato de arquivo de texto usado para registrar sequências de nucleotídeos ou aminoácidos.

### >seq0| Informações da sequências FQTWEEFSRAAEKLYLADPMKVRVVLKYRHVDGNLCIKVTDDLVCLVYRTDQAQDVKKIEKF

### Para a leitura de arquivos, o Biopython possui o módulo SeqIO

In [12]:
from Bio import SeqIO

In [13]:
covid = SeqIO.read("sequence(1).fasta", "fasta")

In [14]:
print(covid.id)

NC_045512.2


In [15]:
print(covid.description)

NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome


In [16]:
print(covid.seq)

ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTCGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTCCCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGGCTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGATGCTCGAACTGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGACCTTCTAGCACGTGCTGGTAAAGCTTCATGCACTTTGTCCGAACAACTGGACTTTATTGACACTAAGAGGGGTGTATACTGCTGCCGTGAACATGAGCATGAAATTGCTTGGTACACGGAACGTTCT

In [17]:
print(len(covid.seq))

29903


In [18]:
print(covid.seq.transcribe())

AUUAAAGGUUUAUACCUUCCCAGGUAACAAACCAACCAACUUUCGAUCUCUUGUAGAUCUGUUCUCUAAACGAACUUUAAAAUCUGUGUGGCUGUCACUCGGCUGCAUGCUUAGUGCACUCACGCAGUAUAAUUAAUAACUAAUUACUGUCGUUGACAGGACACGAGUAACUCGUCUAUCUUCUGCAGGCUGCUUACGGUUUCGUCCGUGUUGCAGCCGAUCAUCAGCACAUCUAGGUUUCGUCCGGGUGUGACCGAAAGGUAAGAUGGAGAGCCUUGUCCCUGGUUUCAACGAGAAAACACACGUCCAACUCAGUUUGCCUGUUUUACAGGUUCGCGACGUGCUCGUACGUGGCUUUGGAGACUCCGUGGAGGAGGUCUUAUCAGAGGCACGUCAACAUCUUAAAGAUGGCACUUGUGGCUUAGUAGAAGUUGAAAAAGGCGUUUUGCCUCAACUUGAACAGCCCUAUGUGUUCAUCAAACGUUCGGAUGCUCGAACUGCACCUCAUGGUCAUGUUAUGGUUGAGCUGGUAGCAGAACUCGAAGGCAUUCAGUACGGUCGUAGUGGUGAGACACUUGGUGUCCUUGUCCCUCAUGUGGGCGAAAUACCAGUGGCUUACCGCAAGGUUCUUCUUCGUAAGAACGGUAAUAAAGGAGCUGGUGGCCAUAGUUACGGCGCCGAUCUAAAGUCAUUUGACUUAGGCGACGAGCUUGGCACUGAUCCUUAUGAAGAUUUUCAAGAAAACUGGAACACUAAACAUAGCAGUGGUGUUACCCGUGAACUCAUGCGUGAGCUUAACGGAGGGGCAUACACUCGCUAUGUCGAUAACAACUUCUGUGGCCCUGAUGGCUACCCUCUUGAGUGCAUUAAAGACCUUCUAGCACGUGCUGGUAAAGCUUCAUGCACUUUGUCCGAACAACUGGACUUUAUUGACACUAAGAGGGGUGUAUACUGCUGCCGUGAACAUGAGCAUGAAAUUGCUUGGUACACGGAACGUUCU

In [19]:
print(covid.seq.translate())

IKGLYLPR*QTNQLSISCRSVL*TNFKICVAVTRLHA*CTHAV*LITNYCR*QDTSNSSIFCRLLTVSSVLQPIISTSRFRPGVTER*DGEPCPWFQRENTRPTQFACFTGSRRARTWLWRLRGGGLIRGTSTS*RWHLWLSRS*KRRFAST*TALCVHQTFGCSNCTSWSCYG*AGSRTRRHSVRS*W*DTWCPCPSCGRNTSGLPQGSSS*ER**RSWWP*LRRRSKVI*LRRRAWH*SL*RFSRKLEH*T*QWCYP*THA*A*RRGIHSLCR*QLLWP*WLPS*VH*RPSSTCW*SFMHFVRTTGLY*H*EGCILLP*T*A*NCLVHGTF*KEL*IADTF*N*IGKEI*HLQWGMSKFCISLKFHNQDYSTKG*KEKA*WLYG*NSICLSSCVTK*MQPNVPFNSHEV*SLW*NFMADGRFC*SHLRILWH*EFD*RRCHYLWLLTPKCCC*NLLSSMSQFRSRT*A*SCRIP**IWLENHSS*GWSHYCLWRLCVLLCWLP*QVCLLGSTC*R*HRL*PYRCCWRRFRRS**QPS*NTPKRESQHQYCW*L*T**RDRHYFGIFFCFHKCFCGNCERFGL*SIQTNC*ILW*F*SYKRKS*KRCLEYW*TEINTESSLCICIRGCSCCTINFLPHS*NCSKFCACFTEGRYNNTRWNFTVFTETH*CYDVHI*FGY*QSSCNGLHYRWCCSVDFAVAN*HLWHCL*KTQTRP*LA*REV*GRCRVS*RRLGNC*IYLNLCL*NCRWTNCHLCKGN*GECSDIL*ACK*IFGFVC*LYHYWWS*T*SLEFR*NICHALKGIVQKVC*IQRRNWPTHASKSPKRNYLLRGRNTSHRSVNRGSCLENW*FTTIRTTY**SC*SSIGWYTSLY*RAYVARNQRHRKVLCPCT*YDGNKQYLHTQRRCTNKGYFW**HCDRSARLQECEYHF*T**KD**ST**EVLCLYS*TRYRSK*VRLCCGRCCHKNFATSI*ITYTTGH*FR*VEYGYILLI**VW



In [22]:
proteinas = [str(i) for i in covid.seq.translate().split("*")]

In [23]:
proteinas

['IKGLYLPR',
 'QTNQLSISCRSVL',
 'TNFKICVAVTRLHA',
 'CTHAV',
 'LITNYCR',
 'QDTSNSSIFCRLLTVSSVLQPIISTSRFRPGVTER',
 'DGEPCPWFQRENTRPTQFACFTGSRRARTWLWRLRGGGLIRGTSTS',
 'RWHLWLSRS',
 'KRRFAST',
 'TALCVHQTFGCSNCTSWSCYG',
 'AGSRTRRHSVRS',
 'W',
 'DTWCPCPSCGRNTSGLPQGSSS',
 'ER',
 '',
 'RSWWP',
 'LRRRSKVI',
 'LRRRAWH',
 'SL',
 'RFSRKLEH',
 'T',
 'QWCYP',
 'THA',
 'A',
 'RRGIHSLCR',
 'QLLWP',
 'WLPS',
 'VH',
 'RPSSTCW',
 'SFMHFVRTTGLY',
 'H',
 'EGCILLP',
 'T',
 'A',
 'NCLVHGTF',
 'KEL',
 'IADTF',
 'N',
 'IGKEI',
 'HLQWGMSKFCISLKFHNQDYSTKG',
 'KEKA',
 'WLYG',
 'NSICLSSCVTK',
 'MQPNVPFNSHEV',
 'SLW',
 'NFMADGRFC',
 'SHLRILWH',
 'EFD',
 'RRCHYLWLLTPKCCC',
 'NLLSSMSQFRSRT',
 'A',
 'SCRIP',
 '',
 'IWLENHSS',
 'GWSHYCLWRLCVLLCWLP',
 'QVCLLGSTC',
 'R',
 'HRL',
 'PYRCCWRRFRRS',
 '',
 'QPS',
 'NTPKRESQHQYCW',
 'L',
 'T',
 '',
 'RDRHYFGIFFCFHKCFCGNCERFGL',
 'SIQTNC',
 'ILW',
 'F',
 'SYKRKS',
 'KRCLEYW',
 'TEINTESSLCICIRGCSCCTINFLPHS',
 'NCSKFCACFTEGRYNNTRWNFTVFTETH',
 'CYDVHI',
 'FGY',
 'QSSCNGLHYRWCCSVDF

# Alinhamento de sequências

## O alinhamento de sequências é útil para analisar a similaridade de sequências, assim como estudar a ancestralidade em comum entre elas.

![image.png](attachment:image.png)

### Para o alinhamento de sequências, o Biopython possui o módulo pairwise2

In [24]:
from Bio import pairwise2

In [25]:
from Bio.pairwise2 import format_alignment

In [26]:
variavel = Seq("AACGCTGATCGATGCTTA")

In [28]:
alinhamento = pairwise2.align.globalxx(covid.seq[1:10], str(variavel))

In [29]:
for a in alinhamento:
    print(format_alignment(*a))

TTAA-----A--G--G-TT-
  ||     |  |  | || 
--AACGCTGATCGATGCTTA
  Score=7



# BLAST

## O BLAST é um algoritmo e também uma ferramenta utilizada para realizar o alinhamento de sequências a partir de um banco de dados.

## Programas
### BLASTX → Recebe uma sequência de DNA, mas procura sequencias de aminoácidos(proteínas) a partir dela.
### TBLASTN → Recebe uma sequência de aminoácidos, e procura no banco de dados sequências de DNA.
### TBLASTX → Recebe uma sequência de DNA e procura sequências de DNA similares, mas elas são analisadas a partir da proteína decodificada por cada uma.

### O biopython possui o módulo NCBIWWW, que procura a partir da base de dados do NCBI.
### O método é o qblast()

In [None]:
from Bio.Blast import NCBIWWW
resultado = NCBIWWW.qblast("blastn", "nt", "GATAGTAGCGCG")


<_io.StringIO object at 0x7f503874b790>


# Análise 3D de proteínas

## Os arquivos PDB(protein data bank) são arquivos que contém informações das estruturas das proteínas 

## O módulo PDB do Biopython possibilita a leitura de arquivos PDB e a análise deles.

In [2]:
from Bio.PDB import *

In [3]:
parser = PDBParser()

In [5]:
estrutura = parser.get_structure("3PBL", "3pbl.pdb")



# Hierarquia do Bio.PDB

![image.png](attachment:image.png)

In [9]:
for models in estrutura:
    print(models.id)
    for chains in models:
        print(chains.id)
        for residues in chains:
            print(residues.resname)
            for atoms in residues:
                print(atoms)

0
A
TYR
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
ALA
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
LEU
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
SER
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
TYR
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
CYS
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom SG>
ALA
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
LEU
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
ILE
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom CD1>
LEU
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
ALA
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
ILE
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom CD1>
VAL
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<At

<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
LEU
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
GLU
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom OE1>
<Atom OE2>
VAL
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
THR
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG1>
<Atom CG2>
GLY
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
GLY
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
VAL
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
TRP
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom NE1>
<Atom CE2>
<Atom CE3>
<Atom CZ2>
<Atom CZ3>
<Atom CH2>
ASN
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
PHE
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
SER
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
ARG
<Atom N>
<Atom CA>
<Atom C>
<Atom O>


# Visualização 3D de proteínas

## O módulo nglview  permite a visualização da proteína.

In [10]:
import nglview as ng



In [11]:
view = ng.show_biopython(estrutura)

In [12]:
view

NGLWidget()

In [13]:
view.clear_representations()

In [14]:
view.add_ball_and_stick()