[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alessandronascimento/BioMolComp/blob/main/P02/Pratica_02C.ipynb)

# Alinhamento de um Par de Sequências de Proteínas Usando Matriz de Substituição


Nesta seção, alinharemos duas sequências de proteínas usando o BioPython. Usaremos a matriz de substituição BLOSUM62 (você pode testar outras, se quiser!).

Primeiramente, instalaremos o BioPython e definiremos nossa matriz de substituição como a matriz BLOSUM62. Esta matriz ficará definida no objeto *aligner*.

In [None]:
!pip3 install biopython
import sys, os
from Bio import Align

from Bio.Align import substitution_matrices

matrix = substitution_matrices.load("BLOSUM62")
# print(matrix)
aligner = Align.PairwiseAligner()
aligner.substitution_matrix = matrix

Collecting biopython
  Downloading biopython-1.79-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (2.3 MB)
[K     |████████████████████████████████| 2.3 MB 5.3 MB/s 
Installing collected packages: biopython
Successfully installed biopython-1.79


## Entrada de Sequências

Aqui faremos a entrada com as sequências que queremos alinhar. A matriz de substituição possui um dicionário para lidar com os 20 tipos de aminoácidos. Caracteres outros que apareçam na sequência resultarão em erro. Para evitar os erros, também substituiremos (removeremos) os espaços eventualmente presentes na sequência.

In [None]:
seq1 = "" #@param {type:"string"}
seq2 = "" #@param {type:"string"}

seq1 = seq1.replace(' ', '')
seq2 = seq2.replace(' ', '')

print("A sequencia 1 tem %d residuos" % len(seq1))
print("A sequencia 2 tem %d residuos" % len(seq2))


A sequencia 1 tem 984 residuos
A sequencia 2 tem 933 residuos


# Alinhamento Local

Nesta etapa fazemos o alinhamento (local) das duas sequências. 

In [None]:
aligner.mode = 'local'
alignments = aligner.align(seq1, seq2)

print(alignments[0])

score = aligner.score(seq1, seq2)
print("Score = %d" % score)
print("Algoritmo: %s" % aligner.algorithm)

MET--K--GY----H------SLPE-G--LDME-RRWGQV-SQAVERSSLGP---TERT-DENNY-M-EIVNVSCVSGAIPNN-STQ--GSSKEKQELL-P--CLQ-QDNNRPGILTSDI-KTE----L---E---SK-ELSATV--A--------E--SMGLYMDSVR-D---ADY-SYE---QQNQQG-SMSP-AKIY-QNVEQ-----LVKFYKG-----NGHRP-S---T---LSCVNTPLRSFMSD-SGSS--VNG---GVMR-AIVKSPIMC-HEKS--PS--VCSP---LNMTSSVCSPAGINSV-SSTTASFGSFPVH-S--PITQGTPLTCSPN-A---E----NRGSR-SH--SPAHASNVGSPLSS----P--L--SSMKS---S--ISSPP-SHCS---VKS--PV---S--S-PNN-VT-LRSSV---SSP-ANINNSRCSVSSPSNTNN-RSTLSSP-AASTVGS---ICS--PV---NNAF-------------SYT---ASG--T------S---AGSSTLRD-V-V---P--S-P-DTQ-E-KG--AQEV-P----F-P---KT--EEVE-----SAI-S--NG--VT-GQL-NIVQYIKPE---PDGAFSSSC-LG--------------G---------N-SKINSD-SSFSVPIKQE-ST-KHSCSGTS--FK--GN-PTVNPF---PFMDGSYFSFMDDKDYYSLSGILGPPVPGFDGNCE--G-SGF---PV--GIKQEPDD---------GSYY-PEASI-PSSAIVGVNSG----GQSFHYRIGA----QGTISLSRSARD-QSFQHLSSFPP-VNT-LVESWKSHG-DLS--SRRSDGYPVLEYIP--ENVSSSTLRSVSTGSSRPS-KICLVCGDEASGCHYGVVTCGSCKVFFKRAVEGQHNYLCAGRNDCIIDKIRRKNCPACRLQKCL-QAGMN-LGA-RKS-KKLG--KLKGIH----EEQ----PQQQQ

# Alinhamento Local - Parte 2

Aqui, repetimos o alinhamento local, mas definimos manualmente o escore para a abertura de um gap e para a extensão do gap.

In [None]:
aligner.mode = 'local'
aligner.open_gap_score = -10
aligner.extend_gap_score = -0.5
alignments = aligner.align(seq1, seq2)

print(alignments[0])

score = aligner.score(seq1, seq2)
print("Score = %d" % score)
print("Algoritmo: %s" % aligner.algorithm)

METKGYHSLPEGLDMERRWGQVSQAVERSSLGPTERTDENNYMEIVNVSCVSGAIPNNSTQGSSKEKQELLPCLQQDNNRPGILTSDIKTELESKELSATVAESMGLYMDSVRDADYSYEQQNQQGSMSPAKIYQNVEQLVKFYKGNGHRPSTLSCVNTPLRSFMSDSGSSVNGGVMRAIVKSPIMCHEKSPSVCSPLNMTSSVCSPAG----INSVSSTTASFGSFPVHSPITQGT--PLTC---SPNAEN----------RGSRSHSPAHASNVGSPLSSP------LSSMKSSISSPPSHCSVKSPVSSPNNVTLRSSVSSPANINNSRCSVSS---------PSNTNNRSTLSSPAASTVGSICSPVNNAFSYTASGTSAGSSTLRDVVP---SPDTQ----------EKGAQEVPFPKTEEVESAISNGVTGQLNIVQYIKPEPDGAFSSSCLGGNSKI-------------NSDSSFSVP----IKQESTKHSCSGTSFKGNP---TVNPF---PFMDGSYF-------SFMDDKDYYSLSGILGPPVPGFDGNCEGSGFPVGIKQEPDDGSYYPEASIPSSAIVGVNSGGQSFHYRI-----GAQGTISLSRS-----ARDQSFQHLSSFPPV------------NTLVESWKSHGDLSSRRSDG--------------------------------------------------------YPVL----------------EYIPENVSS--STLRSVSTGS--------SRPSKICLVCGDEASGCHYGVVTCGSCKVFFKRAVEGQHNYLCAGRNDCIIDKIRRKNCPACRLQKCLQAGMNLGARKSKKLGKLKGIHE-EQPQQQQPPPPPPPPQSPEEGTTYIAPAKEPSVNTALVPQLSTISRALTPSPVMVLENIEPEIVYAGYDSSKPDTAENLLSTLNRLAGKQMIQVVKWAKVLPGFKNLPLEDQITLIQYSWMCLSSFALSWRS