[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alessandronascimento/BioMolComp/blob/main/P02/dot_matrix.ipynb)

# Introdução

Um par de sequências pode ser alinhado utilizando métodos de alinhamento
globais ou locais. Dentre os principais métodos para o alinhamento de sequências estão o método de programação dinâmica (PD), que pode ser usado para
obter alinhamentos locais ou globais, e o método de *k*-tuplas, que veremos em
aulas seguintes. Além destes métodos, o método da matrix de pontos pode
ser muito útil para a identificação de padrões de similaridade em sequências
protéicas.

Os métodos de PD e k-tuplas dependem de uma matriz de substituição. Numa
matriz de substituição, os aminoácidos são listados no topo da matriz e verticalmente e cada elemento da matriz é um escore que reflete a razão entre uma dada substituição de aminoácidos e a frequência esperada ao acaso. Esta razão é convertida para logaritmos na base 2 (bits) e multiplicada por dois.


# Matriz de Pontos

Nesta prática, vamos criar um código para analisar um par de sequências usando o métodos da matriz de pontos. Usaremos o python para construir nossa própria matriz.

A matriz que faremos nesta prática é bem simples. Não usaremos um dicionário para checar se a sequência contém caracteres não permitidos. Apenas faremos uma comparação caractere-a-caractere e veremos o resultados final.

### Importando as bibliotecas necessárias

In [1]:
import matplotlib.pyplot as plt
import sys


### Definindo as sequências que serão usadas e removendo espaços nas sequências.

In [None]:
seq1 = "" #@param {type:"string"}
seq2 = "" #@param {type:"string"}

#
# Removendo espacos nas sequencias
#

seq1 = seq1.replace(' ', '')
seq2 = seq2.replace(' ', '')

print("Sequence 1 has %d residues" % len(seq1))
print("Sequence 2 has %d residues" % len(seq2))



### Matriz de Pontos

Aqui fazemos uma comparação de cada caractere *i* na sequência *seq1* com cada caractere *j* na sequência *seq2*. Se os caracteres são idênticos (i.e., se seq1[i] == seq2[j]), assinalamos um 1 na matriz. Se são diferentes, assinalamos um 0. 

In [None]:
dot_matrix=[]
for i in range(0, len(seq1)):
  v=[];
  for j in range(0, len(seq2)):
    if (seq1[i] == seq2[j]):
      v.append(1);
    else:
      v.append(0);
  dot_matrix.append(v);

plt.figure(figsize=(40,20))
plt.matshow(dot_matrix, fignum=1)


# mostrando a matriz:

#for i in range(0, len(seq1)):
#  for j in range(0, len(seq2)):
#    sys.stdout.write("%d " % dot_matrix[i][j])
#  sys.stdout.write("\n")


# Refinando a Matriz de Pontos

Nesta seção, vamos **refinar** nossa matriz ou filtrá-la para remover um pouco do ruído. A abordagem que usaremos é a abordagem da janela deslizante. Aqui definiremos uma janela de 6 aminoácidos, por exemplo. Para cada aminoácido *i* na sequência seq1, analisaremos [i, i+1, i+2, i+3, i+4 e i+5]. Compararemos estes 6 aminoácidos com os aminoácidos *j* na sequência seq2 dentro de uma janela de 6 aminoácidos também: [j, j+1, j+2, j+3, j+4 e j+5]. 

Na comparação de (i+k) com (j+k) com *k* que vai de 0 a 5, tivermos pelo menos 3 aminoácidos em comum entre seq1 e seq2, colocamos um 1 na posição i,j da matriz de pontos. 

Neste caso, o número mínimo de posições coincidentes é a *strigency* no nosso código.

In [None]:
dot_matrix=[]

window=3;
stringency=2;


for i in range(0, len(seq1)-window+1):
  v=[];
  for j in range(0, len(seq2)-window+1):
    count=0
    for k in range(0,window):
      if (seq1[i+k] == seq2[j+k]):
        count = count+1;
    if (count >= stringency):
      v.append(1);
    else:
      v.append(0);
  dot_matrix.append(v);


plt.figure(figsize=(40,20))
plt.matshow(dot_matrix, fignum=1)

#print(dot_matrix)

# Analisando sequências reais

1. Vamos começar analisando as sequências do exemplo: (GCATGCG) e
(GATTACA). O que você vê de similaridades nesta matriz? O que você
vê se mudarmos a segunda sequência para (GAATGCA) ? É possível
detectar alguma característica interessante (apesar de ser uma sequência
tão curta)? (**Q1**)

2. Usando o mesmo código, vamos analisar um caso mais próximo de um
caso real. No NCBI, vamos buscar a sequência do [receptor de mineralocorticóide humano](https://www.ncbi.nlm.nih.gov/protein/AAA59571.1?report=fasta) e também a sequência do [receptor de progesterona
humano](https://www.ncbi.nlm.nih.gov/protein/AAA60081.1?report=fasta). Analise estas duas sequências usando seu código de matriz de
pontos. Há similaridades detectáveis entre elas?

3. Vamos filtrar a nossa matriz de pontos. Para isso, vamos usar o con-
ceito de janelas deslizantes (sliding window ). O último campo do formu-
lário do Google Colab já contem o código para isto. Utilize *window=6* e *stringency=3*. O que acontece quando você repete a mesma análise com
as sequências do item 2 acima? (**Q2**)