[Enunciado](https://aasb2122.github.io/ficha06.pdf)

1. Crie uma função chamada query_map que recebe a sequência e o w e
que devolve um dicionário em que as chaves são as sequências e os
valores são uma lista dos índices

2. Crie uma função chamada hits que recebe o dicionário da função
anterior e uma sequência da BD e devolve uma lista de hits em que
cada elemento é um tuplo com os índices

3. Crie uma função chamada extend_hit que recebe a query, a
sequência da BD, o hit e o valor de w e o estende um hit em cada
direção se o nº de matches for de pelo menos metade do tamanho da
extensão; a função devolve um tuplo com o índice do início do hit
estendido na query, na sequência, o tamanho e o nº de matches

4. Crie uma função chamada best_hit que recebe uma query, uma
sequência da BD e o w e que devolve a extensão de maior score (no
caso de empate, deverá devolver a de menor tamanho que aparece
primeiro)

**Sugestões**

- Crie uma função auxiliar que devolva todos os índices das ocorrências
de uma substring numa string

- Crie uma função auxiliar que estenda para a direita ou a esquerda
quando recebe o valor +1 ou -1 respetivamente

- [Pretty printing is your friend!](https://docs.python.org/3/library/pprint.html) -> pprint

- Aprenda a usar o debugger que ver com o Python, o [PDB](https://docs.python.org/3/library/pdb.html)


In [17]:
"""
    Delvolve o index onde o padrão foi encontrado
    
    Parâmetros
    ---------------
    sequencia : str
        sequencia valida de DNA
    padrao : str
        sequencia padrão
    
    Returns
    ---------------
    int
        Valor do index em que padrão é encontrado
    
"""

'\nDelvolve o index onde o padrão foi encontrado\n\nParâmetros\n---------------\nsequencia : str\n    sequencia valida de DNA\npadrao : str\n    sequencia padrão\n\nReturns\n---------------\nint\n    Valor do index em que padrão é encontrado\n\n'

In [18]:
# TODO Testes de unidade

# Secção com as variáveis de teste
query   = 'AATATAT'                   # Sequência onde queremos procurar
seq     = 'AATATGTTATATAATAATATTT'    # Sequência-alvo
w = 3                                 # Tamanho da janela

In [19]:
''' Faz falta declarar funções auxiliares, que vamos acrescentando na secção abaixo '''

def codons(query : str , window : int) -> list :
    '''
    Itera sobre uma sequence ao longo de uma determinada janela 
    e devolve uma lista com todas as substrings com tamanho window

    Parâmetros
    ----------
    query : str
        sequencia válida de DNA
    
    window : int
        grupo de bases nas quais queremos dividir a nossa query

    Returns
    -------
    list 
        lista de substrings possíveis de tamanho window possíveis 
        a partir da query
        
    
    
    '''
    substrings = []                                          # Criamos a lista vazia 

    for indice in range(len(query) - window + 1):            # Iteramos sobre a query, já "trimmed" ao tamanho da janela
        substrings.append(query[indice : indice + window])   # Adicionamos as substrings à lista
    
    return substrings                                        # Obtemos assim a lista com as substrings

    '''
    Descomentar a linha abaixo para ter a versão mais eficiente com uma lista por compreensão já com o enumerate.
    Não esquecer de apagar o anterior.'''
#     return  enumerate([ query[indice : indice + window] for indice in range(len(query) - window + 1) ])
    

def expande_dir(query : str , seq : str , off_q : int , off_s : int, way : int) -> tuple:
    '''
    Função que estende para a esquerda se recebe -1 ou para a direita se 1

    Itera sobre a query e a sequência e casa as diferentes posições de modo a procurar
    hits possíveis

    Devolve o número de bases iguais entre a query e a sequência do hit e respetivo tamanho

    Parâmetros
    ----------

    query : str 
        sequencia válida de DNA
    
    seq : str 
        sequencia válida de DNA
    
    off_q : int
        offset inicial na query
    
    off_s : int
        offset inicial na sequência
    
    way : int
        assume o valor 1 ou -1 indicando a direção para qual a 
        função irá estender (direita ou esquerda respetivamente)

    Returns
    -------

    tuple
        devolve um tuplo com o tamanho do hit e o número de bases que 
        correspondem

    '''

    assert way == 1 or way == -1                                                           # Garantimos que apenas é dado à função o valor "legal" para a variável-direção

    tam     = 0                                                                            # Iniciamos a variável que corresponde ao tamanho do hit   

    matches = 0                                                                            # Iniciamos a variável que corresponde ao número de matches

    while 0 < off_q and 0 < off_s and 0 <= off_q < len(query) and 0 <= off_s < len(seq):   # Garante que nenhum dos offsets será negativo ou estará fora dos índices possíveis das strings sobre as quais iremos iterar
                                                                                            
        '''0 < off_q and 0 < off_s 

        é importante garantir que nenhum dos números assume caracter negativo, para evitar
        casos em que uma das sequencias tem um tamanho maior que a outra.'''
        
        tam += 1                        # O tamanho do hit aumenta logo no início independentemente de haverem matches
            
        if query[off_q] == seq[off_s]:
            matches += 1                # O número de matches aumenta se e só se a base for igual em ambas as strings
            
        # Passamos ao próximo indice acrescentando a variável-direção
        off_q += way
        off_s += way
       
    return tam, matches 

In [20]:
# Testamos a função expande_dir() com um hit = (1,16)
h1,h2 = (1,16)

print('à esquerda', expande_dir(query,seq,h1  ,h2  ,-1))
print('á direita' , expande_dir(query,seq,h1+w,h2+w, 1))

à esquerda (1, 1)
á direita (3, 2)


In [21]:
def query_map(query : str , window : int) -> dict :
    
    '''     
    Itera sobre uma sequência e devolve quantas substrings de tamanho window
    existem e em posições estas aparecem.

    Parâmetros
    ----------

    query : str
        sequência válida de DNA

    window : int
        tamanho da janela sobre a qual queremos dividir a nossa query
        
    Returns
    -------

    dict
        dicionário com todas as substrings e respetivas repetições e posições na query
    '''
    dicionario = {}

    for offset , codon in enumerate(codons(query,window)):
        if codon not in dicionario: 
            dicionario[codon] = []

        dicionario[codon].append(offset)
        
    return dicionario

In [22]:
# Testamos a função query_map, criando um query map que será usado na próxima função

qm = query_map(query,w)
qm

{'AAT': [0], 'ATA': [1, 3], 'TAT': [2, 4]}

In [23]:
def hits(qm : dict , seq : str) -> list: 

  """
  Devolve uma lista em que cada elemento é um tuplo com dois valores:
  1. O Offset na query
  2. O offset na seq

  Parâmetros
  ----------

  qm : dict 
    mapa de substrings que é devolvido ao invocar a função query_map
  
  seq : str
    sequência-alvo válida de DNA

  Returns
  -------

  list
    lista que contém um conjunto de tuplos que correspondem aos offsets correspondentes na query e sequência
  
  
  """
  res = []                                                # Lista de resultado que será populada com os tuplos

  for codon in qm:                                        # Cicla por todos os codons mapeados na query
    
    if codon in seq:                                      # Apenas itera se o codon estiver na sequência
      # Converter isto para uma função auxiliar
      for offset_q in qm[codon]:                          # Cicla por todos os offsets da query para cada codon 

        offset_seq = seq.find(codon)                      # Primeira instância do codon na sequência - devolve o índice

        while offset_seq != -1:                           # Enquanto for encontrada a instância do codon (o valor não é -1)
          
          res.append((offset_q,offset_seq))               # Adiciona um tuplo offset_query , offset_sequencia à lista de resultado
          # print(codon,'encontrado em', offset_seq)
          offset_seq = seq.find(codon, offset_seq + 1 )   # Procuramos pela próxima instância
  
  return res

In [24]:
# Testamos a função hits

all_hits = hits(qm, seq)


In [25]:
# Definimos um hit para usar como teste na função extend_hit

hit = (1,16)
hit

(1, 16)

In [26]:
def extend_hit(query : str , seq :str , hit : tuple, window : int) -> tuple: 
  
    
    """
    Parâmetros
    ----------

    query : str 
      sequencia de DNA válida correspondente à sequência de busca

    seq   : str
      sequencia de DNA válida correspondente à sequência alvo
      
    hit   : tuple
      Um dos elementos devolvidos pela invocação da função hits

    w     : int
      o tamanho da janela para a criação de dicionários de substrings na função query map

    Returns:
    --------

    tuple:
      Devolve um tuplo com:
        1. O offset inicial na query
        2. O offset inicial na seq
        3. O tamanho do resultado
        4. O nº de matches corretos
    """
      
    h1 , h2 = hit
    
    tam_esq, matches_esq = expande_dir(query , seq , h1     , h2     , -1)

    tam_dt , matches_dt  = expande_dir(query , seq , h1 + w , h2 + w ,  1) 

    #print(h1 - tam_esq)
    #print(h2 - tam_esq)
    #print('h1:',h1,'h2',h2,'w:',w,'tam_esq',tam_esq,'tam_dt:',tam_dt)


    return (h1 - tam_esq , h2 - tam_esq , tam_esq + w + tam_dt , matches_esq + w + matches_dt)


In [27]:
# Testamos a função extend_hit() com o hit (1,16) e janela 3

extend_hit(query,seq,(1,16),3)

(0, 15, 7, 6)

In [28]:
''' Para a função best hit precisamos de uma lista de todos os hits estendidos'''
extended_hits = [extend_hit(query,seq,hit,w) for hit in hits(qm,seq)]
# extended_hits

In [29]:
# Para encontrar o melhor hit com base no maior numero de matches iteramos por todos os hits estendidos e vamos guardando o melhor
best_hit = (0,0,0,0)
for hit in extended_hits:
    if hit[3] > best_hit[3]:
        best_hit = hit
best_hit

(0, 0, 7, 6)

In [30]:
def best_hit(query : str , seq : str , window : int) -> tuple:
    
  """
  Itera sobre todos os hits extendidos e encontra o mais próximo do início
  e o maior / mais preciso.

  Para isso pode invocar todas as funções para receber menos argumentos
  
  Parametros
  ----------
  query : str 
    sequencia de DNA válida correspondente à sequência de busca

  seq   : str
    sequencia de DNA válida correspondente à sequência alvo

  w     : int
    o tamanho da janela para a criação de dicionários de substrings na função query map

  Returns:
  --------
  tuple
    Devolve um tuplo com:
      1. O offset inicial na query
      2. O offset inicial na seq
      3. O tamanho do resultado
      4. O nº de matches corretos
  """
  
  # Versão longa

  '''qm = query_map(query,w)                                          # Mapeamos a query

  allhits = hits(qm, seq)                                          # Mapeamos os hits

  extended_hits = [extend_hit(query,seq,hit,w) for hit in allhits] # Extendemos os hits'''

  # Outra alternativa - mais eficiente

  # Começamos pela lista de extended hits invocando a função:

  extended_hits = [extend_hit(query,seq,hit,window) for hit in hits(query_map(query,window),seq)]

  best_hit = (0,0,0,0)             # Iniciamos o tuplo-resultado

  for hit in extended_hits:        # Itera por todos os hits e mantém o que tem o match score maior
    if hit[3] > best_hit[3]:
        best_hit = hit
  
  return best_hit
    

In [31]:
# Testamos a função best_hit()

best_hit(query,seq,w)

(0, 0, 7, 6)