<a href="https://colab.research.google.com/github/theinem/FindMotif/blob/master/MotifsDetection_v4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Detección de Motifs V4**
Este notebook contiene los pasos para la proposición de motifs (motivos) candidatos dentro de un conjunto de cadenas de ADN.

Se analizará dormancy survival regulator (DosR). Este factor de transcripción regula la expresión de genes bajo condiciones hipóxicas para la turbeculosis micobacteriana. Se analizarán una serie de 15-mers para detectar los puntos de partida de los enlaces que disparan la actuación de DosR.

***La versión 3 emplea los seudo-contadores y una búsqueda aleatoria***

Mientras que el greedy search se queda en óptimos locales, la búsqueda aleatoria permite que puedan encontrarse con mayor probabilidad los óptimos globales. Siempre y cuando el número de iteraciones sea lo suficientemente alto.

La potencia de este método radica en que hay nuclétidos más frecuentes, así que un examen aleatorio tiene más posibilidades de encontrar iterativamente motifs cada vez mejores.

In [None]:
import random

### Montar el disco virtual

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

### Lectura del archivo

In [None]:
#Alternativa no explorada por el curso. Cargar los datos desde el disco.
#f = open('/content/drive/My Drive/Colab Notebooks/Bioinformatics/Semana 3/DosR.txt', 'r')
#Dna = f.read()

Dna = ["GCGCCCCGCCCGGACAGCCATGCGCTAACCCTGGCTTCGATGGCGCCGGCTCAGTTAGGGCCGGAAGTCCCCAATGTGGCAGACCTTTCGCCCCTGGCGGACGAATGACCCCAGTGGCCGGGACTTCAGGCCCTATCGGAGGGCTCCGGCGCGGTGGTCGGATTTGTCTGTGGAGGTTACACCCCAATCGCAAGGATGCATTATGACCAGCGAGCTGAGCCTGGTCGCCACTGGAAAGGGGAGCAACATC", "CCGATCGGCATCACTATCGGTCCTGCGGCCGCCCATAGCGCTATATCCGGCTGGTGAAATCAATTGACAACCTTCGACTTTGAGGTGGCCTACGGCGAGGACAAGCCAGGCAAGCCAGCTGCCTCAACGCGCGCCAGTACGGGTCCATCGACCCGCGGCCCACGGGTCAAACGACCCTAGTGTTCGCTACGACGTGGTCGTACCTTCGGCAGCAGATCAGCAATAGCACCCCGACTCGAGGAGGATCCCG", "ACCGTCGATGTGCCCGGTCGCGCCGCGTCCACCTCGGTCATCGACCCCACGATGAGGACGCCATCGGCCGCGACCAAGCCCCGTGAAACTCTGACGGCGTGCTGGCCGGGCTGCGGCACCTGATCACCTTAGGGCACTTGGGCCACCACAACGGGCCGCCGGTCTCGACAGTGGCCACCACCACACAGGTGACTTCCGGCGGGACGTAAGTCCCTAACGCGTCGTTCCGCACGCGGTTAGCTTTGCTGCC", "GGGTCAGGTATATTTATCGCACACTTGGGCACATGACACACAAGCGCCAGAATCCCGGACCGAACCGAGCACCGTGGGTGGGCAGCCTCCATACAGCGATGACCTGATCGATCATCGGCCAGGGCGCCGGGCTTCCAACCGTGGCCGTCTCAGTACCCAGCCTCATTGACCCTTCGACGCATCCACTGCGCGTAAGTCGGCTCAACCCTTTCAAACCGCTGGATTACCGACCGCAGAAAGGGGGCAGGAC", "GTAGGTCAAACCGGGTGTACATACCCGCTCAATCGCCCAGCACTTCGGGCAGATCACCGGGTTTCCCCGGTATCACCAATACTGCCACCAAACACAGCAGGCGGGAAGGGGCGAAAGTCCCTTATCCGACAATAAAACTTCGCTTGTTCGACGCCCGGTTCACCCGATATGCACGGCGCCCAGCCATTCGTGACCGACGTCCCCAGCCCCAAGGCCGAACGACCCTAGGAGCCACGAGCAATTCACAGCG", "CCGCTGGCGACGCTGTTCGCCGGCAGCGTGCGTGACGACTTCGAGCTGCCCGACTACACCTGGTGACCACCGCCGACGGGCACCTCTCCGCCAGGTAGGCACGGTTTGTCGCCGGCAATGTGACCTTTGGGCGCGGTCTTGAGGACCTTCGGCCCCACCCACGAGGCCGCCGCCGGCCGATCGTATGACGTGCAATGTACGCCATAGGGTGCGTGTTACGGCGATTACCTGAAGGCGGCGGTGGTCCGGA", "GGCCAACTGCACCGCGCTCTTGATGACATCGGTGGTCACCATGGTGTCCGGCATGATCAACCTCCGCTGTTCGATATCACCCCGATCTTTCTGAACGGCGGTTGGCAGACAACAGGGTCAATGGTCCCCAAGTGGATCACCGACGGGCGCGGACAAATGGCCCGCGCTTCGGGGACTTCTGTCCCTAGCCCTGGCCACGATGGGCTGGTCGGATCAAAGGCATCCGTTTCCATCGATTAGGAGGCATCAA", "GTACATGTCCAGAGCGAGCCTCAGCTTCTGCGCAGCGACGGAAACTGCCACACTCAAAGCCTACTGGGCGCACGTGTGGCAACGAGTCGATCCACACGAAATGCCGCCGTTGGGCCGCGGACTAGCCGAATTTTCCGGGTGGTGACACAGCCCACATTTGGCATGGGACTTTCGGCCCTGTCCGCGTCCGTGTCGGCCAGACAAGCTTTGGGCATTGGCCACAATCGGGCCACAATCGAAAGCCGAGCAG", "GGCAGCTGTCGGCAACTGTAAGCCATTTCTGGGACTTTGCTGTGAAAAGCTGGGCGATGGTTGTGGACCTGGACGAGCCACCCGTGCGATAGGTGAGATTCATTCTCGCCCTGACGGGTTGCGTCTGTCATCGGTCGATAAGGACTAACGGCCCTCAGGTGGGGACCAACGCCCCTGGGAGATAGCGGTCCCCGCCAGTAACGTACCGCTGAACCGACGGGATGTATCCGCCCCAGCGAAGGAGACGGCG", "TCAGCACCATGACCGCCTGGCCACCAATCGCCCGTAACAAGCGGGACGTCCGCGACGACGCGTGCGCTAGCGCCGTGGCGGTGACAACGACCAGATATGGTCCGAGCACGCGGGCGAACCTCGTGTTCTGGCCTCGGCCAGTTGTGTAGAGCTCATCGCTGTCATCGAGCGATATCCGACCACTGATCCAAGTCGGGGGCTCTGGGGACCGAAGTCCCCGGGCTCGGAGCTATCGGACCTCACGATCACC"]

### Definimos todas las funciones
Nos permitirán hacer una greedy search

### Ejecución de las funciones
Se buscará un 15-mer dentro de 10 segmentos de ADN.

In [None]:
def N_RandomMotifs(Dna, k, t, N):
  BestMotifs = RandomizedMotifSearch(Dna, k, t)
  BestScore = Score(BestMotifs)
  for i in range(N-1):
      m = RandomizedMotifSearch(Dna, k, t)
      score = Score(m)
      if score < BestScore:
          BestMotifs = m
          BestScore = score
  return BestMotifs, BestScore

# Input:  Positive integers k and t, followed by a list of strings Dna
# Output: RandomizedMotifSearch(Dna, k, t)
def RandomizedMotifSearch(Dna, k, t):
    # insert your code here
    M = RandomMotifs(Dna, k, t)
    BestMotifs = M
    while True:
        profile = Profile(M)
        M = Motifs(profile, Dna)
        if Score(M) < Score(BestMotifs):
            BestMotifs = M
        else:
            return BestMotifs

def RandomMotifs(Dna, k, t):
    # place your code here.
    l = len(Dna[0])
    RandomMotif =[]
    for i in range(t):
        r = random.randint(0,l-k)
        RandomMotif.append(Dna[i][r:r+k])
    return RandomMotif

# Input:  A set of k-mers motifs
# Output: ProfileWithPseudocounts(Motifs)
def Profile(Motifs):
    profile = {} # output variable
    t = len(Motifs)+4
    k = len(Motifs[0])
    profile = Count(Motifs)
    for i in profile:  
        for j in range(k):
            profile[i][j] = profile[i][j]/t   
    return profile

# Input:  A profile matrix Profile and a list of strings Dna
# Output: Motifs(Profile, Dna)
def Motifs(Profile, Dna):
    # insert your code here
    motifs = []
    t = len(Dna)
    k = len(Profile['A'])
    for i in range(t):
        motif = ProfileMostProbableKmer(Dna[i], k, Profile)
        motifs.append(motif)
    return motifs

# The profile matrix assumes that the first row corresponds to A, the second corresponds to C,
# the third corresponds to G, and the fourth corresponds to T.
# You should represent the profile matrix as a dictionary whose keys are 'A', 'C', 'G', and 'T' and whose values are lists of floats
def ProfileMostProbableKmer(text, k, profile):
    max_p = -1
    max_kmer = ''
    for i in range(len(text)-k+1):
        p = Pr(text[i:i+k], profile)
        if p > max_p:
            max_p = p
            max_kmer = text[i:i+k]            
    return max_kmer

def Pr(Text, Profile):
    p = float(1)
    for i in range(len(Text)):
        p *= Profile[Text[i]][i]
    return p

# Input:  A set of k-mers motifs
# Output: CountWithPseudocounts(Motifs)
def Count(Motifs):
    count = {} # initializing the count dictionary
    k = len(Motifs[0])
    count = {'A':[1]*k,'C':[1]*k,'G':[1]*k,'T':[1]*k}
    
    t = len(Motifs)
    for i in range(t):
        for j in range(k):
            symbol = Motifs[i][j]
            count[symbol][j] += 1
    return count

# Input:  A set of k-mers motifs
# Output: The score of these k-mers.
def Score(Motifs):
    result = Consensus(Motifs)
    counts = Count(Motifs)
    score = len(Motifs)*len(result)
    i = 0
    for symbol in result:
        # Score is the sum of (total number of elements per column MINUS
        # the number of occurence of the most frequent symbol per column)   
        score -= counts[symbol][i]
        i += 1
    return score

# Input:  A set of k-mers motifs
# Output: A consensus string of Motifs.
def Consensus(Motifs):
    k = len(Motifs[0])
    count = Count(Motifs)
    consensus = ""
    for j in range(k):
        m = 0
        frequentSymbol = ""
        for symbol in "ACGT":
            if count[symbol][j] > m:
                m = count[symbol][j]
                frequentSymbol = symbol
        consensus += frequentSymbol
    return consensus

In [None]:
# set t equal to the number of strings in Dna, k equal to 15, and N equal to 100.
t = len(Dna)
k = 15
N = 100

BestMotifs, BestScore = N_RandomMotifs(Dna, k, t, N)

### Muestra de los motifs resultantes
En esta tercera versión los resultados pueden ser diversos, pero con 100 iteraciones tenderá a tener resultados similares a los obtenidos por la versión 2.

In [None]:
for i in range(len(BestMotifs)):
  print( i, '=', BestMotifs[i])

0 = GGGCCGGAAGTCCCC
1 = GGGTCAAACGACCCT
2 = GGGACGTAAGTCCCT
3 = GGGTGGGCAGCCTCC
4 = GGGGCGAAAGTCCCT
5 = GCGGCGGTGGTCCGG
6 = GGGACTTCTGTCCCT
7 = GGGACTTTCGGCCCT
8 = GGGACCAACGCCCCT
9 = GGGACCGAAGTCCCC


### Consenso de los motifs y puntaje
El mejor puntaje posible es cero, es decir, se desea encontrar menor cantidad de diferencias entre los motifs propuestos.

Para N = 100 el score rondará entre 20 y 30.

In [None]:
print('Consenso:', Consensus(BestMotifs))
print('Puntaje:', Score(BestMotifs))

Consenso: GGGACGGAAGTCCCT
Puntaje: 22


# **---Con esto damos por terminado el código---**

# *Limitaciones*

*   Al no hacer una búsqueda exhaustiva, puede que no encuentre la cadena óptima global.

*   Los candidatos iniciales pueden funcionar bien en casos sencillos, pero este método puede fallar para problemas más complejos.

*   Algunos candidatos buenos pueden ser "olvidados" por el algoritmo, pues cada iteración es independiente.


Basado en los temas dictados en el curso Biology Meets Programming ( https://www.coursera.org/learn/bioinformatics/home/week/4 )

Otras fuentes: http://www.mrgraeme.co.uk/greedy-motif-search/