# Parte 1: 13:00-14:30

Objetivos:
* Dada una secuencia genética, determinar patrones con posibles funciones biológicas
* Implementar computacionalmente una función para countar subsecuencias dentro de la secuencia principal.

Introducción
-------------------

Para ganar intuición, analizemos un problema fundamental de bioinformática: ¿en dónde está el origen de replicación del genoma bacteriano?

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/naive_replication.png" alt="Drawing" style="width: 400px;"/>

[Imagen de https://www.bioinformaticsalgorithms.org/](https://www.bioinformaticsalgorithms.org/bioinformatics-chapter-1)

Hay una secuencia que es reconocida por la maquinaria transcripcional. Esa secuencia (puede haber tener más de una copia en el genoma) es donde comienza a replicarse el material genético.

Para encontrar tal secuencia, comenzemos por resolver problemas más simples que luego escalaremos para abarcar la complejidad del problema en cuestion. 

Dada una secuencia (genética, de texto, o lo que sea), empezemos por contar cuantas veces en ella está repetido un patrón. Por ejemplo, en la secuencia

```python
Secuencia="Hola, ¿como estas?. Hola, bien gracias. Y tú, ¿qué cuentas?"
```

1 ¿Cuántas vences aparece el patrón

```python
"Hola"?
```

2 ¿Cuántas vences aparece el patrón

```python
"as"?
```

Para esto puedes usar el siguiente seudocódigo:

```python
PatternCount(Text, Pattern)
    count ← 0
    for i ← 0 to |Text| − |Pattern|
        if Text(i, |Pattern|) = Pattern
            count ← count + 1
    return count
```

In [17]:
Text="Hola, ¿como estas?. Hola, bien gracias. Y tú, ¿qué cuentas?"

In [13]:
# Sublistas
Text="Hola, ¿como estas?. Hola, bien gracias. Y tú, ¿qué cuentas?"

Text[0:4]

'Hola'

In [21]:
Text[6:17]

'¿como estas'

In [22]:
i=1
Text[i:i+4] == "Hola"

False

In [14]:
# Largo de una cadena de caracetres

len(Text) # |Text|

59

In [11]:
# Evaluaciones lógicas
x = 1
y = 3
x == y

False

In [12]:
# Evaluaciones lógicas
x = 1
y = 1
x == y

True

In [6]:
# Ciclo iterativo for
for i in [0,1,2,3]:
    print(i)

0
1
2
3


In [5]:
for j in range(4):
    print(j)

0
1
2
3


In [18]:
# Funciones
def nombreFuncion(x,y):
    z = x + y
    return(z)

In [19]:
nombreFuncion(3,5)

8

### Ejercicio

Implementar ```PatternCount(Text, Pattern)```

# Parte 2:  14:40 - 16:10


Objetivos:

1. Determinar que patrones tienen funciones biológicas
2. Implementar el código en Python

1 ¿Qué patrones tienen funciones biológicas?
-----------------------------------------------------

Nuestra hipotesis será que aquellos patrones que tienen funciones biologicas son los que aparecen más veces de lo esperado en la secuencia (más adelante veremos como calificar una frecuencia como mayor a lo esperado). 

En la clase anterior ya obtuvimos una función para computar cuantas veces un patrón está presente en una secuencia. Ahora, necesitamos una función para determinar la frecuencia de un patrón cualquiera, del cual no sabemos de antemano ni su composición ni el número de letras. Por ejemplo, 

* en la secuencia ACA**ACTAT**GCAT**ACTAT**CGGGA**ACTAT**CCT, el patrón de 5 letras **ACTAT** es el más frecuente, apareciendo 3 veces. 
* Por otro lado, en la secuencia CG**ATATA**TCC**ATA**G, el patrón de 3 letras **ATA** es el más frecuente, apareciendo 3 veces.

Un ejemplo más biologico, el siguiente es una secuencia de Vibrio cholerae


```
atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaac
ctgagtggatgacatcaagataggtcgttgtatctccttcctctcgtactctcatgacca
cggaaagatgatcaagagaggatgatttcttggccatatcgcaatgaatacttgtgactt
gtgcttccaattgacatcttcagcgccatattgcgctggccaaggtgacggagcgggatt
acgaaagcatgatcatggctgttgttctgtttatcttgttttgactgagacttgttagga
tagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccgtaaat
tgataatgaatttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaag
atcttcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcatgtt
tccttaaccctctattttttacggaagaatgatcaagctgctgctcttgatcatcgtttc
```

cuyos patrones más frecuentes son los siguientes:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/table.png" alt="Drawing" style="width: 700px;"/>



Para lograr esto, dado un Texto (así llamaremos también a las secuencias) en el cual queremos buscar un patron de largo k, podemos crear una lista llamada Count de tamaño |Text| - k (es el número de sublistas de tamaño k en el Text), en cuya coordenada i guardamos el número de veces que se repite el patrón ubicado en Text[i:(i+k)].

Por ejemplo, dado Text="ACTGACTCCCACCCC" y k=3, la lista Count es la siguiente.

```
Text: ACTGACTCCCACCCC
Count:2111211311133
```

A continuación una implementación de ésta función en Python

In [8]:
import numpy as np

def FrequentWords(Text, k):
    FrequentPatterns = set()
    Count = [0]*( len(Text)-k+1 )
    for i in range( len(Text) - k +1 ):
        Pattern = Text[ i:(i+k)]
        Count[i] = PatternCount(Text, Pattern) # PatternCount cuenta el número de veces 
                                               # que Pattern aparece en Text
    maxCount = np.max(Count)
    for i in range(len(Text) - k +1 ):
        if Count[i] == maxCount:
            FrequentPatterns.add( Text[i:(i+k)] )
            
    return( (FrequentPatterns),maxCount ) #,Count

In [9]:
Text="ACTGACTCCCACCCC"
k=3
Count = [0]*(len(Text)-k+1)
print("al inicio: ", Count )
for i in range( len(Text) - k +1 ):
    Pattern = Text[ i:(i+k)]
    print(i,i+k,Pattern, PatternCount(Text, Pattern) )
    Count[i] = PatternCount(Text, Pattern)
print("al final", Count)
maxCount = np.max(Count)
print("el maximo es:", maxCount )

FrequentPatterns = set()
print("al inicio FrequentPatterns es:", FrequentPatterns)
for i in range(len(Text) - k +1 ):
    if Count[i] == maxCount:
        FrequentPatterns.add( Text[i:(i+k)] )
print("luego del ciclo for FrequentPatterns es:", FrequentPatterns)  



al inicio:  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
0 3 ACT 2
1 4 CTG 1
2 5 TGA 1
3 6 GAC 1
4 7 ACT 2
5 8 CTC 1
6 9 TCC 1
7 10 CCC 3
8 11 CCA 1
9 12 CAC 1
10 13 ACC 1
11 14 CCC 3
12 15 CCC 3
al final [2, 1, 1, 1, 2, 1, 1, 3, 1, 1, 1, 3, 3]
el maximo es: 3
al inicio FrequentPatterns es: set()
luego del ciclo for FrequentPatterns es: {'CCC'}


In [10]:
# Verifiquemos
Text="Hola, ¿como estas?. Hola, bien gracias. Y tú, ¿qué cuentas?"
k=3
FrequentWords(Text, k) # Debería imprimir los patrones de 3 letras más frecuentes. Puede haber más de uno


({', ¿', 'Hol', 'a, ', 'as?', 'la,', 'ola', 'tas'}, 2)

In [11]:
Text="atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaac\
ctgagtggatgacatcaagataggtcgttgtatctccttcctctcgtactctcatgacca\
cggaaagatgatcaagagaggatgatttcttggccatatcgcaatgaatacttgtgactt\
gtgcttccaattgacatcttcagcgccatattgcgctggccaaggtgacggagcgggatt\
acgaaagcatgatcatggctgttgttctgtttatcttgttttgactgagacttgttagga\
tagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccgtaaat\
tgataatgaatttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaag\
atcttcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcatgtt\
tccttaaccctctattttttacggaagaatgatcaagctgctgctcttgatcatcgtttc"
k=9

FrequentWords(Text, k)

({'atgatcaag', 'ctcttgatc', 'cttgatcat', 'tcttgatca'}, 3)

Ejercicio
---------

Usando la función FrequentWords, verifica que 

1. Dado Text="ACAACTATGCATACTATCGGGAACTATCCT", el patrón de 5 letrás más común es "ACTAT"
2. Dado Text="CGATATATCCATAG", el patrón de 3 letras más común es "ATA"


Una manera más eficiente de buscar patrones
=====================================

Ya conseguimos nuestro objetivo de crear una herramienta para encontrar los patrones más comunes. Ésta funciona bien, pero no es muy eficiente. En ejemplos reales, en donde las secuencias genéticas tienen millones de bases, nuestra función es muy lenta. Utliza un ciclo for para recorrer la secuencia completa, pero por cada iteración del ciclo for llama a la función PatternCount, la que a su vez recorre nuevamente la secuencia completa, de principio a fin. 

Una manera más eficiente de hacer los calculos es almacenara el número de veces que ser recorre la secuencia no en una lista, sino en un diccionario. En python un diccionario se define de la siguiente manera:

```python
    x={} # a nuestro diccionario lo llamaremos x
    x["secuencia1"]=1
    x["secuencia2"]=3
    x["secuencia1"] = x["secuencia1"] +1
```

Este es el seudo código para implementar esta mejora

```python
    FrequencyDicionary(Text, k)
        freqMap ← empty map
        n ← |Text|
        for i ← 0 to n − k
            Pattern ← Text(i, k)
            if freqMap[Pattern] doesn't exist
                freqMap[Pattern]← 1
            else
               freqMap[pattern] ←freqMap[pattern]+1 
        return freqMap
    
    BetterFrequentWords(Text, k)
        FrequentPatterns ← an array of strings of length 0
        freqMap ← FrequencyDictionary(Text, k)
        max ← MaxMap(freqMap)
        for all strings Pattern in freqMap
            if freqMap[pattern] = max
                append Pattern to frequentPatterns
        return frequentPatterns    
```    

Ejercicio
=======

Implementa este nuevo algoritmo en Python

```python

Text="ACTGACTCCCACCCC"
k=3



freqDic={}
freqDic["CGA"] = 2 # numero de veces que aparece en Text
freqDic["GAT"] = 1 # numero de veces que aparece en Text
....
freqDic["ATA"] = 3

len(freqDic) < len(Count) # ESTA ES LA PARTE IMPORTANTE. AL TENER MENOS ELEMENTOS freqDic,                           # HAY MENOS ITERACIONES QUE EFECTUAR LUEGO => NUESTRO ALGORITMO SERÍA MÁS EFICIENTE
```    

In [16]:
# codigo python
def FrequencyDictionary(Text, k):
        freqMap = {}
        n = len(Text)
        for i in range(n -k +1):
            Pattern = Text[i:(i+k)]
            if not Pattern in freqMap:
                freqMap[Pattern] = 1
            else:
                freqMap[Pattern] = freqMap[Pattern]+1 
        return( freqMap )

def MaxOfDict1(dictName):
    # Opción 2
    maxValue = 0
    for key in freqMap:
        if freqMap[key] >= maxValue: #  
            maxValue = freqMap[key]
    return( maxValue )
def MaxOfDict2(dictName):
    # Opción 1 maxValue = np.max(listValores)
    listaValores=[]
    for key in freqMap:
        listaValores.append(freqMap[key])
    maxValue = np.max(listaValores)
    return( maxValue )  
    
def BetterFrequentWords(Text, k): 
    FrequentPatterns = [] 
    freqMap = FrequencyDicionary(Text, k) 
    maxfreqMap = MaxOfDict1(freqMap) # alternativamente podemos usar MaxOfDict2
    print(maxfreqMap) # deberia ser un 3
    for Pattern in freqMap: 
        if freqMap[Pattern] == maxfreqMap: 
            FrequentPatterns.append(Pattern)
    return( FrequentPatterns )

In [13]:
Text="atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaac\
ctgagtggatgacatcaagataggtcgttgtatctccttcctctcgtactctcatgacca\
cggaaagatgatcaagagaggatgatttcttggccatatcgcaatgaatacttgtgactt\
gtgcttccaattgacatcttcagcgccatattgcgctggccaaggtgacggagcgggatt\
acgaaagcatgatcatggctgttgttctgtttatcttgttttgactgagacttgttagga\
tagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccgtaaat\
tgataatgaatttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaag\
atcttcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcatgtt\
tccttaaccctctattttttacggaagaatgatcaagctgctgctcttgatcatcgtttc"
k=9
BetterFrequentWords(Text, k)

NameError: name 'freqMap' is not defined

Tarea optativa
==============

Corregir el código de la celda ```BetterFrequentWords, MaxOfDict2, o FrequencyDicionary``` de tal manera que el resultado de 

```python
Text="atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaac\
ctgagtggatgacatcaagataggtcgttgtatctccttcctctcgtactctcatgacca\
cggaaagatgatcaagagaggatgatttcttggccatatcgcaatgaatacttgtgactt\
gtgcttccaattgacatcttcagcgccatattgcgctggccaaggtgacggagcgggatt\
acgaaagcatgatcatggctgttgttctgtttatcttgttttgactgagacttgttagga\
tagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccgtaaat\
tgataatgaatttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaag\
atcttcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcatgtt\
tccttaaccctctattttttacggaagaatgatcaagctgctgctcttgatcatcgtttc"
k=9
BetterFrequentWords(Text, k)
```

sea 

```python
['atgatcaag', 'ctcttgatc', 'tcttgatca', 'cttgatcat']
```

In [18]:
def FrequencyDictionary(Text, k):
        freqMap = {}
        n = len(Text)
        for i in range(n -k +1):
            Pattern = Text[i:(i+k)]
            if not Pattern in freqMap:
                freqMap[Pattern] = 1
            else:
                freqMap[Pattern] = freqMap[Pattern]+1 
        return( freqMap )

def MaxOfDict1 (dictName):
    maxValue = 0
    for key in dictName:
        if dictName [key] >= maxValue:
            maxValue = dictName[key]
    return( maxValue )

def BetterFrequentWords(Text, k):
    FrequentPatterns = []
    freqMap = FrequencyDictionary(Text, k)
    maxfreqMap = MaxOfDict1(freqMap)
    for Pattern in freqMap:
        if freqMap[Pattern] == maxfreqMap:
            FrequentPatterns.append(Pattern)
    return( FrequentPatterns )

Text="atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaac\
ctgagtggatgacatcaagataggtcgttgtatctccttcctctcgtactctcatgacca\
cggaaagatgatcaagagaggatgatttcttggccatatcgcaatgaatacttgtgactt\
gtgcttccaattgacatcttcagcgccatattgcgctggccaaggtgacggagcgggatt\
acgaaagcatgatcatggctgttgttctgtttatcttgttttgactgagacttgttagga\
tagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccgtaaat\
tgataatgaatttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaag\
atcttcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcatgtt\
tccttaaccctctattttttacggaagaatgatcaagctgctgctcttgatcatcgtttc"
k=9
BetterFrequentWords(Text, k)

['atgatcaag', 'ctcttgatc', 'tcttgatca', 'cttgatcat']