# Problema (5 puntos)
En el lab hemos visto la función `cuenta_patron(secuencia, patron)` que devolvía el número de apariciones posiblemente solapadas de un patrón en una secuencia.

Pero también hemos visto que para encontrar que el patrón `ACTAT` era el más repetido, hemos tenido que recorrer la lista manualmente para encontrarlo lo cual es obviamente muy engorroso. Por lo tanto, vamos a hacer que Python nos ayude. 

¿Puedes escribir una función, llamada `kmeros_frecuentes(secuencia, k)` que, siguiendo la misma filosofía, devuelva un mapa de frecuencias de cada k-mero encontrado? Esto es, un diccionario que por claves tendrá los k-meros encontrados y por valor la frecuencia absoluta de dicho k-mero en la secuencia dada?

Prueba tu código con el origen de replicación del vibrio cholerae y k=3, 4, 5, 6, 7, 8, 9. Analiza los resultados.
¿Encuentras algo "sorprendente"? 

Coméntamelo en la celda de respuesta de texto. 

In [None]:
fd = open("../labs/oric.fasta")
vc_oric = fd.readlines()[1] # origen de replicación del Vibrio Cholerae.
fd.close()

In [None]:
def kmeros_frecuentes(secuencia, k):
    freq = {} #Declaro un diccionario donde guardaré el mapa de frecuencias de los patrones de longitud k que encuentre.
    n = len(secuencia) # Longitud de la secuencia
    for i in range(n-k+1): #Itero por todas las posiciones (i) en las que puede empezar un k-mero dentro de la secuencia.
        kmero = secuencia[i:i+k] # Guardo el k-mero que está en la posición actual
        if kmero in freq: # Para evitar un error al intentar acceder al diccionario de secuencias si no está el kmero
            freq[kmero] += 1 # Incremento en 1 la cuenta de frecuencias para el k-mero (si ya estaba registrado)
        else:
            freq[kmero] = 1 # Si no lo había registrado, lo inicializo a 1. 
    return freq # Finalmente, la función devuelve el mapa de frecuencias que he ido creando

In [None]:
len(vc_oric)

In [None]:
vc_oric = vc_oric.strip('\n')
kmeros_frecuentes(vc_oric, 9)

In [None]:
kmeros_frecuentes(vc_oric, 4)

In [None]:
kmeros_frecuentes(vc_oric, 5)

In [None]:
kmeros_frecuentes(vc_oric, 6)

In [None]:
kmeros_frecuentes(vc_oric, 7)

In [None]:
kmeros_frecuentes(vc_oric, 8)

In [None]:
kmeros_frecuentes(vc_oric, 9)

In [None]:
def top_kmeros(secuencia, k):
    kmeros = []
    freqs = kmeros_frecuentes(secuencia, k)
    m = max(freqs.values())
    for key in freqs:
        if freqs[key] == m:
            kmeros.append(key)
        # add each key to words whose corresponding frequency value is equal to m
    return kmeros

In [None]:
top_kmeros(vc_oric, 9)

__Explicación__: La motivación de este ejercicio es que comprobáseis por vosotr@s mism@s la aparición de ciertos motivos que aparecen recurrentemente en el origen de replicación y cómo su frecuencia va descendiendo según voy aumentando k. 

Para reparar en si existía algo "sorprendente" en estas frecuencias, era importante darse cuenta de que encontrar un 9-mero 3 ó más veces en la secuencia es mucho más sorprendente que observar por ejemplo un 3-mero 25 ó más veces.

Por ejemplo, la probabilidad aproximada de ver un k-mero podía encontrarse con la fórmula general
$\frac{N-t(k-1) \choose t}{A^{t \cdot k}}$. 

Por tanto, para `N=540`, `k=3` y `t=25`, la probabilidad es:
$\frac{540-25(3-1) \choose 25}{4^{25 \cdot 3}} = \frac{490 \choose 25}{4^{75}} = 0.00044$ 

Y para `N=540`, `k=9` y `t=3`, la probabilidad es:
$\frac{540-3(9-1) \choose 3}{4^{3 \cdot 9}} = \frac{516 \choose 3}{4^{27}} = 0.0000000013$ 

## Problema
Calcula, empleando lo aprendido en clase, cuál es la probabilidad de que el mes que viene: 

1. Te toque el premio "gordo" de la Lotería de Navidad.
2. Te toque el segundo premio.
3. Te toque el reintegro. 
4. El premio gordo tenga 2 ceros y 3 unos. 
5. Te toquen las centenas (tres primeras cifras del primer, segundo, o tercer premio)

__Extra__: comprueba empíricamente tus estimaciones usando el módulo itertools.

In [None]:
import itertools

#### 1. Te toque el premio "gordo" de la Lotería de Navidad.
Ya que la lotería nacional emplea números de 5 dígitos, calcularemos todas las permutaciones con repetición de un alfabeto de 10 números cogidos de 5 en 5, o sea:

$n^{k} = 10^{5} = 100.000$ Ya que existen 100.000 posibles números, y tenemos que acertar uno, la probabilidad será $\frac{1}{100000} = 0.00001$

#### 2. Te toque el segundo premio.

Este caso es igual al anterior, ya que sólo existe un segundo premio. Por lo tanto, la probabilidad sigue siendo la misma.

#### 3. Te toque el reintegro. 
Para calcular las probabilidades de acertar el reintegro, simplemente consideraremos todos los números que se pueden generar acabados en uno fijo. Esto es, todas las permutaciones con repetición de 10 números cogidos de 4 en

$n^{k} = 10^{4} = 10.000$ 

Existen por tanto 10.000 de estos números de entre los 100.000 existentes. Lo cual nos da una probabilidad de
$\frac{10000}{100000} = \frac{1}{10} = 0.1$ 

#### 4. El premio gordo tenga 2 ceros y 3 unos. 
Para calcular la probabilidad de que el premio gordo tenga exactamente 2 ceros y 3 unos, podemos calcular primero cuántos números de 5 cifras existen con estas características, y multiplicarlo por la probabilidad de generar cada uno de ellos ($\frac{1}{100000}$). Ahora bien, ¿cuántos números con 2 ceros y 3 unos existen? 

Una manera de verlo es pensar en cuántas maneras existen de ordenar 2 (ceros) o 3 (unos) en 5. Por ejemplo, si empleamos el primer caso, tendríamos las siguientes secuencias:

1. `00xxx`
2. `0x0xx`
3. `0xx0x`
4. etc...

Que es lo mismo que decir de cuántas maneras puedo escoger 2 elementos de 5: $5 \choose 2 = \frac{5!}{2!(5-2)!} = \frac{5 \cdot 4 \cdot 3 \cdot 2 \cdot 1}{2 \cdot 1 \cdot 3 \cdot 2 \cdot 1 } = \frac{120}{12} = 10$.

Por tanto, existen 10 posibles números con una probabilidad de $\frac{1}{100000}$ cada uno: $10 \cdot \frac{1}{100000} = \frac{1}{10000} = 0.0001$


#### 5. Te toquen las centenas (tres primeras cifras del primer, segundo, o tercer premio)
Para que nos toquen las centenas, tenemos que acertar las tres primeras cifras de uno de 3 números de 5 cifras elegidos al azar de entre los 100.000 existentes. Como la probabilidad de acertar las centenas es de 1 entre $n^{k} = 10^{3} = 1000$, y tenemos 3 "intentos" para lograrlo, la probabilidad de acertar las centenas es la suma de la probabilidad de los 3 "intentos", o sea: $\frac{1}{1000}+\frac{1}{1000}+\frac{1}{1000}=\frac{3}{1000}$. 



#### Comprobación empírica
Para comprobar empíricamente estos resultados, vamos a usar el módulo `itertools` para generar todos los números de 5 dígitos sobre un alfabeto de 10 elementos (0 a 9). 

In [None]:
numeros_sorteo = list(itertools.product(range(0, 10), repeat=5))

In [None]:
# 1. Te toque el premio "gordo" de la Lotería de Navidad.
# Como tenemos que acertar un número, dividiremos 1 entre la longitud de la lista que contiene todos los números:
print(1/len(numeros_sorteo))

In [None]:
# 2. Te toque el segundo premio.
# Igual que el caso anterior
print(1/len(numeros_sorteo))

In [None]:
# 3. Te toque el reintegro.
# Para calcular la probabilidad de que te toque el reintegro, vamos a considerar que el gordo por ej. acaba en 1
# Entonces, comprobaremos cuántos números terminan en 1 de todos los posibles para hallar empíricamente la probabilidad.

frecuencias = {}
for numero in numeros_sorteo:
    terminacion = "".join([str(n) for n in numero])[-1]
    if terminacion not in frecuencias:
        frecuencias[terminacion] = 1
    else:
        frecuencias[terminacion] += 1

print(frecuencias)
print(frecuencias['1'] / len(numeros_sorteo))

In [None]:
# 4. El premio gordo tenga 2 ceros y 3 unos. 
# Haremos lo mismo que en el caso anterior, pero ahora comprobando que el número tenga las características indicadas:

con_2ceros3unos = [] 
for numero in numeros_sorteo:
    numero_str = "".join([str(n) for n in numero])
    if numero_str.count("0") == 2 and numero_str.count("1") == 3:
        con_2ceros3unos.append(numero)
print(len(con_2ceros3unos))
print(len(con_2ceros3unos) / len(numeros_sorteo))

In [None]:
# 5. Te toquen las centenas
# Parecido a los dos casos anteriores, pero ahora genero un mapa de frecuencias para cada centena que encuentro
# en los números generados. Para que me toquen las centenas, tendría que sumar las probabilidades para las centenas

frecuencias = {}
for numero in numeros_sorteo:
    centenas = "".join([str(n) for n in numero])[:3]
    if centenas not in frecuencias:
        frecuencias[centenas] = 1
    else:
        frecuencias[centenas] +=1

print(frecuencias)
print(frecuencias['000'] * 3 / len(numeros_sorteo))

__Conclusión/Sugerencia:__ No juegues a la lotería. :) 