In [None]:
import altair as alt

# Análisis exploratorio visual del SARS-CoV-2

En este ejercicio, vamos a aplicar algunos de los conocimientos que hemos ido adquiriendo durante el curso para 
visualizar el contenido en nucleótidos de unas cepas de coronavirus recientemente secuenciadas. 

En una primera parte, vamos a calcular cómo varía un k-mero a lo largo de cada uno de los genomas para después compararlos visualmente. 

En una segunda parte, vamos a extraer los k-meros más frecuentes y los visualizaremos por frecuencias y rangos en diagramas de barras para establecer diferencias y coincidencias entre las 4 secuencias. 

Primero, vamos a cargar el fasta con las secuencias para las 4 cepas de COVID:

In [None]:
fd = open("../data/covid-samples.fasta")

In [None]:
covid_seqs = fd.readlines()

In [None]:
i = 0
seqs = []
while(i < len(covid_seqs)):
    seq_name = covid_seqs[i].strip(">").strip("\n")
    seq = ''
    i+=1
    while(i < len(covid_seqs) and covid_seqs[i][0] != '>'):
        seq += covid_seqs[i].strip('\n')
        i+=1
    seq = seq.upper()
    seqs.append({"seq_name": seq_name, "seq_short_name": seq_name[:11], "seq": seq})

In [None]:
seqs

In [None]:
for seq_name in [seq['seq_name'] for seq in seqs]:
    print(seq_name)
    print()

## Problema 1: Fluctuación de codones
Ahora, vamos a ver cómo fluctúan ciertos k-mero (p. ej. codones) en cada una de las cepas. 
Para ello, vamos a resolver el siguiente problema:

Dado un genoma G de longitud n, se da la necesidad de saber cómo fluctúan determinados nucleótidos (extensible a k-meros) a través del mismo. Para calcularlo, se quieren tener en cuenta los siguientes parámetros:

- w: tamaño de la ventana (window) en la que se cuentan los k-meros
- kmer: secuencia a buscar, de longitud menor que w
- s: paso o salto (step) para avanzar a la siguiente ventana

s y w permiten modular la ‘resolución’ de la búsqueda, y también la velocidad del algoritmo.

Por lo tanto, vamos a definir la función `cuenta_kmero_ventana(seq_obj, w=1000, s=250, kmero='TGA')`, que busque el k-mero que se le pasa (búsqueda simple en cada ventana), y devuelva una lista de diccionarios con el siguiente formato:

```
{
    "i": "ventana #i",
    "count": "frecuencia absoluta del kmero en la ventana #i"
}
```

1. El k-mero a buscar por defecto será el codón de inicio `"AUG"` (`"ATG"`).
2. Usando Altair, y siguiendo lo que vimos en el lab6-b, dibuja la fluctuación de este codón en cada una de las secuencias.
3. Luego intenta pintarlas todas juntas usando el operador de concatenación "&".

In [None]:
def cuenta_kmero_ventana(seq_obj, w=1000, s=250, kmero='ATG'):
    i = 0
    freqs = []
    # Tu código aquí
    return freqs

In [None]:
#Secuencia 0
#Tu código aquí (alt.Chart...)

In [None]:
#Secuencia 1
#Tu código aquí (alt.Chart...)

In [None]:
#Secuencia 2
#Tu código aquí (alt.Chart...)

In [None]:
#Secuencia 3
#Tu código aquí (alt.Chart...)

### Visualizando las 4 secuencias juntas para detectar diferencias

Para visualizar los datos en altair, tendremos que normalizarlos: esto es, cada entrada en nuestra lista tendrá que tener el siguiente formato:

```
{
    "seq_short_name": "nombre (acortado) de la secuencia a la que se refiere este dato", 
    "count": "frecuencia en la ventana #i", 
    "i": "ventana #i"
}
```

In [None]:
# Tu código aquí
freqs_normalized 

In [None]:
# Tu código aquí
# alt.Chart(alt.Data(
#    values=freqs_normalized
# ))...

## Problema 2: Visualizando secuencias frecuentes en el SARS-CoV-2

Vamos a crear una visualización para comparar los n k-meros más comunes encontrados en las distintas cepas.

Primero, vamos a ver algunos resultados en "crudo": 

In [None]:
def kmeros_frecuentes(secuencia, k, descarta_errores=False):
    freq = {}
    n = len(secuencia)
    for i in range(n-k+1):
        kmero = secuencia[i:i+k]
        if kmero in freq:
            freq[kmero] += 1
        else:
            freq[kmero] = 1
    
    if descarta_errores and 'N'*k in freq:
        del freq['N'*k]
    return freq

In [None]:
def top_kmeros(secuencia, k, descarta_errores=False):
    kmeros = []
    freqs = kmeros_frecuentes(secuencia, k, descarta_errores)
    m = max(freqs.values())
    for key in freqs:
        if freqs[key] == m:
            kmeros.append(key)
        # add each key to words whose corresponding frequency value is equal to m
    return kmeros, m

In [None]:
for seq in seqs:
    print(top_kmeros(seq['seq'], 9))

In [None]:
for seq in seqs:
    print(top_kmeros(seq['seq'], 9, descarta_errores=True))

### Top n k-meros
Como podemos detectar algunas coincidencias, vamos a intentar visualizarlas. Para ello, primero definiremos una 
función `top_n_kmeros(seq, k, n)` que devolverá los n k-meros más frecuentes en la secuencias haciendo uso de la función `kmeros_frecuentes`. 

Después, declararemos otra función `top_n_kmeros_barchart(seqs, k=3, top_n=10)` en la que visualizaremos los n (10) 3 meros más frecuentes en cada una de las secuencias.  

In [None]:
def top_n_kmeros(seq, k, n):
    # Tu código aquí
    return kmeros

In [None]:
def top_n_kmeros_barchart(seqs, k, top_n):    
    # Tu código aquí
    return alt.Chart()

In [None]:
top_n_kmeros_barchart(seqs, k=3, top_n=10)