# Ensamble de ADN mediante grafos de De Bruijn

## Problema del periodico
Supongamos que metemos cada copia de un periódico de un dia especifico en un cofre de madera, imaginemos ademas que dicho cofre es detonado con dinamita y adicionalmente supongamos que no todos los periódicos están destruidos (como seguramente sucedería en la vida real) sino que estos explotaron en pequeños pedazos de confeti.
**¿qué decia el periódico?**

![](res/newspaper.png)

Este es basicamente el "problema del periodico", probablemente hayamos perdido algo de información en la explocion, sin embargo, también podemos ver que debido a que el cofre contenía muchas copias idénticas del mismo periódico, diferentes fragmentos de papel pueden superponerse y, por lo tanto, contener parte de la misma información.

![](res/news.png)

# El problema del ensamblado

El problema del periodico captura la esencia del ensamblaje de fragmentos de ADN. La tecnología de secuenciacion son (por el momento) incapaces de "leer" un genoma completo nucleótido por nucleótido, sin embargo es posible interpretar indirectamente secuencias cortas de ADN, a las que llamaremos "reads". Teniendo esto en cuenta la idea detrás de la secuenciación de ADN, entonces, es generar muchos "reads" de múltiples copias del mismo genoma, lo que resulta en un rompecabezas como el de los periodicos gigantesco.

![](res/reads.png)

Teniendo esto en cuenta, el problema de la secuenciacion genetica se reduce a la generacion de reads (un problema biologico) y el ensamble de fragmentos (un problema algoritmico). La generacion de reads ha sido el tema de discusión en varias secciones del semillero asi que será omitida.

### ¿Son el problema del ensamblado y el del periodico equivalentes?
#### * SPOILER ALERT *: NO
* El DNA tiene dos cadenas, a priori no podemos saber si una secuencia pertenece a la cadena original o a su inversa complementaria
* Las tecnicas de secuenciacion introducen cierto error

Veamos un algoritmo capaz de resolver este problema

# Algoritmo de De Bruijn

Consideremos el siguiente modelo conocido como modelo de lectura densa (dense model), tratar de resolver el problema del ensamble en esta configuracion nos da un algoritmo que puede ser extrapolado para un caso mas realista.

Un modelo de lectura densa supone que tenemos un read que comienza en cada posicion del genoma, adicionalmente, que cada read posee una longitud fija L, por convencion al conjunto de estos reads lo llamaremos espectro-L 

![](res/Lspectrum.png)

El espectro-L puede ser pensado como el conjunto de todos los reads de longitud L unicos obtenidos cuando tenemos infinitas lecturas del genoma $G$

## Grafo de De Bruijn
En [teoria de grafos](http://funes.uniandes.edu.co/6102/1/CombarizaUnaintroducci%C3%B3nGeometr%C3%ADa2003.pdf), el grafo de De Bruijn estandar es un grafo que surge que tomar todos las posibles subcadenas sobre un alfabeto dado de longitud $l$ como vertices, y agregando aristas entre dos vertices y posean un sobrelapamiento de $l-1$. Consideraremos una version ligeramente modificada para nuestro L-espectro

Dado el L-espectro de un genoma, construiremos un grado de De Bruijn de la siguiente manera:
1. Agregaremos un vertice por cada (L-1)-mer en el L-espectro
2. Agregaremos $k$ aristas entre 2 (L-1)-mers si su sobrelapamiento posee longitud L-2 y el L-mer correspondiente aparece $k$ veces en el L-espectro

Veamos un ejemplo para entender esta idea, consideremos la secuencia 
`ATAGACCCTAGACGAT` y $L = 5$
de esta manera, su L-espectro estaria formado por todos las posibles subcadenas de longitud 5.

In [2]:
seq = "ATAGACCCTAGACGAT"

Notemos que tanto *TAGA* como *AGAC* estan repetidos, por lo cual tendran un tratamiento especial.

Ya que tenemos todo en orden, creemos nuestro grafo, para esto, utilizaremos la libreria NetworkX, una comoda libreria que permite trabajar con grafos comodamente

In [21]:
class Kmer():
    def __init__(self, kmers_str):
        self.kmer_str = kmers_str
        self.k = len(self.kmer_str)
        self.prefix_node = self.kmer_str[:-1]
        self.sufix_node = self.kmer_str[1:]

    def __str__(self):
        return self.kmer_str


def read2kmer(seq, k):
    return [Kmer(seq[i:i + k].upper()) \
                for i in range(len(seq) - k + 1)]


def build_graph(sequences, k):
    G = nx.MultiDiGraph()
    for seq in sequences:
        for kmer in read2kmer(seq, k):
            if kmer.prefix_node not in G.nodes():
                G.add_node(kmer.prefix_node)
            if kmer.sufix_node not in G.nodes():
                G.add_node(kmer.sufix_node)
    if len(G.nodes()):
        [G.add_edge(L, R) for L in G.nodes() for R in \
            G.nodes() if L[1:] == R[:-1]]
    return G

In [22]:
G = build_graph([seq], 5)

In [25]:
from src.euler import * 

In [27]:
has_euler_path(G)

(True, 'AGAC', 'CGAT')