### Paralelismo do Alinhamento de Sequências de DNA

###### Beatriz Rianho Bernardino
---

Dentro da bioInformática, o alinhamento de sequências de DNA possui extrema importância para a identificação de padrões e nível de indentidade entre nucleotídeos ou proteínas. Esse mecanismo auxilia, por exemplo, na detecção de mutações de vírus, identificação de genomas desconhecidos e no mapeamento de sequências expressas dentro de um genoma.

Para que tal alinhamento seja possível, existem diferentes estratégias computacionais que podem ser utilizadas. Como as sequências de DNA têm um tamanho elevado, é necessário levar em consideração o uso de memória e processamento que cada algoritmo necessita, realizando um trade-off entre a exatidão do alinhamento e o tempo de processamento, como demonstrado no relatório anterior.


A busca Exaustiva é uma das possibilidades de algoritmo para alinhamento. Porém, enquanto ela garante um resultado que é um máximo global, o tempo de processamento dessa técnica é extremamento alto, por realizar a combinação de todas as subsequências existentes. Com o intuito de melhorar o desempenho dessa técnica,  o presente relatório conta com duas técnicas de paralilzação da busca exaustiva, visando a comparação do tempo de processamento entre cada uma delas.





#### Entradas
---

O código abaixo é responsável por gerar arquivos com sequências aleatórias de tamanhos diferentes que serão utilizadas para as análises.

In [2]:
entradas=[]


In [4]:
import random

for i in range(10, 200,20):
    
    for j in range(0,100):

        n = i # tamanho da primeira sequência
        m =  random.randint(10, i)# tamanho da segunda sequência
        file = 'Entradas/exaustiva/dna{0}_{1}.seq'.format(i,j)  # nome do arquivo a ser gerado
        entradas.append(n)
        f = open(file, 'w')
        seq = [str(n)+'\n',
               str(m)+'\n',
               ''.join(random.choices(['A', 'T', 'C', 'G'], k=n))+'\n',
               ''.join(random.choices(['A', 'T', 'C', 'G'], k=m))]
        f.writelines(seq)
        f.close()

#### Função para rodar  cada estratégia com as entradas
---

In [5]:
import subprocess

def roda_com_entrada(executavel, arquivo_in):
    import time

    with open('{0}'.format(arquivo_in)) as f:

        start = time.perf_counter()
        proc = subprocess.run([executavel], input=f.read(), text=True, capture_output=True)
        end = time.perf_counter()


    return (proc.stdout, end - start)

#### A Busca Exaustiva Tradicional
---


A busca exaustiva é um método responsável por realizar todas as combinações de alinhamento possíveis entre as sequências, garantindo assim, um resultado ótimo. Porém, justamente por realizar todas as combinações, necessita-se de um maior tempo de processamento. Para calcular o score de alinhamento de cada combinação, fez-se uso da heurística de alinhamento de Smith-Waterman. Tal heurística conta com uma matriz de alinhamento  preenchida de maneira dinâmica, através de atribuições de valores para a comparação de cada letra das subsequências analisadas.

O algoritmo utilizado não possui nenhum tipo de paralelismo e pode-se observar seu desempenho conforme o tamanho das entradas aumenta abaixo:

In [6]:
tempos_ex1=[]

In [8]:
for i in range(10,100,20):
    avg_time=[]
    for j in range (0,100):
        out, time= roda_com_entrada('./Exaustiva/exaustiva_dois', 'Entradas/exaustiva/dna{0}_{1}.seq'.format(i,j))
        avg_time.append(time)
    tempos_ex1.append(np.mean(avg_time))

OSError: [Errno 8] Exec format error: './Exaustiva/exaustiva_dois'

In [None]:
ex1_en = []
for i in entradas[:500]:
    if i not in ex1_en:
        ex1_en.append(i)

In [None]:
import matplotlib.pyplot as plt

plt.scatter(ex1_en, tempos_ex1)
plt.xlabel("Tamanho das Entradas(N)")
plt.ylabel("Tempo")
plt.title("Exaustiva versão 1")
plt.grid()
plt.show()