# Vasculhando a Pilha de Palha

Definimos um **motivo** como tal intervalo de DNA compartilhado comumente. Uma tarefa comum na biologia molecular é buscar no genoma de um organismo por um motivo já conhecido.

A situação se complica pelo fato de que os genomas estão repletos de intervalos de DNA que ocorrem múltiplas vezes (possivelmente com modificações sutis), chamados de **repetições**. Essas repetições ocorrem com muito mais frequência do que seria esperado ao acaso, o que indica que os genomas estão longe de serem aleatórios e, de fato, mostram que a linguagem do DNA deve ser muito poderosa (compare com a reutilização frequente de palavras comuns em qualquer idioma humano).

A repetição mais comum nos humanos é a **repetição Alu**, com cerca de 300 pares de bases de comprimento e que ocorre aproximadamente um milhão de vezes em cada genoma humano (veja a Figura 1). No entanto, não se encontrou até hoje uma função positiva para o Alu, e ele aparenta ser parasítico: quando uma nova repetição Alu é inserida em um genoma, frequentemente causa distúrbios genéticos.

![Figura 1](https://darwinedeus.blogfolha.uol.com.br/files/2020/07/cromossomos-felizes.jpg)

> **Figura 1.** Cromossomos humanos corados com uma sonda para elementos Alu, mostrados em verde.
Encontrar o mesmo intervalo de DNA nos genomas de dois organismos diferentes (frequentemente de espécies distintas) é um forte indicativo de que esse intervalo possui a mesma função em ambos os organismos.

Link: [Finding a Motif in DNA](https://rosalind.info/problems/subs/)

### **Problema**

Dadas duas cadeias de DNA `s` e `t`, dizemos que `t` é uma **subcadeia** de `s` se `t` estiver contida como uma sequência contínua de símbolos dentro de `s` (como consequência, `t` não pode ser maior que `s`).

A **posição** de um símbolo em uma cadeia é o número total de símbolos à sua esquerda, incluindo ele próprio (por exemplo, as posições de todas as ocorrências de `'U'` em `"AUGCUUCAGAAAGGUCUUACG"` são 2, 5, 6, 15, 17 e 18). O símbolo na posição `i` de `s` é denotado por `s[i]`.

Uma subcadeia de `s` pode ser representada como `s[j:k]`, onde `j` e `k` representam as posições inicial e final da subcadeia em `s`; por exemplo, se `s = "AUGCUUCAGAAAGGUCUUACG"`, então `s[2:5] = "UGCU"`.

A **localização** de uma subcadeia `s[j:k]` é sua posição inicial `j`; note que `t` poderá ter **múltiplas localizações** em `s` se ocorrer mais de uma vez como subcadeia de `s` (veja o exemplo abaixo).

**Dado**: Duas cadeias de DNA `s` e `t` (cada uma com no máximo 1 kbp de comprimento).

**Retorne**: Todas as localizações de `t` como subcadeia de `s`.

In [5]:
#Insira o caminho abaixo
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Dados\\rosalind_subs.txt"

with open(caminho, "r", encoding="utf-8") as arquivo:
    entrada = arquivo.read().split('\n')

s = entrada[0]
t = entrada[1]

In [6]:
def encontrar_subcadeias(s, t):
    posicoes = []
    tamanho_t = len(t)
    for i in range(len(s) - tamanho_t + 1):
        if s[i:i + tamanho_t] == t:
            posicoes.append(i + 1)

    return " ".join(map(str, posicoes))

texto = encontrar_subcadeias(s, t)
print(texto)

8 38 81 112 127 142 231 294 319 335 342 457 474 489 522 544 568 631 638 743


In [7]:
# Caminho para o arquivo dentro da pasta Output
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Saidas\\rosalind_subs_output.txt"

with open(caminho, "w", encoding="utf-8") as arquivo:
    arquivo.write(str(texto))