# Vasculhando a Pilha de Palha

Em “Encontrando um Motivo no DNA”, buscamos uma determinada sequência genética conhecida previamente; no entanto, esse problema pressupunha que já sabíamos qual era o motivo. Na prática, biólogos muitas vezes não sabem exatamente o que estão procurando. Em vez disso, precisam analisar simultaneamente vários genomas diferentes para identificar regiões de similaridade que possam indicar genes compartilhados por diferentes organismos ou espécies.

A região mais simples de similaridade é um motivo que ocorre sem mutações em todas as sequências genéticas de um conjunto; tal motivo corresponde a uma subcadeia compartilhada por todas as cadeias. Queremos procurar por subcadeias compartilhadas longas, já que um motivo mais longo provavelmente indica uma função compartilhada mais relevante.

Link: [Finding a Shared Motif](https://rosalind.info/problems/lcsm/)

### **Problema**

Uma subcadeia comum de um conjunto de cadeias é uma subcadeia presente em todas as cadeias do conjunto. Dizemos que uma subcadeia comum é uma subcadeia comum mais longa se não existir outra subcadeia comum mais longa.

Por exemplo, “CG” é uma subcadeia comum de “ACGTACGT” e “AACCGTATA”, mas não é a mais longa possível; neste caso, “CGTA” é uma subcadeia comum mais longa de “ACGTACGT” e “AACCGTATA”.

Observe que a subcadeia comum mais longa não é necessariamente única; como exemplo simples, “AA” e “CC” são ambas subcadeias comuns mais longas de “AACC” e “CCAA”.

**Dado**: Um conjunto de k (k ≤ 100) cadeias de DNA, cada uma com comprimento máximo de 1 kbp, no formato FASTA.

**Retorne**: Uma subcadeia comum mais longa do conjunto. (Se existirem múltiplas soluções, você pode retornar qualquer uma delas.)

In [1]:
#Insira o caminho abaixo
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Dados\\rosalind_lcsm.txt"

with open(caminho, "r", encoding="utf-8") as arquivo:
    entrada = arquivo.read()

In [2]:
def media(entrada):
    entrada = entrada.split('>')[1:]
    entrada = [linha.split('\n') for linha in entrada]
    cadeias = ["".join(linha[1:]) for linha in entrada]
    menor_cadeia = min(cadeias, key=len)
    tamanho = len(menor_cadeia)
    while tamanho > 0:
        n = 0
        while n <= len(menor_cadeia) - tamanho:
            motivo = menor_cadeia[n:n+tamanho]
            if all(motivo in cadeia for cadeia in cadeias):
                return motivo
            n += 1
        tamanho -= 1
    return ""

texto = media(entrada)
print(texto)

CTTGGTGGTCTCGTTACGAATCTACCTAAAGCAGCTAC


In [3]:
# Caminho para o arquivo dentro da pasta Output
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Saidas\\rosalind_lcsm_output.txt"

with open(caminho, "w", encoding="utf-8") as arquivo:
    arquivo.write(str(texto))