# Encontrando um Ancestral Comum Mais Provável

Em “Contando Mutações Pontuais”, calculamos o número mínimo de divergências entre símbolos de duas cadeias de mesmo comprimento para modelar o problema de encontrar o número mínimo de mutações pontuais ocorridas ao longo do caminho evolutivo entre duas fitas homólogas de DNA.
Se, em vez disso, tivermos **várias fitas homólogas** que desejamos analisar simultaneamente, o problema natural passa a ser encontrar uma fita média que represente o **ancestral comum mais provável** das fitas fornecidas.

Link: [Consensus and Profile](https://rosalind.info/problems/cons/)

### **Problema**

Uma **matriz** é uma tabela retangular de valores dividida em linhas e colunas. Uma matriz de dimensão *m × n* possui *m* linhas e *n* colunas. Dada uma matriz `A`, escrevemos `A[i,j]` para indicar o valor localizado na interseção da linha *i* com a coluna *j*.

Suponha que temos uma coleção de cadeias de DNA, todas com o mesmo comprimento *n*. A **matriz de perfil** dessas cadeias é uma matriz `4 × n`, na qual:

* `P[1,j]` representa o número de vezes que o símbolo `'A'` ocorre na posição *j* das cadeias,
* `P[2,j]` representa o número de vezes que `'C'` ocorre na posição *j*,
* e assim por diante (veja o exemplo abaixo).

Uma **cadeia consenso** `c` é uma cadeia de comprimento *n*, formada a partir da coleção escolhendo-se o símbolo mais comum em cada posição. O símbolo *j*-ésimo de `c` corresponde, portanto, ao símbolo com o valor máximo na *j*-ésima coluna da matriz de perfil.
É claro que pode haver mais de um símbolo igualmente mais comum, levando a **múltiplas possíveis cadeias consenso**.

---

**Exemplo:**

```
A T C C A G C T  
G G G C A A C T  
A T G G A T C T  
A A G C A A C C  
T T G G A A C T  
A T G C C A T T  
A T G G C A C T  
```

**Matriz de Perfil:**

```
A: 5 1 0 0 5 5 0 0  
C: 0 0 1 4 2 0 6 1  
G: 1 1 6 3 0 1 0 0  
T: 1 5 0 0 0 1 1 6  
```

**Cadeia Consenso:**

```
A T G C A A C T
```

---

**Dado**: Uma coleção de **no máximo 10 cadeias de DNA**, todas com o mesmo comprimento (até 1 kbp), no formato **FASTA**.

**Retorne:** Uma cadeia **consenso** e a **matriz de perfil** da coleção. (Caso existam várias possíveis cadeias consenso, qualquer uma delas pode ser retornada.)


In [25]:
#Insira o caminho abaixo
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Dados\\rosalind_cons.txt"

with open(caminho, "r", encoding="utf-8") as arquivo:
    entrada = arquivo.read()

In [26]:
import numpy as np

def Contar_ATCG(arquivo):
    gene = arquivo.split('>')[1:]
    gene = [item.split('\n') for item in gene]
    gene = [''.join(lista[1:]) for lista in gene if len(lista) > 1]
    A, T, C, G = np.zeros(len(gene[0]), dtype=int), np.zeros(len(gene[0]), dtype=int), np.zeros(len(gene[0]), dtype=int), np.zeros(len(gene[0]), dtype=int)
    for i in range(len(gene)):
        for j in range(len(gene[i])):
            if gene[i][j] == 'A':
                A[j] += 1
            elif gene[i][j] == 'T':
                T[j] += 1
            elif gene[i][j] == 'C':
                C[j] += 1
            elif gene[i][j] == 'G':
                G[j] += 1
    consenso = ''
    for i in range(len(gene[0])):
        if A[i] >= T[i] and A[i] >= C[i] and A[i] >= G[i]:
            consenso += 'A'
        elif T[i] >= A[i] and T[i] >= C[i] and T[i] >= G[i]:
            consenso += 'T'
        elif C[i] >= A[i] and C[i] >= T[i] and C[i] >= G[i]:
            consenso += 'C'
        else:
            consenso += 'G'
    return f"{consenso}\nA: {' '.join(map(str, A))}\nC: {' '.join(map(str, C))}\nG: {' '.join(map(str, G))}\nT: {' '.join(map(str, T))}"

texto = Contar_ATCG(entrada)
print(texto)

CCGACCCAAACGTAGAGTAGATTACTAATAGCTACATTTGCGATCTTCGTCGGTATCCAATCGTACGTTATATCAACCCTAGGCGTACACGGTTGTCAAAAATCTTACCTCTCCTCACTCGACCATTTGACACTTTCGAACCCAAAGTTCTTTGTAGGTCTTCTGCCGAGAGGTCGTAGGGTATTCTGTAACGAGCAACCTTGCTCTTCGCCTAGTTGTCAGAATTTTTGTACAACACGGACACTTTAAGTAATTAAGAAAACTATTATGCCTATCACCAACACATTCATTATGATATACAAAACTATGTCGACTTGACTAAGTGCCAGTTAGTCCAGTCCGAACATGAAAGGGGAGTACGTCACCAATATAATTGACGCTGTGGTTGACTACTAGAGTAAACATGATATTATTTATTATAGCCATCCGCATCATATTACGGAATCCGAGCGGCTAGCTTACGGACCTAGAGACCGCGAAGTATGGTCTACCCCTGTCTTCTCTAATCGAGCTTGGAGGCTGGAAGACCCATCTTTAAATACATTCGATCCCAAAAACGGCGGAGACCATGTCGCAGCGTTGACACAACTAAACGTAACGTGAGCGACTAGAACTCGGATCACATAGCATTAAAGTAATTGAAAAATGTTTCCGACGGGTAGCTGCAGACCCTTTGGTCCAGAATATTAAGATGTAGTCAGATAGAGTGATTAGGAGAGGTCTATAAAAGCTTGTGCGCGAAATTTTCAATGGGAGTCGGTGTTCGACCATAACTTTCTTTTAGCCATGCTTTCTGATCTTTCATATCGCGCCATTCGTTGACTAGACTGTTAATCGGAGACCTCTAGCAAAGAATATGTTAATTGTGATACCCAATAATTAAAAGAAGGCCCACATAAACCTTCATAGCGCCAAATACGCTGATCAACCTAGTTGACTAATCGTGTCCTGTTCAGAGTAGA
A: 3 2 1 5 1 1 2 3 3 3 1 3 3 4 3 5 3 

In [27]:
# Caminho para o arquivo dentro da pasta Output
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Saidas\\rosalind_cons_output.txt"

with open(caminho, "w", encoding="utf-8") as arquivo:
    arquivo.write(str(texto))