**Consensus and Profile**

http://rosalind.info/problems/cons/

Given: A collection of at most 10 DNA strings of equal length (at most 1 kbp) in FASTA format.

Return: A consensus string and profile matrix for the collection. (If several possible consensus strings exist, then you may return any one of them.)

In [34]:
!pip install biopython

Collecting biopython
[?25l  Downloading https://files.pythonhosted.org/packages/76/02/8b606c4aa92ff61b5eda71d23b499ab1de57d5e818be33f77b01a6f435a8/biopython-1.78-cp36-cp36m-manylinux1_x86_64.whl (2.3MB)
[K     |████████████████████████████████| 2.3MB 4.4MB/s 
Installing collected packages: biopython
Successfully installed biopython-1.78


In [36]:
from Bio import SeqIO

In [59]:
# conta a quantidade de nt que aparece em cada posição e retorna uma matriz com 4 linhas e k colunas
def matriz_quantidade_nt(lista):
  conta = {}

  t = len(lista) # guarda a quantidade de sequências da lista
  k = len(lista[0]) # guarda a quantidade de nt da sequência
  
  for base in "ACGT":
    conta[base] = [0]*k  # cria um dicionário 4 linhas x k colunas, preenchido por zeros
    
  for i in range(t):     # percorre cada sequência da lista
    for j in range(k):   # percorre cada nucleotideo da sequência
      nt = lista[i][j]
      conta[nt][j] += 1   # soma 1 ao valor do nucleotídeo correspondente no dicionário 

  return conta



In [60]:
# retorna a fita consenso baseada na matriz gerada na função acima
def retorna_fita_consenso(lista):
  k = len(lista[0])    # guarda a quantidade de nt da sequência

  matriz = matriz_quantidade_nt(lista)   # chama a função anterior

  fita_consenso = ""    # vai receber os nt da fita consenso

  valor = 0
  for pos in range(k):    # percorre cada coluna (k) da matriz para achar o nucleotideo com maior valor
    for nt in "ACGT":     # percorre cada linha da matriz (ACGT) para achar o nt com maior valor
      if matriz[nt][pos] > valor:
        valor = matriz[nt][pos]
        nt_consenso = nt
    fita_consenso += nt_consenso
    valor = 0             # reinicia o valor para ir para a próxima posição

  return fita_consenso, matriz

In [84]:
# lendo o arquivo fasta
arquivo = SeqIO.parse("/content/rosalind_cons.txt", "fasta")

In [85]:
# guardando as sequências em uma lista
lista = []

for item in arquivo:
  lista.append(item.seq)

In [86]:
# chamando a função
fita_consenso, matriz = retorna_fita_consenso(lista)

In [87]:
# imprimindo a sequência consenso
print(fita_consenso)

ATGCAACT


In [88]:
# imprimindo a matriz
for chave, valores in matriz.items():
  print(f'{chave}:', end=" ")
  for valor in valores:
    print(valor, end=" ")
  print("\n")
    

A: 5 1 0 0 5 5 0 0 

C: 0 0 1 4 2 0 6 1 

G: 1 1 6 3 0 1 0 0 

T: 1 5 0 0 0 1 1 6 

