# Sumário
- Dogma central da biologia
- Tradução de DNA para aminoácidos
- Open Reading frames
- Extrair todas as proteínas possíveis de uma cadeia de DNA

In [None]:
codons = {
        'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
        'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
        'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
        'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
        'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
        'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
        'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
        'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
        'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
        'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
        'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
        'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
        'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
        'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
        'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
        'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
    }

In [None]:
import unittest

class TestBioInf(unittest.TestCase):

    def test_valido(self):
      self.assertTrue(dna_valido(""))
      validas = "AAA AGGC GGGGGGGG TT CCCC GT TGC ATGA TCGA".split()
      invalidas = "AXA TGCHA YRT GITA  PATETA".split()
      for s in validas:
        self.assertTrue(dna_valido(s), f'valido {s}')
      for s in invalidas:
        self.assertFalse(dna_valido(s), f'invalido {s}')

    def test_get_orf_prot(self):
        testes = [
            ("YTMAMOP_NKENDRWNSKSSHQVFNKMENDRWNSMYIKWRSLFCWYPHKNVLIILQWLALDFWGCEFI_", {"MAMOP_", "MENDRWNSMYIKWRSLFCWYPHKNVLIILQWLALDFWGCEFI_"}),
            ("NKM_POPMENDMWYP_YTMOP", {"M_","MENDMWYP_"}),
            ("YMTYOP", set()),
            ("TYMAT_YYMTM_TTMAAA_TT", {"MAT_", "MTM_", "MAAA_"}),
            ("YMTYOP_I",{"MTYOP_"})
        ]
        for s, p in testes:
          self.assertEqual(get_orf_prot(s), p)

    def test_get_orfs(self):
      self.assertEqual(get_orfs("ACGTACTGCACGTA"),['TYCT', 'RTAR', 'VLHV', 'YVQY', 'TCST', 'RAVR'])

    def test_get_prots(self):
      dna = "TTATGGGTATGGCAACTTTCCATTAATGATATGTAACTAAGTGTACCACATATACCTAGCCAAAGGCTGTGTAGTGGAGCATCGTTATCCGAAGCTTGATCGTTGCATTGTGGTAAACC"
      self.assertEqual(get_prots(dna), set("MGMATFH_ M_ MQRSSFG_ MLHYTAFG_ MWYT_ MICN_".split()), get_orfs(dna))


unittest.main(argv=[''], exit=False)

In [None]:
def get_orf_prot(amino : str) -> list[str]:
  """
  Recebe uma cadeia de aminoácidos e devolve
  uma lista de strings em que cada uma delas é uma das proteínas contidas nessa string
  """
  in_prot = False
  curr_prot = ''
  prots = []

  for A in amino:
    if in_prot:
      curr_prot += A

      if A == '_':
        in_prot = False
        prots.append(curr_prot)
        curr_prot = ''
    else:
      if A == 'M':
        in_prot = True
        curr_prot = 'M'
  return set(prots)






In [None]:
def get_codons(dna : str, pos_inicial : int) -> str:
  """
  Recebe uma cadeia de DNA, o offset inicial (0, 1 ou 2) e devolve os codões
  """
  assert pos_inicial >= 0 and pos_inicial <= 2, "Offset inválido!"

  pos = pos_inicial
  codoes = []

  while pos < len(dna):
    codao = dna[pos : pos + 3]
    if len(codao) == 3:
      codoes.append(codao)
      #yield codao

    pos += 3

  return codoes

def codons_to_amino(codons : list[str]) -> str:
  """
  Recebe uma lista de codões e devolve a sequência de aminoácidos correspondente
  """
  codon_dict = {
        'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
        'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
        'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
        'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
        'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
        'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
        'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
        'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
        'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
        'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
        'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
        'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
        'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
        'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
        'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
        'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
    }
  amino = ''
  for C in codons:
    amino += codon_dict[C]
  return amino

def get_orfs(dna : str) -> list[str]:
  """
  Recebe uma cadeia de DNA e devolve uma lista com as 6 ORFs em formato de string (cadeias de aminoácidos)
  """

  inv = comp_inv(dna)
  return  [codons_to_amino(get_codons(dna, pos)) for pos in range(3)] + \
          [codons_to_amino(get_codons(inv, pos)) for pos in range(3)]


def comp_inv(dna):
  """ Devolve o complemento inverso de uma cadeia de DNA que corresponde à string inversa substituindo
  A <-> T
  C <-> G
  """

  subs = {
      'A' : 'T',
      'T' : 'A',
      'C' : 'G',
      'G' : 'C'
  }

  res = ''

  for b in dna:
    res = subs[b] + res

  return res




In [None]:
get_orfs("AGTTGAATTCGTC")

In [None]:
def dna_valido(dna):
  bases = 'ACGT'

  for x in dna.upper():
    if x not in bases:
      return False
  return True


for teste in "A AA AAA AAAA C CC CCC CCCC CCCCCC GGG T AAAT ACGT TTGG".split():
  assert dna_valido(teste)
print()
for teste in "RUI ARCO ACGU".split():
  assert not dna_valido(teste), teste

In [None]:
def o_meu_dna_e_valido(dna):
  return all(x in 'ACGT' for x in dna)

In [None]:
def get_prots(dna):
  """
  get_orfs
  get_orf_prot
  """
  orfs = get_orfs(dna)

  todas = set()

  for orf in orfs:
    for prot in get_orf_prot(orf):
      if prot not in todas:
        todas.add(prot)

  return todas


get_prots('TTATGGGTATGGCAACTTTCCATTAATGATATGTAACTAAGTGTACCACATATACCTAGCCAAAGGCTGTGTAGTGGAGCATCGTTATCCGAAGCTTGATCGTTGCATTGTGGTAAACCATGTAA')

In [None]:
def get_prots(dna):
  orfs = get_orfs(dna)

  todas = set()
  for orf in orfs:
    todas |= get_orf_prot(orf)

  return todas

DNA = 'TTATGGGTATGGCAACTTTCCATTAATGATATGTAACTAAGTGTACCACATATACCTAGCCAAAGGCTGTGTAGTGGAGCATCGTTATCCGAAGCTTGATCGTTGCATTGTGGTAAACCATGTAA'

get_prots(DNA)

In [None]:
sorted(get_prots(DNA), key = len, reverse = True)

In [None]:
help(sorted)