<a href="https://colab.research.google.com/github/rplop/estagio_docencia_ppgsis/blob/main/python_dna_ferramentas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Kit de ferramentas de DNA

_Como podemos representar a estrutura do DNA em um **código**?_

Vamos criar um conjunto de **funções** para realizar operações básicas em sequências de DNA.

Esta é uma *introdução* de como podemos montar um **aparato básico de ferramentas** que possam auxiliar a desenvolver algoritmos mais complexos posteriormente.

## Definir a estrutura básica

In [885]:
nucleotideos = ["A","T","C","G"]

complementares = {"A":"T",
              "T":"A",
              "C":"G",
              "G":"C"}

## Gerar sequência

O seguinte código gera uma sequência aleatória de DNA a cada vez que é executado.

Este código é um pouco complexo para o nível em que estamos agora.

Então não é necessário que compreendamos todas as suas etapas perfeitamente, apenas que saibamos o seu **objetivo final: gerar uma sequência de DNA aleatória**.

In [886]:
# Criando uma sequência de DNA aleatoriamente

import random                                       # importa a biblioteca random
dnaSeq_aleatoria=[]                                 # cria uma lista vazia chamada dnaSeq_aleatoria
for i in range (0,30):                              # cria um loop que será executado 30x
    nuc_aleatorio=random.choice(nucleotideos)       # escolhe um nucleotídeo aleatoriamente na nossa lista de nucleotídeos
    dnaSeq_aleatoria.append(nuc_aleatorio)          # adiciona esse nucleotídeo à lista dnaSeq_aleatoria
dnaSeq_aleatoria="".join(dnaSeq_aleatoria)          # junta todos os itens da lista transformando-os em uma string
print(dnaSeq_aleatoria)                             # exibe essa string na tela

CCCGAACGTCTATCTACTGGAGGTTTCGGG


## Funções

Funções são sequências de instruções ou comandos **reutilizáveis**.

Elas podem ser chamadas a qualquer momento durante a execução do programa de maneira **independente**.

O Python tem **funções nativas**, como `print()` e `type()`, que já aprendemos aqui.

Mas nós também podemos *criar nossas próprias funções*.

Então, agora vamos criar funções para fazer manipulações simples com sequências de DNA.

A **sintaxe** básica da função é a seguinte:

```py
def nome(parametros):
  comandos
  return
```

## Checar sequência
Vamos criar uma função que valide a sequência de DNA.

In [887]:
def checarSeq(dnaSeq):

  dnaSeq = dnaSeq.upper()
  for nuc in dnaSeq:
    if nuc not in nucleotideos:
      return False

  return dnaSeq

In [888]:
# Testando se funciona
seqTeste = "GTCtCfCcgacTC"
checarSeq(seqTeste)

False

In [889]:
# Agora, aplicando na nossa sequência aleatória
checarSeq(dnaSeq_aleatoria)

'CCCGAACGTCTATCTACTGGAGGTTTCGGG'

## Contar nucleotídeos

Vamos criar uma função que conte quantas vezes cada nucleotídeo aparece na nossa sequência de DNA.

In [890]:
def contarNuc(dnaSeq):

    nucFreq={"A":0,
             "C":0,
             "T":0,
             "G":0}

    for nuc in dnaSeq:
        nucFreq[nuc] += 1

    return nucFreq

In [891]:
# Testando se funciona com a nossa sequência validada

dnaSeq=checarSeq(dnaSeq_aleatoria) # 1º passo: validar a sequêcia
contarNuc(dnaSeq)

{'A': 5, 'C': 8, 'T': 8, 'G': 9}

## Transcrição

Vamos criar uma função que realize a transcrição (DNA -> RNA).

**O que acontece na transcrição que deve estar escrito no nosso código?**

In [892]:
# Complete aqui

def transcricao(dnaSeq):

  rnaSeq = dnaSeq.replace()

  return rnaSeq

In [893]:
# Testando se funciona
print(dnaSeq)
print(transcricao(dnaSeq))

CCCGAACGTCTATCTACTGGAGGTTTCGGG
CCCGAACGUCUAUCUACUGGAGGUUUCGGG


## Reverso complementar

**O que é o reverso complementar?**

**Por que essa informação é útil?**

In [894]:
def reverso_complementar(dnaSeq):

    dnaSeq_complementar = ""

    for nuc in dnaSeq:
        complemento = complementares[nuc]
        dnaSeq_complementar += complemento

    dnaSeq_complementar_rev = dnaSeq_complementar[::-1]

    return dnaSeq_complementar_rev

In [895]:
# Testando se funciona
print(reverso_complementar("CGATGG"))

CCATCG


In [896]:
# Testando na nossa sequência de DNA
print(f"\n5' {dnaSeq} 3'")
print(" "*3+"|"*len(dnaSeq))
print(f"3' {reverso_complementar(dnaSeq)[::-1]} 5'[Complemento]")
print(f"5' {reverso_complementar(dnaSeq)} 3'[Reverso complementar]\n")


5' CCCGAACGTCTATCTACTGGAGGTTTCGGG 3'
   ||||||||||||||||||||||||||||||
3' GGGCTTGCAGATAGATGACCTCCAAAGCCC 5'[Complemento]
5' CCCGAAACCTCCAGTAGATAGACGTTCGGG 3'[Reverso complementar]



## Cálculo do conteúdo CG

**Qual a importância do conteúdo CG em uma sequência?**

In [897]:
def conteudoCG(dnaSeq):
    numC = round(dnaSeq.count("C"))
    numG = round(dnaSeq.count("G"))
    tamanhoSeq = len(dnaSeq)
    freqCG= round((numC + numG) / tamanhoSeq * 100)
    return freqCG

In [898]:
# Testando se funciona
conteudoCG("ATCG")

50

In [899]:
# Testando na nossa sequência de DNA
print(dnaSeq)
conteudoCG(dnaSeq)

CCCGAACGTCTATCTACTGGAGGTTTCGGG


57

## Tradução

In [900]:
DNA_codons = {
    # 'M' - START, '_' - STOP
    "GCT": "A", "GCC": "A", "GCA": "A", "GCG": "A",
    "TGT": "C", "TGC": "C",
    "GAT": "D", "GAC": "D",
    "GAA": "E", "GAG": "E",
    "TTT": "F", "TTC": "F",
    "GGT": "G", "GGC": "G", "GGA": "G", "GGG": "G",
    "CAT": "H", "CAC": "H",
    "ATA": "I", "ATT": "I", "ATC": "I",
    "AAA": "K", "AAG": "K",
    "TTA": "L", "TTG": "L", "CTT": "L", "CTC": "L", "CTA": "L", "CTG": "L",
    "ATG": "M",
    "AAT": "N", "AAC": "N",
    "CCT": "P", "CCC": "P", "CCA": "P", "CCG": "P",
    "CAA": "Q", "CAG": "Q",
    "CGT": "R", "CGC": "R", "CGA": "R", "CGG": "R", "AGA": "R", "AGG": "R",
    "TCT": "S", "TCC": "S", "TCA": "S", "TCG": "S", "AGT": "S", "AGC": "S",
    "ACT": "T", "ACC": "T", "ACA": "T", "ACG": "T",
    "GTT": "V", "GTC": "V", "GTA": "V", "GTG": "V",
    "TGG": "W",
    "TAT": "Y", "TAC": "Y",
    "TAA": "_", "TAG": "_", "TGA": "_"
}
RNA_codons = {
    # 'M' - START, '_' - STOP
    "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
    "UGU": "C", "UGC": "C",
    "GAU": "D", "GAC": "D",
    "GAA": "E", "GAG": "E",
    "UUU": "F", "UUC": "F",
    "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G",
    "CAU": "H", "CAC": "H",
    "AUA": "I", "AUU": "I", "AUC": "I",
    "AAA": "K", "AAG": "K",
    "UUA": "L", "UUG": "L", "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L",
    "AUG": "M",
    "AAU": "N", "AAC": "N",
    "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
    "CAA": "Q", "CAG": "Q",
    "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R", "AGA": "R", "AGG": "R",
    "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S", "AGU": "S", "AGC": "S",
    "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T",
    "GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V",
    "UGG": "W",
    "UAU": "Y", "UAC": "Y",
    "UAA": "_", "UAG": "_", "UGA": "_"
}


In [901]:
def traducao(dnaSeq):

  rnaSeq = dnaSeq.replace("T","U")

  ptnSeq = ""

  for i in range(0, len(rnaSeq)-2, 3):
        codon = rnaSeq[i:i+3]
        aminoacido = RNA_codons.get(codon,"~")
        ptnSeq += aminoacido

  return ptnSeq

In [902]:
# Testando se funciona
print(traducao(dnaSeq))

PERLSTGGFG


# Teste final

In [903]:
print(f"\n(1) Sequência original: {dnaSeq}\n")
print(f"\n(2) Tamanho da sequência: {len(dnaSeq)}\n")
print(f"\n(3) Frequência dos nucleotídeos: {contarNuc(dnaSeq)}\n")
print(f"\n(4) Transcrição DNA->RNA: {transcricao(dnaSeq)}\n")
print(f"\n(5) Reverso complementar: {reverso_complementar(dnaSeq)}\n")
print(f"\n(6) Conteúdo CG: {conteudoCG(dnaSeq)}%\n")
print(f"\n(7) Sequência protéica: {traducao(dnaSeq)} ")


(1) Sequência original: CCCGAACGTCTATCTACTGGAGGTTTCGGG


(2) Tamanho da sequência: 30


(3) Frequência dos nucleotídeos: {'A': 5, 'C': 8, 'T': 8, 'G': 9}


(4) Transcrição DNA->RNA: CCCGAACGUCUAUCUACUGGAGGUUUCGGG


(5) Reverso complementar: CCCGAAACCTCCAGTAGATAGACGTTCGGG


(6) Conteúdo CG: 57%


(7) Sequência protéica: PERLSTGGFG 
