## Identificação das sequências
- Identificar o tipo de sequência (DNA, RNA, Amino ácido)
- Validação de DNA, RNA, Amino ácido
- Get orfs
- Codons


#### 1. Identificar o tipo da sequência

In [1]:
## Identificação do tipo de sequência (DNA, RNA, Amino ácido)
def seq_type(sequencia):
    """
    Função que recebe uma string "sequencia" e vai verificar se se trata de uma sequência de DNA, RNA ou Amino ácido.

    Input:
    Variável do tipo string denominada "sequencia".

    Output: 
    Classificação da sequência.
    """

    sequencia = sequencia.upper().strip()

    # Verifica se a sequência está vazia
    if not sequencia:
        return None

    # Definição das condições para a identificação da sequência da variável fornecida:
    # Verifica se "sequencia" contém apenas caracteres válidos de DNA
    caracteres_dna = set("ACGT")
    if all(caracter in caracteres_dna for caracter in sequencia):
        return "DNA"

    # Verifica se "sequencia" contém apenas caracteres válidos de RNA
    caracteres_rna = set("ACGU")
    if all(caracter in caracteres_rna for caracter in sequencia):
        return "RNA"

    # Verifica se "sequencia" contém apenas caracteres válidos de amino ácido
    caracteres_aminoacido = set("ABCDEFGHIKLMNPQRSTVWYZ_")
    if all(caracter in caracteres_aminoacido for caracter in sequencia):
        return "Amino ácido"

    # Se a sequência fornecida falhar em todos os testes anteriores, retorna None
    return None

In [2]:
# Teste da função "seq_type()"
sequencia_exemplo = "ACGTCGACAGTTA"
seq_type_exemplo = seq_type(sequencia_exemplo)

if seq_type_exemplo is not None:
    print(f"A sequência fornecida é do tipo: {seq_type_exemplo}")
else:
    print("A sequência fornecida não é reconhecida como DNA, RNA ou amino ácido.")

A sequência fornecida é do tipo: DNA


#### 2. Validação da sequência

In [None]:
def valid_dna(cadeia):
    """
    cadeia: variável fornecida
    
    Recebe a variável string 'cadeia' e verifica se ela corresponde a uma sequência de DNA válido.
    """
    
    cadeia = cadeia.upper().strip()     # força a string 'cadeia' em maiúsculas e remove os whitespaces do seu início e fim.

    for base in cadeia:                 # identifica-se cada indíce em 'cadeia' como 'base'.
        if base not in "ACGT":          # programa tenta procurar se cada 'base' NÃO é uma das letras
            return False                # retorna 'False' se pelo menos 1 dos índices não for "A", "C", "G", "T".

    return True

#### 3. Contagens e frequências de bases e nucleótidos

In [None]:
## Contagem das bases de uma cadeia de DNA
def contar_bases_dna(cadeia):
    """
    cadeia: variável fornecida
    
    Recebe a variável string 'cadeia' e faz a contagem de cada índice se e só se:
        a variável ter devolvido 'True' na função 'valid_dna(cadeia)'
        as letras dos índices forem "A", "C", "G", "T"
    """
    
    A, C, G, T = 0, 0, 0, 0
    if valid_dna(cadeia) == True:       # faz a contagem dos índices se valid_dna(cadeia) == True, mas só conta "A", "C", "G" e "T".
        A = cadeia.count("A")
        C = cadeia.count("C")
        G = cadeia.count("G")
        T = cadeia.count("T")

        return A, C, G, T               # fornece a contagem final de cada base.

    else:
        return "Contagem de bases interrompida! Variável 'cadeia' falhou a validação em valid_dna()"   # corre se a condição em if não acontece.

In [14]:
def count_nucleotides(self):
        """
        Função que a partir de uma sequência de DNA ou RNA e conta o número dos diferentes nucleótidos presentes.

        Returns: 
            list: Lista com a contagem dos diferentes núcleotidos.           
        """
        if Seq(self.seq).get_type() == "DNA":
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            T = self.seq.count("T") 
            return [A, C, G, T]
        
        elif Seq(self.seq).get_type() == "RNA":                    
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            U = self.seq.count("U") 
            return [A, C, G, U] 
        else:
            return "Not DNA or RNA"

def freq_nucleotides(self):
        """
        Função que a partir de uma sequência de DNA ou RNA, estima a frequência dos diferentes nucleótidos presentes.

        Returns:
            list: Lista com a frequência dos diferentes nucleótidos. 
        """
        if Seq(self.seq).get_type() == "DNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            T = self.seq.count("T") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(T, 3)]             
        
        elif Seq(self.seq).get_type() == "RNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            U = self.seq.count("U") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(U, 3)]
        else:
            return "Not DNA or RNA"

#### 4. Complemento Inverso

In [3]:
def comp_inv(dna):
    """
    Devolve o complemento inverso de uma cadeia de DNA que corresponde à string inversa substituindo
    A <-> T
    C <-> G
    """
    comp = ""                          # Define-se uma nova variável para o nosso complemento inverso
    for c in dna.upper():
        if c == "A":
            comp = "T" + comp
        elif c == "T":
            comp = "A" + comp
        elif c == "G":
            comp = "C" + comp
        elif c == "C":
            comp = "G" + comp

    return comp

In [10]:
## Alternativamente
def comp_inv2(dna):
    subs = {
        "A" : "T",
        "T" : "A",
        "C" : "G",
        "G" : "C"
    }
    
    res = ""
    for b in dna.upper():
        res = subs[b] + res
    return res

In [13]:
## Teste das funções comp_inv() e comp_inv2()
print(comp_inv("accgtgAGGCTT"))
print(comp_inv2("accgtgAGGCTT"))

AAGCCTCACGGT
AAGCCTCACGGT
