## Identificação das sequências
- Identificar o tipo de sequência (DNA, RNA, Amino ácido)
- Validação de DNA, RNA, Amino ácido
- Get orfs
- Codons


#### 1. Identificar o tipo da sequência

In [32]:
## Identificação do tipo de sequência (DNA, RNA, Amino ácido)
def seq_type(sequencia):
    """
    Função que recebe uma string "sequencia" e vai verificar se se trata de uma sequência de DNA, RNA ou Amino ácido.

    Input:
    Variável do tipo string denominada "sequencia".

    Output: 
    Classificação da sequência.
    """

    sequencia = sequencia.upper().strip()

    # Verifica se a sequência está vazia
    if not sequencia:
        return None

    # Definição das condições para a identificação da sequência da variável fornecida:
    # Verifica se "sequencia" contém apenas caracteres válidos de DNA
    caracteres_dna = set("ACGT")
    if all(caracter in caracteres_dna for caracter in sequencia):
        return "DNA"

    # Verifica se "sequencia" contém apenas caracteres válidos de RNA
    caracteres_rna = set("ACGU")
    if all(caracter in caracteres_rna for caracter in sequencia):
        return "RNA"

    # Verifica se "sequencia" contém apenas caracteres válidos de amino ácido
    caracteres_aminoacido = set("ABCDEFGHIKLMNPQRSTVWYZ_")
    if all(caracter in caracteres_aminoacido for caracter in sequencia):
        return "Amino ácido"

    # Se a sequência fornecida falhar em todos os testes anteriores, retorna None
    return None

In [33]:
# Teste da função "seq_type()"
sequencia_exemplo = "ACGTCGACAGTTA"
seq_type_exemplo = seq_type(sequencia_exemplo)

if seq_type_exemplo is not None:
    print(f"A sequência fornecida é do tipo: {seq_type_exemplo}")
else:
    print("A sequência fornecida não é reconhecida como DNA, RNA ou amino ácido.")

A sequência fornecida é do tipo: DNA


#### 2. Validação da sequência

In [67]:
def valid_dna(cadeia):
    """
    Verifica cada um dos caracteres (bases) na variável 'cadeia' e tenta NÃO encontrar os caracteres "ACGT" (bases de uma sequência de DNA).

    Input:
    Variável string denominaada 'cadeia'.
    
    Output:
    Retorna True se for válida, ou seja se não encontrar os caracteres definidos, False caso encontre.
    """
    cadeia = cadeia.upper().strip()     # força a string 'cadeia' em maiúsculas e remove os whitespaces do seu início e fim.

    for base in cadeia:                 # identifica-se cada indíce em 'cadeia' como 'base'.
        if base not in "ACGT":          # programa tenta procurar se cada 'base' NÃO é uma das letras
            return False                # retorna 'False' se pelo menos 1 dos índices não for "A", "C", "G", "T".

    return True

def valid_rna(cadeia):
    """
    Verifica cada um dos caracteres (bases) na variável 'cadeia' e tenta NÃO encontrar os caracteres "ACGU" (bases de uma sequência de RNA).

    Input:
    Variável string denominada 'cadeia'.
    
    Output:
    Retorna True se for válida, ou seja se não encontrar os caracteres definidos, False caso encontre.
    """
    cadeia = cadeia.upper().strip()     # força a string 'cadeia' em maiúsculas e remove os whitespaces do seu início e fim.

    for base in cadeia:                 # identifica-se cada indíce em 'cadeia' como 'base'.
        if base not in "ACGU":          # programa tenta procurar se cada 'base' NÃO é uma das letras
            return False                # retorna 'False' se pelo menos 1 dos índices não for "A", "C", "G", "U".

    return True

#### 3. Contagens e frequências de bases e nucleótidos

In [68]:
## Contagem das bases de uma cadeia de DNA
def contar_bases_dna(cadeia):
    """
    cadeia: variável fornecida
    
    Recebe a variável string 'cadeia' e faz a contagem de cada índice se e só se:
        - a variável ter devolvido 'True' na função 'valid_dna(cadeia)'
        - as letras dos índices forem "A", "C", "G", "T"
    """
    
    A, C, G, T = 0, 0, 0, 0
    if valid_dna(cadeia) == True:       # faz a contagem dos índices se valid_dna(cadeia) == True, mas só conta "A", "C", "G" e "T".
        A = cadeia.count("A")
        C = cadeia.count("C")
        G = cadeia.count("G")
        T = cadeia.count("T")

        return A, C, G, T               # fornece a contagem final de cada base.

    else:
        return "Contagem de bases interrompida! Variável 'cadeia' falhou a validação em valid_dna()"   # corre se a condição em if não acontece.
    
## Contagem de bases de uma cadeia de RNA
def contar_bases_rna(cadeia):
    """
    cadeia: variável fornecida
    
    Recebe a variável string 'cadeia' e faz a contagem de cada índice se e só se:
        - a variável ter devolvido 'True' na função 'valid_rna(cadeia)'
        - as letras dos índices forem "A", "C", "G", "U"
    """
    
    A, C, G, U = 0, 0, 0, 0
    if valid_rna(cadeia):  # faz a contagem dos índices se valid_rna(cadeia) == True, mas só conta "A", "C", "G" e "U".
        A = cadeia.count("A")
        C = cadeia.count("C")
        G = cadeia.count("G")
        U = cadeia.count("U")

        return A, C, G, U  # fornece a contagem final de cada base.

    else:
        return "Contagem de bases interrompida! Variável 'cadeia' falhou a validação em valid_rna()"  # corre se a condição em if não acontece.

In [57]:
from Bio.Seq import Seq

class MySeq:
    """ 
    Classe usada para manipular e transformar os diferentes tipos de sequências através de diferentes processos.
    """
    def __init__(self, seq):
        """
        Construtor da classe MySeq.

        Args:
        seq (str): Sequência biológica.
        """
        self.seq = str(seq.upper())

    def __len__(self): 
        """
        Função que permite implementar a função len().

        Returns:
        int: Tamanho da sequência.
        """   
        return len(self.seq)
    
    def __str__(self):
        """
        Função que permite representar a sequência como uma string.

        Returns:
        str: Representação da sequência.      
        """       
        return self.seq

    def __getitem__(self, n):
        """
        Função que permite aplicar a indexação na classe.

        Args:
        n (int): Index

        Returns:
        str: Base ou aminoácido correspondente ao index.
        """
        return self.seq[n]
    
    def __getslice__(self, i, j):
        """
        Função que permite aplicar a indexação na classe.

        Args:
        i (int): index start
        j (int): index final

        Returns:
        str: Sequência, base ou aminoácido correspondente ao index.
        """
        return self.seq[i:j]

    def get_type(self):
        """
        Função que a partir de uma sequência, classifica-a em DNA, RNA ou AMINO ACID SEQUENCE.

        Returns:
        str: Classificação da sequência.
        """
        if len([c for c in self.seq if c not in "ACGT"]) == 0:
            return "DNA"

        elif len([c for c in self.seq if c not in "ACGU"]) == 0:
            return "RNA"

        elif len([c for c in self.seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
            return "AMINO ACID SEQUENCE"
        
        else:
            return "Not valid"

    def count_nucleotides(self):
        """
        Função que a partir de uma sequência de DNA ou RNA e conta o número dos diferentes nucleótidos presentes.

        Output: 
        list: Lista com a contagem dos diferentes núcleotidos.           
        """
        if self.get_type() == "DNA":
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            T = self.seq.count("T") 
            return [A, C, G, T]
        
        elif self.get_type() == "RNA":                    
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            U = self.seq.count("U") 
            return [A, C, G, U] 
        else:
            return "Not DNA or RNA"

    def freq_nucleotides(self):
        """
        Função que a partir de uma sequência de DNA ou RNA, estima a frequência dos diferentes nucleótidos presentes.

        Output:
        list: Lista com a frequência dos diferentes nucleótidos. 
        """
        if self.get_type() == "DNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            T = self.seq.count("T") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(T, 3)]             
        
        elif self.get_type() == "RNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            U = self.seq.count("U") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(U, 3)]
        else:
            return "Not DNA or RNA"

In [66]:
## Teste de count_nucleotides() e freq_nucleotides()
sequencia = MySeq("AAaCGGTGGTTCCC")
print("Contagem de Nucleotídeos:", sequencia.count_nucleotides())
print("Frequência de Nucleotídeos:", sequencia.freq_nucleotides())

# Multiplicar os valores por 100
print("Percentagem de Nucleotídeos:", [value * 100 for value in sequencia.freq_nucleotides()])

# Soma dos valores da lista
soma_freq_nucleotides = sum(sequencia.freq_nucleotides())
print("Soma dos valores da Frequência de Nucleotídeos:", soma_freq_nucleotides)


Contagem de Nucleotídeos: [3, 4, 4, 3]
Frequência de Nucleotídeos: [0.214, 0.286, 0.286, 0.214]
Percentagem de Nucleotídeos: [21.4, 28.599999999999998, 28.599999999999998, 21.4]
Soma dos valores da Frequência de Nucleotídeos: 1.0


#### 4. Complemento Inverso

In [3]:
## Função que elabora o complemento inverso
def comp_inv(dna):
    """
    Devolve o complemento inverso de uma cadeia de DNA que corresponde à string inversa substituindo
    A <-> T
    C <-> G
    """
    comp = ""                          # Define-se uma nova variável para o nosso complemento inverso
    for c in dna.upper():
        if c == "A":
            comp = "T" + comp
        elif c == "T":
            comp = "A" + comp
        elif c == "G":
            comp = "C" + comp
        elif c == "C":
            comp = "G" + comp

    return comp

In [10]:
## Alternativa da função comp_inv()
def comp_inv2(dna):
    subs = {
        "A" : "T",
        "T" : "A",
        "C" : "G",
        "G" : "C"
    }
    
    res = ""
    for b in dna.upper():
        res = subs[b] + res
    return res

In [13]:
## Teste das funções comp_inv() e comp_inv2()
print(comp_inv("accgtgAGGCTT"))
print(comp_inv2("accgtgAGGCTT"))

AAGCCTCACGGT
AAGCCTCACGGT


#### 5. Codons

In [17]:
## Função que separa bases de uma sequência de DNA de 3 em 3 (codões) e devolve a posição da primeira base de cada codão
def DNA2codons_pos(dna : str) -> list([str]):
    """
    Recebe uma string de DNA e devolve uma lista de codões (todos os 3 caracteres).

    Input:
    Variável string 'dna' de uma sequência de DNA.

    Output: 
    Posições da primeira base de cada codão
    """
    res = []
    for P in range(0, len(dna), 3):
        res.append(P)
    return res

In [18]:
## Teste de DNA2codons_pos()
DNA2codons_pos("ATCGGTTGAGT")   # Vai fazer print à posição do início de cada codão: A T C | G G T | T G A | G T
                                                                        # índices:   0 1 2   3 4 5   6 7 8   9 10

[0, 3, 6, 9]