In [1]:
class Seq:
    """ 
    Classe usada para transformar os diferentes tipos de sequências através de diferentes processos
    
    """
    def __init__(self, seq):
        """
        Construtor das sequências
        """
        self.seq = str(seq.upper())

    def __len__ (self):   
        """ 
        """          
        return len(self.seq)
    
    def __str__(self):
        """  
        """       
        return self.seq

    def __getitem__(self,a):
        
        return self.seq[a]


    def get_type (self):
        """
        """
        if len([c for c in self.seq if c not in "ACGT"]) == 0:
            return "DNA"

        elif len([c for c in self.seq if c not in "ACGU"]) == 0:
            return "RNA"

        elif len([c for c in self.seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
            return "PROTEIN"
        
        else:
            return "Not valid"

    def count_nucleotides (self):
        """Função usada para contar o número dos diferentes nucleótidos presentes no RNA ou DNA.
           Se a sequência não for suportada, print "Not DNA or RNA".
        """
        if Seq(self.seq).get_type() == "DNA":
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            T = self.seq.count("T") 
            return [A, C, G, T]
        
        elif Seq(self.seq).get_type() == "RNA":
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            U = self.seq.count("U") 
            return [A, C, G, U] 
        else:
            return "Not DNA or RNA"

    def freq_nucleotides (self):
        """Função usada para estimar a frequência dos diferentes nucleótidos presentes no RNA ou DNA.
           Se a sequência não for suportada, print "Not DNA or RNA".

        Returns:
            _type_: _description_
        """
        if Seq(self.seq).get_type() == "DNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            T = self.seq.count("T") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(T, 3)]
        
        elif Seq(self.seq).get_type() == "RNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            U = self.seq.count("U") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(U, 3)]
        else:
            return "Not DNA or RNA"

#_______________________________

    def get_codons (self):
        """Função usada para transformar cada conjunto de 3 nucleótidos presentes na sequência de DNA ou RNA, no respetivo codão.  
        Se a sequência não for suportada, print "Not DNA or RNA".

        Returns:
            list: Lista de codões
        """
        if Seq(self.
        seq).get_type() == "DNA" or Seq(self.seq).get_type() == "RNA":
            l = []
            codon_list =[]
            for c in range (0, len(self.seq), 3):
                codon_list.append(self.seq[c : c + 3])
            if len(codon_list[-1]) < 3:
                codon_list.pop()
            return codon_list
        else:
            return "Not DNA or RNA"   

    def codon_to_amino(self):
        """"Função usada para transformar um codão obtido da sequência de DNA num aminoácido. 
            Se a sequência não for suportada, print "Not DNA".

        Returns:
            list: Lista de aminoácidos
        """
        if Seq(self.seq).get_type() == "DNA":
            gencode = {
            'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
            'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
            'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
            'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
            'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
            'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
            'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
            'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
            'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
            'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
            'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
            'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
            'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
            'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
            'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
            'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W'}
        
            l = []
            for c in Seq(self.seq).get_codons():
                l.append(gencode.get(c))
                l_final = "".join(l)    
            return l_final  
        else:
            return "Not DNA"

    def get_prots (self):
        """Função usada para obter as possíveis proteínas presentes na sequência de DNA ou da proteína. 
           Cada sequência presente na lista de proteínas vai começar com o aminoácido M(start) e acabar com o aminoácido _(stop).
           Se a sequência não for suportada, print "Not DNA or protein".

        Returns:
            list: Lista de proteínas
        """
        if  Seq(self.seq).get_type() == "DNA":       
            lista_final = []
            lista_stop_tratados = Seq(self.seq).codon_to_amino().split("_") 
            for c in lista_stop_tratados:        
                for idx, amino_s in enumerate(c):       
                    if amino_s == "M":                  
                        lista_final.append(c[idx:]) 
            return lista_final

            
        elif Seq(self.seq).get_type() == "PROTEIN":
            lista_final = []
            lista_stop_tratados = self.seq.split("_") 
            for c in lista_stop_tratados:        
                for idx, amino_s in enumerate(c):       
                    if amino_s == "M":                  
                        lista_final.append(c[idx:]) 
            return lista_final 
        else:
            return "Not DNA or protein"

    def get_orfs (self):    # neste exercicio tens de obter as 6 possibilidades por causa da reading frame(penso que seja esse o nome) isto é 3 de cada lado da seq 
        """_summary_

        Returns:
            list: Lista das ORFS
        """
        if  Seq(self.seq).get_type() == "DNA": 
            dna = self.seq.lower()
            dna_f = self.seq
            lista_orfs =[]
            lista_orfs.append(dna_f[0:])   #neste bloco aqui obtens as 3 possiveis numa cadeia a começar no 0 1 2   
            lista_orfs.append(dna_f[1:])   
            lista_orfs.append(dna_f[2:])
            dna_rev_comp = dna.replace("a","T").replace("t","A").replace("c","G").replace("g","C")[::-1] # aqui fazes o reverse complement da cadeia
            lista_orfs.append(dna_rev_comp[0:])
            lista_orfs.append(dna_rev_comp[1:])  # aqui como já tens o reverse complement é só fazeres novamente ela a comecar nas 3 diferntes possicoes 
            lista_orfs.append(dna_rev_comp[2:])
            return lista_orfs
        elif Seq(self.seq).get_type() == "RNA":
            rna = self.seq.lower()
            rna_f = self.seq
            lista_orfs =[]
            lista_orfs.append(rna_f[0:])   #neste bloco aqui obtens as 3 possiveis numa cadeia a começar no 0 1 2   
            lista_orfs.append(rna_f[1:])   
            lista_orfs.append(rna_f[2:])
            rna_rev_comp = rna.replace("a","U").replace("u","A").replace("c","G").replace("g","C")[::-1] # aqui fazes o reverse complement da cadeia
            lista_orfs.append(rna_rev_comp[0:])
            lista_orfs.append(rna_rev_comp[1:])  # aqui como já tens o reverse complement é só fazeres novamente ela a comecar nas 3 diferntes possicoes 
            lista_orfs.append(rna_rev_comp[2:])
            return lista_orfs
        else:
            return "Not DNA or RNA"
        

        
        


In [6]:
my_dna = Seq ("atgacc")
my_rna = Seq("acguagc")
my_amino = Seq("acmacc_cadmlsl_m")

In [5]:
# my_dna = Seq ("atgacc")
# my_rna = Seq("acguagc")
# my_amino = Seq("acmacc_cadmlsl_m")
# my_test = Seq("A12")
# testes = [my_dna, my_rna, my_amino, my_test]
# for a in testes:
#     print()
#     print()
#     print(a)
#     print(a.get_type())
#     print(a.count_nucleotides())
#     print(a.freq_nucleotides())
#     print()
#     print(a.get_codons())   
#     print(a.codon_to_amino())
#     print(a.get_prots())
#     print()
#     print(a.get_orfs())



ATGACC
DNA
[2, 2, 1, 1]
[0.333, 0.333, 0.167, 0.167]

['ATG', 'ACC']
MT
['MT']

['ATGACC', 'TGACC', 'GACC', 'GGTCAT', 'GTCAT', 'TCAT']


ACGUAGC
RNA
[2, 2, 2, 1]
[0.286, 0.286, 0.286, 0.143]

['ACG', 'UAG']
Not DNA
Not DNA or protein

['ACGUAGC', 'CGUAGC', 'GUAGC', 'GCUACGU', 'CUACGU', 'UACGU']


ACMACC_CADMLSL_M
PROTEIN
Not DNA or RNA
Not DNA or RNA

Not DNA or RNA
Not DNA
['MACC', 'MLSL', 'M']

Not protein


A12
Not valid
Not DNA or RNA
Not DNA or RNA

Not DNA or RNA
Not DNA
Not DNA or protein

Not protein
