In [40]:

class SEQS:
    """class para análise de sequências biológicas
    """
    def __init__(self,dna_seq):
        """Construtor da class

        Args:
            dna_seq (str): Sequência de DNA
        """
        self.dna_seq=dna_seq

    def __str__(self):
        return f'A sequência a analisar é: {self.dna_seq}'
    
    def __repr__(self):
        return f'SEQS(\"{self.dna_seq}\")'
    
    def __getitem__(self,n):
        return self.dna_seq[n]

    def __len__(self):
        return len(self.dna_seq)
    
    def type(self):
        """ Função recebe uma string


        Retorna:
            booleano: DNA, RNA, AMINO ou ERRO
        """
        if len([x for x in self.dna_seq if x not in  "ACGT"]) == 0:
            return 'DNA'
        elif len([x for x in self.dna_seq if x not in  "ACGU"]) == 0:
                return'RNA'
        elif len([x for x in self.dna_seq if x not in  "ABCDEFGHIJKLMNOPQRSTUVWXYZ"]) == 0:
                return('AMINO')
        else:
                return("ERRO")
    
    def count_nucleo(self):
        """Função que recebe uma sequência de DNA
        
        Retorna:
            list: lista com o número deA, C, G e T
        """
        A=self.dna_seq.count('A')
        C=self.dna_seq.count('C')
        G=self.dna_seq.count('G')
        T=self.dna_seq.count('T')
        return [f"A ---> {A} C ---> {C} G ---> {G} T ---> {T}"]


    def freq (self):
        """Função que calcula a frequência de cada símbolo na sequência.

        Retorna:
            Um dicionário com a frequência de cada núcleótido
        """
        dic = {}
        for s in self.dna_seq.upper():
            if s in dic: dic[s] += 1
            else : dic[s] = 1
        return dic

    def gc_content(self):
        """Função que calcula percentagem de nucleotídeos G e C numa sequência de DNA

        Retorna:
            float: A percentagem de nucleotídeos G e C numa sequência de DNA
        """
        gc_count = 0
        for o in self.dna_seq:
            if o in "GCgc": gc_count += 1
        return gc_count / len (self.dna_seq)

    

    def transcription(self):
        """ Função que calcula o RNA correspondente á transcrição da sequência de DNA fornecida.

        Retorna:
            str: A sequência de RNA correspondente á transcrição da sequência de DNA fornecida. 
        """
        if SEQS(self.dna_seq)=='DNA': 
            return self.dna_seq.upper().replace('T','U')
        else: return 'Not DNA'
    
    def reverse_complement(self):
        """Função que recebe uma sequência de DNA 


        Returna:
            str:O complemento reverso da sequência de DNA 
        """
        self.dna_inv = self.dna_seq[:: -1]
        self.dna_inv = self.dna_inv.replace('A', 't').replace('T', 'a').replace('G', 'c').replace('C', 'g').upper()
        return self.dna_inv

    def get_codons(self):
        """Função que recebe uma sequência de DNA 

        Retorna:
            list: lista de codões
        """
        DNA =self.dna_seq.upper()
        codons = []
        for i in range(0, len(DNA), 3):
            codons.append(DNA[i : i + 3])
        if len(codons[-1]) < 3:
            codons.pop()
        return codons

    def codon_to_amino(self):
        """função que recebe a lista de codões

        Retorna:
            str: sequência de aminoácidos
        """
        gencode = {
            'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
            'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
            'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
            'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
            'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
            'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
            'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
            'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
            'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
            'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
            'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
            'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
            'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
            'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
            'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
            'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W'}
        
        return ''.join([gencode.get(self[p: p + 3],'')for p in range(0,len(self),3)])  
    
    def get_prots (self):
        """Função que recebe uma sequência de aminoácidos

        Retorna:
            list: lista de possíveis proteínas
        """
        proteins=[]   
        stop_codons_1 = SEQS(self.dna_seq).codon_to_amino()
        stop_codons=stop_codons_1.split("_")
        for x in stop_codons:     
            for idx, amino_s in enumerate(x):    
                if amino_s == "M":                       
                    proteins.append(x[idx:]) 
        return proteins
    
    def get_orfs (self):
        """Função que recebe uma sequência de DNA

        Returns:
            list: lista com as seis ORFs
        """  
        DNA =self.dna_seq.upper()
        orfs =[]
        orfs.append(DNA[0:])     
        orfs.append(DNA[1:])   
        orfs.append(DNA[2:])
        seq_inv = SEQS(self.dna_seq).reverse_complement()
        orfs.append(seq_inv[0:])
        orfs.append(seq_inv[1:])  
        orfs.append(seq_inv[2:])
        return orfs
    
    def get_all_prots (self):
        """Função que recebe uma sequência de DNA

        Returns:
            list: lista com todas as proteínas
        """
                 
        orfs1 = SEQS(self.dna_seq).get_orfs()
        codons1 = [] 
        aminos1 = []
        aminofinal=[]
        prots = []
        

        for idx, x in enumerate(orfs1):
            codons1.append(SEQS(x).get_codons())
    
        for y in (codons1):
            for b in y:
                aminos1.append(SEQS(b).codon_to_amino())
            aminofinal.append(''.join(aminos1))
            aminos1=[]
        
        for idx , k in enumerate(aminofinal):
                x = aminofinal[idx].split("_")
                try:
                    while True:
                        x.remove("")
                except ValueError:
                    pass
                
                for c in x:
                    for idx1, j in enumerate(c):  
                        if j == "M":                       
                            prots.append(c[idx1:])
        return prots
                    


In [33]:
d=SEQS('ACCATGCGCCGTTAA')
d.freq()
d.count_nucleo()
d.transcription()
d.reverse_complement()
d.codon_to_amino()
d.get_codons()
d.codon_to_amino()
d.get_prots()
d.get_orfs()
d.get_all_prots()

['MRR', 'M']

In [42]:
d=SEQS('ACCATGCGCCGTTAA')
d.count_nucleo()

['A---> 4 C---> 5 G---> 3 T---> 3']