In [None]:
DNA_Codons = {
    # 'M' - START, '_' - STOP
    "GCT": "A", "GCC": "A", "GCA": "A", "GCG": "A",
    "TGT": "C", "TGC": "C",
    "GAT": "D", "GAC": "D",
    "GAA": "E", "GAG": "E",
    "TTT": "F", "TTC": "F",
    "GGT": "G", "GGC": "G", "GGA": "G", "GGG": "G",
    "CAT": "H", "CAC": "H",
    "ATA": "I", "ATT": "I", "ATC": "I",
    "AAA": "K", "AAG": "K",
    "TTA": "L", "TTG": "L", "CTT": "L", "CTC": "L", "CTA": "L", "CTG": "L",
    "ATG": "M",
    "AAT": "N", "AAC": "N",
    "CCT": "P", "CCC": "P", "CCA": "P", "CCG": "P",
    "CAA": "Q", "CAG": "Q",
    "CGT": "R", "CGC": "R", "CGA": "R", "CGG": "R", "AGA": "R", "AGG": "R",
    "TCT": "S", "TCC": "S", "TCA": "S", "TCG": "S", "AGT": "S", "AGC": "S",
    "ACT": "T", "ACC": "T", "ACA": "T", "ACG": "T",
    "GTT": "V", "GTC": "V", "GTA": "V", "GTG": "V",
    "TGG": "W",
    "TAT": "Y", "TAC": "Y",
    "TAA": "_", "TAG": "_", "TGA": "_"
}


In [None]:
class Bio_seq:
  def __init__(self, seq, seq_type = 'DNA'):
    self.seq = seq.upper()
    self.seq_type = seq_type
    self.valid = self.validate()

  # DNA дээр суурилсан эсэх ийг шалгана
  def validate(self):
    validDna = self.seq.count("A") + self.seq.count("C") + self.seq.count("G") + self.seq.count("T")
    if(validDna == len(self.seq)):
      return True
    else:
      return False

  # ДНХ-ийн дарааллыг уншиж, том үсэг болгон хувиргаж, хэдэн нуклеотид нь пурин, пиримидин болохыг тоолдог функц
  def purines_pyrimidines(self):
    purines = 0
    pyrim = 0
    for i in self.seq:
      if(i == 'A' or i == 'G'):
        purines += 1
      elif(i == 'U' or i == 'T' or i == 'C'):
        pyrim += 1
    return "Purines: " + str(purines) + " Pyrim: " + str(pyrim)
  
  # Кодонуудыг гаргаж авна. 
  def codons(self):
    codon_lst = []
    for i in range(0, len(self.seq), 3):
      codon_lst.append(self.seq[i:i+3])
    return codon_lst

  # Дарааллийг палиндром эсэхийг шалгана.
  def isPalindrome(self):
    revSeq = self.seq[::-1]
    if(self.seq == revSeq):
      return "Палиндром мөн"
    else: return "Палиндром биш"
  
  # Дарааллын C,G нуклеотидын хувь 
  def CG_content(self):
    return round((self.seq.count('C') + self.seq.count('G')) / len(self.seq) * 100) 
  
  # Өгөгдсөн амин хүчлийн дарааллууд нь уураг үүсгэж байгаа эсэхийг шалгадаг функц
  # Эхний давхар давталтаар 3 аар тасдаад 1 алхам хойшлоод 3 аар аваад явна
  # 2 дохь давталтаар кодонуудыг байдаг эсэхийг шалгаж тоолно
  # хэрвээ байдаг бол тоог нь үгүй бол -1 буцаана
  def checkProtein(self):
    seq = []
    count = 0
    for i in range(3):
      for j in range(i, len(self.seq), 3):
        if(len(self.seq[j:j + 3]) == 3):
          seq.append(self.seq[j:j + 3])
    
    for i in seq:
      if(i in DNA_Codons):
        count += 1
    print("Total codons", seq)
    if(count > 0):    
      return count
    else: return -1
  
  # Олдсон дараалал нь уураг мөн үү биш үү гэдгийг логик оператороор тодорхойлдог функц
  def boolProtein(self):
    if(self.checkProtein != -1):
      return True
    else: return False

  # Дарааллыг амин хүчлүүдийг dictionary бүтэцээр буцаана
  def mappingDict(self):
    codon_lst = []
    dct = {}
    
    for i in range(0, len(seq), 3):
      codon_lst.append(seq[i:i+3])
    
    for s in codon_lst:
      if(s in dct): 
        dct[s] += 1
      else: dct[s] = 1
  
    return dct

  # ДНХ дарааллыг бүрдүүлж буй амин хүчлүүдийн дэд дарааллуудыг олдог функц.
  # exam: ACG: T, GTG: V, CTA: L, ACG: T, GTG: V, CTA: L = Thr, Val, Leu, Thr, Val, Leu
  def allProteins(self):
    aa = []
    seq = self.codons()
    for s in seq: 
      aa.append(DNA_Codons[s])
    return aa

  # к хэмжээтэй дэд дараалал өгөгдсөн дараалалд оршиж байна уу эсэхийг шалгана. 
  # Хэрвээ оршиж байвал түлхүүр нь тухайн дэд дараалал ба утга нь хэдэн удаа дэд дараалал давтагдсан тоо болох dictionary буцаана.
  def k_freq(self, seq,k = 4):
    codon_lst = []
    dct = {}
    
    for i in range(0, len(seq), k):
      codon_lst.append(seq[i:i+k])
    
    for s in codon_lst:
      if(s in dct): 
        dct[s] += 1
      else: dct[s] = 1
  
    return dct
    
seq = "ACGGTGCTAACGGTGCTA"
sqq = "ACGGACGGACGGAAAAACGGACGGACGGAAAA"
dna = Bio_seq(seq)
print(dna.purines_pyrimidines())
print(dna.isPalindrome()) 
print("CG: " + str(dna.CG_content()) + "%")
print("Number of proteins" + str(dna.checkProtein()))
print("Is it protein?" + str(dna.boolProtein()))
print("In dictionary format ", dna.mappingDict())
print("Reading Frame", dna.allProteins())
print("K length amino acids ", dna.k_freq(sqq, 4))

Purines: 10 Pyrim: 8
Палиндром биш
CG: 56%
Total codons ['ACG', 'GTG', 'CTA', 'ACG', 'GTG', 'CTA', 'CGG', 'TGC', 'TAA', 'CGG', 'TGC', 'GGT', 'GCT', 'AAC', 'GGT', 'GCT']
Уураг үүсгэж байгаа тоо 16
Уураг мөн үү! True
dictionary бүтцээр  {'ACG': 2, 'GTG': 2, 'CTA': 2}
Reading Frame ['T', 'V', 'L', 'T', 'V', 'L']
K хэмжээгээр амин хүчил гаргах  {'ACGG': 6, 'AAAA': 2}
