### Тестирование базовых функций классов

In [1]:
from Seq import Dna, Rna

#### 1. Создание объектов класса

In [2]:
# ValueError при передаче не str аргумента

dna123 = Dna(123)
print(dna123)

ValueError: Expected str, got <class 'int'>

**TODO:** добавить проверку, что это строка ДНК/РНК, а не просто строка

In [3]:
# объекты успешно создаются

dna2 = Dna('atgcgta')
dna3 = Dna('atgCGTa')
dna33 = Dna('atgccccgg')
dna4 = Dna('atgcgta')

some_dna_seq = 'atgtgactgatgcatgctagctagcatgcatgctagctagctagctagcatgctagctagctagctagctagctagctagtcgatcgatgctagcatgctattttttttagcgacgagcgagctacgagtcatcgagctagctagctactagcatcagtagctagctagctgatcagtcagatcg'
some_rna_seq = 'AUGUGACUGAUGCAUGCUAGCUAGCAUGCAUGCUAGCUAGCUAGCUAGCAUGCUAGCUAGCUAGCUAGCUAGCUAGCUAGUCGAUCGAUGCUAGCAUGCUAUUUUUUUUAGCGACGAGCGAGCUACGAGUCAUCGAGCUAGCUAGCUACUAGCAUCAGUAGCUAGCUAGCUGAUCAGUCAGAUCG'

dna1 = Dna(some_dna_seq)

In [4]:
rna1 = Rna('augggua')
rna2 = Rna(some_rna_seq)

In [5]:
# объекты возвращаются как объект класса

print(dna2, ',', repr(dna2), ',', type(dna2))
print(rna1, ',', repr(rna1), ',', type(rna1))

ATGCGTA , Dna('ATGCGTA') , <class 'Seq.Dna'>
AUGGGUA , Rna('AUGGGUA') , <class 'Seq.Rna'>


In [6]:
dna2, rna1

(Dna('ATGCGTA'), Rna('AUGGGUA'))

#### 2. Определение доли GC нуклеотидов

In [7]:
dna1.gc_content(), rna1.gc_content()

(0.4810810810810811, 0.42857142857142855)

**Проблема:** функции базового класса используют self.\_complement_matrix и self.\_possible_letters, которые различаются для DNA и RNA классов. Необходимо заставить классы-наследники определять эти аттрибуты внутри себя.

#### 3. Создание reverse_complement последовательности

In [8]:
print(dna33)

ATGCCCCGG


In [9]:
dna33.reverse()

'GGCCCCGTA'

In [10]:
reversed(dna33)

'GGCCCCGTA'

In [11]:
print(dna33.complement())

TACGGGGCC


In [12]:
print(dna33.reverse_complement())  

CCGGGGCAT


In [14]:
print(rna1)

AUGGGUA


In [15]:
print(rna1.reverse())

AUGGGUA


In [16]:
print(rna1.reverse_complement()) 

UACCCAU


**Вопрос:** мне хотелось бы реализовать цепные методы, вроде dna33.reverse().complement(). Но для этого надо возвращать объект класса. Как в классе-родителе прописать, чтобы возвращался не объект класса-родителя, а объект класса-наследника?

У меня сейчас возвращается str ~объект класса \_SeqBaseClass~, а хотелось бы возвращать объект класса Dna/Rna, но не писать для этого методы reverse и complement в обоих классах-детях.

#### 4. Итерирование по последовательности

In [17]:
for i in dna2:
    print(i, end='')
    
print()
    
for i in dna2:
    print(i, end='')

ATGCGTA
ATGCGTA

In [18]:
for i in rna1:
    print(i, end='')

AUGGGUA

In [19]:
iterable = iter(dna2)
print(next(iterable))
print(next(iterable))
print(next(iterable))
print(next(iterable))
print(next(iterable))
print(next(iterable))
print(next(iterable))
print(next(iterable))

A
T
G
C
G
T
A


StopIteration: 

#### 5. Сравнение последовательностей

Можно сравнивать со строкой, с объектом своего класса. Строки приводятся к одному регистру.

In [20]:
dna1

Dna('ATGTGACTGATGCATGCTAGCTAGCATGCATGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGTCGATCGATGCTAGCATGCTATTTTTTTTAGCGACGAGCGAGCTACGAGTCATCGAGCTAGCTAGCTACTAGCATCAGTAGCTAGCTAGCTGATCAGTCAGATCG')

In [21]:
rna2

Rna('AUGUGACUGAUGCAUGCUAGCUAGCAUGCAUGCUAGCUAGCUAGCUAGCAUGCUAGCUAGCUAGCUAGCUAGCUAGCUAGUCGAUCGAUGCUAGCAUGCUAUUUUUUUUAGCGACGAGCGAGCUACGAGUCAUCGAGCUAGCUAGCUACUAGCAUCAGUAGCUAGCUAGCUGAUCAGUCAGAUCG')

In [22]:
print(dna2, dna3, dna4)

ATGCGTA ATGCGTA ATGCGTA


In [23]:
dna2==dna4, \
dna2=='ATGCGTA', \
dna2=='atgcgTa', \
dna2==123, \
dna1==rna2, \
dna1.transcribe().complement()==rna2

(True,
 True,
 True,
 "Comparison of <class 'Seq.Dna'> and <class 'int'> is not defined.",
 False,
 True)

#### 6. Добавление в множества

In [24]:
dna1, dna2, dna3, dna4

(Dna('ATGTGACTGATGCATGCTAGCTAGCATGCATGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGTCGATCGATGCTAGCATGCTATTTTTTTTAGCGACGAGCGAGCTACGAGTCATCGAGCTAGCTAGCTACTAGCATCAGTAGCTAGCTAGCTGATCAGTCAGATCG'),
 Dna('ATGCGTA'),
 Dna('ATGCGTA'),
 Dna('ATGCGTA'))

In [25]:
# для одинаковых последовательностей hash функции совпадают

print('dna1=', hash(dna1), 
      '\ndna2 =', hash(dna2), 
      '\ndna3 =', hash(dna3),
      '\ndna4 =', hash(dna4), 
      '\natgcgta =', hash('atgcgta'), 
      '\natgcgTa =', hash('atgcgTa'))

dna1= 4426966749769101691 
dna2 = 5530952391367901288 
dna3 = 5530952391367901288 
dna4 = 5530952391367901288 
atgcgta = 8820214362803449608 
atgcgTa = 4577615460916064375


In [26]:
print(hash(Rna('aug')), hash(Rna('auG')), hash(Rna('augt')),)

4411815154786072324 4411815154786072324 -7671997777524338381


In [27]:
(dna1, dna2, dna3, dna4, rna1, rna2)

(Dna('ATGTGACTGATGCATGCTAGCTAGCATGCATGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGTCGATCGATGCTAGCATGCTATTTTTTTTAGCGACGAGCGAGCTACGAGTCATCGAGCTAGCTAGCTACTAGCATCAGTAGCTAGCTAGCTGATCAGTCAGATCG'),
 Dna('ATGCGTA'),
 Dna('ATGCGTA'),
 Dna('ATGCGTA'),
 Rna('AUGGGUA'),
 Rna('AUGUGACUGAUGCAUGCUAGCUAGCAUGCAUGCUAGCUAGCUAGCUAGCAUGCUAGCUAGCUAGCUAGCUAGCUAGCUAGUCGAUCGAUGCUAGCAUGCUAUUUUUUUUAGCGACGAGCGAGCUACGAGUCAUCGAGCUAGCUAGCUACUAGCAUCAGUAGCUAGCUAGCUGAUCAGUCAGAUCG'))

In [28]:
# можно видеть, что одинаковые последовательности ДНК (dna2, dna3, dna4) схлопнулись в одну

some_set = set((dna1, dna2, dna3, dna4, rna1, rna2))

print('Length =', len(some_set))
for elem in some_set:
    print(elem)

Length = 4
ATGCGTA
AUGGGUA
ATGTGACTGATGCATGCTAGCTAGCATGCATGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGTCGATCGATGCTAGCATGCTATTTTTTTTAGCGACGAGCGAGCTACGAGTCATCGAGCTAGCTAGCTACTAGCATCAGTAGCTAGCTAGCTGATCAGTCAGATCG
AUGUGACUGAUGCAUGCUAGCUAGCAUGCAUGCUAGCUAGCUAGCUAGCAUGCUAGCUAGCUAGCUAGCUAGCUAGCUAGUCGAUCGAUGCUAGCAUGCUAUUUUUUUUAGCGACGAGCGAGCUACGAGUCAUCGAGCUAGCUAGCUACUAGCAUCAGUAGCUAGCUAGCUGAUCAGUCAGAUCG


#### 7. метод transcribe

In [29]:
dna2

Dna('ATGCGTA')

In [30]:
dna2.transcribe()

Rna('UACGCAU')