In [1]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


Если умножение матриц нужно выполнить для какой-то длинной последовательности, т.е. как бы растянуть эту операцию вдоль ряда, то можно вместо циклов использовать готовую функцию `tensordot()`

In [2]:
b = np.array(('G','C','A','T'), dtype=object)
b.shape=(2,2)
a = array([[1, 2],
          [-1, 3]])
b

array([['G', 'C'],
       ['A', 'T']], dtype=object)

In [3]:
tensordot(a,b)

array('GCCTTT', dtype=object)

В данном случае мы умножили одинаковые по форме матрицы, и каждую букву из `b` умножили на число в той же позиции и сложили.

С помощью параметра `axes` мы можем менять поведение функции:
-    ``axes = 0`` : тензорное произведение $a\otimes b$
-    ``axes = 1`` : тензорное скалярное произведение $a\cdot b$
-    ``axes = 2`` : (default) тензорное двойное сжатие $a:b$

In [4]:
dot(a,b)

array([['GAA', 'CTT'],
       ['AAA', 'TTT']], dtype=object)

In [5]:
tensordot(a,b, 1)

array([['GAA', 'CTT'],
       ['AAA', 'TTT']], dtype=object)

Задача. Сгенерировать все варианты цепочек из одного нуклеотида длиной до 6 оснований включительно.

In [6]:
tensordot(arange(6)+1, b, 0)

array([[['G', 'C'],
        ['A', 'T']],

       [['GG', 'CC'],
        ['AA', 'TT']],

       [['GGG', 'CCC'],
        ['AAA', 'TTT']],

       [['GGGG', 'CCCC'],
        ['AAAA', 'TTTT']],

       [['GGGGG', 'CCCCC'],
        ['AAAAA', 'TTTTT']],

       [['GGGGGG', 'CCCCCC'],
        ['AAAAAA', 'TTTTTT']]], dtype=object)

Одной функцией мы заменили два цикла - рост от 1 до 6 и перебор оснований.

In [7]:
_.ravel()

array(['G', 'C', 'A', 'T', 'GG', 'CC', 'AA', 'TT', 'GGG', 'CCC', 'AAA',
       'TTT', 'GGGG', 'CCCC', 'AAAA', 'TTTT', 'GGGGG', 'CCCCC', 'AAAAA',
       'TTTTT', 'GGGGGG', 'CCCCCC', 'AAAAAA', 'TTTTTT'], dtype=object)

In [8]:
sorted(_)

['A',
 'AA',
 'AAA',
 'AAAA',
 'AAAAA',
 'AAAAAA',
 'C',
 'CC',
 'CCC',
 'CCCC',
 'CCCCC',
 'CCCCCC',
 'G',
 'GG',
 'GGG',
 'GGGG',
 'GGGGG',
 'GGGGGG',
 'T',
 'TT',
 'TTT',
 'TTTT',
 'TTTTT',
 'TTTTTT']

Для наглядности как получаются разные сочетания в зависимости от множителя, сделаем 3-хмерную матрицу из разных чисел.

In [9]:
a = arange(8).reshape(2,2,-1)
a

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

In [10]:
tensordot(a, b, 2) #по квартетам

array(['CAATTT', 'GGGGCCCCCAAAAAATTTTTTT'], dtype=object)

In [11]:
tensordot(a, b, 1) # по строчкам пурины и пиримидины

array([[['A', 'T'],
        ['GGAAA', 'CCTTT']],

       [['GGGGAAAAA', 'CCCCTTTTT'],
        ['GGGGGGAAAAAAA', 'CCCCCCTTTTTTT']]], dtype=object)

In [12]:
tensordot(a, b, (1,0)) # по колонкам пурины и пиримидины

array([[['AA', 'TT'],
        ['GAAA', 'CTTT']],

       [['GGGGAAAAAA', 'CCCCTTTTTT'],
        ['GGGGGAAAAAAA', 'CCCCCTTTTTTT']]], dtype=object)

In [13]:
tensordot(a, b, (0,0)) # в глубину пурины и пиримидины

array([[['AAAA', 'TTTT'],
        ['GAAAAA', 'CTTTTT']],

       [['GGAAAAAA', 'CCTTTTTT'],
        ['GGGAAAAAAA', 'CCCTTTTTTT']]], dtype=object)

In [14]:
tensordot(a, b, ((0,1), (0,1))) # по колонкам

array(['CCAAAATTTTTT', 'GCCCAAAAATTTTTTT'], dtype=object)

In [15]:
tensordot(a, b, ((0,2), (0,1))) # по строчкам

array(['CAAAATTTTT', 'GGCCCAAAAAATTTTTTT'], dtype=object)

В соответсвие с номенклатурой IUPAC если при секвенировании последовательности ДНК или РНК возникает сомнение в точности определения того или иного нуклеотида, помимо пяти основных (A, C, T, G, U), используют другие буквы латинского алфавита в зависимости от того, какие наиболее вероятные нуклеотиды могут находиться в данной позиции последовательности. 

- S -	C или G - три водородных связи
- W -	A или T - две водородных связи

Задача. Прибор определил что фрагмент ДНК длиной 4bp (base pairs) содержит 1 пару с тройной связью и 3 пары с двойной связью, т.е. `SWWW`. Сгенерить все варианты состава фрагмента.

In [16]:
a = array([[1,0], [3,0]])
a

array([[1, 0],
       [3, 0]])

Это один из правильных вариантов множителя. Нужны остальные.

Для верхнего ряда всего два варинта [1, 0] и [0, 1].
Для нижнего комбинаций больше: [3, 0], [2, 1], [1, 2], [0, 3].

Чтобы перебрать все варианты удобно брать представление последовательности чисел в виде битов. Но надо понимать размерность чисел и правильно задавать тип, например `uint8`.

In [17]:
n=2
ii=(bitwise_and(arange(2**n), (arange(n)+1).reshape(-1,1))>0).T*1
ii

array([[0, 0],
       [1, 0],
       [0, 1],
       [1, 1]])

Проще запомнить команду `meshgrid` которая возвращает сочетания всех координат, заданных на осях. 

In [18]:
reshape(meshgrid([0,1],[0,1]), (2,-1)).T

array([[0, 0],
       [1, 0],
       [0, 1],
       [1, 1]])

Но правильнее всего использовать специальные [функции для расчета комбинаций](https://docs.python.org/3.5/library/itertools.html).

In [19]:
from itertools import combinations, permutations, combinations_with_replacement

In [20]:
list(combinations_with_replacement('AT',3))

[('A', 'A', 'A'), ('A', 'A', 'T'), ('A', 'T', 'T'), ('T', 'T', 'T')]

Можно написать цикл с перебором вариантов и проверкой условия. Вариантов решения много. 

Давайте вернемся к постановке задачи, где нам нужны комбинации двух чисел, дающих в сумме 3. Так как нам важна позиция чисел мы используем `permutations`.

In [21]:
{ _ for _ in permutations(arange(3+1),2) if sum(_)==3 }

{(0, 3), (1, 2), (2, 1), (3, 0)}

Итоговый вариант

In [22]:
n1 = 1
n2 = 3

variant1 = list({ _ for _ in permutations(range(n1+1)*2,2) if sum(_)==n1 })
variant2 = list({ _ for _ in permutations(range(n2+1)*2,2) if sum(_)==n2 })
print( len(variant1), len(variant2))

a = zeros((len(variant1),len(variant2),2,2) ,'int')
print( a.shape)

a[:,:,0,:]=array(variant1).reshape(-1,1,2)
a[:,:,1,:]=variant2

tensordot(a, b)

(2, 4)
(2, 4, 2, 2)


array([['CATT', 'CAAA', 'CTTT', 'CAAT'],
       ['GATT', 'GAAA', 'GTTT', 'GAAT']], dtype=object)

Получили все возможные комбинации. Ценность подхода можно оценить только при усложнении. Попробуйте поменять числа `n1` и `n2`.

Для сравнения приведем традиционный алгоритм с элементами динамического программирования, т.е. когда поведение функций меняется в процессе выполнения.

In [23]:
s = 'SWWW'
def variantDNA(s, shifr=None):
    if not shifr:
        shifr={'S': 'CG', 'W': 'AT' }
    variant=[]
    golova=s[0]
    hvost=s[1:]
    
    if golova in shifr:
        variant.extend([_ for _ in shifr[golova]])
    else:
        variant.append('golova')
    
    if hvost:
        variant=[_var+_hvost for _hvost in variantDNA(hvost) for _var in variant]
        
    return variant

variantDNA(s)

['CAAA',
 'GAAA',
 'CTAA',
 'GTAA',
 'CATA',
 'GATA',
 'CTTA',
 'GTTA',
 'CAAT',
 'GAAT',
 'CTAT',
 'GTAT',
 'CATT',
 'GATT',
 'CTTT',
 'GTTT']

Поскольку в алгоритме мы шли последовательно, то в ответе оказались все варианты с учетом порядка следования. Чтобы получить комбинации вне зависимости от порядка - надо отсортировать и отобрать уникальные последовательности.

In [24]:
{''.join(sorted(_)) for _ in variantDNA(s)}

{'AAAC', 'AAAG', 'AACT', 'AAGT', 'ACTT', 'AGTT', 'CTTT', 'GTTT'}