<h3> Grafy

In [1]:
class Graf:
    def __init__(self, wierzcholki=[]):
        """inicjalizacja grafu z listą wierzcholkow"""
        self.w = {v:i for i,v in enumerate(wierzcholki)}    
        self.i = {i:v for i,v in enumerate(wierzcholki)}   
        self.krawedzie = []
        self.nazwykrawedzi = []
        
    def dodajWierzcholek(self, wierzcholek):
        """ Dodanie wierzchołka do grafu (wraz z nazwą) """
        indeks = len(self.w)
        self.w[wierzcholek] = indeks
        self.i[indeks] = wierzcholek
        
    def dodajKrawedz(self, w1, w2, label='', powtorzenia=True):
        """ Dodanie krawędzi do grafu (opcjonalnie z nazwą), 
        powtwórzone krawędzie traktowane są jakie różne chyba ze wybrano False"""
        e = (self.w[w1], self.w[w2])
        if (powtorzenia) or (e not in self.krawedzie):
            self.krawedzie.append(e)
            self.nazwykrawedzi.append(label)

Przykład grafu

In [2]:
g = Graf(["A","B"])

In [3]:
g.dodajWierzcholek("C")

In [4]:
g.dodajKrawedz("A","B")

In [5]:
g.dodajKrawedz("A","C")

In [6]:
g.krawedzie

[(0, 1), (0, 2)]

Graf na wierzchołkach binarnych

In [7]:
import itertools

b = [''.join(t) for t in itertools.product('01', repeat=3)]
print(b)

['000', '001', '010', '011', '100', '101', '110', '111']


In [8]:
G = Graf(b)
for w in b:
    G.dodajKrawedz(w, w[1:]+'0')
    G.dodajKrawedz(w, w[1:]+'1')

print()
print("wierzchołki:indeksy = ", G.w)
print()
print("indeksy:wierzchołki = ", G.i)
print()
print("krawędzie =", G.krawedzie)


wierzchołki:indeksy =  {'000': 0, '001': 1, '010': 2, '011': 3, '100': 4, '101': 5, '110': 6, '111': 7}

indeksy:wierzchołki =  {0: '000', 1: '001', 2: '010', 3: '011', 4: '100', 5: '101', 6: '110', 7: '111'}

krawędzie = [(0, 0), (0, 1), (1, 2), (1, 3), (2, 4), (2, 5), (3, 6), (3, 7), (4, 0), (4, 1), (5, 2), (5, 3), (6, 4), (6, 5), (7, 6), (7, 7)]


<h4> Permutacje

In [9]:
import itertools

start = 1
for p in itertools.permutations([1,2,3]):
    print(p)

(1, 2, 3)
(1, 3, 2)
(2, 1, 3)
(2, 3, 1)
(3, 1, 2)
(3, 2, 1)


In [10]:
import itertools

class Graf2(Graf):
    def sciezkaHamiltona(self):
        """ Rozwiazazanie za poomocą tzw. brutalnej siły 
        (tzn. sprawdzamy wszystkie możliwości)"""
        for sciezka in itertools.permutations(sorted(self.w.values())):
            for i in range(len(sciezka)-1):
                if ((sciezka[i],sciezka[i+1]) not in self.krawedzie):
                    break
            else:
                return [self.i[i] for i in sciezka]
        return []
    
G = Graf2(b)
for w in b:
    G.dodajKrawedz(w, w[1:]+'0')
    G.dodajKrawedz(w ,w[1:]+'1')

    
%time sciezka = G.sciezkaHamiltona()
print(sciezka)
s = sciezka[0] + ''.join([sciezka[i][-1] for i in range(1,len(sciezka))])
print(s)

Wall time: 0 ns
['000', '001', '010', '101', '011', '111', '110', '100']
0001011100


In [11]:
class Graf3(Graf):   
    def szukaj(self, sciezka, pozostale_wierzcholki):
        if (len(pozostale_wierzcholki) == 0):
            self.wyniki = [self.i[i] for i in sciezka]
            return True
        for v in pozostale_wierzcholki:
            if (len(sciezka) == 0) or ((sciezka[-1],v) in self.krawedzie):
                if self.szukaj(sciezka+[v], [r for r in pozostale_wierzcholki if r != v]):
                    return True
        return False
    
    def sciezkaHamiltona(self):
        self.wyniki = []
        self.szukaj([],sorted(self.w.values()))                
        return self.wyniki

G = Graf3(b)
for w in b:
    G.dodajKrawedz(w, w[1:]+'0')
    G.dodajKrawedz(w ,w[1:]+'1')

    
%time sciezka = G.sciezkaHamiltona()
print(sciezka)
s = sciezka[0] + ''.join([sciezka[i][-1] for i in range(1,len(sciezka))])
print(s)

Wall time: 0 ns
['000', '001', '010', '101', '011', '111', '110', '100']
0001011100


In [12]:
#dla ciagu binarnego dlugosci 4

b4 = [''.join(t) for t in itertools.product('01', repeat=4)]

G = Graf3(b4)
for w in b4:
    G.dodajKrawedz(w, w[1:]+'0')
    G.dodajKrawedz(w ,w[1:]+'1')

    
%time sciezka = G.sciezkaHamiltona()
print(sciezka)
s = sciezka[0] + ''.join([sciezka[i][-1] for i in range(1,len(sciezka))])
print(s)

Wall time: 995 µs
['0000', '0001', '0010', '0100', '1001', '0011', '0110', '1101', '1010', '0101', '1011', '0111', '1111', '1110', '1100', '1000']
0000100110101111000


Jak to sie ma do sekwencji biologicznych?

In [13]:
import random
n = 100
nt = ["A","T","G","C"]
sekwencja = random.choices(nt, k = n)
sekwencja = "".join(sekwencja)
print(sekwencja)

sekwencja = "ACTTCCCCTAGATTCTCTCCGTGGACCCGATGGCTGTGAGATAAAAAACAGCGGAGGGAAACCTTTGTTGACATAGGAGTACTGTACGAACTCAATGCAC"


TCAGGATGCGTCTTGTTACACGCGATATCCTACGTGATTCTGCAAACCCGCCTACTGATGTATAAGTAAGTGTATACCAGCTACACCCCGTACCCCTAGG


In [14]:
def wszystkie_k_mery(s, k = 10):
    return [s[i:(i+k)] for i in range(len(s)-k+1)]

In [15]:
print(wszystkie_k_mery(sekwencja))

['ACTTCCCCTA', 'CTTCCCCTAG', 'TTCCCCTAGA', 'TCCCCTAGAT', 'CCCCTAGATT', 'CCCTAGATTC', 'CCTAGATTCT', 'CTAGATTCTC', 'TAGATTCTCT', 'AGATTCTCTC', 'GATTCTCTCC', 'ATTCTCTCCG', 'TTCTCTCCGT', 'TCTCTCCGTG', 'CTCTCCGTGG', 'TCTCCGTGGA', 'CTCCGTGGAC', 'TCCGTGGACC', 'CCGTGGACCC', 'CGTGGACCCG', 'GTGGACCCGA', 'TGGACCCGAT', 'GGACCCGATG', 'GACCCGATGG', 'ACCCGATGGC', 'CCCGATGGCT', 'CCGATGGCTG', 'CGATGGCTGT', 'GATGGCTGTG', 'ATGGCTGTGA', 'TGGCTGTGAG', 'GGCTGTGAGA', 'GCTGTGAGAT', 'CTGTGAGATA', 'TGTGAGATAA', 'GTGAGATAAA', 'TGAGATAAAA', 'GAGATAAAAA', 'AGATAAAAAA', 'GATAAAAAAC', 'ATAAAAAACA', 'TAAAAAACAG', 'AAAAAACAGC', 'AAAAACAGCG', 'AAAACAGCGG', 'AAACAGCGGA', 'AACAGCGGAG', 'ACAGCGGAGG', 'CAGCGGAGGG', 'AGCGGAGGGA', 'GCGGAGGGAA', 'CGGAGGGAAA', 'GGAGGGAAAC', 'GAGGGAAACC', 'AGGGAAACCT', 'GGGAAACCTT', 'GGAAACCTTT', 'GAAACCTTTG', 'AAACCTTTGT', 'AACCTTTGTT', 'ACCTTTGTTG', 'CCTTTGTTGA', 'CTTTGTTGAC', 'TTTGTTGACA', 'TTGTTGACAT', 'TGTTGACATA', 'GTTGACATAG', 'TTGACATAGG', 'TGACATAGGA', 'GACATAGGAG', 'ACATAGGAGT', 'CATA

In [16]:
sekwencje = list(set(wszystkie_k_mery(sekwencja)))
G = Graf3(sekwencje)

for i in range(len(sekwencje)):
    for j in range(len(sekwencje)):
        if i!=j and sekwencje[i][1:] == sekwencje[j][:-1]:
            G.dodajKrawedz(sekwencje[i],sekwencje[j])

    
sciezka = G.sciezkaHamiltona()
s = sciezka[0] + ''.join([sciezka[i][-1] for i in range(1,len(sciezka))])
print(s)

ACTTCCCCTAGATTCTCTCCGTGGACCCGATGGCTGTGAGATAAAAAACAGCGGAGGGAAACCTTTGTTGACATAGGAGTACTGTACGAACTCAATGCAC


In [17]:
s == sekwencja

True

<h4> Zadanie1: Zastanów się nad sekwencją, dla której algorytm na podstawie k-merów może wskazać inną sekwencję przewidywaną.

<h4> Podejście Eulera

In [18]:
class Graf4(Graf3):

    def stopnie(self):
        """zwraca informacje o tym ile wchodzi i ile wychodzi
           krawedzi do kazdego wierzcholka"""
        do = {}
        od = {}
        for a, b in self.krawedzie:
            od[a] = od.get(a, 0) + 1
            do[b] = do.get(b, 0) + 1
        return do, od
    
    def weryfikuj_i_zacznij(self):
        do, od = self.stopnie()
        start, end = 0, 0
        for v in self.i:
            wchodzace = do.get(v,0)
            wychodzace = od.get(v,0)
            if (wchodzace == wychodzace):
                continue
            elif (wchodzace - wychodzace == 1) and (end == 0):
                end = v
            elif (wychodzace - wchodzace == 1) and (start == 0):
                start = v
            else:
                start, end = -1, -1
                break
        if (start >= 0) and (end >= 0):
            return start
        else:
            return -1
        
    def sciezkaEulera(self):
        graf = [(a,b) for a,b in self.krawedzie]
        aktualny_wierzcholek = self.weryfikuj_i_zacznij()
        sciezka = [aktualny_wierzcholek]
        next = 1
        while (len(graf) > 0):                   #kiedy nie wszystkie krawedzie zostaly uzyte, len(graf) != 0
            for krawedz in graf:
                if (krawedz[0] == aktualny_wierzcholek):
                    aktualny_wierzcholek = krawedz[1]
                    graf.remove(krawedz)
                    sciezka.insert(next, aktualny_wierzcholek) 
                    next += 1
                    break
            else:
                for krawedz in graf:
                    try:
                        next = sciezka.index(krawedz[0]) + 1
                        aktualny_wierzcholek = krawedz[0]
                        break
                    except ValueError:
                        continue
                else:
                    print("Nie ma ścieżki!")
                    return False
        return sciezka

    def krawedzieEulera(self, sciezka):
        krawedzieId = {}
        for i in range(len(self.krawedzie)):
            krawedzieId[self.krawedzie[i]] = krawedzieId.get(self.krawedzie[i], []) + [i]
        krawedzieList = []
        for i in range(len(sciezka)-1):
            krawedzieList.append(self.nazwykrawedzi[krawedzieId[sciezka[i],sciezka[i+1]].pop()])            
        return krawedzieList


In [19]:
wierzcholki = sorted(set([s[:-1] for s in sekwencje] + [s[1:] for s in sekwencje]))
print(wierzcholki)

['AAAAAACAG', 'AAAAACAGC', 'AAAACAGCG', 'AAACAGCGG', 'AAACCTTTG', 'AACAGCGGA', 'AACCTTTGT', 'AACTCAATG', 'ACAGCGGAG', 'ACATAGGAG', 'ACCCGATGG', 'ACCTTTGTT', 'ACGAACTCA', 'ACTCAATGC', 'ACTGTACGA', 'ACTTCCCCT', 'AGATAAAAA', 'AGATTCTCT', 'AGCGGAGGG', 'AGGAGTACT', 'AGGGAAACC', 'AGTACTGTA', 'ATAAAAAAC', 'ATAGGAGTA', 'ATGGCTGTG', 'ATTCTCTCC', 'CAGCGGAGG', 'CATAGGAGT', 'CCCCTAGAT', 'CCCGATGGC', 'CCCTAGATT', 'CCGATGGCT', 'CCGTGGACC', 'CCTAGATTC', 'CCTTTGTTG', 'CGAACTCAA', 'CGATGGCTG', 'CGGAGGGAA', 'CGTGGACCC', 'CTAGATTCT', 'CTCAATGCA', 'CTCCGTGGA', 'CTCTCCGTG', 'CTGTACGAA', 'CTGTGAGAT', 'CTTCCCCTA', 'CTTTGTTGA', 'GAAACCTTT', 'GAACTCAAT', 'GACATAGGA', 'GACCCGATG', 'GAGATAAAA', 'GAGGGAAAC', 'GAGTACTGT', 'GATAAAAAA', 'GATGGCTGT', 'GATTCTCTC', 'GCGGAGGGA', 'GCTGTGAGA', 'GGAAACCTT', 'GGACCCGAT', 'GGAGGGAAA', 'GGAGTACTG', 'GGCTGTGAG', 'GGGAAACCT', 'GTACGAACT', 'GTACTGTAC', 'GTGAGATAA', 'GTGGACCCG', 'GTTGACATA', 'TAAAAAACA', 'TACGAACTC', 'TACTGTACG', 'TAGATTCTC', 'TAGGAGTAC', 'TCAATGCAC', 'TCCCCTAGA'

In [20]:
G4 = Graf4(wierzcholki)
for s in sekwencje:
    G4.dodajKrawedz(s[:-1],s[1:],s)

%timeit G4.sciezkaEulera()
sciezka = G4.sciezkaEulera()
print(sciezka)

krawedzie = G4.krawedzieEulera(sciezka)
print(krawedzie)
print(krawedzie[0] + ''.join([krawedzie[i][-1] for i in range(1,len(krawedzie))]))

606 µs ± 117 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
[15, 45, 87, 76, 28, 30, 33, 39, 73, 17, 56, 25, 88, 79, 42, 78, 41, 77, 32, 38, 68, 82, 60, 50, 10, 29, 31, 36, 55, 24, 83, 63, 58, 44, 85, 67, 81, 51, 16, 54, 22, 70, 0, 1, 2, 3, 5, 8, 26, 18, 57, 37, 61, 52, 20, 64, 59, 47, 4, 6, 11, 34, 46, 91, 90, 86, 69, 89, 80, 49, 9, 27, 23, 74, 19, 62, 53, 21, 66, 72, 14, 43, 84, 65, 71, 12, 35, 48, 7, 13, 40, 75]
['ACTTCCCCTA', 'CTTCCCCTAG', 'TTCCCCTAGA', 'TCCCCTAGAT', 'CCCCTAGATT', 'CCCTAGATTC', 'CCTAGATTCT', 'CTAGATTCTC', 'TAGATTCTCT', 'AGATTCTCTC', 'GATTCTCTCC', 'ATTCTCTCCG', 'TTCTCTCCGT', 'TCTCTCCGTG', 'CTCTCCGTGG', 'TCTCCGTGGA', 'CTCCGTGGAC', 'TCCGTGGACC', 'CCGTGGACCC', 'CGTGGACCCG', 'GTGGACCCGA', 'TGGACCCGAT', 'GGACCCGATG', 'GACCCGATGG', 'ACCCGATGGC', 'CCCGATGGCT', 'CCGATGGCTG', 'CGATGGCTGT', 'GATGGCTGTG', 'ATGGCTGTGA', 'TGGCTGTGAG', 'GGCTGTGAGA', 'GCTGTGAGAT', 'CTGTGAGATA', 'TGTGAGATAA', 'GTGAGATAAA', 'TGAGATAAAA', 'GAGATAAAAA', 'AGATAAAAAA', 'GATAAAAAAC', 'ATAAAAAA

In [21]:
"ACTTCCCCTAGATTCTCTCCGTGGACCCGATGGCTGTGAGATAAAAAACAGCGGAGGGAAACCTTTGTTGACATAGGAGTACTGTACGAACTCAATGCAC" == sekwencja

True

<h4> Zadanie2: Zdefiniuj funkcję, która zwraca k-mery dla danej sekwencji. Jeżeli pewne k-mery powtarzają się to są one numerowane.

<h4> Zadanie3: Przetestuj działanie składania sekwencji w oparciu o grafy dla "ATGCACTGCC", dla różnych parametrów k.

Problemy w realnych przykładach:
- nie mamy informacji o tym czy powtórzenie wynika z tego, że w sekwencji występuje wielokrotnie czy z tego że dany fragment został zsekwencjonowany wiele razy
- brak pewnych k-merów
- błędy odczytu (zakłócone k-mery)