In [7]:
def read_fasta(fasta_file):
    sequences = []
    with open(fasta_file, 'r') as f:
        current_seq = ''
        for line in f:
            if line.startswith('>'):
                if current_seq:
                    sequences.append(current_seq)
                    current_seq = ''
            else:
                current_seq += line.strip()
        if current_seq:
            sequences.append(current_seq)
    return sequences

sequences = read_fasta('t.fasta')

In [8]:
class Node:  #класс вершин (k-1 меры)
    def __init__(self, km1mer):
        self.km1mer = km1mer
        self.nin = 0  # кол-во входов в вершину
        self.nout = 0  # выходов из вершины
        
        # функции проверки существования эйлерова цикла
    def is_semi_balanced(self):
        return abs(self.nin - self.nout) == 1

    def is_balanced(self):
        return self.nin == self.nout

    def __str__(self):
        return str(self.km1mer)

In [9]:
class DeBruijnGraph:

    def __init__(self, str_iter, k):
        self.G = {}     # непосредственно граф
        self.nodes = {}  # делает k-1 меры объектами класса Node
        self.head = None   
        self.tail = None
        self.nsemi = 0
        self.nbal = 0
        self.nneither = 0

        self._build_graph(str_iter, k)

    def _build_graph(self, str_iter, k):
        for st in str_iter:
            for kmer, km1L, km1R in self.chop(st, k):
                nodeL = self._get_or_create_node(km1L)
                nodeR = self._get_or_create_node(km1R)
                nodeL.nout += 1
                nodeR.nin += 1
                self.G.setdefault(nodeL, []).append(nodeR)   # записываем граф в виде словаря (key - вершина, 
                                                                             # values - с кем она связана)

        for node in self.nodes.values():
            if node.is_balanced():
                self.nbal += 1
            elif node.is_semi_balanced():   
                if node.nin == node.nout + 1:   # ищем "хвост" графа
                    self.tail = node
                if node.nin == node.nout - 1:   # ищем "голову" графа
                    self.head = node
                self.nsemi += 1
            else:
                self.nneither += 1

    def _get_or_create_node(self, km1mer):
        if km1mer in self.nodes:
            return self.nodes[km1mer]
        else:
            new_node = Node(km1mer)
            self.nodes[km1mer] = new_node
            return new_node

    def chop(self, st, k):   # режет строку на k-меры 
        result = []
        for i in range(len(st)-(k-1)):
            result.append((st[i:i+k], st[i:i+k-1], st[i+1:i+k])) # выход вида ['ACT', 'AC', 'CT']
        return result

    def nnodes(self):  # номер вершины
        return len(self.nodes)

    def nedges(self):  # номер ребра
        return len(self.G)

    def has_eulerian_path(self):
        return self.nneither == 0 and self.nsemi == 2

    def has_eulerian_cycle(self):
        return self.nneither == 0 and self.nsemi == 0

    def is_eulerian(self):
        return self.has_eulerian_path() or self.has_eulerian_cycle()

    def eulerian_path(self):
        assert self.is_eulerian()
        g = self.G

        if self.has_eulerian_path():
            g = g.copy()
            assert self.head is not None
            assert self.tail is not None
            g.setdefault(self.tail, []).append(self.head)   # искусственно зацикливаем граф

        tour = []
        src = list(g.keys())[0]  # берем случайную вершину за стартовую

        def _visit(n):  # рекурсивно обходим
            while len(g[n]) > 0:
                dst = g[n].pop()
                _visit(dst)
            tour.append(n)

        _visit(src)
        tour = tour[::-1][:-1]  # переворачиваем, затем удаляем последний элемент(он равен первому, т.к. у нас цикл)

        if self.has_eulerian_path():   # рвем цикл
            sti = tour.index(self.head)
            tour = tour[sti:] + tour[:sti]

        return list(map(str, tour))

    def assemble_genome(self, tour):  # собираем 
        assert self.is_eulerian()
        s = ''
        for i, seq in enumerate(tour):
            if i == 0:
                s += seq
            else:
                s += seq[-1]
        return s

In [10]:
k = 3

graph = DeBruijnGraph(sequences, k)

for key, values in graph.G.items():
    print(key, list(map(str, values)))
    

tour = graph.eulerian_path()

genome = graph.assemble_genome(tour)

GT ['TA']
TA ['AA']
AA ['AG']
AG ['GC']
TC ['CG']
CG ['GT']


In [11]:
def to_fasta(filename, sequence):
    with open(filename, 'w') as f:
        f.write('>Final sequence\n')
        f.write(sequence)

to_fasta('output.fa', genome)