In [1]:
import numpy as np
from collections import Counter

# Подготовительные функции

### Комплементарная последовательность

In [2]:
complement_nt = {'A' : 'T',
                 'T' : 'A',
                 'G' : 'C',
                 'C' : 'G'}

def reverse_complement_sequence(gene):
    ans = ''
    for i in range(1, len(gene) + 1):
        ans = ans + complement_nt[gene[-i]]
    return ans
reverse_complement_sequence('ATGCAA')

'TTGCAT'

### Удаление стоп-кодона в конце

In [3]:
stop_cd_list = ('TAG', 'TAA', 'TGA', 'CAT', 'CAC', 'CAA')
def delete_stop_cd(gene):
    if (gene[-3:] in stop_cd_list):
        return gene[:-3]
    return gene

### Проверка, есть ли уже этот ген в списке

In [4]:
def is_already_written(gene, genes_list):
    gene_cut = delete_stop_cd(gene)
    for gn_pair in genes_list:
        if (gene == gn_pair['straight'] or gene == gn_pair['rc']
           or gene_cut == gn_pair['straight_cut'] or gene_cut == gn_pair['rc_cut']
           or gene == gn_pair['straight_cut'] or gene_cut == gn_pair['rc_cut']
           or gene_cut == gn_pair['straight'] or gene_cut == gn_pair['rc']):
            return True
    return False

## Считывание генов из файла

In [5]:
def read_genes_file(fname : str, file_type = 'ffn'):
    file = open(fname, "r")
    lines = file.readlines()
    ans = []
    nucleotides = ('A', 'T', 'G', 'C')
    for line in lines:
        if (file_type == 'txt'):
            _, _, gene = map(str, line.split())
            if (gene[-1] == '\n' or gene[-1] == '\t'):
                gene = gene[:-1]
            gene_cut = delete_stop_cd(gene)
            ans.append({'straight' : gene, 
                        'rc' : reverse_complement_sequence(gene),
                        'straight_cut' : gene_cut,
                        'rc_cut' : reverse_complement_sequence(gene_cut)})
        if (file_type == 'ffn' or file_type == 'feat.fa'):
            if (line[0] in nucleotides and line[1] in nucleotides and line[2] in nucleotides):
                if (line[-1] == '\n'):
                    line = line[:-1]
                if (line[-1] == '\t'):
                    line = line[:-1]
                gene_cut = delete_stop_cd(line)
                if (is_already_written(line, ans) == False):
                    ans.append({'straight' : line,
                                'rc' : reverse_complement_sequence(line),
                                'straight_cut' : gene_cut,
                                'rc_cut' : reverse_complement_sequence(gene_cut)})
    file.close()
    return ans

# Проверка результатов

## Прямой участок

### Считываем гены

In [7]:
answer_straight = read_genes_file('MG1655-K12.first400K_short_straight.feat.fa')
predictions_straight = read_genes_file(
    '../example/results/MG1655-K12.first400K_short_straight_gfa.ffn',
    file_type = 'ffn')
predictions_straight_basic = read_genes_file('./DefaultFragGeneScan_results/MG-1655-K12.first400K_short_straight-fgs.ffn',
                    file_type = 'ffn')
print(len(answer_straight))
print(len(predictions_straight))
print(len(predictions_straight_basic))

64
60
60


In [8]:
print("На графе верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_straight) 
                        for predicted_gene in predictions_straight]))))
print("На рёбрах верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_straight) 
                        for predicted_gene in predictions_straight_basic]))))

На графе верно предсказано 51 генов
На рёбрах верно предсказано 50 генов


## Случай с развилками

### Считываем

In [9]:
answer_short = read_genes_file('MG1655-K12.first400K_short_straight.feat.fa')
predictions_short = read_genes_file(
    '../example/results/MG1655-K12.first400K_short_gfa.ffn',
    file_type = 'ffn')
predictions_short_basic = read_genes_file('./DefaultFragGeneScan_results/MG-1655-K12.first400K_short-fgs.ffn',
                    file_type = 'ffn')
print(len(answer_short))
print(len(predictions_short))
print(len(predictions_short_basic))

64
61
61


In [10]:
print("На графе верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_short) 
                        for predicted_gene in predictions_short]))))
print("На рёбрах верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_short) 
                        for predicted_gene in predictions_short_basic]))))

На графе верно предсказано 52 генов
На рёбрах верно предсказано 50 генов


# Граф для первых 400k

In [10]:
answer_sub = read_genes_file('MG1655-K12.first400K.feat.fa')
predictions_sub = read_genes_file(
    '../example/results/MG1655-K12.first400K_gfa.ffn',
    file_type = 'ffn')
predictions_sub_basic = read_genes_file('./DefaultFragGeneScan_results/MG-1655-K12.first400K-fgs.ffn',
                    file_type = 'ffn')
print(len(answer_sub))
print(len(predictions_sub))
print(len(predictions_sub_basic))

426
421
384


In [11]:
print("На графе верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_sub) 
                        for predicted_gene in predictions_sub]))))
print("На рёбрах верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_sub) 
                        for predicted_gene in predictions_sub_basic]))))

На графе верно предсказано 199 генов
На рёбрах верно предсказано 193 генов


# Совсем полный граф

In [12]:
answer_whole = read_genes_file('MG1655-K12.feat.fa')
predictions_whole = read_genes_file(
    '../example/results/MG1655-K12_gfa.ffn',
    file_type = 'ffn')
predictions_whole_basic = read_genes_file('./DefaultFragGeneScan_results/MG-1655-K12-fgs.ffn',
                    file_type = 'ffn')
print(len(answer_whole))
print(len(predictions_whole))
print(len(predictions_whole_basic))

4647
5095
4586


In [17]:
print("На графе верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_whole) 
                        for predicted_gene in predictions_whole]))))
print("На рёбрах верно предсказано {0} генов".format(
    np.sum(np.array([is_already_written(predicted_gene['straight'], answer_whole) 
                        for predicted_gene in predictions_whole_basic]))))

На графе верно предсказано 3539 генов
На рёбрах верно предсказано 3421 генов


# Смотрим статистику по нахождению внутри 1 ребра

In [14]:
def read_gfa(gfa_fname : str):
    gfa_file = open(gfa_fname, "r")
    lines = gfa_file.readlines()
    edges = []
    for line in lines:
        words = line.split()
        if (words[0] == "S"):
            edges.append(words[2])
    return edges

## Полный граф

In [15]:
edges400k = read_gfa('../example/MG1655-K12.first400K.gfa')
edges_whole = read_gfa('../example/MG1655-K12.gfa')
len(edges_whole)

856

# Смотрим, сколько генов на графе расположены больше, чем на 1 ребре

In [36]:
predicted_on_one_edge_cnt = 0
for pred in predictions_whole:
    fl = False
    for edge in edges_whole:
        if (pred['straight'] in edge or pred['rc'] in edge):
            fl = True
            break;
    if (fl):
        predicted_on_one_edge_cnt += 1
print("Из {0} предсказанных генов на одном ребре расположены {1}".format(
                                                                        len(predictions_whole), 
                                                                        predicted_on_one_edge_cnt))

Из 5095 предсказанных генов на одном ребре расположены 4751


In [37]:
correctly_predicted = []
for pred in predictions_whole:
    if (is_already_written(pred['straight'], answer_whole)):
        correctly_predicted.append(pred)
correctly_predicted_on_one_edge_cnt = 0
for pred in correctly_predicted:
    fl = False
    for edge in edges_whole:
        if (pred['straight'] in edge or pred['rc'] in edge):
            fl = True
            break;
            
    if (fl):
        correctly_predicted_on_one_edge_cnt += 1
print("Из {0} верно предсказанных генов на одном ребре расположены {1}".format(
                                                                        len(correctly_predicted), 
                                                                        correctly_predicted_on_one_edge_cnt))

Из 3539 верно предсказанных генов на одном ребре расположены 3525


## Укороченный граф

In [38]:
predicted_on_one_edge_cnt = 0
for pred in predictions_sub:
    fl = False
    for edge in edges400k:
        if (pred['straight'] in edge or pred['rc'] in edge):
            fl = True
            break;
    if (fl):
        predicted_on_one_edge_cnt += 1
print("Из {0} предсказанных генов на одном ребре расположены {1}".format(
                                                                        len(predictions_sub), 
                                                                        predicted_on_one_edge_cnt))

Из 432 предсказанных генов на одном ребре расположены 417


In [39]:
correctly_predicted = []
for pred in predictions_sub:
    if (is_already_written(pred['straight'], answer_sub)):
        correctly_predicted.append(pred)
correctly_predicted_on_one_edge_cnt = 0
for pred in correctly_predicted:
    fl = False
    for edge in edges400k:
        if (pred['straight'] in edge or pred['rc'] in edge):
            fl = True
            break;
            
    if (fl):
        correctly_predicted_on_one_edge_cnt += 1
print("Из {0} верно предсказанных генов на одном ребре расположены {1}".format(
                                                                        len(correctly_predicted), 
                                                                        correctly_predicted_on_one_edge_cnt))

Из 199 верно предсказанных генов на одном ребре расположены 198


# Смотрим распределение генов по числу рёбер

In [42]:
count_on_one_edge_sub = 0
for gene in answer_sub:
    fl = False
    for edge in edges400k:
        if (gene['straight'] in edge or gene['rc'] in edge):
            fl = True
            break;
    if (fl):
        count_on_one_edge_sub += 1
print("Из {0} истинных генов {1} расположены на 1 ребре".format(len(answer_sub), count_on_one_edge_sub))

Из 426 истинных генов 400 расположены на 1 ребре


In [44]:
count_on_one_edge_whole = 0
for gene in answer_whole:
    fl = False
    for edge in edges_whole:
        if (gene['straight'] in edge or gene['rc'] in edge):
            fl = True
            break;
    if (fl):
        count_on_one_edge_whole += 1
print("Из {0} истинных генов {1} расположены на 1 ребре".format(len(answer_whole), count_on_one_edge_whole))

Из 4647 истинных генов 4521 расположены на 1 ребре
