In [1]:
from re import sub as regexp_replace
from typing import Dict, NoReturn

In [2]:
def get_info(filename: str, just_max_seq: bool = False) -> Dict:
    lengths, max_seq = [], ""
    with open(filename, 'r') as file:
        for line in file:
            if line[0] == '>':
                cur_seq = ""
                lengths.append(0)
            else:
                cur_seq += line.strip()
                if len(max_seq) < len(cur_seq):
                    max_seq = cur_seq
                lengths[-1] = len(cur_seq)
    if just_max_seq:
        return {"Самый длинный": max_seq}
    lengths.sort(reverse=True)

    score, total_len = 0, sum(lengths)
    for length in lengths:
        score += length
        if score >= total_len / 2:
            return {
                "Общее количество" : len(lengths),
                "Общая длина" : sum(lengths),
                "Длина самого длинного": len(max_seq),
                "N50": length
            }

def get_gap_info(filename: str) -> Dict:
    seq: str = get_info(filename, just_max_seq=True)["Самый длинный"]
    return {
        "Общая длина гэпов": seq.count('N'),
        "Число гэпов": regexp_replace(r'N{2,}', 'N', seq).count('N')
    }

In [3]:
def print_info(label: str, info: Dict) -> NoReturn:
    print(f'Анализ {label}')
    for key, value in info.items():
        if key != "Самый длинный":
            print(f'{key}: {value}')
    print()

def print_all(data_dir: str) -> NoReturn:
    # Информация о контигах
    print_info("контигов", get_info(data_dir + "out_contig.fa"))
    # Информация о скаффолдах
    print_info("скаффолдов", get_info(data_dir + "out_scaffold.fa"))
    # Подсчет гэпов для необрезанных чтений
    print_info("гэпов", get_gap_info(data_dir + "out_scaffold.fa"))
    # Подсчет гэпов для обрезанных чтений
    print_info("гэпов для обрезанных чтений", get_gap_info(data_dir + "out_gapClosed.fa"))

## Информация о чтениях

In [4]:
print_all("../data/")

Анализ контигов
Общее количество: 610
Общая длина: 3925489
Длина самого длинного: 135087
N50: 49847

Анализ скаффолдов
Общее количество: 70
Общая длина: 3873447
Длина самого длинного: 3831816
N50: 3831816

Анализ гэпов
Общая длина гэпов: 6131
Число гэпов: 61

Анализ гэпов для обрезанных чтений
Общая длина гэпов: 2117
Число гэпов: 10

