In [17]:
from typing import Tuple, List
import re

# Основная часть

In [18]:
def get_info(filename: str, analysys_header: str='', show: bool=True) -> List[str]:    
    sequences = []
    total_len = 0
    num = 0
    max_len = 0
    length = 0
    score = 0
    curr_sequence = ''

    with open(filename, 'r') as fin:
        for line in fin:
            if (line[0] == '>'):
                if num != 0:
                    sequences.append(curr_sequence)
                num += 1
                if length >= max_len:
                    max_len = length
                curr_sequence = ''
                length = 0
            else:
                curr_sequence += line.strip()
                length += len(line.strip())
                total_len += len(line.strip())
     
    for seq in sorted(sequences, reverse=True, key=lambda x: len(x)):
        i = len(seq)
        score += i
        if score >= total_len / 2:
            if show == True:
                print(f'=== {analysys_header}')
                print(f'Общее количество: {num}')
                print(f'Общая длина: {total_len}')
                print(f'Длина самого длинного: {max_len}')
                print(f'N50: {i}\n')
            break
    return sequences

In [19]:
PATH_TO_PLATANUS = './../platanus'

In [20]:
contigs = get_info(f'{PATH_TO_PLATANUS}/Poil_contig.fa', analysys_header='Анализ контигов')

=== Анализ контигов
Общее количество: 599
Общая длина: 3924112
Длина самого длинного: 179307
N50: 52799



In [21]:
scaffolds = get_info(f'{PATH_TO_PLATANUS}/Poil_scaffold.fa', analysys_header='Анализ скаффолдов')

=== Анализ скаффолдов
Общее количество: 71
Общая длина: 3873818
Длина самого длинного: 3834505
N50: 3834505



In [22]:
def get_gap_count(sequence: str, type: str) -> Tuple[int, int]:
    total_gap_length = sequence.count('N')
    print(f'Общая длина гэпов [{type}]: {total_gap_length}')
    sequence_sub = re.sub(r'N{2,}', 'N', sequence)
    total_gap_count = sequence_sub.count('N')
    print(f'Число гэпов: {total_gap_count}')
    return total_gap_length, total_gap_count

In [23]:
gap_length, gap_count = get_gap_count(scaffolds[0], 'не обрезанные чтения')

Общая длина гэпов [не обрезанные чтения]: 5799
Число гэпов: 60


In [24]:
scaffolds_gap_closed = get_info(f'{PATH_TO_PLATANUS}/Poil_gapClosed.fa', show=False)

In [25]:
gap_length_closed, gap_count_closed = get_gap_count(scaffolds_gap_closed[0], 'обрезанные чтения')

Общая длина гэпов [обрезанные чтения]: 1606
Число гэпов: 8


In [26]:
# save data

with open('./../data/contigs.fasta', 'w') as configs_file:
        for contig in contigs:
            configs_file.write(contig)
            configs_file.write('\n')

with open('./../data/scaffolds.fasta', 'w') as scaffolds_file:
    for scaffold in scaffolds_gap_closed:
        scaffolds_file.write(scaffold)
        scaffolds_file.write('\n')

with open('./../data/longest.fasta', 'w') as longest_file:
    longest_file.write(scaffolds[0])

# Бонусная часть

In [27]:
contigs = get_info(f'{PATH_TO_PLATANUS}/Poil_contig.fa', analysys_header='Анализ контигов [100%]')

=== Анализ контигов [100%]
Общее количество: 599
Общая длина: 3924112
Длина самого длинного: 179307
N50: 52799



In [30]:
contigs = get_info(f'{PATH_TO_PLATANUS}/Poil_contig_small.fa', analysys_header='Анализ контигов [10%]')


=== Анализ контигов [10%]
Общее количество: 3442
Общая длина: 3918532
Длина самого длинного: 27955
N50: 4095



In [33]:
scaffolds = get_info(f'{PATH_TO_PLATANUS}/Poil_scaffold.fa', analysys_header='Анализ скаффолдов [100%]')

=== Анализ скаффолдов [100%]
Общее количество: 71
Общая длина: 3873818
Длина самого длинного: 3834505
N50: 3834505



In [32]:
scaffolds = get_info(f'{PATH_TO_PLATANUS}/Poil_scaffold_small.fa', analysys_header='Анализ скаффолдов [10%]')

=== Анализ скаффолдов [10%]
Общее количество: 498
Общая длина: 3868973
Длина самого длинного: 1286874
N50: 648480



In [34]:
scaffolds_gap_closed = get_info(f'{PATH_TO_PLATANUS}/Poil_gapClosed.fa')

=== 
Общее количество: 71
Общая длина: 3917851
Длина самого длинного: 3878222
N50: 3878222



In [35]:
scaffolds_gap_closed = get_info(f'{PATH_TO_PLATANUS}/Poil_gapClosed_small.fa')

=== 
Общее количество: 498
Общая длина: 3857779
Длина самого длинного: 1281767
N50: 604205

