In [52]:
from Bio import SeqIO

def get_n_50(lengths):
    lengths = sorted(lengths, reverse=True)
    cumulative_length = 0
    for length in lengths:
        cumulative_length += length
        if cumulative_length / sum(lengths) >= 0.5:
            return length
        
def analyze_lengths(lengths, type_):
    print(type_)
    print("Общее кол-во:", len(lengths))
    print("Общая длина:", sum(lengths))
    print("Максимальная длина", max(lengths))
    print("N50", get_n_50(lengths))

## Анализ контигов

In [53]:
contig_lengths = []
with open("../data/bacteria_contig.fa") as input_handle:
    for record in SeqIO.parse(input_handle, "fasta"):
        contig_lengths.append(len(record))
analyze_lengths(contig_lengths, "Контиги")

Контиги
Общее кол-во: 637
Общая длина: 3926263
Максимальная длина 179304
N50 47993


## Анализ скаффолдов

In [54]:
scaffold_lengths = []
largest_scaffold = None
with open("../data/bacteria_scaffold.fa") as input_handle:
    for record in SeqIO.parse(input_handle, "fasta"):
        scaffold_lengths.append(len(record))
        if len(scaffold_lengths) == 0 or len(record) >= max(scaffold_lengths):
            largest_scaffold = record
            
analyze_lengths(scaffold_lengths, "Скаффолды")

Скаффолды
Общее кол-во: 71
Общая длина: 3872165
Максимальная длина 3830280
N50 3830280


In [55]:
import re

gap_total_length = largest_scaffold.seq.count("N")
gap_total_count = len(re.findall(r"N+", str(largest_scaffold.seq)))

In [56]:
print("Общее кол-во гэпов в самом длинном скаффолде:", gap_total_count)
print("Сумма длин гэпов в самом длинном скаффолде:", gap_total_length)

Общее кол-во гэпов в самом длинном скаффолде: 65
Сумма длин гэпов в самом длинном скаффолде: 6634


## Анализ скаффолдов после удаления гэпов

In [57]:
largest_scaffold_gc = None
with open("../data/bacteria_gapClosed.fa") as input_handle:
    for record in SeqIO.parse(input_handle, "fasta"):
        if largest_scaffold_gc is None or len(record) >= len(largest_scaffold_gc):
            largest_scaffold_gc = record

In [58]:
len(largest_scaffold_gc)

3869160

In [59]:
gap_total_length_gc = largest_scaffold_gc.seq.count("N")
gap_total_count_gc = len(re.findall(r"N+", str(largest_scaffold_gc.seq)))

In [60]:
print("После удаления гэпов")
print("Общее кол-во гэпов в самом длинном скаффолде:", gap_total_count_gc)
print("Сумма длин гэпов в самом длинном скаффолде:", gap_total_length_gc)

После удаления гэпов
Общее кол-во гэпов в самом длинном скаффолде: 10
Сумма длин гэпов в самом длинном скаффолде: 1955


In [61]:
largest_scaffold_gc.id

'scaffold1_cov231'

In [62]:
with open("../data/longest.fa", "w") as f:
    f.write(f">{largest_scaffold_gc.id} Largest scaffold of our oil bacteria\n" + str(largest_scaffold_gc.seq))