### Анализ полученных контигов

In [1]:
from Bio import SeqIO

def analyze_contigs(contig_file):
    contig_lengths = []
    
    for record in SeqIO.parse(contig_file, "fasta"):
        contig_lengths.append(len(record.seq))
    
    total_contigs = len(contig_lengths)
    total_length = sum(contig_lengths)
    longest_contig = max(contig_lengths)
    
    #N50
    contig_lengths_sorted = sorted(contig_lengths, reverse=True)
    half_length = total_length / 2
    running_length = 0
    for length in contig_lengths_sorted:
        running_length += length
        if running_length >= half_length:
            N50 = length
            break
    
    return total_contigs, total_length, longest_contig, N50

contig_file = "contigs.fasta"

total_contigs, total_length, longest_contig, N50 = analyze_contigs(contig_file)

print(f"Общее количество контигов: {total_contigs}")
print(f"Общая длина контигов: {total_length}")
print(f"Длина самого длинного контига: {longest_contig}")
print(f"N50: {N50}")


Общее количество контигов: 502
Общая длина контигов: 3921867
Длина самого длинного контига: 240663
N50: 115749


### Анализ полученных скаффолдов

In [2]:
def analyze_scaffolds(scaffold_file):
    scaffold_lengths = []
    
    for record in SeqIO.parse(scaffold_file, "fasta"):
        scaffold_lengths.append(len(record.seq))
    
    total_scaffolds = len(scaffold_lengths)
    total_length = sum(scaffold_lengths)
    longest_scaffold = max(scaffold_lengths)
    
    #N50
    scaffold_lengths_sorted = sorted(scaffold_lengths, reverse=True)
    half_length = total_length / 2
    running_length = 0
    for length in scaffold_lengths_sorted:
        running_length += length
        if running_length >= half_length:
            N50 = length
            break
    
    return total_scaffolds, total_length, longest_scaffold, N50

scaffold_file = "platanus_scaffold.fa"

total_scaffolds, total_length, longest_scaffold, N50 = analyze_scaffolds(scaffold_file)

print(f"Общее количество скаффолдов: {total_scaffolds}")
print(f"Общая длина скаффолдов: {total_length}")
print(f"Длина самого длинного скаффолда: {longest_scaffold}")
print(f"N50: {N50}")

Общее количество скаффолдов: 83
Общая длина скаффолдов: 3876570
Длина самого длинного скаффолда: 3834495
N50: 3834495


### Количество гэпов и их общая длина до уменьшения гэпов с помощью подрезанных чтений


In [7]:
scaffold = ''
scaffold_id = ''
for record in SeqIO.parse('platanus_scaffold.fa', 'fasta'):
    if len(record.seq) > len(scaffold):
        scaffold = record.seq
        scaffold_id = record.id 

scaffold_str = str(scaffold)

#Гэпы
gap_list = ('0' + scaffold_str + '0').split('N')
gap_count = 0
for gap in gap_list:
    if gap != '':
        gap_count += 1
print(f'Название самого длинного скаффолда: {scaffold_id}')
print('Количество гэпов:', gap_count - 1)  

#Общая длина гэпов
gap_length = scaffold_str.count('N')
print('Общая длина гэпов:', gap_length)

Название самого длинного скаффолда: scaffold3_len3834421_cov273
Количество гэпов: 46
Общая длина гэпов: 6642


### Количество гэпов и их общая длина после программы platanus gap_close

In [6]:
scaffold = ''
scaffold_id = ''
for record in SeqIO.parse('platanus_gapClosed.fa', 'fasta'):
    if len(record.seq) > len(scaffold):
        scaffold = record.seq
        scaffold_id = record.id 

scaffold_str = str(scaffold)

#Гэпы
gap_list = ('0' + scaffold_str + '0').split('N')
gap_count = 0
for gap in gap_list:
    if gap != '':
        gap_count += 1
print(f'Название самого длинного скаффолда: {scaffold_id}')
print('Количество гэпов:', gap_count - 1)  

#Общая длина гэпов
gap_length = scaffold_str.count('N')
print('Общая длина гэпов:', gap_length)

Название самого длинного скаффолда: scaffold3_cov273
Количество гэпов: 12
Общая длина гэпов: 3373


## Бонусная часть

### Анализ полученных контигов

In [1]:
from Bio import SeqIO

def analyze_contigs(contig_file):
    contig_lengths = []
    
    for record in SeqIO.parse(contig_file, "fasta"):
        contig_lengths.append(len(record.seq))
    
    total_contigs = len(contig_lengths)
    total_length = sum(contig_lengths)
    longest_contig = max(contig_lengths)
    
    #N50
    contig_lengths_sorted = sorted(contig_lengths, reverse=True)
    half_length = total_length / 2
    running_length = 0
    for length in contig_lengths_sorted:
        running_length += length
        if running_length >= half_length:
            N50 = length
            break
    
    return total_contigs, total_length, longest_contig, N50

contig_file = "platanus_small_contig.fa"

total_contigs, total_length, longest_contig, N50 = analyze_contigs(contig_file)

print(f"Общее количество контигов: {total_contigs}")
print(f"Общая длина контигов: {total_length}")
print(f"Длина самого длинного контига: {longest_contig}")
print(f"N50: {N50}")

Общее количество контигов: 927
Общая длина контигов: 3920258
Длина самого длинного контига: 261871
N50: 85688


### Анализ полученных скаффолдов

In [3]:
def analyze_scaffolds(scaffold_file):
    scaffold_lengths = []
    
    for record in SeqIO.parse(scaffold_file, "fasta"):
        scaffold_lengths.append(len(record.seq))
    
    total_scaffolds = len(scaffold_lengths)
    total_length = sum(scaffold_lengths)
    longest_scaffold = max(scaffold_lengths)
    
    #N50
    scaffold_lengths_sorted = sorted(scaffold_lengths, reverse=True)
    half_length = total_length / 2
    running_length = 0
    for length in scaffold_lengths_sorted:
        running_length += length
        if running_length >= half_length:
            N50 = length
            break
    
    return total_scaffolds, total_length, longest_scaffold, N50

scaffold_file = "platanus_small_scaffold.fa"

total_scaffolds, total_length, longest_scaffold, N50 = analyze_scaffolds(scaffold_file)

print(f"Общее количество скаффолдов: {total_scaffolds}")
print(f"Общая длина скаффолдов: {total_length}")
print(f"Длина самого длинного скаффолда: {longest_scaffold}")
print(f"N50: {N50}")

Общее количество скаффолдов: 118
Общая длина скаффолдов: 3857730
Длина самого длинного скаффолда: 2077460
N50: 2077460


### Количество гэпов и их общая длина после программы platanus gap_close

In [5]:
scaffold = ''
scaffold_id = ''
for record in SeqIO.parse('platanus_small_scaffold.fa', 'fasta'):
    if len(record.seq) > len(scaffold):
        scaffold = record.seq
        scaffold_id = record.id 

scaffold_str = str(scaffold)

#Гэпы
gap_list = ('0' + scaffold_str + '0').split('N')
gap_count = 0
for gap in gap_list:
    if gap != '':
        gap_count += 1
print(f'Название самого длинного скаффолда: {scaffold_id}')
print('Количество гэпов:', gap_count - 1)  

#Общая длина гэпов
gap_length = scaffold_str.count('N')
print('Общая длина гэпов:', gap_length)

Название самого длинного скаффолда: scaffold3_len2077319_cov59
Количество гэпов: 47
Общая длина гэпов: 6842


In [6]:
scaffold = ''
scaffold_id = ''
for record in SeqIO.parse('platanus_small_gapClosed.fa', 'fasta'):
    if len(record.seq) > len(scaffold):
        scaffold = record.seq
        scaffold_id = record.id 

scaffold_str = str(scaffold)

#Гэпы
gap_list = ('0' + scaffold_str + '0').split('N')
gap_count = 0
for gap in gap_list:
    if gap != '':
        gap_count += 1
print(f'Название самого длинного скаффолда: {scaffold_id}')
print('Количество гэпов:', gap_count - 1)  

#Общая длина гэпов
gap_length = scaffold_str.count('N')
print('Общая длина гэпов:', gap_length)

Название самого длинного скаффолда: scaffold3_cov59
Количество гэпов: 22
Общая длина гэпов: 4682
