Problem
The GC-content of a DNA string is given by the percentage of symbols in the string that are 'C' or 'G'. For example, the GC-content of "AGCTATAG" is 37.5%. Note that the reverse complement of any DNA string has the same GC-content.

DNA strings must be labeled when they are consolidated into a database. A commonly used method of string labeling is called FASTA format. In this format, the string is introduced by a line that begins with '>', followed by some labeling information. Subsequent lines contain the string itself; the first line to begin with '>' indicates the label of the next string.

In Rosalind's implementation, a string in FASTA format will be labeled by the ID "Rosalind_xxxx", where "xxxx" denotes a four-digit code between 0000 and 9999.

Given: At most 10 DNA strings in FASTA format (of length at most 1 kbp each).

Return: The ID of the string having the highest GC-content, followed by the GC-content of that string. Rosalind allows for a default error of 0.001 in all decimal answers unless otherwise stated; please see the note on absolute error below.

Sample Dataset
>Rosalind_6404
CCTGCGGAAGATCGGCACTAGAATAGCCAGAACCGTTTCTCTGAGGCTTCCGGCCTTCCC
TCCCACTAATAATTCTGAGG
>Rosalind_5959
CCATCGGTAGCGCATCCTTAGTCCAATTAAGTCCCTATCCAGGCGCTCCGCCGAAGGTCT
ATATCCATTTGTCAGCAGACACGC
>Rosalind_0808
CCACCCTCGTGGTATGGCTAGGCATTCAGGAACCGGAGAACGCTTCAGACCAGCCCGGAC
TGGGAACCTGCGGGCAGTAGGTGGAAT
Sample Output
Rosalind_0808
60.919540

In [1]:
def parse_fasta(file_path):
    """
    Функция для парсинга файла FASTA и возврата словаря с идентификаторами в качестве ключей
    и последовательностями нуклеотидов в качестве значений.
    """
    with open(file_path, 'r') as file:
        # Инициализируем словарь для хранения результатов
        fasta_dict = {}
        current_key = None

        for line in file:
            line = line.strip()  # Убираем пробельные символы с начала и конца строки
            if line.startswith('>'):  # Если строка начинается с '>', это идентификатор
                current_key = line[1:]  # Сохраняем идентификатор без '>'
                fasta_dict[current_key] = []  # Инициализируем список для нуклеотидов
            else:
                # Добавляем последовательность нуклеотидов к последнему ключу
                fasta_dict[current_key].append(line)

        # Объединяем все части последовательностей в одну строку для каждого ключа
        for key in fasta_dict:
            fasta_dict[key] = ''.join(fasta_dict[key])

    return fasta_dict

In [2]:
def gc_content_percentage(fasta_dict):
    """
    Функция для подсчета процента содержания нуклеотидов G и C в каждой последовательности.
    Возвращает новый словарь с идентификаторами в качестве ключей и процентом содержания G и C в качестве значений.
    """
    gc_content_dict = {}
    for key, sequence in fasta_dict.items():
        gc_count = sequence.count('G') + sequence.count('C')  # Подсчет количества G и C
        total_length = len(sequence)  # Общая длина последовательности
        if total_length > 0:
            gc_percentage = (gc_count / total_length) * 100  # Вычисление процента содержания G и C
        else:
            gc_percentage = 0
        gc_content_dict[key] = gc_percentage
    return gc_content_dict

In [4]:
parsed = parse_fasta('rosalind_gc.txt')

In [5]:
gc_content_percentage(parsed)

{'Rosalind_4547': 50.112866817155755,
 'Rosalind_0697': 53.22033898305085,
 'Rosalind_0129': 51.2396694214876,
 'Rosalind_7579': 48.692152917505034,
 'Rosalind_6105': 48.4504132231405,
 'Rosalind_4603': 50.271444082519004,
 'Rosalind_2739': 52.109704641350206,
 'Rosalind_1349': 46.87144482366325,
 'Rosalind_2773': 50.91891891891892}