MCL1. Ген кодирует белок MCL-1, который необходим для нормального функционирования стволовых клеток волосяных фолликулов, без которых невозможен рост волос

In [21]:
class Seq:
    """
    класс для представления биологической последовательности

    sequence  нуклеотидная или аминокислотная последовательность
    header заголовок FASTA записи (информация о последовательности)
    """

    def __init__(self, sequence, header=""):

        self.sequence = sequence
        self.header = header

    def __str__(self):

        return f">{self.header}\n{self.sequence}" #строковое представление последовательности

    def __len__(self):

        return len(self.sequence)

    def alphabet(self):
        """
        определяет тип последовательности нукл или протеин

        """
        nucleotides = set("ATGCU")
        amino_acids = set("ACDEFGHIKLMNPQRSTVWY")

        seq_set = set(self.sequence)

        if seq_set.issubset(nucleotides): #проверка что одно множество может быть подмножеством другого
            return "nucleotide"
        elif seq_set.issubset(amino_acids):
            return "protein"
        else:
            return "unknown"


class FastaReader:
    """
    класс для чтения FASTA файлов
    """

    def is_fasta(self, rna):
        """
        проверяет является ли файл FASTA файлом анализируя первую строку

        """
        with open(rna, 'r') as f:
            first_line = f.readline().strip()
            return first_line.startswith(">")

    def read_records(self, rna):
        """
        читает FASTA файл по записям
        + генератор чтобы не случился stack over flow

        """


        header = None
        sequence = ""

        with open(rna, 'r') as f:
            for line in f:
                line = line.strip()
                if line.startswith(">"): # идентификатор фасты
                    if header: #если это не первая запись
                        yield Seq(sequence, header) # seq генератор, представляющий одну FASTA запись
                    header = line[1:] # удалям символ > в начале
                    sequence = "" # сброс
                else:
                    sequence += line

            if header:
                yield Seq(sequence, header)


if __name__ == "__main__":
    rna = "rna.fna"
    reader = FastaReader()
    for record in reader.read_records(rna):

        print(f" length: {len(record)}")
        print(f" bio type : {record.alphabet()}")



 length: 3491
 bio type : nucleotide
 length: 3950
 bio type : nucleotide
 length: 3702
 bio type : nucleotide
