In [1]:
from main_script import *

In [2]:
# Пример работы с ДНК
dna = DNASequence("ACGTAGCTAG")
print(dna)
print("Длина последовательности:", len(dna))
print("Элемент по индексу 2:", dna[2])
print("Элемент по срезу [1:4]:", dna[1:4])
print("Комплементарная последовательность:", dna.complement())
print("Обратная последовательность:", dna.reverse())
print("Обратная комплементарная последовательность:", dna.reverse_complement())
print("Транскрибированная РНК-последовательность:", dna.transcribe())

Nucleic Acid Sequence: ACGTAGCTAG
Длина последовательности: 10
Элемент по индексу 2: G
Элемент по срезу [1:4]: CGT
Комплементарная последовательность: TGCATCGATC
Обратная последовательность: GATCGATGCA
Обратная комплементарная последовательность: CTAGCTACGT
Транскрибированная РНК-последовательность: ACGUAGCUAG


In [3]:
# Пример работы с РНК
rna = RNASequence("ACGUAGCUAG")
print(rna)
print("Транскрибированная ДНК-последовательность:", rna.reverse_transcribe())
print(rna.__is_valid__())

Nucleic Acid Sequence: ACGUAGCUAG
Транскрибированная ДНК-последовательность: ACGTAGCTAG
True


In [4]:
# Пример работы с аминокислотной последовательностью:
amino_acid_seq = AminoAcidSequence("ACDEFGHIKLMNPQRSTVWY")
print(amino_acid_seq)
print("Длина последовательности:", len(amino_acid_seq))
print("Молекулярная масса:", amino_acid_seq.molecular_weight())
print(amino_acid_seq.__is_valid__())

Amino Acid Sequence: ACDEFGHIKLMNPQRSTVWY
Длина последовательности: 20
Молекулярная масса: 2738
True


In [5]:
# Примеры обработки ошибок:

# Неверная подача аргумента
try:
    print(NucleicAcidSequence("TATT").__is_valid__())
except NotImplementedError as error:
    print(f'Нельзя создать экземпляр данного класса! {error}')

# Последовательность РНК вместо ДНК:
try:
    dna = DNASequence("AUGUUCCC")
except SequenceError as error:
    print(f'{error}')

# Последовательность ДНК вместо РНК:
try:
    rna = RNASequence("ATTGCTTU")
except SequenceError as error:
    print(f'{error}')

# Несуществующие символы в последовательности белка:
try:
    peptide = AminoAcidSequence("YDYPDYAZ!")
except SequenceError as error:
    print(f'{error}')

Нельзя создать экземпляр данного класса! Определите последовательность через класс DNASequence или RNASequence
В последовательности ДНК есть недопустимые символы!
В последовательности РНК есть недопустимые символы!
В последовательности белка есть недопустимые символы!


In [6]:
# Пример использования filter_fastq
filter_fastq(
    "input.fastq",
    "filtered_output.fastq",
    min_length=10,
    min_quality=20,
    min_gc_content=40,
)

### Запуск из командной строки:

1. Импорт `argparse`: добавил импорт модуля argparse.
2. Создание парсера: создал объект `ArgumentParser`, который будет обрабатывать аргументы командной строки.
3. Добавление аргументов: добавил необходимые аргументы для входного и выходного файлов и опциональные параметры для минимальной длины последовательности (`--min_length`), минимального качества (`--min_quality`) и минимального содержания GC (`--min_gc_content`).
4. Парсинг аргументов: использовал метод `parse_args()` для извлечения значений аргументов из командной строки.
5. Вызов функции: передал извлеченные значения в функцию `filter_fastq` такие же, как в примере выше.

In [7]:
!python main_script.py input.fastq cmd_line_output.fastq --min_length=10 --min_quality=20 --min_gc_content=40

In [8]:
# empty output means no difference
!diff "cmd_line_output.fastq" "filtered_output.fastq"

### Настройка логирования:

1. Импорт модуля logging: добавил импорт модуля `logging`.
2. Настройка логирования: настроил базовую конфигурацию для логирования с указанием имени файла (`filter_fastq.log`), уровня логирования (`DEBUG`) и формата сообщений.
3. Логирование предупреждений: В функции `filter_fastq` добавлены сообщения о предупреждениях (`logging.warning`) для случаев, когда записи пропускаются из-за недостаточной длины, низкого качества или низкого содержания GC.
4. Обработка исключений: Вызов функции `filter_fastq` обернут в блок `try-except`, чтобы поймать любые исключения и записать их в лог как ошибки (`logging.error`).
5. Создание отдельного логгера: создал логгер `error_logger`, который будет записывать ошибки в файл `filter_fastq_errors.log`.
6. Добавление обработчика: добавил обработчик `FileHandler` для этого логгера и настроил его на уровень `ERROR`.
7. Проверка аргументов — добавлена проверка на наличие аргументов `input_file` и `output_file`. Если они не переданы — записывается ошибка в лог и выбрасывается исключение `ValueError`.
8. Проверка существования файла — добавлена проверка на существование входного файла `input_file`. Если файл не существует — записывается ошибка в лог и выбрасывается исключение `FileNotFoundError`.
9. Перезапись файлов логов — добавлен параметр `filemode='w'` в `logging.basicConfig`, чтобы перезаписывать файл лога при каждом запуске.
10. Перезапись файла ошибок — изменен режим открытия файла ошибок на `'w'` в `FileHandler`, чтобы он также перезаписывался.
11. Обработка исключений при разборе аргументов — добавлен блок `try-except` вокруг `parser.parse_args()`, чтобы перехватывать исключение `SystemExit`, которое возникает при ошибках разбора аргументов командной строки.
12. Запись ошибки в файл — если возникает ошибка разбора аргументов командной строки (например, отсутствует обязательный аргумент), сообщение об ошибке записывается в файл `filter_fastq_errors.log`.

Теперь при запуске скрипта будет создаваться файл `filter_fastq.log`, в который будут записываться информационные сообщения во время выполнения программы. Отчёт об ошибках будет записан в `filter_fastq_errors.log`. Файлы `filter_fastq.log` и `filter_fastq_errors.log` будут очищаться и заполняться новыми данными прикаждом новом запуске скрипта. Если не передать обязательные аргументы командной строки (например output_file), то сообщение об ошибке будет записано в файл ошибок.

#### Посмотрим на примерах:

In [9]:
!python main_script.py input.fastq cmd_line_output.fastq --min_length=10 --min_quality=20 --min_gc_content=40

In [10]:
!cat filter_fastq.log | head



In [11]:
# Передаем несуществующий файл на вход:
!python main_script.py not_existing_input.fastq cmd_line_output.fastq --min_length=10 --min_quality=20 --min_gc_content=40

In [12]:
!cat filter_fastq_errors.log

2025-04-13 19:23:20,338 - ERROR - Файл not_existing_input.fastq не существует.


In [13]:
# Забываем передать файл с вводными данными:
!python main_script.py cmd_line_output.fastq --min_length=10 --min_quality=20 --min_gc_content=40

usage: main_script.py [-h] [--min_length MIN_LENGTH] [--min_quality MIN_QUALITY] [--min_gc_content MIN_GC_CONTENT]
                      input_file output_file
main_script.py: error: the following arguments are required: output_file


In [14]:
!cat filter_fastq_errors.log

2025-04-13 19:23:20,634 - ERROR - Ошибка при разборе аргументов командной строки: 2


### Тестирование:

1. **TestBiologicalSequences**:

* `test_dna_sequence_valid`: Проверяет создание валидной ДНК последовательности.
* `test_dna_sequence_invalid`: Проверяет выброс ошибки при создании невалидной ДНК последовательности.
* `test_dna_sequence_empty`: Проверяет создание пустой ДНК последовательности и ожидает выброса ошибки SequenceError.
* `test_dna_sequence_with_spaces`: Проверяет создание ДНК последовательности с пробелами и ожидает выброса ошибки SequenceError.

2. **TestFilterFastq**:

* `setUp`: Создает временный входной FASTQ файл для тестирования.
* `tearDown`: Удаляет временные файлы после завершения тестов.
* `test_filter_fastq_success`: Проверяет успешную фильтрацию и создание выходного файла.
* `test_filter_fastq_min_length_error`: Проверяет ситуацию, когда записи отфильтровываются по минимальной длине.
* `test_filter_fastq_logging_error`: Проверяет выброс ошибки при попытке фильтрации несуществующего входного файла.
* `test_filter_fastq_no_records`: Проверяет поведение функции фильтрации при отсутствии записей в входном файле и ожидает, что выходной файл не будет создан.


In [15]:
!python -m unittest discover tests/

........
----------------------------------------------------------------------
Ran 8 tests in 0.003s

OK
