In [1]:
import os
os.chdir("..")
print(os.getcwd())

/home/ono/otus/ml-basic/otus-tests


# Тесты

## 1. Введение в тестирование

### 1.1 Что такое тесты и зачем они нужны


**Тесты** — это программы, которые проверяют корректность работы другого кода.

Вместо ручной проверки: «Запускаю → смотрю результат → все ли верно?» мы пишем код, который **автоматически** проверяет, что наша программа делает то, что должна.

**Зачем нужны тесты:**

* **Уверенность в коде**: подтверждают, что программа работает как ожидается
* **Документация**: тесты показывают, как должен работать ваш код (ожидаемое поведение)
* **Защита от регрессий**: обнаруживают, когда изменения ломают существующую функциональность
* **Упрощение рефакторинга**: позволяют безопасно улучшать код, сразу понимая, что вы ничего не сломали
* **Улучшение дизайна**: написание тестируемого кода часто ведет к лучшей архитектуре

> 🔍 **Аналогия:** Представьте, что вы разрабатываете формулу лекарства. Без тестов вы бы давали каждую версию пациентам и наблюдали за результатами. С тестами вы проверяете каждый компонент формулы в лаборатории и убеждаетесь в безопасности, прежде чем давать лекарство людям.


### 1.2 Почему тестирование важно в контексте ML

Машинное обучение добавляет особые сложности, делая тестирование еще более важным:

* **Стохастичность**: алгоритмы ML часто содержат случайность, что усложняет тестирование
* **Обработка данных**: ошибки в предобработке данных могут оставаться незамеченными, но критически влиять на модель
* **Сложность моделей**: сложно визуально проверить правильность работы алгоритма
* **Последствия ошибок**: модели принимают решения, влияющие на людей; ошибки могут иметь серьезные последствия
* **Воспроизводимость**: тесты помогают убедиться, что эксперименты можно воспроизвести

**Конкретные примеры из ML, требующие тестирования:**
- Корректность сплиттеров обучающей/тестовой выборки
- Правильность масштабирования фичей
- Корректность метрик оценки качества
- Работа пайплайнов обработки данных


### 1.3 Виды тестов

| Тип теста | Что тестирует | Масштаб | Пример в ML-контексте |
|-----------|---------------|---------|------------------------|
| **Модульные** (unit tests) | Отдельные функции или классы | Наименьший | Тест, проверяющий, правильно ли функция `normalize` масштабирует данные |
| **Интеграционные** (integration tests) | Взаимодействие между компонентами | Средний | Тест, проверяющий, что предобработка + обучение + валидация работают вместе |
| **Системные** (system tests) | Всю систему целиком | Большой | Тест полного пайплайна от загрузки данных до выдачи предсказаний |
| **Функциональные** (functional tests) | Соответствие требованиям | Разный | Тест, проверяющий, что точность модели не ниже заданного порога |

**На этом занятии** мы сосредоточимся на модульных тестах, так как они:
- Самые быстрые в выполнении
- Позволяют точно локализовать проблему
- Наиболее полезны при разработке отдельных компонентов
- Являются основой для других видов тестирования

**Пример модульного теста:**

In [6]:
def add(a, b):
    return a + b

def test_add():
    assert add(2, 3) == 5
    assert add(-1, 1) == 0
    assert add(0, 0) == 0


In [7]:
test_add()

`assert` - это оператор, который проверяет, что условие истинно. Если оно ложно, программа возбуждает исключение `AssertionError`. Это позволяет нам проверить, что функция `add` работает правильно.

**Разработка тестов**

Давайте создадим простую структуру Python проекта c исходным кодом и тестами, чтобы в дальнейшем удобно собирать модули с кодом и запускать тесты.

Структура проекта:

```py
otus-tests/
├── notebooks           # ноутбуки
├── src                 # исходный код
│   └── math.py         # модуль с функциями
├── tests               # тесты
│   └── test_math.py    # тесты для math.py
└── requirements.txt    # требования для pip
```

Далее будем добавлять в проект новые модули и тесты к ним, чтобы продемонстрировать различные подходы к тестированию.

### 1.4 Принципы тестирования в Python


Python предлагает несколько подходов к тестированию, но есть фундаментальные принципы, общие для всех:

* **Изоляция** — тесты должны быть независимыми друг от друга
* **Воспроизводимость** — каждый запуск должен давать одинаковый результат
* **Автоматизация** — тесты должны запускаться без ручного вмешательства
* **Быстрое выполнение** — тесты должны быть быстрыми, чтобы их часто запускали
* **Читаемость** — из имен тестов должно быть понятно, что и как тестируется

**Структура хорошего теста** обычно следует шаблону "AAA":

1. **Arrange** — подготовка данных и объектов
2. **Act** — выполнение тестируемого кода
3. **Assert** — проверка результатов выполнения




**Пример теста по шаблону AAA**

In [12]:
def normalize(data):
    min_val = min(data)
    max_val = max(data)
    return [(x - min_val) / (max_val - min_val) for x in data]

def test_normalize_positive_values():
    # Arrange
    data = [1, 2, 3, 4, 5]
    
    # Act
    normalized = normalize(data)
    
    # Assert
    assert min(normalized) == 0
    assert max(normalized) == 1

In [13]:
test_normalize_positive_values()

**Инструменты для тестирования в Python:**

* Встроенная библиотека `unittest`
* Популярный фреймворк `pytest`
* Дополнительные инструменты: `pytest-cov` (для расчета покрытия кода тестами)

В следующих пунктах мы рассмотрим конкретные примеры использования `unittest` и `pytest` для тестирования ML-компонентов.

## 2. Тестирование с unittest

### 2.1 Основные концепции unittest

`unittest` — это встроенная в Python библиотека для написания и запуска тестов, основанная на популярном фреймворке JUnit из Java.

**Ключевые концепции:**

* **TestCase** — базовый класс для создания тестов. Каждый тест является методом класса.
* **assert-методы** — специальные методы для проверки условий (например, `assertEqual`, `assertTrue`).
* **setUp/tearDown** — методы для инициализации и очистки состояния перед/после каждого теста.
* **Test Suite** — коллекция тестов, которые запускаются вместе.
* **Test Runner** — компонент, который запускает тесты и сообщает о результатах.


**Структура типичного unittest-файла:**

In [None]:
import unittest

class TestSomeFunctionality(unittest.TestCase):  # Имя обычно начинается с "Test"
    
    def setUp(self):
        # Подготовка окружения перед каждым тестом
        pass
        
    def tearDown(self):
        # Очистка окружения после каждого теста
        pass
        
    def test_some_feature(self):  # Имя метода начинается с "test_"
        # Тестовый код
        expected = None                     # Ожидаемое значение
        actual = None                       # Фактическое значение
        self.assertEqual(expected, actual)  # Проверка на равенство
    

### 2.2 Как писать тесты с unittest

**Шаг 1: Создаем класс, наследующийся от `unittest.TestCase`**

In [None]:
import unittest

class TestNormalization(unittest.TestCase):
    pass

**Шаг 2: Добавляем тестовые методы**

Каждый тестовый метод должен:
- Начинаться с префикса `test_`
- Проверять один аспект функциональности
- Иметь говорящее название

In [None]:
import unittest

class TestNormalization(unittest.TestCase):
    pass

    def test_normalize_positive_values(self):
        # Тестовый код
        pass
    
    def test_normalize_with_zeros(self):
        # Тестовый код
        pass

**Шаг 3: Используем assert-методы для проверок**

`unittest` имеет множество assert-методов:

| Метод | Проверяет, что... |
|-------|-------------------|
| `assertEqual(a, b)` | a == b |
| `assertNotEqual(a, b)` | a != b |
| `assertTrue(x)` | bool(x) is True |
| `assertFalse(x)` | bool(x) is False |
| `assertIn(a, b)` | a in b |
| `assertRaises(exc, func, *args)` | func(*args) вызывает исключение exc |
| `assertAlmostEqual(a, b)` | round(a-b, 7) == 0 (для чисел с плавающей точкой) |

In [None]:
def test_normalize_positive_values(self):
    data = [1, 2, 3, 4, 5]
    normalized = normalize(data)
    
    self.assertEqual(min(normalized), 0)
    self.assertEqual(max(normalized), 1)
    self.assertAlmostEqual(normalized[2], 0.5)  # Для чисел с плавающей точкой

**Шаг 4: Настраиваем и очищаем тестовое окружение (если необходимо)**



In [None]:
def setUp(self):
    # Выполняется перед каждым тестовым методом
    self.test_data = [1, 2, 3, 4, 5]
    self.empty_data = []
    
def tearDown(self):
    # Выполняется после каждого тестового метода
    # Например, удаление временных файлов
    pass

### 2.3 Примеры тестирования функций предобработки данных

Давайте создадим и протестируем простую функцию для минимакс-нормализации данных, которая часто используется в ML

Создадим файл `src/preprocessing.py` с функцией `min_max_normalize`, которая будет нормализовать данные.

In [14]:
"""
Script: preprocessing.py
"""

def min_max_normalize(data):
    """
    Нормализует данные в диапазон [0, 1] по формуле:
    x_normalized = (x - min(data)) / (max(data) - min(data))
    
    Parameters
    ----------
    data : list
        Список чисел для нормализации
        
    Returns
    -------
    list : Нормализованные данные
    """
    if not data:
        return []
        
    min_val = min(data)
    max_val = max(data)
    
    if min_val == max_val:
        return [0.5] * len(data)  # Особый случай, когда все значения одинаковые
        
    return [(x - min_val) / (max_val - min_val) for x in data]

**Теперь напишем тесты для этой функции**

Создадим файл `tests/test_data.py` и добавим туда тесты для функции `min_max_normalize`.


In [15]:
"""
Script: test_data.py
"""

import unittest
# from src.data import min_max_normalize

class TestMinMaxNormalize(unittest.TestCase):
    
    def test_normalize_positive_values(self):
        data = [1, 2, 3, 4, 5]
        normalized = min_max_normalize(data)
        
        self.assertEqual(min(normalized), 0)
        self.assertEqual(max(normalized), 1)
        self.assertEqual(normalized[1], 0.25)  # (2-1)/(5-1) = 0.25
        self.assertEqual(normalized[2], 0.5)   # (3-1)/(5-1) = 0.5
        
    def test_normalize_negative_values(self):
        data = [-10, -5, 0, 5, 10]
        normalized = min_max_normalize(data)
        
        self.assertEqual(min(normalized), 0)
        self.assertEqual(max(normalized), 1)
        self.assertEqual(normalized[1], 0.2)  # (-5-(-10))/(10-(-10)) = 0.25
        self.assertEqual(normalized[3], 0.75)  # (5-(-10))/(10-(-10)) = 0.75
        
    def test_normalize_same_values(self):
        data = [7, 7, 7, 7]
        normalized = min_max_normalize(data)
        
        self.assertEqual(normalized, [0.5, 0.5, 0.5, 0.5])
        
    def test_normalize_empty_list(self):
        data = []
        normalized = min_max_normalize(data)
        
        self.assertEqual(normalized, [])
        
    def test_normalize_single_value(self):
        data = [42]
        normalized = min_max_normalize(data)
        
        self.assertEqual(normalized, [0.5])  # Особый случай - один элемент

**Важные нюансы тестирования:**

1. Учитываем граничные случаи (пустой список, один элемент, все элементы одинаковые)
2. Проверяем различные входные значения (положительные, отрицательные числа)
3. Проверяем как значения в начале диапазона (0), так и в конце (1), и в середине

### 2.4 Запуск тестов и интерпретация результатов

**Способы запуска unittest:**

1. **Из командной строки** (вызов Python с параметром `-m unittest`):
```bash
python -m unittest test_module.py
```


2. **Из скрипта** (добавив блок запуска в конец файла):

In [None]:
if __name__ == '__main__':
    unittest.main()

3. **Из Jupyter Notebook** (запуская тесты вручную):

In [16]:
test_suite = unittest.TestLoader().loadTestsFromTestCase(TestMinMaxNormalize)
unittest.TextTestRunner().run(test_suite)

.F...
FAIL: test_normalize_negative_values (__main__.TestMinMaxNormalize.test_normalize_negative_values)
----------------------------------------------------------------------
Traceback (most recent call last):
  File "/tmp/ipykernel_54158/1144260619.py", line 25, in test_normalize_negative_values
    self.assertEqual(normalized[1], 0.2)  # (-5-(-10))/(10-(-10)) = 0.25
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
AssertionError: 0.25 != 0.2

----------------------------------------------------------------------
Ran 5 tests in 0.008s

FAILED (failures=1)


<unittest.runner.TextTestResult run=5 errors=0 failures=1>

**Интерпретация результатов:**

При запуске тестов вы получите вывод, показывающий:

- Сколько тестов было запущено
- Сколько прошло успешно (обозначены точкой `.`)
- Сколько провалилось (обозначены `F`) или вызвало ошибку (обозначены `E`)
- Детали ошибок, если они есть

**Пример успешного вывода:**

```txt
.....
----------------------------------------------------------------------
Ran 5 tests in 0.004s

OK
```

**Пример вывода при ошибке:**
```txt
.F...
======================================================================
FAIL: test_normalize_negative_values (__main__.TestMinMaxNormalize.test_normalize_negative_values)
----------------------------------------------------------------------
Traceback (most recent call last):
  File "/tmp/ipykernel_18281/2936257192.py", line 21, in test_normalize_negative_values
    self.assertEqual(normalized[1], 0.2)  # (-5-(-10))/(10-(-10)) = 0.25
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
AssertionError: 0.25 != 0.2

----------------------------------------------------------------------
Ran 5 tests in 0.009s

FAILED (failures=1)
```

Это значит, что один из тестов не прошел, и разница между ожидаемым и фактическим значением показана в выводе.

**Отладка тестов:**

Когда тест не прошел, выполните шаги:
1. Проверьте сообщение об ошибке, чтобы понять, какая проверка не сработала
2. Добавьте отладочную печать перед проверками, если необходимо
3. Проверьте правильность самого теста (иногда ошибка в тесте, а не в тестируемом коде)

In [None]:
def test_normalize_negative_values(self):
    data = [-10, -5, 0, 5, 10]
    normalized = min_max_normalize(data)
    
    print(f"Normalized data: {normalized}")  # Отладочная печать
    self.assertEqual(min(normalized), 0)
    self.assertEqual(max(normalized), 1)
    self.assertEqual(normalized[1], 0.25)

`unittest` — это мощный инструмент для написания тестов, и базовое понимание его работы необходимо для любого Python-разработчика, включая специалистов по машинному обучению.

## 3. Тестирование с pytest


### 3.1 Почему pytest? Сравнение с unittest


**pytest** — это популярный фреймворк для тестирования, который предлагает более современный и удобный подход по сравнению со встроенным unittest.

**Преимущества pytest:**

| Особенность | pytest | unittest |
|-------------|--------|----------|
| **Синтаксис** | Более простой и лаконичный | Более многословный (нужны классы) |
| **Проверки (assertions)** | Стандартные Python-утверждения (`assert x == y`) | Специальные методы (`self.assertEqual(x, y)`) |
| **Сообщения об ошибках** | Подробный анализ причин сбоя с контекстом | Менее информативные сообщения |
| **Фикстуры** | Мощные декларативные фикстуры с управлением областью видимости | Более ограниченные `setUp`/`tearDown` |
| **Параметризация** | Встроенная, очень простая | Требует дополнительного кода |
| **Плагины** | Богатая экосистема расширений | Ограниченные возможности расширения |

**Когда выбирать pytest:**
- Для новых проектов
- Когда важна читаемость тестов
- Когда нужна гибкость и мощные инструменты

**Когда оставаться с unittest:**
- Для поддержки старого кода, уже написанного с unittest
- Когда нужна только стандартная библиотека Python (без сторонних зависимостей)

### 3.2 Основы pytest

**Установка pytest** (в отличие от unittest, это сторонний пакет):

```bash
pip install pytest
```

**Можно попробовать запустить pytest на наших тестах:**

```bash
pytest tests/test_math.py
```


**Основные концепции pytest:**

1. **Имена тестовых файлов** должны начинаться с `test_` или заканчиваться на `_test.py`
2. **Имена тестовых функций** должны начинаться с `test_`
3. **Проверки** используют обычный оператор `assert` Python
4. **Фикстуры** объявляются с помощью декоратора `@pytest.fixture`
5. **Параметризация** достигается с помощью декоратора `@pytest.mark.parametrize`


**Пример теста для нашей функции нормализации:**

Создадим `tests/test_normalization.py`


In [None]:
"""
Script: test_normalization.py
"""

# from src.data import min_max_normalize

def test_normalize_positive_values():
    data = [1, 2, 3, 4, 5]
    normalized = min_max_normalize(data)
    
    assert min(normalized) == 0
    assert max(normalized) == 1
    assert normalized[1] == 0.25
    assert normalized[2] == 0.5

def test_normalize_empty_list():
    assert min_max_normalize([]) == []

**Сравните с unittest:**
- Нет необходимости в классе
- Нет методов `self.assertEqual` — используем обычный `assert`
- Код становится более читаемым и компактным


### 3.3 Примеры тестов функций в контексте ML

Давайте рассмотрим тестирование двух простых функций, которые часто используются в задачах машинного обучения:
1. Функция загрузки данных из CSV-файла
2. Функция разделения данных на две части

**Функция для загрузки данных из CSV:**


In [17]:
"""
Script: data.py
"""


def load_csv_data(filepath: str, header: bool=True) -> dict:
    """
    Загружает данные из CSV-файла.
    
    Parameters
    ----------
    filepath : str
        Путь к файлу CSV.
    header : bool, optional
        Флаг, указывающий, содержит ли файл заголовок, по умолчанию True.
    
    Returns
    -------
    list of list
        Данные из CSV в виде списка списков.
    list or None
        Список заголовков, если header=True, иначе None.
    """
    data = []
    header_data = None
    
    with open(filepath, 'r') as file:
        if header:
            header_line = file.readline().strip()
            header_data = header_line.split(',')
        
        for line in file:
            values = line.strip().split(',')
            # Преобразуем числовые значения из строк в числа
            processed_values = []
            for val in values:
                try:
                    # Пробуем преобразовать в число, если возможно
                    if '.' in val:
                        processed_values.append(float(val))
                    else:
                        processed_values.append(int(val))
                except ValueError:
                    # Если не число, оставляем как строку
                    processed_values.append(val)
            
            data.append(processed_values)
    
    return {"header": header_data, "data": data}

In [18]:
load_csv_data("test.csv", header=True)

{'header': ['col_1', 'col_2', 'col_3'], 'data': [[1, 2, 3], [4, 5, 6]]}

**Функция для разделения данных:**

In [19]:
def split_data(data, split_ratio=0.8):
    """
    Разделяет данные на две части в соответствии с указанным соотношением.
    
    Parameters
    ----------
    data : list
        Список данных для разделения.
    split_ratio : float, optional
        Коэффициент разделения, определяющий размер первой части 
        (от 0 до 1), по умолчанию 0.8.
    
    Returns
    -------
    list
        Первая часть данных (размер = split_ratio * len(data)).
    list
        Вторая часть данных (оставшаяся часть).
    
    Raises
    ------
    ValueError
        Если split_ratio не в диапазоне (0, 1).
    """
    if split_ratio <= 0 or split_ratio >= 1:
        raise ValueError("split_ratio должен быть в диапазоне (0, 1)")
    
    # Определяем точку разделения
    split_point = int(len(data) * split_ratio)
    
    # Разделяем данные
    first_part = data[:split_point]
    second_part = data[split_point:]
    
    return first_part, second_part

In [20]:
split_data([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], split_ratio=0.8)

([1, 2, 3, 4, 5, 6, 7, 8], [9, 10])

**Тесты с использованием pytest:**

In [None]:
"""
Script: test_data.py
"""

import pytest
import os
import tempfile

# Импортируем тестируемые функции
# from src.data import load_csv_data, split_data

# Тесты для функции загрузки CSV
def test_load_csv_with_header():
    # Создаем временный CSV файл для тестирования
    with tempfile.NamedTemporaryFile(mode='w+', delete=False, suffix='.csv') as tmp:
        tmp.write("name,age,score\n")
        tmp.write("Alice,25,95.5\n")
        tmp.write("Bob,30,85\n")
        tmp_path = tmp.name
    
    try:
        # Загружаем данные из созданного файла
        result = load_csv_data(tmp_path, header=True)
        
        # Проверяем заголовок
        assert result["header"] == ["name", "age", "score"]
        
        # Проверяем данные
        assert len(result["data"]) == 2
        assert result["data"][0] == ["Alice", 25, 95.5]
        assert result["data"][1] == ["Bob", 30, 85]
        
    finally:
        # Удаляем временный файл
        os.unlink(tmp_path)

def test_load_csv_without_header():
    # Создаем временный CSV файл без заголовка
    with tempfile.NamedTemporaryFile(mode='w+', delete=False, suffix='.csv') as tmp:
        tmp.write("Alice,25,95.5\n")
        tmp.write("Bob,30,85\n")
        tmp_path = tmp.name
    
    try:
        # Загружаем данные без заголовка
        result = load_csv_data(tmp_path, header=False)
        
        # Проверяем, что заголовок None
        assert result["header"] is None
        
        # Проверяем данные
        assert len(result["data"]) == 2
        assert result["data"][0] == ["Alice", 25, 95.5]
        assert result["data"][1] == ["Bob", 30, 85]
        
    finally:
        # Удаляем временный файл
        os.unlink(tmp_path)

def test_load_csv_empty_file():
    # Создаем пустой CSV файл
    with tempfile.NamedTemporaryFile(mode='w+', delete=False, suffix='.csv') as tmp:
        tmp_path = tmp.name
    
    try:
        # Загружаем данные из пустого файла
        result = load_csv_data(tmp_path, header=False)
        
        # Проверяем, что данные пусты
        assert result["header"] is None
        assert result["data"] == []
        
    finally:
        # Удаляем временный файл
        os.unlink(tmp_path)

# Тесты для функции разделения данных
def test_split_data_even():
    data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    
    # Разделяем данные 80/20
    first, second = split_data(data, split_ratio=0.8)
    
    assert len(first) == 8
    assert len(second) == 2
    assert first == [1, 2, 3, 4, 5, 6, 7, 8]
    assert second == [9, 10]

def test_split_data_odd():
    data = [1, 2, 3, 4, 5]
    
    # Разделяем данные 60/40
    first, second = split_data(data, split_ratio=0.6)
    
    assert len(first) == 3
    assert len(second) == 2
    assert first == [1, 2, 3]
    assert second == [4, 5]

def test_split_data_empty():
    data = []
    
    # Разделяем пустой список
    first, second = split_data(data, split_ratio=0.5)
    
    assert first == []
    assert second == []

def test_split_data_invalid_ratio():
    data = [1, 2, 3, 4, 5]
    
    # Проверяем, что функция вызывает исключение при недопустимом split_ratio
    with pytest.raises(ValueError):
        split_data(data, split_ratio=0)
    
    with pytest.raises(ValueError):
        split_data(data, split_ratio=1)
    
    with pytest.raises(ValueError):
        split_data(data, split_ratio=1.5)

**Ключевые особенности тестов:**

1. **Тест для пустого файла** — проверка корректной обработки граничного случая
2. **Использование временных файлов** — создаем временные CSV-файлы для тестирования функции загрузки
3. **Проверка ошибок** — используем `pytest.raises` для проверки вызова исключений в некорректных случаях

Эти примеры демонстрируют, как тестировать простые функции обработки данных, которые часто используются перед применением алгоритмов машинного обучения. Акцент сделан на проверке как основной функциональности, так и обработки граничных случаев.

### 3.4 Запуск тестов и отчеты

**Запуск pytest из командной строки:**

```bash
# Запуск всех тестов в текущем каталоге
pytest

# Запуск конкретного файла
pytest tests/test_data.py

# Запуск конкретной функции
pytest tests/test_data.py::test_load_csv_without_header
```

**Полезные опции командной строки:**

| Опция | Описание |
|-------|----------|
| `-v`, `--verbose` | Подробный вывод |
| `-xvs` | Остановка при первой ошибке + подробный вывод + без захвата вывода |
| `-k "expression"` | Запуск тестов, соответствующих выражению (например, `pytest -k "accuracy"`) |
| `--tb=short` | Сокращенный traceback для ошибок |
| `--cov=mypackage` | Измерение покрытия кода тестами (требует `pip install pytest-cov`) |

**Отчет о покрытии кода тестами:**

```bash
pytest --cov=src tests
```

**Преимущества pytest для работы с ML-кодом:**

1. **Читаемость** — тесты более компактные и понятные
2. **Информативность ошибок** — подробные сообщения при сбоях 
3. **Расширяемость** — плагины для измерения скорости выполнения, coverage
4. **Фикстуры** — удобны для подготовки тестовых данных и моделей
5. **Параметризация** — можно легко проверить функцию на множестве наборов данных

4 и 5 пункты разберем далее.

pytest стал де-факто стандартом для тестирования в Python, и его использование особенно полезно в проектах по машинному обучению, где качество кода критически важно.

## 4. Продвинутые возможности pytest

### 4.1 Fixtures и их использование

**Фикстуры (fixtures)** в pytest — это механизм для подготовки тестового окружения. Они значительно удобнее, чем `setUp`/`tearDown` в unittest, так как обладают гибкостью и могут быть переиспользованы между тестами.

**Что такое фикстуры и зачем они нужны:**

* Подготовка предварительных данных для тестов
* Создание подключений к ресурсам (файлы, БД)
* Настройка состояния перед выполнением теста
* Очистка ресурсов после выполнения теста


**Определение фикстуры:**

In [None]:
import pytest

@pytest.fixture
def sample_data():
    """Создает тестовый набор данных."""
    return [1, 2, 3, 4, 5]

**Использование фикстуры в тестах:**

In [None]:
def test_data_sum(sample_data):
    assert sum(sample_data) == 15

def test_data_length(sample_data):
    assert len(sample_data) == 5

**Пример фикстуры с настройкой и очисткой:**

In [None]:
"""
Script: test_load_csv.py
"""

import pytest
import os
import tempfile

# from src.data import load_csv_data

@pytest.fixture
def temp_csv_file():
    """Создает временный CSV файл и удаляет его после теста."""
    # Настройка: создаем файл
    with tempfile.NamedTemporaryFile(mode='w+', delete=False, suffix='.csv') as tmp:
        tmp.write("name,age,score\n")
        tmp.write("Alice,25,95.5\n")
        tmp.write("Bob,30,85\n")
        tmp_path = tmp.name
    
    # Предоставляем ресурс тесту
    yield tmp_path
    
    # Очистка: удаляем файл
    os.unlink(tmp_path)

def test_load_csv(temp_csv_file):
    result = load_csv_data(temp_csv_file)
    
    assert result["header"] == ["name", "age", "score"]
    assert len(result["data"]) == 2
    assert result["data"][0] == ["Alice", 25, 95.5]


**Области видимости фикстур:**

Фикстуры могут иметь разные области видимости (scope), которые определяют, как часто они выполняются:

```python
@pytest.fixture(scope="function")  # По умолчанию - для каждой тестовой функции
@pytest.fixture(scope="class")     # Один раз для всех тестов в классе
@pytest.fixture(scope="module")    # Один раз для всех тестов в модуле
@pytest.fixture(scope="session")   # Один раз для всей тестовой сессии
```

**Пример фикстуры с областью видимости модуля:**

In [None]:
"""
Script: test_module_scope.py
"""

import pytest

@pytest.fixture(scope="module")
def large_dataset():
    """Создает большой набор данных один раз для всех тестов в модуле."""
    print("Preparing large dataset...") # Демонстрация, что код выполняется один раз
    data = [i for i in range(1000)]
    return data

def test_dataset_sum(large_dataset):
    assert sum(large_dataset) == 499500

def test_dataset_first_elem(large_dataset):
    assert large_dataset[0] == 0

### 4.2 Параметризация тестов

Параметризация позволяет запускать один и тот же тест с разными входными данными.

**Базовый пример:**

In [None]:
"""
Script: test_parametrize.py
"""

import pytest

def mean_value(data):
    """Возвращает среднее значение списка."""
    if not data:
        return 0
    return sum(data) / len(data)

@pytest.mark.parametrize("input_data,expected", [
    ([1, 2, 3, 4], 2.5),
    ([0, 0, 0, 0], 0),
    ([5], 5),
])
def test_mean_value(input_data, expected):
    """Тестирует функцию среднего значения с разными входными данными."""
    assert mean_value(input_data) == expected

Этот один тест будет запущен 3 раза с разными наборами параметров.

**Параметризация с фикстурами:**



In [None]:
"""
Script: test_processor.py
"""

import pytest


def process_value(processor, value):
    """
    Применяет процессор к значению.
    
    Parameters
    ----------
    processor : dict
        Словарь с параметрами процессора.
    value : any
        Значение для обработки.
    
    Returns
    -------
    any
        Обработанное значение.
    """
    processor_name = {
        "Multiplier": lambda x: x * 2,
        "Adder": lambda x: x + 1,
    }

    if processor["name"] in processor_name:
        return processor_name[processor["name"]](value)
    else:
        raise ValueError(f"Unknown processor: {processor['name']}")

@pytest.fixture
def data_processor():
    return {"name": "Multiplier"}

@pytest.mark.parametrize("value,expected", [
    (2, 4),
    (3, 6),
    (5, 10),
    (0, 0),
    (-1, -2),
])
def test_processor_transform(data_processor, value, expected):
    # Используем фикстуру + параметризацию
    assert process_value(data_processor, value) == expected

**Несколько параметров в одном тесте:**


In [None]:
"""
Script: test_split_data.py
"""

import pytest

# from src.data import split_data

@pytest.mark.parametrize("split_ratio", [0.1, 0.5, 0.9])
@pytest.mark.parametrize("data_size", [10, 100])
def test_split_data_sizes(split_ratio, data_size):
    """Тестирует различные комбинации размеров данных и коэффициентов разделения."""
    data = list(range(data_size))
    first, second = split_data(data, split_ratio)
    
    # Проверяем размеры разделенных данных
    assert len(first) == int(data_size * split_ratio)
    assert len(second) == data_size - int(data_size * split_ratio)

Этот тест будет запущен с 6 комбинациями параметров (3 * 2).

**Параметризация с идентификаторами:**


In [None]:
"""
Script: test_with_ids.py
"""

import pytest


@pytest.mark.parametrize("input_data,expected", [
    ([1, 2, 3, 4], 2.5),    # positive numbers
    ([0, 0, 0, 0], 0),      # zeros
    ([5], 5),               # single value
], ids=["positive_numbers", "zeros", "single_value"])
def test_mean_with_ids(input_data, expected):
    assert sum(input_data) / len(input_data) == expected


Идентификаторы (`ids`) делают вывод тестов более понятным:

```
test_mean_with_ids[positive_numbers] PASSED
test_mean_with_ids[zeros] PASSED
test_mean_with_ids[single_value] PASSED
```


### 4.3 Тестирование обработки исключений

`pytest` позволяет легко проверять, что код вызывает ожидаемые исключения.

**Проверка вызова ожидаемого исключения:**

In [None]:
def test_split_with_invalid_ratio():
    with pytest.raises(ValueError):
        split_data([1, 2, 3], split_ratio=1.5)

**Проверка сообщения исключения:**


In [None]:
def test_split_with_specific_error_message():
    with pytest.raises(ValueError, match="должен быть в диапазоне"):
        split_data([1, 2, 3], split_ratio=1.5)

**Проверка, что исключение НЕ вызывается:**


In [None]:
def test_split_with_valid_ratio():
    try:
        first, second = split_data([1, 2, 3, 4], split_ratio=0.5)
        # Если дошли сюда, исключение не было вызвано
    except ValueError:
        pytest.fail("Неожиданное исключение ValueError")

### 4.4 Пропуск тестов и условное выполнение


**Пропуск теста всегда:**

In [None]:
@pytest.mark.skip(reason="Функционал еще не реализован")
def test_new_feature():
    assert new_feature() == "expected result"

**Пропуск теста при определенных условиях:**

In [None]:
@pytest.mark.skipif(sys.version_info != (3, 8), reason="Требуется Python 3.8")
def test_new_python_feature():
    assert new_python_feature() == "expected result"

**Отметка теста как "ожидаемо падающего":**

In [None]:
@pytest.mark.xfail(reason="Известная проблема, будет исправлена в PR #123")
def test_known_issue():
    assert problematic_function() == "expected result"

**Пропуск с проверкой зависимостей:**

In [None]:
# Проверяем наличие модуля numpy
numpy = pytest.importorskip("numpy", reason="Тест требует numpy")

def test_with_numpy():
    assert numpy.mean([1, 2, 3]) == 2

**Условное выполнение с помощью фикстур:**

In [None]:
@pytest.fixture(params=["small", "large"])
def dataset_type(request):
    if request.param == "large" and "fast" in request.config.getoption("-k"):
        pytest.skip("Пропускаем большой набор данных при быстром запуске")
    return request.param

def test_with_different_datasets(dataset_type):
    if dataset_type == "small":
        data = [1, 2, 3]
    else:
        data = list(range(1000))
    
    assert len(data) > 0

**Практический пример использования продвинутых возможностей pytest:**

In [None]:
"""
Script: test_fixtures_and_parametrize.py
"""


import pytest
import os
import time
import tempfile

# from src.data import load_csv_data, split_data

# Фикстура для создания временных файлов разных типов
@pytest.fixture(params=[
    {"content": "name,age\nAlice,25\nBob,30", "has_header": True},
    {"content": "Alice,25\nBob,30", "has_header": False},
    {"content": "", "has_header": False}
], ids=["with_header", "without_header", "empty"])
def csv_file(request):
    """Создает временный CSV файл с разным содержимым."""
    with tempfile.NamedTemporaryFile(mode='w+', delete=False, suffix='.csv') as tmp:
        tmp.write(request.param["content"])
        tmp_path = tmp.name
    
    # Возвращаем путь к файлу и информацию о наличии заголовка
    yield {"path": tmp_path, "has_header": request.param["has_header"]}
    
    # Удаляем файл после теста
    os.unlink(tmp_path)

# Параметризированный тест для проверки различных коэффициентов разделения
@pytest.mark.parametrize("ratio,expected_sizes", [
    (0.2, (2, 8)),
    (0.5, (5, 5)),
    (0.8, (8, 2)),
])
def test_split_data_ratios(ratio, expected_sizes):
    data = list(range(10))
    first, second = split_data(data, split_ratio=ratio)
    
    assert len(first) == expected_sizes[0]
    assert len(second) == expected_sizes[1]

# Тест использует фикстуру csv_file для проверки загрузки различных файлов
def test_load_csv_various_files(csv_file):
    result = load_csv_data(csv_file["path"], header=csv_file["has_header"])
    
    if csv_file["has_header"]:
        assert result["header"] is not None
    else:
        assert result["header"] is None
    
    # Пропускаем проверку данных для пустого файла
    if os.path.getsize(csv_file["path"]) == 0:
        assert result["data"] == []
        return
    
    # Проверяем данные для непустых файлов
    assert len(result["data"]) > 0


**Преимущества продвинутых возможностей pytest:**

1. **Фикстуры с различной областью видимости** позволяют оптимизировать подготовку тестового окружения
2. **Параметризация** снижает дублирование кода в тестах
3. **Гибкая обработка исключений** делает тесты более точными
4. **Условное выполнение** помогает управлять временем выполнения тестов

Эти продвинутые возможности особенно полезны в проектах машинного обучения, где требуется тестировать функции с различными наборами данных и в разных режимах работы.

## 5. Практические примеры тестирования для ML-проектов

### 5.1 Тестирование функций очистки данных

Рассмотрим очень простую функцию для удаления пропущенных значений из списка:

**Функция для тестирования:**

In [None]:
def remove_missing_values(data):
    """
    Удаляет пропущенные значения (None) из списка.
    
    Parameters
    ----------
    data : list
        Список, который может содержать None.
        
    Returns
    -------
    list
        Список без None значений.
    """
    return [x for x in data if x is not None]

**Параметризованные тесты для этой функции:**

In [None]:
"""
Script: test_remove_missing_values.py
"""

import pytest

# from src.preprocessing import remove_missing_values

@pytest.mark.parametrize("input_data,expected", [
    ([1, None, 3, None, 5], [1, 3, 5]),               # Базовый случай
    ([1, 2, 3, 4], [1, 2, 3, 4]),                     # Без пропущенных значений
    ([None, None, None], []),                          # Все значения пропущены
    ([], []),                                          # Пустой список
    ([None, 1, None, 2, None, 3, None], [1, 2, 3]),    # Чередующиеся значения
])
def test_remove_missing_values(input_data, expected):
    result = remove_missing_values(input_data)
    assert result == expected

### 5.2 Тестирование преобразователей данных

Рассмотрим нашу простую функцию для нормализации данных:

In [None]:
def min_max_normalize(data):
    """
    Нормализует данные в диапазон [0, 1].
    
    Parameters
    ----------
    data : list
        Список числовых значений.
        
    Returns
    -------
    list
        Нормализованные значения.
    """
    if not data:
        return []
        
    min_val = min(data)
    max_val = max(data)
    
    if min_val == max_val:
        return [0.5] * len(data)  # Особый случай, когда все значения одинаковые
        
    return [(x - min_val) / (max_val - min_val) for x in data]

**Параметризованные тесты для этой функции:**

In [None]:
"""
Script: test_normalization.py
"""


import pytest

@pytest.mark.parametrize("input_data,expected_min,expected_max", [
    ([1, 2, 3, 4, 5], 0.0, 1.0),              # Положительные числа
    ([-10, 0, 10], 0.0, 1.0),                 # Отрицательные и положительные
    ([100, 200, 300], 0.0, 1.0),              # Большие числа
])
def test_min_max_normalize_bounds(input_data, expected_min, expected_max):
    """Проверяет, что после нормализации мин. значение = 0, макс. = 1."""
    normalized = min_max_normalize(input_data)
    assert normalized[0] == expected_min  # Первое значение (минимальное)
    assert normalized[-1] == expected_max  # Последнее значение (максимальное)


@pytest.mark.parametrize("data,expected", [
    ([7, 7, 7], [0.5, 0.5, 0.5]),        # Одинаковые значения
    ([], []),                             # Пустой список
])
def test_min_max_normalize_special_cases(data, expected):
    """Проверяет особые случаи нормализации."""
    normalized = min_max_normalize(data)
    assert normalized == expected


@pytest.mark.parametrize("data,position,expected", [
    ([0, 5, 10], 1, 0.5),                # Середина диапазона
    ([10, 20, 30, 40], 1, 1/3),          # В первой трети диапазона
    ([0, 10, 20, 30, 40], 2, 0.5),       # Ровно посередине
])
def test_min_max_normalize_values(data, position, expected):
    """Проверяет конкретные значения после нормализации."""
    normalized = min_max_normalize(data)
    assert pytest.approx(normalized[position]) == expected

### 5.3 Тестирование моделей

Рассмотрим упрощенную "модель":

**Класс для тестирования:**

In [None]:
"""
Script: models.py
"""

class MeanPredictor:
    """
    Простейшая 'модель', которая предсказывает среднее значение из обучающей выборки.
    """
    
    def __init__(self):
        """Инициализация модели."""
        self.mean = None
        self.is_fitted = False
    
    def fit(self, X, y):
        """
        'Обучает' модель, вычисляя среднее значение y.
        
        Parameters
        ----------
        X : list
            Признаки (не используются в этой модели).
        y : list
            Целевые значения.
            
        Returns
        -------
        self
            Объект модели.
        """
        if not y:
            raise ValueError("y не может быть пустым")
            
        self.mean = sum(y) / len(y)
        self.is_fitted = True
        return self

    def predict(self, X):
        """
        Предсказывает одно и то же значение (среднее) для всех примеров.
        
        Parameters
        ----------
        X : list
            Признаки (не используются).
            
        Returns
        -------
        list
            Предсказания - среднее значение для каждого примера.
        """
        if not self.is_fitted:
            raise ValueError("Модель не обучена. Сначала вызовите fit().")
            
        return [self.mean] * len(X)

**Параметризованные тесты для этого класса:**

In [None]:
"""
Script: test_models.py
"""


import pytest

@pytest.mark.parametrize("X,y,expected_mean", [
    ([1, 2, 3], [10, 20, 30], 20.0),                # Базовый случай
    ([1, 2, 3], [5, 5, 5], 5.0),                    # Одинаковые значения
    ([1, 2, 3], [0, 100], 50.0),                    # Разные размеры X и y
    ([1], [42], 42.0),                              # Один элемент
])
def test_mean_predictor_fit(X, y, expected_mean):
    """Проверяет, что модель правильно вычисляет среднее значение."""
    model = MeanPredictor()
    model.fit(X, y)
    
    assert model.mean == expected_mean
    assert model.is_fitted == True

@pytest.mark.parametrize("fit_X,fit_y,pred_X,expected_pred", [
    ([1, 2], [10, 20], [3, 4, 5], [15.0, 15.0, 15.0]),     # Базовый случай
    ([1], [42], [1, 2, 3, 4], [42.0, 42.0, 42.0, 42.0]),   # Одно обучающее значение
])
def test_mean_predictor_predict(fit_X, fit_y, pred_X, expected_pred):
    """Проверяет, что модель корректно предсказывает средние значения."""
    model = MeanPredictor()
    model.fit(fit_X, fit_y)
    
    predictions = model.predict(pred_X)
    
    assert predictions == expected_pred
    assert len(predictions) == len(pred_X)

@pytest.mark.parametrize("error_case", ["no_fit", "empty_y"])
def test_mean_predictor_errors(error_case):
    """Проверяет, что модель корректно обрабатывает ошибки."""
    model = MeanPredictor()
    
    if error_case == "no_fit":
        # Тест на предсказание без обучения
        with pytest.raises(ValueError, match="не обучена"):
            model.predict([1, 2, 3])
    elif error_case == "empty_y":
        # Тест на обучение с пустым y
        with pytest.raises(ValueError, match="не может быть пустым"):
            model.fit([1, 2, 3], [])

Эти примеры показывают, как тестировать различные компоненты ML-системы с использованием очень простых функций и классов:

1. **Функции очистки данных** - проверка удаления пропущенных значений
2. **Преобразователи данных** - тестирование нормализации значений
3. **Интерфейсы моделей** - проверка методов fit/predict и обработки ошибок

## 6. Итоги занятия


В этом занятии мы познакомились с основами тестирования в Python и научились применять их для проверки кода машинного обучения. Давайте подведем итоги:

### Что мы узнали:

1. **Зачем нужны тесты**
   * Тесты помогают убедиться, что код работает правильно и продолжает работать после изменений
   * Тесты служат документацией, показывающей, как должен использоваться код
   * В машинном обучении тесты особенно важны для проверки корректности обработки данных и работы моделей

2. **Тестирование с unittest**
   * Встроенная библиотека Python для тестирования
   * Базируется на классах, наследуемых от `unittest.TestCase`
   * Использует специальные методы проверки (`assertEqual`, `assertTrue` и т.д.)
   * Методы `setUp` и `tearDown` помогают подготовить и очистить тестовое окружение

3. **Тестирование с pytest**
   * Более современный и удобный фреймворк для тестирования
   * Использует обычные функции Python вместо классов
   * Обычный оператор `assert` вместо специальных методов
   * Лучшие сообщения об ошибках и возможности отладки

4. **Продвинутые возможности pytest**
   * **Фикстуры** — удобный способ подготовки тестового окружения с разными областями видимости
   * **Параметризация** — запуск одного теста с разными входными данными
   * **Проверка исключений** — тестирование корректной обработки ошибок
   * **Условное выполнение** — пропуск тестов при определенных условиях

5. **Практические примеры тестирования**
   * Тестирование функций очистки данных
   * Тестирование преобразователей данных 
   * Тестирование интерфейсов моделей


### Ключевые принципы тестирования, которые стоит запомнить:

* **Изоляция тестов** — каждый тест должен быть независимым от других
* **Проверка граничных случаев** — тестируйте не только "счастливый путь", но и крайние ситуации
* **Повторяемость** — тесты должны давать одинаковый результат при каждом запуске
* **Параметризация** — используйте ее для тестирования множества входных данных без дублирования кода
* **Разумные проверки** — не переусложняйте тесты, но убедитесь, что они проверяют нужное поведение


### Применение в ML-контексте:

В машинном обучении особенно важно тестировать:
* Корректность обработки данных (очистка, преобразование)
* Правильную работу интерфейсов моделей (fit/predict)
* Корректность функций оценки качества
* Весь пайплайн обработки от загрузки данных до выдачи предсказаний

Даже простые тесты могут выявить ошибки, которые трудно заметить при обычной отладке. Привычка писать тесты — одно из главных отличий профессионального разработчика от новичка.

Практика написания тестов сделает ваш код более надежным и поможет вам стать лучшим разработчиком в области машинного обучения!

## 7. Домашнее задание

### Цель задания
Научиться писать тесты для простых функций машинного обучения с использованием pytest и его возможностей параметризации.


### Задание 1: Тестирование функции очистки данных

**Дана функция:**

In [None]:
def fill_missing_values(data, fill_value=0, missing_value=None):
    """
    Заменяет пропущенные значения (None) на указанное значение.
    
    Parameters
    ----------
    data : list
        Список значений, которые могут содержать пропущенные значения (None).
    fill_value : any, optional
        Значение для замены пропусков, по умолчанию 0.
    missing_value : any, optional
        Значение, которое считается пропуском. По умолчанию None.
        
    Returns
    -------
    list
        Список со всеми замененными пропущенными значениями.
    """
    if not data:
        return []
        
    return [fill_value if x == missing_value else x for x in data]

**Задание:**
1. Напишите параметризованный тест, проверяющий функцию на разных наборах данных (минимум 3 случая).
2. Добавьте тест, проверяющий корректную обработку пустого списка.
3. Напишите тест, проверяющий разные значения параметра `fill_value`.
4. Добавьте тест, проверяющий разные значения параметра `missing_value` (например, не только `None`, но и другие значения, которые могут указывать на пропуски, как `-999` или `"NA"`).


### Задание 2: Тестирование класса преобразователя данных

**Дан класс:**

In [None]:
class MinMaxNormalizer:
    """
    Нормализует данные в диапазон [0, 1] по формуле:
    x_norm = (x - min) / (max - min)
    
    Attributes
    ----------
    min_ : float или None
        Минимальное значение, найденное при fit.
    max_ : float или None
        Максимальное значение, найденное при fit.
    """
    
    def __init__(self):
        """Инициализирует объект нормализатора."""
        self.min_ = None
        self.max_ = None
        self.is_fitted = False
    
    def fit(self, data):
        """
        Находит минимальное и максимальное значения в данных.
        
        Parameters
        ----------
        data : list
            Список числовых значений.
            
        Returns
        -------
        self
            Объект нормализатора.
        
        Raises
        ------
        ValueError
            Если data пустой.
        """
        if not data:
            raise ValueError("data не может быть пустым")
            
        self.min_ = min(data)
        self.max_ = max(data)
        self.is_fitted = True
        return self
    
    def transform(self, data):
        """
        Нормализует данные в диапазон [0, 1].
        
        Parameters
        ----------
        data : list
            Список числовых значений.
            
        Returns
        -------
        list
            Нормализованные данные.
            
        Raises
        ------
        ValueError
            Если нормализатор не был обучен.
        """
        if not self.is_fitted:
            raise ValueError("Нормализатор не обучен. Сначала вызовите fit().")
            
        # Если min=max, возвращаем список из 0.5 (середина диапазона)
        if self.min_ == self.max_:
            return [0.5] * len(data)
            
        return [(x - self.min_) / (self.max_ - self.min_) for x in data]
    
    def fit_transform(self, data):
        """
        Обучает нормализатор и применяет его к данным.
        
        Parameters
        ----------
        data : list
            Список числовых значений.
            
        Returns
        -------
        list
            Нормализованные данные.
        """
        return self.fit(data).transform(data)

**Задание:**
1. Напишите тесты для проверки методов `fit`, `transform` и `fit_transform`.
2. Используйте параметризацию для проверки разных наборов данных.
3. Напишите тесты для проверки обработки исключений.
4. Добавьте тест, проверяющий случай, когда все значения в данных одинаковые.


### Пример тестирования простого класса

**Дан класс SimpleMean:**

In [None]:
class SimpleMean:
    """
    Простой класс, который вычисляет среднее значение данных.
    
    Attributes
    ----------
    mean_ : float или None
        Среднее значение данных после вызова fit.
    """
    
    def __init__(self):
        """Инициализирует объект с неопределенным средним."""
        self.mean_ = None
        
    def fit(self, data):
        """
        Вычисляет среднее значение данных.
        
        Parameters
        ----------
        data : list
            Список числовых значений.
            
        Returns
        -------
        self
            Объект SimpleMean.
            
        Raises
        ------
        ValueError
            Если список data пустой.
        """
        if not data:
            raise ValueError("Список данных не может быть пустым")
            
        self.mean_ = sum(data) / len(data)
        return self

**Тесты для класса**

In [None]:
import pytest

# Импортируем наш класс
from src.simple_mean import SimpleMean  # Предполагается, что класс в файле src/simple_mean.py

# Тест для проверки вычисления среднего значения
def test_simple_mean_fit_basic():
    # Создаем объект класса
    calculator = SimpleMean()
    
    # Вызываем метод fit
    calculator.fit([1, 2, 3, 4, 5])
    
    # Проверяем, что среднее вычислено правильно
    assert calculator.mean_ == 3.0

# Тест для проверки метода fit с разными данными
@pytest.mark.parametrize("data,expected_mean", [
    ([1, 2, 3, 4, 5], 3.0),           # Целые числа
    ([0.5, 1.5, 2.5], 1.5),           # Дробные числа
    ([-10, -5, 0, 5, 10], 0.0),       # Положительные и отрицательные
    ([100], 100.0),                   # Один элемент
])
def test_simple_mean_fit_with_different_data(data, expected_mean):
    calculator = SimpleMean()
    calculator.fit(data)
    
    # Для чисел с плавающей точкой используем pytest.approx
    assert calculator.mean_ == pytest.approx(expected_mean)

# Тест для проверки возвращаемого значения (проверяем цепочку вызовов)
def test_simple_mean_fit_returns_self():
    calculator = SimpleMean()
    result = calculator.fit([1, 2, 3])
    
    # Проверяем, что fit возвращает сам объект
    assert result is calculator

# Тест для проверки обработки ошибки - пустой список
def test_simple_mean_fit_empty_list():
    calculator = SimpleMean()
    
    # Проверяем, что вызывается исключение с правильным сообщением
    with pytest.raises(ValueError, match="не может быть пустым"):
        calculator.fit([])

# Использование фикстуры для создания объекта класса
@pytest.fixture
def calculator():
    """Фикстура, создающая объект SimpleMean."""
    return SimpleMean()

# Тест, использующий фикстуру
def test_simple_mean_with_fixture(calculator):
    calculator.fit([10, 20, 30, 40])
    assert calculator.mean_ == 25.0

**Объяснение тестов**

1. **Базовый тест**: `test_simple_mean_fit_basic` - проверяет, что среднее значение вычисляется корректно на простом примере.

2. **Параметризованный тест**: `test_simple_mean_fit_with_different_data` - проверяет вычисление среднего на разных наборах данных без дублирования кода.

3. **Тест возвращаемого значения**: `test_simple_mean_fit_returns_self` - проверяет, что метод `fit` возвращает сам объект, что важно для цепочки вызовов.

4. **Тест обработки ошибок**: `test_simple_mean_fit_empty_list` - проверяет, что метод корректно обрабатывает пустой список.

5. **Использование фикстуры**: `test_simple_mean_with_fixture` - демонстрирует использование фикстуры для создания объекта класса.

### Задание 3: Тестирование функции оценки качества

**Дана функция:**


In [None]:
def accuracy_score(y_true, y_pred):
    """
    Вычисляет точность классификации - долю правильных предсказаний.
    
    Parameters
    ----------
    y_true : list
        Истинные метки классов.
    y_pred : list
        Предсказанные метки классов.
        
    Returns
    -------
    float
        Доля правильных предсказаний (от 0 до 1).
        
    Raises
    ------
    ValueError
        Если длины списков не совпадают или списки пусты.
    """
    if len(y_true) != len(y_pred):
        raise ValueError("y_true и y_pred должны иметь одинаковую длину")
        
    if not y_true:
        raise ValueError("Списки не могут быть пустыми")
    
    # Число правильных предсказаний
    correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
    
    # Точность - доля правильных предсказаний
    return correct / len(y_true)

**Задание:**
1. Напишите параметризованный тест, проверяющий расчет точности на разных наборах данных.
2. Добавьте тест для идеальных предсказаний (точность = 1.0).
3. Добавьте тест для полностью неверных предсказаний (точность = 0.0).
4. Проверьте корректность обработки ошибок при неправильных входных данных.

---

**Требования к выполнению:**
- Все тесты должны быть написаны с использованием pytest
- Используйте параметризацию для проверки разных случаев
- Применяйте фикстуры, где это уместно
- Проверяйте как положительные, так и отрицательные сценарии
- Обеспечьте высокую читаемость тестов (говорящие имена, комментарии)

**Полезные советы:**
- Начните с простых тестов и постепенно усложняйте их
- Не забывайте проверять граничные случаи
- Запускайте тесты на разных этапах разработки для проверки

**Критерии оценки - проверяем себя самостоятельно!**
- Корректность тестов (проверяют нужное поведение)
- Полнота покрытия (все важные случаи рассмотрены)
- Использование функций pytest (параметризация, фикстуры)
- Качество кода (структура, читаемость)

Удачи в выполнении задания! Тестирование — это важный навык, который поможет вам писать более надежный код для проектов машинного обучения.