# Прямое вычисление размера выборки
Можно использовать для бинарного классификатора, оценки параметров линейной регрессии и др.
Основано на принципах математической статистики - какой размер выборки позволяет оценить попадание в доверительный интервал с заданными параметрами.
Если вероятность попадания неизвестна, то указывается значение вероятности=0.5 - размер выборки будет наибольшим.

## Основные моменты
Z-значение (или Z-оценка) — это статистическая мера, которая показывает, **на сколько стандартных отклонений значение отклоняется от среднего в нормальном распределении**. Оно используется для определения вероятности того, что случайная величина примет определенное значение.
### Что надо учитывать:
1. Нормальное распределение: Z-значения применяются в контексте нормального распределения, где данные распределены симметрично вокруг среднего значения.

2. Формула: Z-значение рассчитывается по формуле:

Z = (X - μ) / σ

где:

   • X — значение, для которого вычисляется Z-значение,

   • μ — среднее значение выборки,

   • σ — стандартное отклонение выборки.

3. Уровень доверия: В контексте статистики и выборок Z-значения используются для определения критических значений для заданного уровня доверия (например, 90%, 95%, 99%). Например, для 95% уровня доверия Z-значение составляет примерно 1.96, что означает, что 95% всех значений находятся в пределах ±1.96 стандартных отклонений от среднего.


Подробное изложение уместности данного подхода для задач машинного обучения приведено по ссылке https://stats.stackexchange.com/questions/411692/determining-sample-size-for-ml-algorithm-validation

### Пример прямого вычисления
Можно изменять исходные данные, чтобы отследить изменение размера выборки.

In [2]:
import math

def calculate_sample_size(confidence_level, margin_of_error, p):
    # Z-значение для заданного уровня доверия
    z_values = {
        90: 1.645,
        95: 1.96,
        99: 2.576
    }

    # Получаем Z-значение
    z = z_values[confidence_level]

    # Формула для расчета размера выборки
    n = (z**2 * p * (1 - p)) / (margin_of_error**2)

    return math.ceil(n)  # Округление до ближайшего большего целого



In [3]:
# Пример 1
confidence_level = 95  # уровень доверия в процентах
margin_of_error = 0.05  # допустимая ошибка (например, 5%)
p = 0.5  # предполагаемая доля  (если неизвестно, обычно берут 0.5)

sample_size = calculate_sample_size(confidence_level, margin_of_error, p)
print(f"Необходимый размер выборки: {sample_size}")


Необходимый размер выборки: 385


In [4]:
# Пример 2
confidence_level = 90  # уровень доверия в процентах
margin_of_error = 0.05  # допустимая ошибка (например, 5%)
p = 0.5  # предполагаемая доля  (если неизвестно, обычно берут 0.5)

sample_size = calculate_sample_size(confidence_level, margin_of_error, p)
print(f"Необходимый размер выборки: {sample_size}")


Необходимый размер выборки: 271
