# <span style="color:maroon"> Модуль 4 </span>
*Семинар 22-23 марта 2023*

## <span style="color:darkred"> Темы: Расчет выборки исследования (Часть 1)  </span>
+ Расчет выборки для одной непрерывной конечной точки 
+ Расчет выборки для одной категориальной конечной точки
+ Расчет выборки для конечной точки “время до наступления события”

### <span style="color:indianred"> Общие замечания </span>

Начнем с того, что обычно основная задача любого клинического исследования -- показать эффективность и безопасность препарата или терапии. Таким образом, важно определить количество участников, достаточное для обобщения выводов. 

Обычно гипотеза исследования формулируется относительно первичной конечной точки исследования (в общем случае -- это не обязательно именно так). 

#### <span style="color:brown"> Задачи исследования </span>

Показать: 
+ эквивалентную (безопасность/эффективность), *equivalence*
+ не меньшую (безопасность/эффективность), *noninferiority*
+ превосходящую (безопасность/эффективность), *superiority*

1. Эквивалентность
$$H_{0}: \mu_{T} = \mu_{R}$$
$$H_{1}: \mu_{T} \ne \mu_{R}$$

$$H_{0}: |\mu_{T} - \mu_{R}| \geq \delta$$
$$H_{1}: |\mu_{T} - \mu_{R}| < \delta$$

2. Не меньшая (эффективность)
$$H_{0}: \mu_{R} - \mu_{T} \geq \delta$$
$$H_{1}: \mu_{R} - \mu_{T} < \delta$$
$\delta$ - клинически значимое различие.

3. Превосходящая (эффективность)
$$H_{0}: \mu_{T} - \mu_{R} \leq \delta$$
$$H_{1}: \mu_{T} - \mu_{R} > \delta$$


>Допустим, что у нас есть данные (количественные) для двух групп, $x_{1}, x_{2}, ..., x_{n_{1}}$ и $y_{1}, y_{2}, ..., y_{n_{2}}$.
>Мы хотим проверить гипотезу:
$$H_{0}: \mu_{T} = \mu_{R}$$
$$H_{1}: \mu_{T} \ne \mu_{R}$$
>Будем считать (для простоты), что нам известны дисперсии $\sigma_{1}^{2}$ и $\sigma_{2}^{2}$, а также будем считать, что $n_{1} = n_{2} = n$. Z-статистика (при нулевой гипотезе распределена как $N(0, 1)$:
$$Z = {\bar{x} - \bar{y} \over \sqrt{{\sigma_{1}^{2} \over n} + {\sigma_{2}^{2} \over n}}}$$
Мы отвергаем нулевую гипотезу в случае, если 
$$|Z| > z_{\alpha/2}$$
В случае альтернативной гипотезы $\mu_{1} = \mu_{2} + \delta$, Z распределено как $N(\mu^{*}, 1)$, при этом
$$\mu^{*} = {\delta \over \sqrt{{\sigma_{1}^{2} \over n} + {\sigma_{2}^{2} \over n}}} > 0$$
Мощность определяется как:
$$P \{|N(\mu^{*}, 1)| > z_{\alpha/2}\} ≈ P \{N(\mu^{*}, 1) > z_{\alpha/2}\} = P \{N(0, 1) > z_{\alpha/2} - \mu^{*}\}$$
Напомним, что мощность, это:
$$Мощность = 1 - \beta = P \{ отвергнуть\;H_0,\;если\;H_0\;не\;верна\}$$
А ошибка второго рода $\beta$:
$$\beta = P\{ не\;отвергнуть\;H_0,\;если\;H_0\;не\;верна\}$$
Тогда условие для мощности:
$$z_{\alpha/2} -\mu^{*} = -z_{\beta} $$
Откуда получаем, что 
$$n = {(\sigma_{1}^{2} + \sigma_{2}^{2})(z_{\alpha/2}+z_{\beta})^{2} \over \delta^{2}}$$


In [1]:
# Проведем расчеты с использованием этой формулы

from scipy import stats
import math


sigma_1 = 1
sigma_2 = 2
alpha_ = 0.05 # 5% уровень значимости
beta_ = 0.1 # 90% мощность
delta_ = 1 # клинически значимое различие
z_alpha = stats.norm.ppf(1-(alpha_/2))
z_beta = stats.norm.ppf(1-beta_)
n = ((sigma_1**2 + sigma_2**2)*(z_alpha + z_beta)**2)/(delta_**2)
print("Размер выборки, чтобы показать статистически значимое различие при мощности 90%:",math.ceil(n)*2)

Размер выборки, чтобы показать статистически значимое различие при мощности 90%: 106


### <span style="color:indianred"> Расчет выборки для одной непрерывной конечной точки  </span>

#### Пример

Проведем расчет размера выборки для доказательства не меньшей эффективности на основании значений показателя гликированного гемоглобина – HbA1c, после полугода лечения. Пусть рассчитанное количество пациентов должно обеспечить выявление различия в 0,4 % по уровню HbA1c между группами лечения.
Пусть также известно, что стандартное отклонение показателя HbA1c для расчета планируемого количества пациентов варьирует от 0,8 до 1,3 %. Значение ошибки первого рода равно 2,5 % (α = 0.025), ошибки второго рода – 20% (β = 0.2), мощность критерия – 80%.
Также дизайн таков, что размеры групп лечения совпадают и равны; истинное различие средних значений показателя HbA1c между значениями групп тестируемого препарата и препарата сравнения равно 0. Стандартное отклонение групп тестируемого препарата и препарата сравнения равны, и обобщенное стандартное отклонение принято равным: σ= 1,2; Граница не меньшей эффективности равна 0,43: δ = 0,43.
Расчет размера выборки произведем по формуле:

$$n2 = (1+{1 \over k})(\sigma {{z_{\alpha} + z_{\beta}} \over {\mu_{1} - \mu_{2} - \delta}})^2$$

где, $μ_1$ и $μ_2$ – средние в основной и контрольной группе соответственно; $k=n_1/n_2$ – отношение количества субъектов в группах (в данном случае, 1); $\sigma$ – стандартное отклонение; $\alpha$ – ошибка I рода; β – ошибка II рода; $\delta$ – граница не меньшей эффективности.
Таким образом, для получения достоверных результатов необходимо 238 законченных случаев (по 119 пациентов в каждой группе), с учетом 20% выбывания на скрининге и 10 % выбывания после рандомизации необходимо рандомизировать 264 пациента (132 пациента в каждой группе) и скринировать не более 330 пациентов. 


In [36]:
from scipy.stats import norm
import math
import numpy as np
import pandas as pd

alpha = 0.025
beta=0.2
dropout_rate = 0.15

# calculate z percentiles
z_alpha = abs(norm.ppf(alpha))
z_beta = abs(norm.ppf(1-beta))

sigma = 1.2
delta=0.43
eps = 0
k = 1

n2 = math.ceil((1+(1/k))*((z_alpha + z_beta)**2)*(sigma**2)/((eps-delta)**2)) 
print("Количество участников, которые должны закончить исследование в одной из групп:", n2*k)

Количество участников, которые должны закончить исследование в одной из групп: 123


In [38]:
N=n2+n2*k

# учтем дропаутов
N_tot = math.ceil(N/(1-dropout_rate))
print("Количество участников в исследовании:", N_tot)

Количество участников в исследовании: 290


### <span style="color:indianred"> Расчет выборки для одной категориальной конечной точки </span>

#### Пример 
[Efficacy, Safety and Tolerability Study of Chloroprocaine 3% Gel Eye Drops in Healthy Volunteers](https://clinicaltrials.gov/ct2/show/NCT04753710?rslt=With&type=Intr&hlth=Y&phase=012&u_prot=Yes&u_sap=Yes&draw=2&rank=1)
A Phase II/III, Randomized, Double-Masked, Vehicle-Controlled, Efficacy, Safety
and Tolerability Study of Chloroprocaine 3% Gel Eye Drops in Healthy Volunteers

**Primary objective**: To assess efficacy of Chloroprocaine 3% ophthalmic gel in
healthy volunteers

**Sample Size, Part II**:
60 healthy female or male subjects will be included in Part II: 40 subjects will be treated with
chloroprocaine and 20 subjects will be treated with placebo. We chose the 2:1 allocation rate (with
the experimental treatment having more patients than the vehicle arm) since the experimental
treatment is a new product and we wanted to be able to estimate its success rate with more precision.
Sample size per group was calculated for comparing two independent proportions (experimental and
placebo success rate) with a two-sided alpha=0.05 and a power of 0.95. This is based on the
assumption, that the experimental success rate is 80% and the vehicle success rate is 30%, taking
a dropout rate of 20% into account. [Page 32](https://clinicaltrials.gov/ProvidedDocs/10/NCT04753710/Prot_SAP_000.pdf)

In [53]:
from scipy.stats import norm
import math
import numpy as np
import pandas as pd

alpha = 0.05
beta=0.05
dropout_rate = 0.2

# calculate z percentiles
z_alpha = abs(norm.ppf(alpha / 2))
z_beta = abs(norm.ppf(1-beta))

p1 = 0.8 # the experimental success rate is 80%
p2 = 0.3 # the vehicle success rate is 30%
k = 2

n2 = math.ceil(math.ceil(((z_alpha + z_beta)**2 / (p1-p2)**2) * ((p1*(1-p1)/k)+(p2*(1-p2))))/(1-dropout_rate))

print("Количество участников в группе плацебо:", n2)
print("Количество участников в группе терапии:", n2*k)

Количество участников в группе плацебо: 20
Количество участников в группе терапии: 40


### <span style="color:indianred"> Расчет выборки для конечной точки “время до наступления события” </span>

#### Пример 
Пусть планируется исследование среди пациентов с болезнью Ходжкина (БХД) и с неходжкинской лимфомой (НХЛ). Пациентам будет сделана либо аллогенная (алло) трансплантация от HLA-совместимого родственного донора, либо аутологичная (ауто) трансплантация, при которой их собственный костный мозг был очищен и возвращен им после высокой дозы химиотерапии. Основная цель состоит в том, чтобы сравнить пациентов с алло- или аутотрансплантатами с точки зрения времени до лейкемии. Планируется, что исследование продлится три ($T = 3$) года с периодом набора в один год ($T_0 = 1$). Предполагается однородная запись алло- и ауто- пациентов (λ = 0). Также предполагается, что показатели отношения риска для алло- и аутотрансплантатов равны 1 (λ1 = 1) и 2 (λ2 = 2) соответственно. 

$$\sigma_{i}^2= \lambda_{i}^{2} {(1 + {{e^{-\lambda_{i}T} - e^{-\lambda_{i}(T-T_0)}} \over \lambda_{i}T_0})}^{-1}$$

In [57]:
lambda1=1
lambda2=2
T=3
T0=1
sigma_1_sq = (lambda1**2)*((1 + ((math.e**(-lambda1*T) - math.e**(-lambda1*(T-T0)))/(lambda1*T0)))**(-1))
sigma_2_sq = (lambda2**2)*((1 + ((math.e**(-lambda2*T) - math.e**(-lambda2*(T-T0)))/(lambda2*T0)))**(-1))

alpha = 0.05
beta=0.2
k=1

# calculate z percentiles
z_alpha = abs(norm.ppf(alpha / 2))
z_beta = abs(norm.ppf(1-beta))

n=math.ceil(((z_alpha + z_beta)**2)*((sigma_1_sq/k) + sigma_2_sq)/((lambda2-lambda1)**2))
print("Количество участников в группе 1:", n)
print("Количество участников в группе 2:", n*k)

Количество участников в группе 1: 41
Количество участников в группе 2: 41
