In [1]:
import numpy as np
from scipy import stats

# Домашнее задание 11

Решение задач с проверкой гипотез

## 1 Реализация вспомогательных функций

In [2]:
def equality_probabilities_success(n11, n12, n21, n22):
    """ Рассчет статистики для гипотезы о равенстве вероятности успеха
    
    Параметры
    ---------
    n11 : int
      Общее количество "успехов" в выборке 1
    n12 : int
      Общее количество "неудач" в выборке 1
    n21 : int
      Общее количество "успехов" в выборке 2
    n22 : int
      Общее количество "неудач" в выборке 2
    """
    
    # Общее кол-во элементов в первой выборке
    n1dot = n11 + n12
    # Общее кол-во элементов во второй выборке
    n2dot = n21 + n22
    
    # Общее кол-во людей в обоих выборках
    n = n1dot + n2dot
    
    # Общее кол-во "успехов"
    ndot1 = n11 + n21
    
    m1 = n11 / n1dot
    m2 = n21 / n2dot
    
    v = ndot1 / n
    
    return (m1 - m2) / np.sqrt(v * (1 - v) * (1/n1dot + 1/n2dot))

In [3]:
def u_test(x_array, y_array):
    """Тест Манна-Уитни-Вилкоксона для несвязанных выборок
    
    Тест исходит из следующих предположений:
      - Если среднее значение y_array больше среднего x_array,
      то тетта больше 0.
      - Если среднее значение y_array меньше среднего x_array,
      то тетта меньше 0.
      - Иначе тетта равна 0.
      
    Из этих предположений необходимо корректно сформировать гипотезу.
    
    Параметры
    ---------
    x_array : np.ndarray
      Массив значений выборки X
    y_array : np.ndarray
      Массив значений выборки Y
      
    Результат
    ---------
    u_test_statistic : float
    """
    
    if not isinstance(x_array, np.ndarray):
        x_array = np.array(x_array)
        x_array = y_array.flatten()
        
    if not isinstance(y_array, np.ndarray):
        y_array = np.array(y_array)
        y_array = y_array.flatten()
        
    assert len(x_array.shape) == 1  and len(y_array.shape) == 1
        
    arr_concat = np.hstack([x_array, y_array])
    y_array_start_stack_index = len(x_array)
    
    sorted_index_arr_concat = np.argsort(arr_concat)
    
    ranked_arr_concat = stats.rankdata(arr_concat[sorted_index_arr_concat])
    
    y_array_ranks = stats.rankdata(np.where(sorted_index_arr_concat >= y_array_start_stack_index)[0])
    
    len_x_array = len(x_array)
    len_y_array = len(y_array)
    
    
    W = np.sum(y_array_ranks)
    M = len_y_array * (len_x_array + len_y_array + 1) / 2
    D = len_y_array * len_x_array * (len_x_array + len_y_array + 1) / 12
    
    return (W - M) / np.sqrt(D)

In [4]:
def get_p_value(stat_value, side='both', stat_type='norm'):
    """ Расчет p-value для значения статистики
    
    Параметры
    ---------
    stat_value : float
      Значение статистики
    side : str
      Сторона теста для вычисления p-value
    stat_type : str
      Тип распределения значения статистики.
      Поддерживается только значение norm
      
    Результат
    ---------
    p_val : float
    """
    
    side = str(side).lower().strip()
    assert side in ('both', 'left', 'right')
    stat_type = str(stat_type).lower().strip()
    assert stat_type in ('norm')
    
    if stat_type == 'norm':
        z_quantile = stats.norm.cdf(stat_value)
    
    if side == 'both':
        p_val = np.min([2*z_quantile, 2 - 2*z_quantile])
    elif side == 'left':
        p_val = z_quantile
    else:
        p_val = 1 - z_quantile
        
    return p_val

## 2 Решение задач

### Задача 3.1

Перед президентскими выборами в городах Курске и Владивостоке был проведен
социологический опрос. Каждый респондент должен был ответить на вопрос:
«За какого кандидата вы будете голосовать на выборах». В Курске опросили
105 человек, из них 42 ответили, что будут голосовать за кандидата А, во
Владивостоке опросили 195 человек, из которых 65 за А. Можно ли считать
на уровне значимости 0,05, что уровни поддержки кандидата А в Курске и
Владивостоке одинаковы?

**Решение:**

Сформулируем гипотезы:

H0: p0 = p1

H1: p0 != p1

Здесь p1 - вероятность победы кандидата А в Курске, а p2 - вероятность победы кандидата А во Владивостоке.

Для проверки гипотезы будет использовать статистику гипотезы о равенстве вероятностей успеха. Так как нас интересует отклонение уровня поддержки в обе стороны, то проверка гипотезы будет двусторонней.

In [5]:
alpha = 0.05

# Количество готовых проголосовать за А в Курске
n11 = 42
# Количество готовых проголосовать за А во Владивостоке
n21 = 65
# Отказавшивеся голосовать за А в Курске
n12 = 105 - n11
# Отказавшивеся голосовать за А во Владивостоке
n22 = 195 - n21

stat_val = equality_probabilities_success(n11=n11, n12=n12, n21=n21, n22=n22)
p_val = get_p_value(stat_val, side='both')

print("Значение статистики:", round(stat_val, 5))
print("Значение p-value:", round(p_val, 5))

if p_val >= alpha:
    print(f"H0: Поддержка кандидата А одинакова в Самаре и Владивостоке на уровне значимости {alpha}")
else:
    print(f"H1: Поддержка кандидата А различна в Самаре и Владивостоке на уровне значимости {alpha}")

Значение статистики: 1.14977
Значение p-value: 0.25024
H0: Поддержка кандидата А одинакова в Самаре и Владивостоке на уровне значимости 0.05


###  Задача 3.2

Для изучения эффективности лекарства против аллергии обследовались две
группы людей, предрасположенных к этому заболеванию. Результаты обследования
следующие: среди принимавших лекарство заболело 3 человека, не заболело
172 человека; среди не принимавших заболело 32 человека, не заболело 168.
Указывают ли эти результаты на эффективность лекарства?

**Решение:**

Сформулируем гипотезы:

H0: p1 = p2

H1: p1 < p2

Здесь p1 - вероятность заболеть в группе, принимавшей лекарство. А p2 - вероятность заболеть в группе, не принимавшей лекарство.

Для проверки гипотезы будем использовать статистику гипотезы о равенстве вероятностей успеха. Нас интересует отклонение только в левую сторону, поэтому проверка гипотезы будет левосторонней.

In [6]:
alpha = 0.05

# Количество заболевших группе 1, принимавшей лекарство.
n11 = 3
# Количество заболевших группе 2, не принимавшей лекарство.
n21 = 32
# Количество не заболевших группе 1, принимавшей лекарство.
n12 = 172
# Количество не заболевших группе 2, не принимавшей лекарство.
n22 = 168

stat_val = equality_probabilities_success(n11=n11, n12=n12, n21=n21, n22=n22)
p_val = get_p_value(stat_val, side='left')

print("Значение статистики:", round(stat_val, 5))
print("Значение p-value:", round(p_val, 5))

if p_val >= alpha:
    print(f"H0: Лекарство не эффективно на уровне значимости {alpha}")
else:
    print(f"H1: Лекарство эффективно на уровне значимости {alpha}")

Значение статистики: -4.74437
Значение p-value: 0.0
H1: Лекарство эффективно на уровне значимости 0.05


### Задача 3.3

Было проведено обследование 10 горожан и 9 жителей села примерно одного
возраста. Получены следующие данные об уровне давления:

для горожан: 130, 110, 120, 140, 200, 130, 140, 170, 160, 140;

для селян: 120, 190, 130, 160, 150, 120, 110, 120, 200.

Свидетельствуют ли эти данные в пользу того, что горожане имеют в среднем
более высокое давление чем жители сельской местности?

**Решение:**

Сформулируем гипотезы:

H0: X = Y

H1: X < Y

Здесь X - среднее значение давления селян, a Y - среднее значение давления горожан.

In [7]:
alpha = 0.05

x_array = np.array([130, 110, 120, 140, 200, 130, 140, 170, 160, 140])
y_array = np.array([120, 190, 130, 160, 150, 120, 110, 120, 200])

stat_val = u_test(x_array=x_array, y_array=y_array)

# Так как предполагается, что средние значения Y больше X, то гипотеза будет правосторонней
p_val = get_p_value(stat_val, side='right')

print("Значение статистики:", round(stat_val, 5))
print("Значение p-value:", round(p_val, 5))

if p_val >= alpha:
    print("H0: Среднее значение давления горожан не имеет более высокое значение" +
          f" в сравнении с селянами на уровне значимости {alpha}")
else:
    print("H1: Среднее значение давления горожан имеет более высокое значение" +
          f" в сравнении с селянами на уровне значимости {alpha}")

Значение статистики: -3.67423
Значение p-value: 0.99988
H0: Среднее значение давления горожан не имеет более высокое значение в сравнении с селянами на уровне значимости 0.05


### Задача 3.4

Уровень гистамина в мокроте у 7 курильщиков, склонных к аллергии, составил в мг:

102,4 100,0 67,6 65,9 64,7 39,6 31,2

У 10 курильщиков, не склонных к аллергии, составил в мг:

48,1 45,5 41,7 35,4 29,1 18,9 58,3 68,8 71,3 94,3

Можно ли, основываясь на этих данных, считать с надёжностью 0,95 что уровень гистамина у склонных и не склонных к аллергии курильщиков значимо различается?

**Решение:**

Сформулируем гипотезы:

H0: X = Y

H1: X != Y

Здесь X - уровень гистамина у курильщиков, склонных к алергии, a Y - уровень гистамина у курильщиков, не склонных к алергии

In [8]:
alpha = 0.05

x_array = np.array([102.4, 100.0, 67.6, 65.9, 64.7, 39.6, 31.2])
y_array = np.array([48.1, 45.5, 41.7, 35.4, 29.1, 18.9, 58.3, 68.8, 71.3, 94.3])

stat_val = u_test(x_array=x_array, y_array=y_array)

# Так как предполагается, что средние значения Y больше X, то гипотеза будет правосторонней
p_val = get_p_value(stat_val, side='both')

print("Значение статистики:", round(stat_val, 5))
print("Значение p-value:", round(p_val, 5))

if p_val >= alpha:
    print(f"H0: уровень гистамина у склонных и не склонных к аллергии курильщиков не различается на уровне значимости {alpha}")
else:
    print(f"H1: уровень гистамина у склонных и не склонных к аллергии курильщиков различается на уровне значимости {alpha}")

Значение статистики: -3.41565
Значение p-value: 0.00064
H1: уровень гистамина у склонных и не склонных к аллергии курильщиков различается на уровне значимости 0.05
