### Темнова Мария

# ДЗ "Проверка статистических гипотез"
## Z-критерий для несвязанных выборок
Вчерашний дистанционный гос экзмен навеял. Посмотрим, как дистанционная сдача повлияла на количество отличных оценок за экзамен и повлияла ли. То есть проверим, есть ли разница между очной и дистанционной формой экзамена с точки зрения количества пятерок.

In [435]:
from collections import Counter
import numpy as np
import scipy
from scipy import stats
from scipy.stats import norm

In [422]:
# Очный гос экзамен
# Число студентов:
N = 240
a = [np.random.choice([2, 3, 4, 5], p=[0.02, 0.05, 0.13, 0.8]) for i in range(N)]
# Число пятерок
M = dict(Counter(a))[5]

In [423]:
# Дистанционный гос экзамен
# Число студентов:
K = 300
a = [np.random.choice([2, 3, 4, 5], p=[0.01, 0.01, 0.1, 0.88]) for i in range(K)]
# Число пятерок
L = dict(Counter(a))[5]

In [424]:
# Число пятерок, всего оценок(очная форма)
M, N

(197, 240)

In [425]:
# Число пятерок, всего оценок (дистанционная форма)
L, K

(264, 300)

In [426]:
count_exc_marks = np.array([M, L])
count_students = np.array([N, K])

### Двусторонняя гипотеза: 
* H0: доля пятерок по двум форматам экзамена одинакова 
* H1: доля пятерок по дистанционному экзамену не равна доле пятерок по очному экзамену
  
Уровень значимости: a = 0.05

In [436]:
def double_sided_ztest(count_exc_marks, count_students):

    count_exc_marks = np.asarray(count_exc_marks)
    count_students = np.asarray(count_students)

    proportion = count_exc_marks / count_students
    total_proportion = np.sum(count_exc_marks) / np.sum(count_students)
    count_students_fact = np.sum(1 / count_students)
    std_diff = np.sqrt(total_proportion * (1 - total_proportion) * count_students_fact)
    
    z_stat = (proportion[0] - proportion[1])  / std_diff
    p_value = stats.norm.sf(np.abs(z_stat))*2
    
    return z_stat, p_value

In [437]:
double_sided_ztest(count_exc_marks, count_students)

(-1.933197489398971, 0.0532118739310336)

#### => Не можем отвергнуть гипотезу H0.

### Левосторонняя гипотеза:
* H0: доля пятерок по двум форматам экзамена одинакова
* H1: доля пятерок по очному экзамену меньше доли пятерок по дистанционному экзамену

Уровень значимости: a = 0.05

In [438]:
def left_ztest(count_exc_marks, count_students):

    count_exc_marks = np.asarray(count_exc_marks)
    count_students = np.asarray(count_students)

    proportion = count_exc_marks / count_students
    total_proportion = np.sum(count_exc_marks) / np.sum(count_students)
    count_students_fact = np.sum(1 / count_students)
    std_diff = np.sqrt(total_proportion * (1 - total_proportion) * count_students_fact)
    
    z_stat = (proportion[0] - proportion[1])  / std_diff
    p_value = stats.norm.cdf(z_stat)
    
    return z_stat, p_value

In [439]:
left_ztest(count_exc_marks, count_students)

(-1.933197489398971, 0.0266059369655168)

#### => Можем отвергнуть гипотезу H0.

### Правосторонняя гипотеза:
* H0: доля пятерок по двум форматам экзамена одинакова
* H1: доля пятерок по очному экзамену больше доли пятерок по дистанциооному экзамену

Уровень значимости: a = 0.05

In [440]:
def right_ztest(count_exc_marks, count_students):

    count_exc_marks = np.asarray(count_exc_marks)
    count_students = np.asarray(count_students)

    proportion = count_exc_marks / count_students
    total_proportion = np.sum(count_exc_marks) / np.sum(count_students)
    count_students_fact = np.sum(1 / count_students)
    std_diff = np.sqrt(total_proportion * (1 - total_proportion) * count_students_fact)
    
    z_stat = (proportion[0] - proportion[1])  / std_diff
    p_value = stats.norm.sf(z_stat)
    
    return z_stat, p_value

In [441]:
right_ztest(count_exc_marks, count_students)

(-1.933197489398971, 0.9733940630344832)

#### => Не можем отвергнуть гипотезу H0.

### Проверка:

In [434]:
from statsmodels.stats.proportion import proportions_ztest

print(proportions_ztest(count_exc_marks, count_students, alternative='two-sided'), '- двусторонняя гипотеза')
print(proportions_ztest(count_exc_marks, count_students, alternative='smaller'), '- левосторонняя гипотеза')
print(proportions_ztest(count_exc_marks, count_students, alternative='larger'), '- правосторонняя гипотеза')

(-1.933197489398971, 0.0532118739310336) - двусторонняя гипотеза
(-1.933197489398971, 0.0266059369655168) - левосторонняя гипотеза
(-1.933197489398971, 0.9733940630344832) - правосторонняя гипотеза
