In [2]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import math

## Задача 1

В примере ttest.py изменить уровень значимости. При уровне значимости alpha = 0.01 можем ли мы отклонить нулевую гипотезу H_0?
H_0 = “Выборка получена из заданной генеральной совокупности”.

In [3]:
np.random.seed(6)

#генерируются две выборки, распределенные по Пуассону

#https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.poisson.html
population_ages1 = stats.poisson.rvs(loc=18, mu=35, size=150000)
population_ages2 = stats.poisson.rvs(loc=18, mu=10, size=100000)
population_ages = np.concatenate((population_ages1, population_ages2))

minnesota_ages1 = stats.poisson.rvs(loc=18, mu=30, size=30)
minnesota_ages2 = stats.poisson.rvs(loc=18, mu=10, size=20)
minnesota_ages = np.concatenate((minnesota_ages1, minnesota_ages2))

#round(x, n)
print(round(population_ages.mean(),2)) # генеральное среднее
print(round(minnesota_ages.mean(),2)) # выборочное среднее

43.0
39.26


In [4]:
#одновыборочный t-критерий Стьюдента, используется, 
#когда известны параметры ГС,
t_value, p_value = stats.ttest_1samp(a = minnesota_ages, 
                                     popmean = population_ages.mean()) 
#рассчитываем t-критерий
print(t_value, p_value)

-2.57427148837 0.0131186854251


In [5]:
#проверим, какая часть значений лежит вне нашего 
#доверительного интервала
# при заданных уровне значимости alpha = 0.05 
#и числе степеней свободы 49 (minnesota_ages - 1)

t_value_left = stats.t.ppf(q=0.025,  # "табличные" значения t-статистики при заданном количестве степеней свободы и уровне значимости
            df=49)  # число степеней свободы
print("t-value (left) = %g" %round(t_value_left,5))

t_value_right = stats.t.ppf(q=0.975,  #
            df=49)  # число степеней свободы
print("t-value (right) = %g" %round(t_value_right,5))

p_val = stats.t.cdf(x= -2.5742,      # значение t-критерия, рассчитанное по эмпир.данным
               df= 49) * 2   # т.к. двусторонний критерий
print("p-value = %g" %round(p_val,3))

t-value (left) = -2.00958
t-value (right) = 2.00958
p-value = 0.013


Изменим уровень значимости на 0,01

In [6]:
t_value_left = stats.t.ppf(q=0.005,  # "табличные" значения t-статистики при заданном количестве степеней свободы и уровне значимости
            df=49)  # число степеней свободы
print("t-value (left) = %g" %round(t_value_left,5))

t_value_right = stats.t.ppf(q=0.995,  #
            df=49)  # число степеней свободы
print("t-value (right) = %g" %round(t_value_right,5))

p_val = stats.t.cdf(x= -2.5742,      # значение t-критерия, рассчитанное по эмпир.данным
               df= 49) * 2   # т.к. двусторонний критерий
print("p-value = %g" %round(p_val,3))

t-value (left) = -2.67995
t-value (right) = 2.67995
p-value = 0.013


При уровне значимости 0,01 мы не можем отклонить нулевую гипотезу.

## Задача 2

Для примера о сроках госпитализации из лекции (С.Гланц, с.38) выполнить расчет t-критерия Стьюдента, не прибегая к встроенным функциям пакетов SciPy stats.ttest….
Можно пользоваться встроенными функциями для расчета среднего, скв.отклонения, возведения в степень и т.п.
Если Вы реализуете функции для расчета среднего, среднеквадратического отклонения и дисперсии самостоятельно, то получаете 1 дополнительный балл к лабораторной.


Задача о сроках госпитализации:
Средняя продоолжительность госпитализации 36
больных пиелонефритом, получавших правильное (соответствующее
официальным рекомендациям), составила 4,51 суток, а 36 больных,
получавших неправильное лечение - 6,28 суток. Стандартные
отклонения для этих групп - 1,98 и 2,54 суток соответственно.
Cокращает ли правильное лечение срок госпитализации?

Формула для расчета t-критерия Стьюдента:
    $\frac{\overline{X_1} - \overline{X_2}}{\sqrt{\frac{{s_1}^2}{n_1} + \frac{{s_2}^2}{n_2}}}$

In [1]:
# выборки
a = [7, 2, 3, 4, 4, 5, 5, 3, 5, 6, 4, 3, 3, 5, 5, 6, 8, 3, 3, 9]
b = [6, 9, 8, 11, 6, 10, 9, 7, 4, 5, 7, 6, 7, 4, 12, 14, 5, 6, 5, 8]
print(len(a))
print(len(b))

# среднее 
def mean_(x):
    return round((sum(x) / len(x)), 2)

print('Среднее выборки а =', mean_(a), ', Среднее выборки b =', mean_(b))

# стандартное отклонение
def st(x):
    ss = sum((i - mean_(x))**2 for i in x)
    sco = (ss / (len(x) - 1))** 0.5
    return round(sco, 2)
print('Стандартное отклонение выборки а =', st(a), ', Стандартное отклонение выборки b =', st(b))

# t-критерий Стьюдента
t = abs(mean_(a) - mean_(b)) / (st(a)**2 / len(a) + st(b)**2 / len(b))** 0.5
print('t-критерий Стьюдента = ', round(t, 2))

# число степеней свободы
df = len(a) + len(b) - 2
print('Число степеней свободы =', df)

20
20
Среднее выборки а = 4.65 , Среднее выборки b = 7.45
Стандартное отклонение выборки а = 1.84 , Стандартное отклонение выборки b = 2.7
t-критерий Стьюдента =  3.83
Число степеней свободы = 38


Расчитанное значение t-критерия Стьюдента 3.83 больше, чем табличное значение t-критерия равное 2.024 (при р=0.05). Следовательно наблюдаемые различия статистически значимы и следует отклонить H0 гипотезу.

## Задача 4

Используя встроенные функции пакетов SciPy, NumPy, 
а) сгенерировать выборку, распределенную нормально, проверить гипотезу о нормальности распределения с помощью критерия хи-квадрат
б) для произвольной выборки проверить ее распределение по теоретическому закону (выбрать самостоятельно) с помощью критерия согласия Колмогорова-Смирнова.


4.а Проверка нормального распределения с помощью критерия хи-квадрат

In [37]:
# генерируем нормально распределенную выборку методом stats.norm из пакета scipy
n = 100
norm = stats.norm(loc=5, scale=2)
data_norm = norm.rvs(size=n)

# разделим выборку на k интервалов
k = 6
hist, bins = np.histogram(data_norm, k)
dlt = bins[1] - bins[0]

# рассчитаем среднее и стандартное отклонение методами пакета numpy
m  = np.sum(data_norm) / n
st = (np.sum(data_norm ** 2) / n - m ** 2) ** 0.5
print('mean =', m, ', std =', st)

# найдем ожидаемое число попаданий в каждый интервал
def dist_n(y):
    return 1 / np.sqrt(2 * np.pi) * np.exp(-y ** 2 / 2)

Ej = list(map(lambda x: n * dist_n((x - m) / st) * dlt / st, bins[1:]))
Ej = np.array(Ej)

# вычислим критерий хи-квадрат
chi = np.sum(np.divide((hist - Ej) ** 2, Ej))
print('Chi_sqrt =', chi)

# найдем доверительный интервал при уровне значимости 0,05
alpha = 0.05
d_right = stats.chi.ppf(1 - alpha * 0.5, k-1)
d_left = stats.chi.ppf(alpha * 0.5, k-1)
print('Доверительный интервал: ', d_left, ', ', d_right)

# проверим гипотезу
if chi > d_right:
    print('Отвергаем гипотезу Н0')
elif chi < d_left:
    print('Нет оснований отвергнуть гипотезу Н0')
else:
    print('Гипотеза Н0 выполняется')

mean = 5.33634667151 , std = 2.0627355549
Chi_sqrt = 22.1522223006
Доверительный интервал:  0.911708074707 ,  3.58224817594
Отвергаем гипотезу Н0


4.b

In [24]:
n = 100
alpha = 0.05
lambd_kr = 1.36 # для уровня значимости 0,05

# генерируем первую выборку с равномерным распределением
data = np.random.uniform(0, 1, n)
d1 = np.sort(data)

# генерируем вторую выборку с равномерным распределением
d2 = np.arange(0, n)/100

# вычисляем 
dist = np.abs(d1 - d2)
D = np.max(dist)

lambd = D * np.sqrt(n * n / (n + n))
print('lambda = ', lambd)

if lambd < lambd_kr:
    print('Не отвергаем гипотезу Н0')
else:
    print('Отвергаем гипотезу Н0')


lambda =  0.818437817691
Не отвергаем гипотезу Н0
