# 6. Доверительные интервалы. Статистическая проверка гипотез для несвязанных выборок

In [None]:
import math
import scipy.stats as st
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Задание № 0
Найдите минимально необходимый объем выборки для построения интервальной оценки среднего.

- желаемая точность  Δ  = 3;
- дисперсия  σ2  = 225;
- уровень доверия  β  = 0.95.

Ответ округлите до целого

In [None]:
accuracy = 3
std = 15
z = st.norm.ppf(0.95)
n = round(((z * std) / accuracy) ** 2)
n

### Задание № 1

Постройте 98 % доверительный интервал для среднего значения, если известно, что

- объем выборки n = 25;
- среднее значение по выборке $\overline x$ = 130;
- Из достоверных источников известно стандартное отклонение  σ=15 .
- В ответ укажите длину полученного доверительного интервала (разницу между правым и левым концом), окруленную до целого

In [None]:
n = 25
x = 130
std = 15
disp = 0.02
z = st.norm.ppf(0.98)

accuracy = (std / math.sqrt(n)) * z
CI_left = 130 - accuracy
CI_right = 130 + accuracy

L = round(CI_right - CI_left)

L

### Задание № 2
Даны две выборки роста мужчин и женщин.

- докажите, используя t-критерий Стьюдента, что различие между выборками незначительно, если уровень значимости равен  α  = 0.001.
- покажите различия визуально

In [None]:
np.random.seed(42) #фиксация случайности

men  = st.norm.rvs(loc = 171, scale = 100, size = 150000)  # Выборка мужчин со средним ростом 171
women = st.norm.rvs(loc = 170, scale = 100, size = 150000)  # Выборка женщин со средним ростом 170
#В двух строчках выше генерируется две выбороки, где loc это среднее значение, а scale это дисперсия
α = 0.001
t, p = st.ttest_ind(men, women)

print(t)

if p < α:
  print('Различия незначительны')
else:
  print('Различия значительны')

In [None]:
plt.hist(men)
plt.hist(women)

### Задание № 3
Определите объем необходимой выборки для исследования среднего чека за кофе в случайном городе если известно, что в этом городе:

- стандартное отклонение  σ=150 ;
- уровень доверия  β  = 95%;
- погрешность  Δ=50  рублей.

In [None]:
std = 150
CI = 0.95
accuracy = 50
z = st.norm.ppf(CI)

n = round(((z * std) / accuracy) ** 2)

n

### Задание № 4
Представьте, что вы хотите разоблачить "волшебника" который считает, что умеет предсказывать погоду на завтра, отвечая просто: дождь или солнце. Вы пронаблюдали за ответами "волшебника" в течении какого-то периода времени и получили некие результаты (см.ниже).

Можно ли сказать, что маг действительно умеет предсказывать погоду? Уровень значимости принять за 0.05 ( α=0.05 ).

In [None]:
observations = pd.DataFrame([[10, 15],[39, 34]],
                            index=['Дождь','Солнце'],
                            columns=['Верные ответы волшебника','Неверные ответы'])
observations

In [None]:
α = 0.05
oddsratio, pvalue = st.fisher_exact([[10, 15],[39, 34]])
#H0 - наш чел - шарлатан

if pvalue < α:
  print('Магия вне Хогвартса') #отвергаем H0
else:
  print('Маг из него такой же, как из меня дата-саентист)))') #не отвергаем H0

### Задание № 5
Используя функцию mean_confidence_interval(data, confidence), постройте доверительный интервал с уровнем доверия  β=90%  для выборки:

In [None]:
data = [4,5,8,9,6,7,5,6,7,8,5,6,7,0,9,8,4,6,
        7,9,8,6,5,7,8,9,6,7,5,8,6,7,9,5,10]

def mean_confidence_interval(data, confidence = 0.90):
    n = len(data)
    x, sem = np.mean(data), st.sem(data)
    accuracy = sem * st.t.ppf((1 + confidence) / 2, n-1)
    return x - accuracy, x + accuracy

mean_confidence_interval(data, confidence = 0.90)

### Задание № 6
Принадлежат ли выборки A и B одному множеству?

- оцените это с помощью известных вам тестов для проверок статистических гипотез;
- покажите различия визуально.

In [None]:
A = [4,5,8,9,6,7,5,6,7,6,8,5,6,7,8,4,
    6,7,9,8,6,5,7,8,6,7,5,6,8,6,7,5,
    4,5,8,9,6,7,5,6,7,6,8,5,6,7,8,4,
    6,7,9,8,6,5,7,8,6,7,5,6,8,6,7,5,
    4,5,8,9,6,7,5,6,7,6,8,5,6,7,8,4,
    6,7,9,8,6,5,7,8,6,7,5,6,8,6,7,5,
    4,5,8,9,6,7,5,6,7,6,8,5,6,7,8,4]

B = [5,6,7,8,4,6,7,2,6,5,7,5,3,5,3,
    5,3,5,5,8,7,6,4,5,3,5,4,6,4,5,3,
    2,6,4,3,5,4,3,4,5,4,3,4,5,4,3,4,
    2,6,4,3,5,4,3,4,5,4,3,4,5,4,3,4,
    3,4,4,1,2,4,3,2,4,3,2,1,5,3,4,6,
    3,2,4,5,6,4,3,3,5,3,4,4,4,2,5,3]
 
α = 0.05
t, p = st.ttest_ind(A, B)

if pvalue < α:
  print('Выборки принадлежат одному множеству')
else:
  print('Выборки не принадлежат одному множеству')

In [None]:
plt.hist(A)
plt.hist(B)

### Задание № 7 (задание без подвоха)

На примере датасета про жилье в New York City, мы сталкивались с примером, когда переменная имеет не совсем нормальное распределение.

Предположим, Вы сформировали две гипотезы:
- нулевая гипотеза - распределение нормальное;
- альтернативная гипотеза - распределение ненормальное.

Допустим, вы применили какой-то тест (сейчас неважно какой), который показал уровень значимости p-value = 0.03. 

Каковы будут ваши выводы? 

Будем считать, что у нас нормальное распределение или все-таки нет?

In [None]:
#H0 - распределение нормальное
#H1 - распределение ненормальное
p = 0.03
α = 0.05 #пусть так, я решила, что цена ошибки не велика)

if p < α:
  print('Отвергаем H0')
else:
  print('Не отвергаем H0 - распределение нормальное')

### Задание № 8
Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом B.

Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.)

Требуется выяснить, имеется ли значимое различие эффективности препаратов А и B, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики. (уровень значимости принять за 0.05 (5%))

- при каком минимальном p-value различия были бы уже значимы?
- если выборки незначительно отличаются, то продемонстрируйте это визуально.

In [None]:
np.random.seed(11)
A = st.norm.rvs(scale=15, loc=169, size=300)
B = st.norm.rvs(scale=14, loc=171.4, size=300)

α = 0.05
stat, p = st.ttest_ind(A, B, equal_var=False) 
print(p)

#если применить метод ttest_rel, то p < α, и всё летит в ***

#H0 - различий нет
#H1 - различия есть
if p < α:
  print('Отвергаем H0')
else:
  print('Не отвергаем H0 - различий нет')

- при каком минимальном p-value различия были бы уже значимы?

При p = α, думаю, уже можно было бы говорить о значимом различии

При "минимальном" ли? Скорее максимальном. Если стат значимость появляется при p == alpha, и чем меньше p, тем сильнее различие между выборками.

но, возможно, я что-то не так поняла

In [None]:
plt.hist(A)
plt.hist(B)