In [1]:
import scipy.stats
import matplotlib.pyplot as plt
import numpy as np
import math
import pandas as pd

### 1. Найдите минимально необходимый объем выборки для построения интервальной оценки среднего с точностью ∆ = 3, дисперсией σ^2 = 225 и уровнем доверия β = 0.95.

In [2]:
delta = 3
std = 225**0.5
beta = 0.95

# Оругляем полученное значение в большую сторону
N = math.ceil((std * scipy.stats.norm.ppf(beta) / delta)**2)

print('Необходимое минимальное число человек для опроса:', N)

Необходимое минимальное число человек для опроса: 68


### 2. Вам даны две выборки роста мужчин и женщин. Докажите, используя t-Тест Стьдента, что различия между выборками незначительно, если уровень значимости равен 0.001

In [3]:
population_men   = scipy.stats.norm.rvs(loc=19,scale=171,size=11000000)  # Выборка мужчин со средним ростом 171
population_women = scipy.stats.norm.rvs(loc=16,scale=165,size=12000)     # Выборка женщин со средним ростом 165

H0 - Выборки мужчин и женщин не отличаются  
H1 - Различия в выборках мужчин и женщин статистически значимы

Используем t-критерий для несвязанных выборок. Так как дисперсии отличаются, указываем параметр equal_var = False

In [4]:
alpha = 0.001
t, p = scipy.stats.ttest_ind(population_men, population_women, equal_var=False)

if p < alpha:
    print(f'Отклоняем гипотезу H0, различия в выборках мужчин и женщин статистически значимы на уровне {alpha :.1%}')
else:
    print(f'Гипотеза H0 верна, различия в выборках мужчин и женщин статистически не значимы на уровне {alpha :.1%}')

Гипотеза H0 верна, различия в выборках мужчин и женщин статистически не значимы на уровне 0.1%


### 3. Определите объем необходимой выборки для исследования среднего чека за кофе в случайном городе, если известно, что в этом городе стандартное отклонение = 150, уровень доверия = 95%. Погрешность 50 рублей. 

In [5]:
delta = 50
std = 150
beta = 0.95

# Оругляем полученное значение в большую сторону
N = math.ceil((std * scipy.stats.norm.ppf(beta) / delta)**2)

print('Необходимое минимальное число человек для опроса:', N)

Необходимое минимальное число человек для опроса: 25


### 4.  Представьте, что вы хотите разоблачить "волшебника", который считает, что умеет предсказывать погоду на завтра. Отвечая просто: дождь или солнце. Вы пронаблюдали за ответами "волшебника" в течении какого периода времени и получили такие результаты (см.ниже). Можно ли сказать, что маг действительно умеет предсказывать погоду, если уровнь значимости принять за 0.05 ?

In [6]:
alpha = 0.05

observations = pd.DataFrame([[14,36],[15,45]],
                            index=['Дождь','Солнце'],
                            columns=['Ответ волшебника','Реальность'])
observations

Unnamed: 0,Ответ волшебника,Реальность
Дождь,14,36
Солнце,15,45


Ответы волшебника и данные реальности можно считать независимыми выборками. Так как мы имеем 4-х польную таблицу с категориальными признаками и ни одно значение в ней не меньше 10, то для оценки статистической значимости можно выбрать критерий хи-квадрата Пирсона.

H0 - Волшебник умеет предсказывать погоду, данные волшебника и реальности не отличаются  
H1 - Волшебник не умеет предсказывать погоду, различия между ответами волшебника и реальности статистически значимы

In [7]:
chi2, p, ddof, expected = scipy.stats.chi2_contingency(observations)

if p < alpha:
    print(f'Отклоняем гипотезу H0, Волшебник не умеет предсказывать погоду, различия между ответами волшебника и реальности \
    статистически значимы на уровне {alpha :.1%}')
else:
    print(f'Гипотеза H0 верна, волшебник умеет предсказывать погоду, различия данных волшебника и реальности \
статистически не значимы на уровне {alpha :.1%}')

Гипотеза H0 верна, волшебник умеет предсказывать погоду, различия данных волшебника и реальности статистически не значимы на уровне 5.0%


Так как у нас категориальных признаков не больше 2, то данные позволяют нам провести проверку с помощью точного критерия Фишера.

In [8]:
oddsratio, p = scipy.stats.fisher_exact(observations)

if p < alpha:
    print(f'Отклоняем гипотезу H0, Волшебник не умеет предсказывать погоду, различия между ответами волшебника и реальности \
    статистически значимы на уровне {alpha :.1%}')
else:
    print(f'Гипотеза H0 верна, волшебник умеет предсказывать погоду, различия данных волшебника и реальности \
статистически не значимы на уровне {alpha :.1%}')

Гипотеза H0 верна, волшебник умеет предсказывать погоду, различия данных волшебника и реальности статистически не значимы на уровне 5.0%


### 5. Используя функцию mean_confidence_interval(data, confidence), постройте доверительный интервал с уровнем доверия 90% для выборки: 

data = [1,5,8,9,6,7,5,6,7,8,5,6,7,0,9,8,4,6,7,9,8,6,5,7,8,9,6,7,5,8,6,7,9,5]

In [9]:
def mean_confidence_interval(data:list, confidence:float, ttype:str='normal', two_tailed:bool=True):
    """
    Функция для расчета доверительного интервала для массива данных с заданным уровнем доверия.
    
    Входные параметры:
        data -- массив значений
        confidence -- уровень доверия (вероятность)
        ttype -- тип распределения, принимает значения 'student' или 'normal'. По умолчанию 'normal'.
        two_tailed -- признак двустороннего теста, если True - выполняем двусторонний тест, иначе односторонний.
                      По умолчанию True.
        
    Возвращаемые значения: (нижняя граница интервала, среднее, верхняя граница интервала)
    """
    
    ttype = ttype.lower().strip()
    ttype_correct_values = ('student', 'normal')
    
    if confidence < 0 or confidence > 1:
        raise ValueError('Параметр confidence должен принимать значения в диапазоне от 0 до 1')
        
    if ttype not in ttype_correct_values:
        raise ValueError(f'Параметр ttype может принимать только следующие значения: {",".join(ttype_correct_values)}')
        
    if not isinstance(two_tailed, bool):
        raise TypeError(f'Значение параметра two_tailed должно иметь тип bool')
       
    n = len(data)
    sem = scipy.stats.sem(data)
    mean = np.mean(data)
    
    # Для двустороннего теста требуется поделить уровень значимости на 2 части
    if two_tailed:
        confidence = (1+confidence)/2
    
    if ttype == 'normal':
        ppf = scipy.stats.norm.ppf(confidence)
    else:
        ppf = scipy.stats.t.ppf(confidence, n-1)
        
    h = sem * ppf
    
    return mean-h, mean, mean+h

In [10]:
data = [4,5,8,9,6,7,5,6,7,8,5,6,7,0,9,8,4,6,7,9,8,6,5,7,8,9,6,7,5,8,6,7,9,5,10]

# Так как у нас выборка мала, то выбираем распределение Стьюдента, выбираем двусторонний тест
mean_confidence_interval(data, confidence=0.95, ttype='student', two_tailed=True)

(5.961614036054297, 6.628571428571429, 7.295528821088561)

### 6. Принадлежит ли выборка data_1 и data_2 одному множеству? Оцените это с помощью известных вам тестов проверки гипотез.

In [11]:
data_1 = [4,5,8,9,6,7,5,6,7,8,5,6,7,0,9,8,4,6,7,9,8,6,5,7,8,9,6,7,5,8,6,7,9,5,10]
data_2 = [8,5,6,7,0,1,8,4,6,7,0,2,6,5,7,5,3,5,3,5,3,5,5,8,7,6,4,5,3,5,4,6,4,5,3,2,6,4,2,6,1,0,4,3,5,4,3,4,
          5,4,3,4,5,4,3,4,5,3,4,4,1,2,4,3,1,2,4,3,2,1,5,3,4,6,4,5,3,2,4,5,6,4,3,1,3,5,3,4,4,4,2,5,3]

H0 - отличий между data_1 и data_2 нет  
H1 - выборки data_1 и data_2 отличаются

Так как нам даны 2 выборки без разделения по категориальным признакам, то нам подойдут критерии для сравнения среднего значения или сравнения дисперсий.

Если предполагать, что выбрки независимые, то можно провести тесты по следующим критериям:
- Критерий Стьюдента для независимых выборок
- Критерий Манна-Уитни

Если предполагать, что выборки зависимы, то можно вопользоваться следующими критериями:
- Критерий Стьюдента для зависимых выборок
- Критерий Уилкоксона

Но так как наши данные имеют различный размер, то такие тесты сделать не получится.

Также тесты могут быть односторонними или левосторонними.

In [12]:
# Критерий Стьюдента для независимых выборок
stat, p = scipy.stats.ttest_ind(data_1, data_2)
alpha = 0.05

#Для двустороннего теста
if p < alpha:
    print(f'Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости {alpha :.1%}')
else:
    print(f'Верна гипотеза H0: выборки data_1 и data_2 не отличаются на уровне значимости {alpha :.1%}')

Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости 5.0%


In [13]:
#Для одностороннего теста
if p < alpha/2:
    print(f'Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости {alpha :.1%}')
else:
    print(f'Верна гипотеза H0: выборки data_1 и data_2 не отличаются на уровне значимости {alpha :.1%}')

Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости 5.0%


In [14]:
# Критерий Манна-Уитни
stat, p = scipy.stats.mannwhitneyu(data_1, data_2)
alpha = 0.05

#Для двустороннего теста
if p < alpha:
    print(f'Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости {alpha :.1%}')
else:
    print(f'Верна гипотеза H0: выборки data_1 и data_2 не отличаются на уровне значимости {alpha :.1%}')

Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости 5.0%


In [15]:
#Для одностороннего теста
if p < alpha/2:
    print(f'Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости {alpha :.1%}')
else:
    print(f'Верна гипотеза H0: выборки data_1 и data_2 не отличаются на уровне значимости {alpha :.1%}')

Верна гипотеза H1: выборки data_1 и data_2 отличаются на уровне значимости 5.0%


### 7. На примере датасета про жилье в New York City, мы сталкивались с примером, когда переменная имеет не совсем нормальное распределение. 

### Предположим, Вы сформировали две гипотезы: Нулевая гипотеза - распределение нормальное,  Альтернативная гипотеза - распределение не нормальное.


### Допустим, вы применили какой-то тест (сейчас неважно какой), который показал уровень значимости (p-value) = 0.03. Каковы будут ваши выводы? Будем считать что у нас нормальное распределение или все-таки нет? Вопрос без подвоха)

Если мы примем уровень значимости 0.05, то при p-value = 0.03 можно сказать, что наше распределение не является нормальным на уровне значимости 5%. При этом нельзя точно сказать, что наше распределение является нормальным или не нормальным. Мы предполагаем, что наше распределение не нормальное, но есть вероятность в 5%, что мы допустили ошибку и отклонили верную гипотезу H0 о нормальности нашего распределения. 

Если принять уровень значимости 0.01 (ужесточение требований), то в данном случае мы можем сказать, что наша гипотеза H0 верна на уровне значимости 1%.

### 8. Первая выборка — это пациенты, которых лечили препаратом А.  Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) 

#### а) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики?  (уровень значимости принять за 5% или 0.05)

#### b) При каком минимальном P-values различия были бы уже значимы? 

Предполагается независимость выборок. Если представить, что наши значения - количество койко-дней, то нас будет интересовать только правая сторона плотности распределения значений, когда этих койко-дней очень много, а если их мало, то это значит, что человек быстро выздоровел. Поэтому будем выполнять односторонний тест с помощью критерия Стьюдента для независимых выборок.

In [16]:
np.random.seed(11)
A = scipy.stats.norm.rvs(scale=50,loc=10,size=300)
B = A+scipy.stats.norm.rvs(scale=10,loc=-1.25,size=300)
alpha = 0.05

stat, p = scipy.stats.ttest_ind(A, B, equal_var=False)
if p < alpha:
    print(f'Эффективность препаратов отличается на уровне значимости {alpha :.1%}')
else:
    print(f'Эффективность препаратов одинакова на уровне значимости {alpha :.1%}')

Эффективность препаратов одинакова на уровне значимости 5.0%


Разиличя будут значимы, если p-value будет меньше принятого нами уровня значимости. А уровень значимости мы можем как повышать, так и понимажть в зависимости от нашей задачи. В одних задачах уровень надо наоборот ужесточать, как в случае исследования воздействия препаратов, а в других случаях можно увеличивать. Это должно быть обоснованно. Для уровня значимости 0.05 p-value должен быть меньше этого значения чтобы различия были значимыми для этого уровня.