# Проверка статистических гипотез

Крутов Андрей

## Задание 1: Опрос населения

Вы работаете аналитиком в журнале и получили следующую информацию:"Простая случайная выборка из 1028 взрослых показывает, что 55% поддерживают уменьшение ядерных арсеналов." 
Перед тек как печатать в журнале, что большинство поддерживает сокращение ядерных вооружений, вы хотите проверить, предоставляет ли данные убедительное свидетельство того, что это так, на уровне значимости 5%. Какая у вас основная и какая альтернативная гипотеза? Используйте Р-значение для теста.

Основная гипотеза - предпочтение не выражено, т.е. количество поддерживающих равно 50%  
Альтернативаня - предпочтение выражено (либо большинство за сокращение, либо против)

По условию, $$p=0.55$$
$$n=1028$$
$$\sigma=\sqrt{p(1-p)/n}$$



In [1]:
import scipy.stats as stats
import numpy as np
import pandas as pd

In [10]:
p_H0 = 0.50
n = 1028
mu_H0 = 0.50#так как у нас распределение Бернулли mu_H0 = p_H0
sigma_H0 = np.sqrt(p_H0*(1-p_H0)/n)#если H0 верна
sigma_H0

0.015594571538795133

In [12]:
p_exp = 0.55
n = 1028
sigma_exp = np.sqrt(p_exp*(1-p_exp)/n)#получили на эксперименте
sigma_exp

0.01551640276816161

In [17]:
p_value = 2*stats.norm.cdf(0.45, 0.5, sigma_H0)#0.45, т.к. экспериментальная вероятность 0.55, а распределение симметрично. 
#также из-за симметричности распределения умножаем на 2
p_value < 0.05# уровень значимости 5%

True

Полученное p-значение меньше 0.05, значит основная гипотеза может быть отвергнута. 

## Задание 2: Курение

Набор данных под названием **ncbirths** представляет собой случайную выборку матерей и их новорожденных в Северной Каролине. Нас особенно интересуют две переменные: *weight* и *habit*. Переменная 'weight' представляет собой вес новорожденных, а переменная 'habit' описывает, какие матери курили во время беременности. Мы хотели бы знать, есть ли убедительные доказательства того, что новорожденные от курящих матерей имеют другой средний вес при рождении, чем новорожденные от матерей, которые не курят? Мы будем использовать
пример Северной Каролины, чтобы попытаться ответить на этот вопрос.

    1. Введите данные с помощью Пандас.
    2. Установите соответствующие гипотезы, чтобы оценить, существует ли связь между курением матери и средней  массой тела при рождении.
    3. Оцените нужные переменные как среднии значения и дисперсии выборок для курящих/некурящих.
    4. Проверьте ваши гипотезы с помощью Wald теста, нас интересует уровень значимости 5%.
    

Основная - вес не зависит от курения  
Альетрнативная - зависит

In [2]:
df = pd.read_csv('d://robot_dreams/statistics for DS/ncbirths.csv')

In [3]:
df.shape

(1000, 13)

In [4]:
df = df[['weight','habit']]

In [5]:
df['habit'].unique()

array(['nonsmoker', 'smoker', nan], dtype=object)

In [6]:
df_nons = df.query('habit == "nonsmoker"')
df_smok = df.query('habit == "smoker"')

In [7]:
nonsmoke_mean = df.query('habit == "nonsmoker"')['weight'].mean()
nonsmoke_var = np.var(df.query('habit == "nonsmoker"')['weight'], ddof=1)#ddof=1 - для несмещенной оценки
print('Средний вес по некурящим: {}, дисперсия по некурящим: {}'.format(nonsmoke_mean, nonsmoke_var))

Средний вес по некурящим: 7.144272623138631, дисперсия по некурящим: 2.3063907833895554


In [9]:
smoke_mean = df.query('habit == "smoker"')['weight'].mean()
smoke_var = np.var(df.query('habit == "smoker"')['weight'], ddof=1)
print('Средний вес по курящим: {}, дисперсия по курящим: {}'.format(smoke_mean, smoke_var))

Средний вес по курящим: 6.828730158730158, дисперсия по курящим: 1.9214943746031745


In [10]:
delta = nonsmoke_mean - smoke_mean
s = np.sqrt(nonsmoke_var/df.query('habit == "nonsmoker"').shape[0] # s_1^2/n - для некурящих
            + smoke_var/df.query('habit == "smoker"').shape[0])# s_2^2/m - для курящих

In [11]:
w = delta/s

In [12]:
p = 2*stats.norm.cdf(-np.abs(w))
p < 0.05

True

Можем отвергнуть основную гипотезу

## Задание 3: Станок на производстве

Вы работаете аналитиком на фабрике и к вам пришел начальник цеха по производству деталей и просит вас помочь найти причину, почему одна из двух автоматических машин производит больше брака. Его коллеги собрали данные с обоих машин во время производства 50 деталей. Эти данные находятся в файле 'Machine_example.csv'. Переменная 'Machine' говорит, какой из двух машин принадлежат данные. Другие переменные соответствуют разным параметрам машин при производстве деталей. Что вы ответите начальнику цеха? 

In [13]:
df = pd.read_csv('d://robot_dreams/statistics for DS/mach_ex.csv', index_col=0)

In [14]:
df.head(2)

Unnamed: 0,Machine,Param_1,Param_2,Param_3,Param_4,Param_5,Param_6,Param_7,Param_8,Param_9,Param_10
0,Machine_1,0.623109,0.684335,7.914026,3.33734,0.302885,126.279441,4.098384,15.673653,53.076597,97.775208
1,Machine_1,3.967669,0.675796,12.569927,3.004854,0.303522,116.149786,3.820179,19.535909,42.421251,83.871174


In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 0 to 99
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Machine   100 non-null    object 
 1   Param_1   100 non-null    float64
 2   Param_2   100 non-null    float64
 3   Param_3   100 non-null    float64
 4   Param_4   100 non-null    float64
 5   Param_5   100 non-null    float64
 6   Param_6   100 non-null    float64
 7   Param_7   100 non-null    float64
 8   Param_8   100 non-null    float64
 9   Param_9   100 non-null    float64
 10  Param_10  100 non-null    float64
dtypes: float64(10), object(1)
memory usage: 9.4+ KB


Данных мало, значит будем использовать t-тест

In [16]:
cols = df.columns
cols = cols[1:]#убираем колонку с обозначением машины
cols

Index(['Param_1', 'Param_2', 'Param_3', 'Param_4', 'Param_5', 'Param_6',
       'Param_7', 'Param_8', 'Param_9', 'Param_10'],
      dtype='object')

In [17]:
m1 = df.query('Machine == "Machine_1"')
m2 = df.query('Machine == "Machine_2"')

In [18]:
# Проверим нулевую гипотезу для каждого из параметров машин
a = 0
for par in cols:
    m1_par_mean = m1[par].mean()
    m2_par_mean = m2[par].mean()
    m1_par_var  = np.var(m1[par])
    m2_par_var  = np.var(m2[par])
    
    delta = m1_par_mean - m2_par_mean
    s = np.sqrt(m1_par_var/m1.shape[0] + m2_par_var/m2.shape[0])
    w = delta/s
    
    p_value = 2*stats.t.cdf(-w,99)
    if p_value > 0.05:
        print('У машин параметр {} не отличается'.format(par))
    else:
        print('!!!')
        print('Параметр {} отличается'.format(par))
        зкште('!!!')

У машин параметр Param_1 не отличается
У машин параметр Param_2 не отличается
У машин параметр Param_3 не отличается
У машин параметр Param_4 не отличается
У машин параметр Param_5 не отличается
У машин параметр Param_6 не отличается
У машин параметр Param_7 не отличается
У машин параметр Param_8 не отличается
У машин параметр Param_9 не отличается
У машин параметр Param_10 не отличается


Нулевая гипотеза заключалась в том, что параметры машин не отличаются друг от друга. Ни для одного значения параметра мы не смогли отвергнуть нулевую гипотезу. Таким образом, необходимо собрать больше статистических данных.

## Задание 4: Будь осторожен

Создаем случайные данные из распределения Гаусса:

In [77]:
dat1 = stats.norm.rvs(loc=5,scale=1,size=50)

А теперь мы создаем так долго случайные выборки из этого же распределения, пока разница их средних значений не будет больше 0.6

In [78]:
meandiff = 0

In [79]:
n=0

In [80]:
while (meandiff<0.6):
    dat2= stats.norm.rvs(loc=5,scale=1,size=50)
    meandiff = np.abs(dat1.mean()-dat2.mean())
    n=n+1

Какой размер n в вашем случае? Что бы вы решили, если бы вы получили эти данные и провели проверку гипотез о том, выходят ли они из распределения с одинаковым ожиданием? Что вам это вместе с размером n говорит о надежности проверки гипотез?

In [82]:
n

5869

In [83]:
dat2

array([3.66322895, 4.91883719, 4.66693841, 3.71489261, 3.74943301,
       4.85781194, 3.7132769 , 4.73055118, 4.07209778, 5.0287884 ,
       3.73328625, 4.67174147, 4.89977787, 3.91992217, 4.4992975 ,
       4.78747285, 4.41662667, 5.07182088, 4.13919461, 4.87617711,
       3.38215381, 4.84569954, 4.4774946 , 4.5971948 , 4.72202771,
       4.76563068, 6.68665977, 5.52440609, 4.22002203, 4.39904154,
       3.02848219, 6.15426168, 3.76751235, 4.30319615, 4.3970041 ,
       3.7936755 , 4.3307091 , 4.91767133, 3.19199457, 4.07471406,
       4.5357943 , 5.86668119, 4.59391777, 4.81466261, 4.52468095,
       3.97468346, 4.47377504, 5.96278659, 5.73789713, 3.28976619])

In [88]:
dat1_mean = dat1.mean()
dat2_mean = dat2.mean()
dat1_var  = np.var(dat1)
dat2_var  = np.var(dat2)
    
delta = dat1_mean - dat2_mean
s = np.sqrt(dat1_var/len(dat1) + dat2_var/len(dat2))
w = delta/s
    
p_value = 2*stats.t.cdf(-w,99)
p_value

0.00021489858032563682

Тут проявляется проблема множественных сравнений. Мы нашли различия после 5869 сравнений. Нужно ввести поправки Бонферрони.

In [92]:
p_Bonf = 0.05/n
p_value < p_Bonf

False

С учетом поправки Бонферрони статистически значимых различий нет