# Задача 1

Из партии батареек с номинальным напряжением 12 В наугад выбрано семь штук. Согласно показаниям высокоточного вольтметра, фактически выдаваемое ими напряжение составило: 12,9; 11,6; 13,5; 13,9; 12,1; 11,9; 13,0 В соответственно. Можно ли считать, что среднее напряжение действительно равно 12 В?

Для проверки гипотезы о том, что среднне напряжение батареек равно 12В, будет использоваться двусторонний t-test.

H0 (нулевая гипотеза): Среднее напряжение = 12В

H1 (альтернативная гипотеза): Среднее напряжение != 12В (больше или меньше, поэтому двусторонний t-test)

Для проверки гипотезы необходимо найти выборочное среднее, выборочное стандартное отклонение, а также статистику критерия. 

$$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$$

$$\quad 
   s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}
   \$$

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

In [17]:
import numpy as np 
from scipy.stats import t 

data = np.array([12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0]) 
mu_0 = 12  
n = len(data) 
 
x_mean = np.mean(data)  # выборочное среднее 
s = np.std(data, ddof=1)  # выборочное стандартное отклонение 
t_stat = (x_mean - mu_0) / (s / np.sqrt(n))  # t-статистика 
 
# Критическое значение t для уровня значимости 0.05 (двусторонний тест) 
alpha = 0.05 
t_critical = t.ppf(1 - alpha/2, df=n-1)  
print('Выборочное среднее: ', x_mean, '\nВыборочное стандартное отклонение: ', s, '\nСтатистика критерия: ', t_stat, 
      '\nКритическое значение t-критерия для уровня значимости 0,05 и n-1 степеней свободы', t_critical)

Выборочное среднее:  12.700000000000001 
Выборочное стандартное отклонение:  0.8582928793055823 
Статистика критерия:  2.15780179749788 
Критическое значение t-критерия для уровня значимсоти 0,05 и n-1 степеней свободы 2.4469118511449692


In [18]:
from scipy.stats import ttest_1samp 
 
# t-тест для одного выборочного среднего 
t_statistic, p_value = ttest_1samp(data, mu_0) 
 
print('p-value: ', p_value)

p-value:  0.07430190210562303


Не имеется достаточных оснований отвергнуть нулевую гипотезу, поскольку статистика критерия не лежит в критической области. Кроме того, p-value > 0,05. что означает, что на уровне значимости 0,05 нельзя утверждать, что напряжение батареек отличается от 12В.

# Задача 2

Есть два различных метода определения процентного содержания жира в мясе. Доля жира для 10 образцов мяса была определена каждым из двух методов. Позволяют ли полученные результаты сделать вывод о том, что один метод даёт в среднем более высокие показания, чем другой?

Для проверки гипотезы о различиях двух методов можно использовать парный t-test, так как выборки являются зависимыми. Для этого необходимо вычислить разность между результатами анализа двух методов для каждого образца. Разности и будут нашей выборкой. Далее необходимо вычислить разностное среднее и стандартное отклонение.

$$\bar{d} = \frac{1}{n} \sum_{i=1}^n d_i$$

$$\quad s_d = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (d_i - \bar{d})^2}$$

H0 (нулевая гипотеза): Среднее разностное значение = 0. Различий в результатах методов нет

H1 (альтернативная гипотеза): Среднее разностное значение != 0

Статистика критерия для парного t-test считается по следующей формуле:

$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$

In [27]:
method_1 = np.array([23.1, 23.2, 26.5, 26.6, 27.1, 48.3, 40.5, 25.0, 38.4, 23.5]) 
method_2 = np.array([22.7, 23.6, 27.1, 27.4, 27.4, 46.8, 40.4, 24.9, 38.1, 23.8]) 
differences = method_1 - method_2 

d_mean = np.mean(differences) 
sd = np.std(differences, ddof=1) 
n = len(differences)

t_stat = d_mean / (sd / np.sqrt(n)) 

alpha = 0.05 
t_critical = t.ppf(1 - alpha / 2, df= n-1)  # двусторонний тест 

print('Разностное среднее: ', d_mean, '\nРазностное стандартное отклонение: ', sd, '\nСтатистика критерия: ', t_stat, 
      '\nКритическое значение t-критерия для уровня значимости 0,05 и n-1 степеней свободы', t_critical)

Разностное среднее:  3.552713678800501e-16 
Разностное стандартное отклонение:  0.6548960901462831 
Статистика критерия:  1.715488497867803e-15 
Критическое значение t-критерия для уровня значимости 0,05 и n-1 степеней свободы 2.2621571628540993


In [28]:
# Парный t-тест 
t_statistic, p_value = ttest_1samp(method_1 - method_2, 0) 
 
print('p-value: ', p_value)

p-value:  0.9999999999999987


Статистика критерия << критического значения критерия. Кроме того. p-value >> 0,05. У нас нет оснований отвергнуть нулевую гипотезу. Это означает, что статистически значимых различий между средними значениями двух методов не выявлено. Оба метода в среднем дают одинаковые результаты.

# Задача 3

Для проверки гипотезы о том, что жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности, было проведено обследование 10 горожан и 9 жителей села примерно одного возраста. Получены следующие данные об уровне давления для горожан: 132, 111, 119, 138, 200, 131, 138, 170, 159, 140; для селян: 115, 190, 127, 155, 148, 121, 116, 121, 197. Можно ли считать верной выдвинутую гипотезу на уровне значимости 0,05?

Для проверки гипотезы о том, что среднее систолическое артериальное давление у горожан больше, чем у жителей села, применяется двухвыборочный t-test для независимых выборок. 

H0 (нулевая гипотеза): Среднее давление у горожан не больше, чем у жителей села, то есть mean_city <= mean_village
H1 (альтернативная гипотеза): Среднее давление у горожан больше, чем у жителей села, то есть mean_city > mean_village 


Статистика критерия для двух незавимых выборок считается по следующей формуле:

$$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$
   где:$$\bar{x}_1, \bar{x}_2 $$ — выборочные средние, $$ s_1^2, s_2^2 $$ — выборочные дисперсии, $$n_1, n_2$$ — размеры выборок.

Для определения критической области необходимо вычислить кол-во степеней свободы по формуле: 
$$df = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1 - 1} + \frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2 - 1}}$$


   - Если \( t > t_{\text{кр}} \), отвергаем \( H_0 \).
   - Если \( t \leq t_{\text{кр}} \), принимаем \( H_0 \).

In [34]:

city = np.array([132, 111, 119, 138, 200, 131, 138, 170, 159, 140]) 
village = np.array([115, 190, 127, 155, 148, 121, 116, 121, 197]) 
 
mean_city = np.mean(city) 
mean_village = np.mean(village) 
std_city = np.std(city, ddof=1) 
std_village = np.std(village, ddof=1) 
n_city = len(city) 
n_village = len(village) 
 
# t-статистика 
t_statistic = (mean_city - mean_village) / np.sqrt((std_city**2 / n_city) + (std_village**2 / n_village)) 
 
# Степени свободы 
df = ((std_city**2 / n_city) + (std_village**2 / n_village))**2 / ( 
    ((std_city**2 / n_city)**2 / (n_city - 1)) + ((std_village**2 / n_village)**2 / (n_village - 1)) 
) 
 
alpha = 0.05 
t_critical = t.ppf(1 - alpha, df) 

print('Статистика критерия для двухвыборочного теста: ', t_stat, '\nСтепеней свободы: ',df, 
      '\nКритическое значение t-критерия для уровня значимости 0,05: ', t_critical)

Статистика критерия для двухвыборочного теста:  1.715488497867803e-15 
Степеней свободы:  15.601702532561607 
Критическое значение t-критерия для уровня значимости 0,05:  1.7486214074672015


In [26]:
# Вычисление p-value для t-статистики 
p_value = 1 - t.cdf(t_statistic, df) 
p_value

np.float64(0.4863422498708747)

Статистика критерия очень мала и стремится к нулю, что говорит о маленьком различии выборочных средних. Кроме того, p-value лежит около 0,5. У нас нет оснований отвергнуть нулевую гипотезу. Это означает, что данные не дают оснований утверждать, что среднее систолитическое давление у горожан вышем, чем у жителей села

# Задача 4

Известно, что 52% новорождённых детей — мальчики, а 48% — девочки. В случайной выборке из 5 000 человек в возрасте от 30 до 60 лет мужчин оказалось 2 500. Можно ли на уровне значимости 0,05 считать, основываясь на этих данных, что смертность среди мужчин и женщин одинакова?

Для проверки гипотезы о том, что смертность среди мужчин и женщин одинакова, применим проверку пропорции. Рассмотрим, совпадает ли доля мужчин в выборке с ожидаемой долей мужчин в популяции (0,52).


H0 (нулевая гипотеза): p = p_0 = 0.52, смертность одинакова для мужчин и женщин

H1 (альтернативная гипотеза): p != 0.52 , смертность различается

Для проверки гипотезы необходимо посчитать выборочную пропорцию
$$\hat{p} = \frac{x}{n}$$
Это означает, что в выборке из 5000 человек 50% — мужчины


Вычисление стандартной ошибки пропорции:
$$ SE = \sqrt{\frac{p_0 (1 - p_0)}{n}}$$

Вычисление z-статистики:
$$z = \frac{\hat{p} - p_0}{SE}$$
Для двустороннего теста критическое значение находится по стандартному нормальному распределению.
Критическое значение для уровня значимости 0,05 равно 1,96.


In [50]:
p_0 = 0.52 
x = 2500    
n = 5000    
 

p_hat = x / n 
SE = np.sqrt(p_0 * (1 - p_0) / n) 
 
# z-статистика 
z_stat = (p_hat - p_0) / SE 
 
# 
alpha = 0.05 
z_critical = 1.96  
 
print('Выборочная пропорция: ', p_hat, '\nСтандартная ошибка пропорции: ', SE, '\nМодуль от z-статистики : ', abs(z_stat), 
      '\nКритическое значение z для уровня значимости 0.05 (двусторонний тест):', z_critical)

Выборочная пропорция:  0.5 
Стандартная ошибка пропорции:  0.007065408693062277 
Модуль от z-статистики :  2.830692585361492 
Критическое значение z для уровня значимости 0.05 (двусторонний тест): 1.96


 Так как z-статистики = 2.857 > 1.96, мы отвергаем нулевую гипотезу. 
 Это означает, что можно утверждать, что пропорция мужчин в выборке отличается от ожидаемой доли 52%.
На уровне значимости 0.05 можно сделать вывод, что смертность среди мужчин и женщин не одинакова.

# Задача 5

В первом эксперименте для сравнения двух средних X1=17, X2=16 применялся t-критерий Стьюдента, и эти различия оказались значимы (p = 0, 001).

Во втором исследовании, также при помощи t - критерия, сравнивались два средних X1=17, X2=36, и эти различия не значимы при p = 0,8. В чем может быть причина таких результатов, при условии, что нулевая и альтернативная гипотезы в обоих случаях одинаковы?

Один из наиболее значимых факторов, который влияет на значение p-value —  размер выборки. Чем больше выборка, тем выше статистическая мощность теста, то есть, тем легче обнаружить статистически значимые различия между средними. Также одним из важных факторов является вариативность данных.

Например, если выборка большая, а дисперсия в данных мала, то стандартная ошибка будет меньше, и даже небольшие различия могут привести к очень низкому p-value.
   
Однако если выборка маленькая или дисперсия в данных велика, то значительное различие в выборочных средних может быть нивелировано большим стандартным отклонением и результат может не быть значимым при большом p-value.
