## Задача 1

Из партии батареек с номинальным напряжением 12 В наугад выбрано семь штук. Согласно показаниям высокоточного вольтметра, фактически выдаваемое ими напряжение составило: 12,9; 11,6; 13,5; 13,9; 12,1; 11,9; 13,0 В соответственно. Можно ли считать, что среднее напряжение действительно равно 12 В?

---

Выдвинем гипотезы о среднем:
- Основная: среднее напряжение батарейки равно 12 В
- Альтернативная: среднее напряжение батарейки НЕ равно 12 В
Обозначим матожидание напряжения $\mu_0 = 12$, а среднее значение выборки $\mu$
$$H_0: \mu = \mu_0$$
$$H_1: \mu \neq \mu_0$$

В качестве критерия выберем одновыборочный критерий Стьюдента, выберем уровень значимости $\alpha = 0.05$.

In [6]:
import numpy as np
import pandas as pd
from scipy import stats

In [10]:
mu_0 = 12
sample = np.array([12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0])
# score, p_value = 
stats.ttest_1samp(sample, mu_0, alternative='two-sided')

Ttest_1sampResult(statistic=2.1578017974978794, pvalue=0.07430190210562304)

На основании имеющихся наблюдений при уровне значимости $\alpha = 0.05$ мы не можем отклонить основную гипотезу в пользу альтернативной. Таким образом, у нас нет оснований говорить, что среднее напряжение батарей не равно 12 В

## Задача 2

Есть два различных метода определения процентного содержания жира в мясе. Доля жира для 10 образцов мяса была определена каждым из двух методов. Позволяют ли полученные результаты сделать вывод о том, что один метод даёт в среднем более высокие показания, чем другой?

| Образец | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---------|---|---|---|---|---|---|---|---|---|---|
|Метод I|23.1|23.2|26.5|26.6|27.1|48.3|40.5|25.0|38.4|23.5|
|Метод II|22.7|23.6|27.1|27.4|27.4|46.8|40.4|24.9|38.1|23.8|

---

Здесь мы работаем с парными наблюдениями (одни и те же образцы), соответственно, нужно определить статистически значимые различия средних для метода I и метода II.</br>
В качестве критерия выберем критерий Стьюдента для парных выборок, выберем уровень значимости $\alpha = 0.05$.</br>

Выдвинем гипотезы о среднем для парных выборок:
- Основная: среднее содержание жира, определенное обоими методами,  одинаково
- Альтернативная: среднее содержание жира, определенное обоими методами,  НЕ одинаково(то есть, один из методов в среднем даёт более высокие показания)

Обозначим средневыборочные значения для метода I как $\mu_x$, а для метода II как $\mu_y$
$$H_0: \mu_x = \mu_y$$
$$H_1: \mu_x \neq \mu_y$$

In [13]:
method1 = np.array([23.1, 23.2, 26.5, 26.6, 27.1, 48.3, 40.5, 25.0, 38.4, 23.5])
method2 = np.array([22.7, 23.6, 27.1, 27.4, 27.4, 46.8, 40.4, 24.9, 38.1, 23.8])

diff = method1 - method2
stats.ttest_1samp(diff, popmean=0, alternative='two-sided')

Ttest_1sampResult(statistic=1.7154884978678027e-15, pvalue=0.9999999999999987)

На основании имеющихся наблюдений при уровне значимости  𝛼=0.05 мы не можем отклонить основную гипотезу в пользу альтернативной. Следовательно, мы принимаем основную гипотезу о том, что оба метода в среднем дают одинаковые показанияю.

## Задача 3

Для проверки гипотезы о том, что жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности, было проведено обследование 10 горожан и 9 жителей села примерно одного возраста. Получены следующие данные об уровне давления для горожан: 132, 111, 119, 138, 200, 131, 138, 170, 159, 140; для селян: 115, 190, 127, 155, 148, 121, 116, 121, 197. Можно ли считать верной выдвинутую гипотезу на уровне значимости 0,05?

---

В качестве критерия выберем критерий Стьюдента для двух независимых выборок, выберем уровень значимости $\alpha = 0.05$.</br>

Выдвинем гипотезы о среднем для парных выборок:
- Основная: жители городов и жители сельской местности имеют в среднем имеют одинаковое систолическое артериальное давление
- Альтернативная: жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности

Обозначим средневыборочные значения для жителей городов как $\mu_x$, а для жителей сельской местности как $\mu_y$
$$H_0: \mu_x = \mu_y$$
$$H_1: \mu_x > \mu_y$$

In [15]:
city = np.array([132, 111, 119, 138, 200, 131, 138, 170, 159, 140])
countryside = np.array([115, 190, 127, 155, 148, 121, 116, 121, 197])

In [20]:
stats.ttest_ind(x, y, alternative='greater', equal_var=False)

Ttest_indResult(statistic=0.03479498734072727, pvalue=0.4863422498708747)

На основании имеющихся наблюдений при уровне значимости 𝛼=0.05 мы не можем отклонить основную гипотезу о равенстве средних в пользу альтернативной. Следовательно, мы принимаем основную гипотезу о том, что жители городов и сельской местности в среднем имеют одинаковое систолическое артериальное давление.

## Задача 4

Известно, что 52% новорождённых детей — мальчики, а 48% — девочки. В случайной выборке из 5 000 человек в возрасте от 30 до 60 лет мужчин оказалось 2 500. Можно ли на уровне значимости 0,05 считать, основываясь на этих данных, что смертность среди мужчин и женщин одинакова?

---

Основываясь на полученных данных, нельзя ничего предположить или проверить гипотезу о смертности среди мужчин и женщин: процентное соотношение новорожденных детей не даёт нам никакой полезной информации."В случайной выборке из 5 000 человек в возрасте от 30 до 60 лет мужчин оказалось 2 500" - эта информация так же не даёт никакого представления о смертности людей.

## Задача 5

В первом эксперименте для сравнения двух средних X1=17, X2=16 применялся t-критерий Стьюдента, и эти различия оказались значимы (p = 0, 001). 

Во втором исследовании, также при помощи t - критерия, сравнивались два средних X1=17, X2=36, и эти различия не значимы при p = 0,8. В чем может быть причина таких результатов, при условии, что нулевая и альтернативная гипотезы в обоих случаях одинаковы?

---

При условии фиксированного уровня значимости, причины таких результатов могут быть связаны со множеством факторов, таких как размер выборок и выборочная дисперсия - это одни из явных причин, которые можно наблюдать, взглянув на формулу статистики критерия Стьюдента для независимых выборок:

![image.png](attachment:image.png)

Если данные в выборках имеют различные распределения или характеристики (например, сильное смещение или наличие выбросов), это также может повлиять на результаты теста.