# Решение задач по статистике





## Задача 1
Имеется выборка напряжений батареек:
```
12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0
```
Нужно проверить, можно ли считать, что истинное среднее напряжение равно 12 В.

H0: $\mu = 12$ В
H1: $\mu \neq 12$ В


In [None]:
import numpy as np
from scipy import stats

sample = np.array([12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0])
mu0 = 12

res = stats.ttest_1samp(sample, mu0)
res

Интерпретация: если p-value < 0.05, то мы отвергаем H0. Иначе – не отвергаем.

## Задача 2
Есть два метода определения процентного содержания жира. Даны парные измерения для 10 образцов. Проверить, есть ли значимая разница между методами.

H0: средние равны
H1: средние отличаются


In [None]:
method1 = np.array([23.1,23.2,26.5,26.6,27.1,48.3,40.5,25.0,38.4,23.5])
method2 = np.array([22.7,23.6,27.1,27.4,27.4,46.8,40.4,24.9,38.1,23.8])

res2 = stats.ttest_rel(method1, method2)
res2

Если p-value < 0.05, методы статистически значимо отличаются.

## Задача 3
Имеются две независимые выборки:
- Горожане: [132, 111, 119, 138, 200, 131, 138, 170, 159, 140]
- Селяне: [115, 190, 127, 155, 148, 121, 116, 121, 197]

H0: среднее давление одинаково
H1: среднее давление у горожан выше, чем у селян

Сначала применим двусторонний t-тест, а затем при необходимости преобразуем в односторонний.

In [None]:
city = np.array([132, 111, 119, 138, 200, 131, 138, 170, 159, 140])
rural = np.array([115, 190, 127, 155, 148, 121, 116, 121, 197])

# Используем t-тест для независимых выборок.
# equal_var=False для учета возможной разной дисперсии (тест Уэлча)
res3 = stats.ttest_ind(city, rural, equal_var=False)
res3

Для односторонней проверки (город > село), если `city.mean()` действительно больше `rural.mean()`, можно взять p-value/2.
Если (p-value/2 < 0.05) и `mean(city) > mean(rural)`, то H1 подтверждается.

In [None]:
p_two_sided = res3.pvalue
print("p-value двустороннее:", p_two_sided)
if city.mean() > rural.mean():
    p_one_sided = p_two_sided/2
else:
    p_one_sided = 1 - p_two_sided/2

print("p-value одностороннее:", p_one_sided)
print("Среднее город:", city.mean(), ", Среднее село:", rural.mean())

## Задача 4
Известно, что при рождении 52% мальчиков. В выборке из 5000 чел. возрастом 30-60 лет оказалось 2500 мужчин. Проверить равенство пропорций.

H0: p = 0.52
H1: p ≠ 0.52


In [None]:
n = 5000
p0 = 0.52
x = 2500  # число "успехов", т.е. мужчин
phat = x/n
se = np.sqrt(p0*(1-p0)/n)
z = (phat - p0)/se
p_value = 2*(1 - stats.norm.cdf(abs(z)))
z, p_value

Если p-value < 0.05, отвергаем H0 и считаем, что смертность неодинакова.

## Задача 5
В первом исследовании разница средних (17 и 16) оказалась значима (p=0.001), во втором – разница средних (17 и 36) незначима (p=0.8).

Объяснение: Значимость разницы определяется не только разницей средних, но и дисперсией выборок, их объемом и прочими условиями. В первом случае, вероятно, малая дисперсия и/или большой объем выборки привели к тому, что даже небольшая разница стала статистически значимой. Во втором случае, большая вариабельность или малый размер выборок могли привести к тому, что даже большая разница средних не оказалась статистически значимой.
