In [1]:
import numpy as np
import scipy.stats as stats
from scipy.stats import rankdata

## Задача 1

Известно, что в генеральной совокупности средняя продолжительность жизни мужчин в Европе составляет $µ_0 = 75,1$ года. Вам дана некоторая выборка мужчин, продолжительность жизни которых составляет 56, 81, 72, 65, 67, 62 и 70 лет соответственно. Проверьте нулевую гипотезу о том, что средняя продолжительность мужчин в выборке не отличается от среднего совокупности: $µ_0 = µ_1$.

In [22]:
# Используем одновыборочный t-критерий Стъюдента

sample1 = np.array([56, 81, 72, 65, 67, 62, 70])
mu_0 = 75.1

t = (mu_0 - sample1.mean()) / (sample1.std()/np.sqrt(len(sample1)))
print(f'выборочное среднее: {sample1.mean()}')
print(f'число степеней свободы = {len(sample1)-1}')
print(f'значение t-критерия = {t:0.3f}' )

выборочное среднее: 67.57142857142857
число степеней свободы = 6
значение t-критерия = 2.712


df| 0.05 | 0.01 | 0.001|
--|------|------|------|
6 |	2.447| 3.707|	5.959|

Т.к. для 6 степеней свободы расчетное значение 2.712 больше табличного 2.447 (но меньше 3.707) , cледовательно гипотезу $H_0$ нельзя отклонить на уровне значимости 0.05, но можно отклонить на уровне значимости 0.01.


## Задача 2

По выборке объёма $n = 35$ найден средний вес изделий, изготовленных на заводе: $µ_1 = 144$ г. Известно, что по ГОСТу средний вес деталей составляет $µ_0 = 135$ г. Среднеквадратичное в выборке равняется $σ = 50$г. Проверьте нулевую гипотезу о равенстве средних: $µ_0 = µ_1$.

In [3]:
# Используем одновыборочный t-критерий Стъюдента

mu_0 = 135
sample_mean = 144
n = 35

t = (sample_mean - mu_0) / (sample_mean/np.sqrt(n))
print(f'выборочное среднее: {sample_mean}')
print(f'число степеней свободы = {n-1}')
print(f'значение t-критерия = {t}' )

выборочное среднее: 144
число степеней свободы = 34
значение t-критерия = 0.369754986443726


Т.к. расчетное значение 0.37 меньше табличного 2.032 для степени свободы 34, то у нас есть основания отклонить гипотезу $H_0$.

### Доверительные интервалы

In [4]:
def normal_confidence_interval(n, mean, std, alpha=0.05):
    '''
    функция вычисляет доверительный интервал для уровня значимости 0.05
    с помощью нормального распределения
    '''
    # число степеней свободы
    df = n - 1

    # стандартная ошибка среднего
    std_err = std / np.sqrt(df)

    z_value = stats.norm.ppf(1 - alpha / 2)
    return [mean - z_value * std_err, mean + z_value * std_err]


def t_student_confidence_interval(n, mean, std, alpha=0.05):
    '''
    функция вычисляет доверительный интервал для уровня значимости 0.05
    с помощью t-распределения
    '''

    # стандартная ошибка среднего
    standard_error = std / np.sqrt(n)

    # Вычислим доверительный интервал с помощью t-распределения
    alpha = 0.05  # уровень доверия 95%
    t_critical = stats.t.ppf(1 - alpha/2, df=n-1)  # критическое значение t для двустороннего доверительного интервала
    margin_of_error = t_critical * standard_error
    return [mean - margin_of_error, mean + margin_of_error]

## Задача 3

Согласно статистике, в некотором городе в 100 заведениях общепита среднее число сотрудников составляет 12,4 со стандартным отклонением 4,8. Определите доверительный интервал 95% числа работников общепита.

In [5]:
n = 100
mean = 12.4
std = 4.8

In [6]:
### Определим доверительный интервал с помощью нормального распределения
normal_confidence_interval(n,mean,std)

[11.45447779791574, 13.345522202084261]

In [7]:
### Определим доверительный интервал с помощью t-распределения
t_student_confidence_interval(n, mean, std, alpha=0.05)

[11.447575863275834, 13.352424136724167]

## Задача 4

Для случайной выборки из совокупности из 54 наблюдений известны следующие величины:
сумма значений в наблюдениях = 450, сумма квадратов отклонения значений от среднего равна 2600. Вычислите доверительный интервал 95% для математического ожидания.   

In [8]:
n = 54
sample_sum = 450
sum_squares = 2600

# Выборочное среднее
mean = sample_sum / n
# выборочное среднеквдратичное отклонение
std = np.sqrt(sum_squares / (n - 1))

In [9]:
### Определим доверительный интервал с помощью нормального распределения
normal_confidence_interval(n,mean,std)

[6.44769284218073, 10.21897382448594]

In [10]:
### Определим доверительный интервал с помощью t-распределения
t_student_confidence_interval(n, mean, std, alpha=0.05)

[6.4215978871147135, 10.245068779551955]

## Задача 5

Дана реализация двух случайных ненормально распределённых величин X и Y. Проверьте нулевую гипотезу о равенстве средних значений: µx = µy. Подсказка: воспользуйтесь непараметрическим тестом (критерием Манна — Уитни).

X:	-2	1	4	-1	5	7	9	0	12 <br>
Y:	6	-3	2	1	0	4	2

In [11]:
sample1 = np.array([ -2, 1, 4, -1, 5, 7, 9, 0, 12])
sample2 = np.array([6, -3, 2, 1, 0, 4, 2])
sample_united = list(sample1)+list(sample2)
rank_united= rankdata(sample_united)
rank1 = rank_united[:len(sample1)]
rank2 = rank_united[len(sample1):]

In [12]:
func = lambda sample1,sample2: (len(sample1), rank1.sum()) \
       if rank1.sum() >= rank2.sum() \
       else (len(sample2), rank2.sum())

In [21]:
n = func(sample1,sample2)
U = len(sample1)*len(sample2) + n[0]*(n[0]+1)/2  - n[1]

print(f'выборочное среднее для 1-й выборки: {sample1.mean():0.2f}')
print(f'выборочное среднее для 2-й выборки: {sample2.mean():0.2f}')
print('--'*20)
print('объем 1-й выборки N1:',len(sample1))
print('объем 2-й выборки N2:',len(sample2))
print('--'*20)
print('расчетное значение U-критерия:',U)

выборочное среднее для 1-й выборки: 3.89
выборочное среднее для 2-й выборки: 1.71
----------------------------------------
объем 1-й выборки N1: 9
объем 2-й выборки N2: 7
----------------------------------------
расчетное значение U-критерия: 24.5


В таблице для уровня знаимости 0.05 находим критическое значение соответствующее N1 = 9 и N2 = 7 равное 12 (а для уровня значимости 0.01  табличное значение = 7).
Поскольку расчетное значение  24,5 больше табличного 12, то у нас есть основания отвергнуть нулевую гипотезу о равенстве средних значений.

# ПРИЛОЖЕНИЕ. Таблицы критических значений

## Таблица критических значений t-критерия Стьюдента
В таблице критических значений t-критерия Стьюдента находятся теоретические значения критерия.(df = n-1 - число степеней свободы, n - объем выборки)

|df |р=0,05|р=0,01|	р=0,001|
|---|------|------|--------|
|1	|12,70 |63,65 |	636,61 |
|2	|4,303 |9,925 |	31,602 |
|3	|3,182 |5,841 |	12,923 |
|4	|2,776 |4,604 |	8,610  |
|5	|2,571 |4,032 |	6,869  |
|6	|2,447 |3,707 |	5,959  |
|7	|2,365 |3,499 |	5,408  |
|8	|2,306 |3,355 |	5,041  |
|9	|2,262 |3,250 |	4,781  |
|10	|2,228 |3,169 |	4,587  |
|11	|2,201 |3,106 |	4,437  |
|12|2,179| 3,055| 4,318|
|13|2,160| 3,012| 4,221|
|14|2,145| 2,977| 4,140|
|15|2,131| 2,947| 4,073|
|16|2,120| 2,921| 4,015|
|17|2,110| 2,898| 3,965|
|18|2,101| 2,878| 3,922|
|19|2,093| 2,861| 3,883|
|20|2,086| 2,845| 3,850|
|21|2,080| 2,831| 3,819|
|22|2,074| 2,819| 3,792|
|23|2,069| 2,807| 3,768|
|24|2,064| 2,797| 3,745|
|25|2,060| 2,787| 3,725|
|26|2,056| 2,779| 3,707|
|27|2,052| 2,771| 3,690|
|28|2,049| 2,763| 3,674|
|29|2,045| 2,756| 3,659|
|30|2,042| 2,750| 3,646|
|31|2,040| 2,744| 3,633|
|32|2,037| 2,738| 3,622|
|33|2,035| 2,733| 3,611|
|34|2,032| 2,728| 3,601|
|35|2,030| 2,724| 3,591|
|36|2,028| 2,719| 3,582|
|37|2,026| 2,715| 3,574|
|38|2,024| 2,712| 3,566|
|39|2,023| 2,708| 3,558|
|40|2,021| 2,704| 3,551|



## Таблица критических значений критерия U-Манна-Уитни для уровня значимости 0,05 .

Таблица критических значений для уровня значимости p = 0,05<br>

N1|N2: 7|8|9|10|11|12|13|14|15|16|17|18|
--|-|-|-|--|--|--|--|--|--|--|--|--|
3|1|2|2|3|3|4|4|5|5|6|6|7|
4|3|4|4|5|6|7|8|9|10|11|11|12|
5|5|6|7|8|9|11|12|13|14|15|17|18|
6|6|8|10|11|13|14|16|17|19|21|22|24|
7|8|10|12|14|16|18|20|22|24|26|28|30|
8|10|13|15|17|19|22|24|26|29|31|34|36|
9|12|15|17|20|23|26|28|30|34|37|39|42|
10|14|17|20|23|26|29|33|36|39|42|45|48|
11|16|19|23|26|30|33|37|40|44|48|51|55|
12|18|22|26|29|33|37|41|45|49|53|57|61|
13|20|24|28|33|37|41|45|50|54|59|63|67|
14|22|26|31|36|40|45|50|55|59|64|67|74|
15|24|29|34|39|44|49|54|59|64|70|75|80|
16|26|31|37|42|47|53|59|64|70|75|81|86|
17|28|34|39|45|51|57|63|67|75|81|87|93|
18|30|36|42|48|55|61|67|74|80|86|93|99|
19|32|38|45|52|58|65|72|78|85|92|99|106|
20|34|41|48|55|62|69|76|83|90|98|105|112|

Таблица критических значений для уровня значимости p=0,01

|N1|N2: 7|8|9|10|11|12|13|14|15|16|17|18|
--|-|-|-|--|--|--|--|--|--|--|--|--|
|3| | |0 |0 |0 |1 |1 |1 |2 |2 |2 |2 |
|4|0|1|1|2|2|3|3|4|5|5|6|6|
|5|1|2|3|4|4|6|7|7|8|9|10|11|
|6|3|4|5|6|6|9|10|11|12|13|15|16|
|7|4|6|7|9|9|12|13|15|16|18|19|21|
|8|6|7|9|11|11|15|17|18|20|22|24|26|
|9|7|9|11|13|13|18|20|22|24|27|29|31|
|10|9|11|13|16|16|21|24|26|29|31|34|37|
|11|10|13|16|18|18|24|27|30|33|36|39|42|
|12|12|15|18|21|21|27|31|34|37|41|44|47|
|13|13|17|20|24|24|31|34|38|42|45|49|53|
|14|15|18|22|26|26|34|38|42|46|50|54|58|
|15|16|20|24|29|29|37|42|46|51|55|60|64|
|16|18|22|27|31|31|41|45|50|55|60|65|70|
|17|19|24|29|34|34|44|49|54|60|65|70|75|
|18|21|26|31|37|37|47|53|58|64|70|75|81|
|19|22|28|33|39|39|51|56|63|69|74|81|87|
|20|24|30|36|42|42|54|60|67|73|79|86|92|