# Практическая работа №3: Обработка выборочных данных. Нахождение интервальных оценок параметров распределения. Проверка статистической гипотезы о нормальном распределении

Выполнили студенты гр. 9382 Рыжих Роман и Сорочина Мария. Вариант №2

## Цель работы

Получение практических навыков вычисления интервальных статистических оценок параметров распределения выборочных данных и проверки «справедливости» статистических гипотез.

## Основные теоретические положения

**Интервальная оценка** - оценка, задаваемая двумя числами - концами интервала.

**Точностью $\theta^*$** статистической оценки параметра $\theta$ называется значение $\delta$, удовлетворяющее неравенству $\delta>|\theta-\theta^*|$

**Надежностью (доверительной вероятностью)** оценки $\theta^*$ называется вероятность $\gamma$ , с которой выполняется неравенство $\gamma=P\{\delta>|\theta-\theta^*|\}$ или $\gamma=P\{\theta^*-\delta<\theta<\theta^*-\delta\}$

**Доверительным интервалом** называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Для нормально распределенной случайной величины
справедливо соотношение:
$Р\{|Х-а|<\delta\} = 2\Phi(\delta / \sigma)$,

где $\Phi(х)$ - функция Лапласа.

Доверительный интервал, покрывающий неизвестное значение параметра а с
надежностью $\gamma$ при известном СКО:
$(\overline{x}_в-t_\gamma \sigma/\sqrt{n}, \overline{x}_в+t_\gamma \sigma/\sqrt{n})$,

где $t_\gamma$ может быть определено по значениям $\gamma$ и $N$.


Доверительный интервал, покрывающий неизвестное значение параметра а с
надежностью $\gamma$ при неизвестном СКО:
$(\overline{x}_в-t_\gamma S/\sqrt{n}, \overline{x}_в+t_\gamma S/\sqrt{n})$,

где $t_\gamma$ может быть определено по значениям $\gamma$ и $N$.

Доверительный интервал, покрывающий неизвестное значение $\sigma$ с надежностью $\gamma$: 
$(S(1-q), S(1+q))$


**Статистической гипотезой** называют гипотезу о виде неизвестного распределения исследуемой случайной величины или о значении параметров известных распределений.

Выдвинутую гипотезу называют **нулевой** или **основной** гипотезой и обозначают $H_0$.
**Конкурирующей** или **альтернативной** называют
гипотезу $H_1$, которая противоречит основной гипотезе.
Различают **простые гипотезы** (содержат только одно
предположение) и **сложные гипотезы** (содержат более
одного предположения).

**Ошибка первого рода** состоит в том, что нулевая гипотеза отвергается, хотя она верна.
**Ошибка второго рода** состоит в том, что нулевая гипотеза принимается, хотя она неверна.
Вероятность совершения ошибки первого рода называют **уровнем значимости** и обозначают через $\alpha$.

Область принятия гипотезы и критическая область разделены точками, которые называются **критическими значениями критерия** $K_{кр}$.

В качестве критерия проверки гипотезы будем
использовать так называемый критерий $\chi^2$ или иначе -
**критерий Пирсона**. Это правосторонний критерий.
Согласно этому критерию на основании выборочных
данных вычисляется «наблюденное» значение случайной
величины $\chi^2$:

$\chi^2_{набл}=\sum_{i=1}^{K}\frac{(n_i-n'_i)^2}{n'}$, 

где $n'_i$ - теоретические частоты - частоты, с которыми нормально распределенная величина с параметрами $\overline{x}_в$ и $S$ попадала бы в $i$-й интервал интервального ряда при проведении $N$ испытаний.

**Область принятия гипотезы** $H_0$ определяется условием:
$\chi^2_{набл} \le \chi^2_{крит}$

Распределение $\chi^2$ зависит от **числа степеней
свободы** $k$ которое в данном случае вычисляется по
формуле: $k = K-3$. 
По числу степеней свободы и уровню значимости
вычисляется значение $\chi^2_{крит}=\chi^2(\alpha, k)$

## Постановка задачи

Для заданной надежности определить (на основании выборочных данных и результатов выполнения практической работы №2) границы доверительных интервалов для математического ожидания и среднеквадратичного отклонения случайной величины. Проверить гипотезу о нормальном распределении исследуемой случайной величины с помощью критерия Пирсона $\chi^2$. Дать содержательную интерпретацию полученным результатам.

## Выполнение работы

### Подготовка к выполнению работы



In [1]:
import pandas as pd
import numpy as np
import math
import scipy.stats as stats
from IPython.display import display, HTML
import matplotlib.pyplot as plt


data = pd.read_csv('data.csv')
k = 1 + math.floor(3.31 * math.log10(len(data)))
data
N = len(data)

#AGE
feature1 = data.loc[:, ['Age']]
x_min1 = feature1['Age'].min()
x_max1 = feature1['Age'].max()
h1 = math.ceil((x_max1 - x_min1) / k)
bins1 = np.arange(x_min1, x_max1+h1, h1)
cuted1 = pd.cut(feature1["Age"], bins1, right=False)

intervals1 = feature1.groupby(cuted1, as_index=False)['Age'].count()
intervals1 = intervals1.rename(columns={'Age': 'частота попадания'})
cuted1 = sorted(list(set(cuted1)), key=lambda x: x.left) 
intervals1['interval'] = cuted1
intervals1["середина интервала"] = [i.right-h1/2 for i in cuted1]
intervals1['относительная частота'] = intervals1['частота попадания'] / len(data)
#intervals1.iloc[:, [1, 2,3]].set_index(pd.Index([i for i in range(1, 8)]))

XB1 = sum(intervals1["середина интервала"] * intervals1['относительная частота'])
D1 = sum((intervals1["середина интервала"] - XB1) ** 2 * intervals1['относительная частота'])
Du1 = N / (N - 1) * D1
S1 = Du1 ** 0.5
print([round(i, 4) for i in [XB1, D1, Du1, S1]])


#FARE
feature2 = data.loc[:, ['Fare']]
x_min2 = feature2['Fare'].min()
x_max2 = feature2['Fare'].max()
h2 = math.ceil((x_max2 - x_min2) / k)
bins2 = np.arange(x_min2, x_max2+h2, h2)
cuted2 = pd.cut(feature2["Fare"], bins2, right=False)

intervals2 = feature2.groupby(cuted2, as_index=False)['Fare'].count()
intervals2 = intervals2.rename(columns={'Fare': 'частота попадания'})
cuted2 = [(round(bins2[i], 4), round(bins2[i+1], 4)) for i in range(len(bins2) - 1)]
intervals2['interval'] = cuted2
intervals2["середина интервала"] = [i[1]-h2/2 for i in cuted2]
intervals2['относительная частота'] = intervals2['частота попадания'] / len(data)
#intervals2.iloc[:, [1, 2, 3]].set_index(pd.Index([i for i in range(1, 8)]))

XB2 = sum(intervals2["середина интервала"] * intervals2['относительная частота'])
D2 = sum((intervals2["середина интервала"] - XB2) ** 2 * intervals2['относительная частота'])
Du2 = N / (N - 1) * D2
S2 = Du2 ** 0.5
print([round(i, 4) for i in [XB2, D2, Du2, S2]])


[31.4652, 213.2162, 215.0865, 14.6658]
[47.6143, 3684.6294, 3716.9507, 60.9668]


### Вычислить точность и доверительный интервал для математического ожидания при неизвестном среднеквадратичном отклонении при заданном объёме выборки для доверительной точности $\gamma \in \{0.95, 0.99\}$

#### Признак 'Age'

In [2]:
gamma = [0.95, 0.99]
t = [stats.t.ppf((1 + g) / 2, df = N - 1) for g in gamma]

delta1 = [tt * S1 / (N ** 0.5) for tt in t]
#N, t, delta1, [(XB1 - d, XB1 + d) for d in delta1]
print("Выборочное среднее:", XB1)
print("При 𝛾 = 0.95 и N = 115, точность 𝛿 =", round(delta1[0], 4), ", доверительный интервал: ", (round(XB1 - delta1[0], 4), round(XB1 + delta1[0], 4)))
print("При 𝛾 = 0.99 и N = 115, точность 𝛿 =", round(delta1[1], 4), ", доверительный интервал: ", (round(XB1 - delta1[1], 4), round(XB1 + delta1[1], 4)))

Выборочное среднее: 31.465217391304346
При 𝛾 = 0.95 и N = 115, точность 𝛿 = 2.7092 , доверительный интервал:  (28.756, 34.1744)
При 𝛾 = 0.99 и N = 115, точность 𝛿 = 3.5826 , доверительный интервал:  (27.8826, 35.0478)


С вероятность 95% математическое ожидание находится в интервале (28.756, 34.1744), а с вероятностью 99% находится в интервале (27.8826, 35.0478).

#### Признак 'Fare'

In [3]:
delta2 = [tt * S2 / (N ** 0.5) for tt in t]
#N, t, delta1, [(XB1 - d, XB1 + d) for d in delta1]
print("Выборочное среднее:", XB2)
print("При 𝛾 = 0.95 и N = 115, точность 𝛿 =", round(delta2[0], 4), ", доверительный интервал: ", (round(XB2 - delta2[0], 4), round(XB2 + delta2[0], 4)))
print("При 𝛾 = 0.99 и N = 115, точность 𝛿 =", round(delta2[1], 4), ", доверительный интервал: ", (round(XB2 - delta2[1], 4), round(XB2 + delta2[1], 4)))

Выборочное среднее: 47.61427826086956
При 𝛾 = 0.95 и N = 115, точность 𝛿 = 11.2623 , доверительный интервал:  (36.352, 58.8766)
При 𝛾 = 0.99 и N = 115, точность 𝛿 = 14.8932 , доверительный интервал:  (32.7211, 62.5074)


С вероятность 95% математическое ожидание находится в интервале (36.352, 58.8766), а с вероятностью 99% находится в интервале (32.7211, 62.5074).

### Для вычисления границ доверительного интервала для среднеквадратичного отклонения определить значение $q$ при заданных $\gamma$ и $n$. Построить доверительные интервалы.

#### Признак 'Age'

In [4]:
q = [0.143, 0.198] #из Приложения 7 (N = 100)
print("СКО:", S1)
print("Доверительный инетрвал при 𝛾 = 0.95:", (round(S1 * (1 - q[0]), 4), round(S1 * (1 + q[0]), 4)))
print("Доверительный инетрвал при 𝛾 = 0.99:", (round(S1 * (1 - q[1]), 4), round(S1 * (1 + q[1]), 4)))

СКО: 14.665827588507756
Доверительный инетрвал при 𝛾 = 0.95: (12.5686, 16.763)
Доверительный инетрвал при 𝛾 = 0.99: (11.762, 17.5697)


С вероятность 95% среднеквадратичное отклонение находится в интервале (12.5686, 16.763) и с вероятностью 99% находится в интервале (11.762, 17.5697).

#### Признак 'Fare'

In [5]:
print("СКО:", S2)
print("Доверительный инетрвал при 𝛾 = 0.95:", (round(S2 * (1 - q[0]), 4), round(S2 * (1 + q[0]), 4)))
print("Доверительный инетрвал при 𝛾 = 0.99:", (round(S2 * (1 - q[1]), 4), round(S2 * (1 + q[1]), 4)))

СКО: 60.966800183687525
Доверительный инетрвал при 𝛾 = 0.95: (52.2485, 69.6851)
Доверительный инетрвал при 𝛾 = 0.99: (48.8954, 73.0382)


С вероятность 95% среднеквадратичное отклонение находится в интервале (52.2485, 69.6851) и с вероятностью 99% находится в интервале (48.8954, 73.0382).

### Проверить гипотезу о нормальности заданного распределения с помощью критерия $\chi^2$ (Пирсона)

$H_0$: случайная величина распределена по нормальному закону распределения

$H_1$: случайная величина распределена по закону распределения отличному от нормального


Новые границы интервалов вычисляются по формуле: $z_i = \frac{x_i - \overline{x}_в}{S}$. Первый интервал начинается в $-\infty$, последний заканчивается в $-\infty$.

$p_i = \Phi(z_{i+1}) - \Phi(z_i)$

#### Признак 'Age'

In [6]:
alpha = 0.05

interv1 = []
for i in range(k):
    n = intervals1['interval'][i]
    interval = ()
    if i == 0:
        interval = (-np.Inf, round((n.right - XB1) / S1, 3 ))
    elif i == k - 1: 
        interval = (round((n.left - XB1) / S1, 3), np.Inf)
    else:
        #n1 = intervals1['середина интервала'][i-1]
        interval = (round((n.left - XB1) / S1, 3), round((n.right - XB1) / S1, 3))
    
    interv1.append(interval)
    
interv1

[(-inf, -1.327),
 (-1.327, -0.577),
 (-0.577, 0.173),
 (0.173, 0.923),
 (0.923, 1.673),
 (1.673, 2.423),
 (2.423, inf)]

In [7]:
table1 = pd.DataFrame({'интервал': intervals1['interval'],
                       'z': interv1,
                      '$n_i$': intervals1['относительная частота'] * N})

table1['$p_i$'] = [((stats.norm.cdf(table1['z'][i][1]) - 0.5) - (stats.norm.cdf(table1['z'][i][0]) - 0.5)) for i in range(k)]
table1["$n'_i$"] = N * table1['$p_i$']
table1["$(n_i - n'_i)^2$"] = (table1["$n_i$"] - table1["$n'_i$"]) ** 2
table1["$(n_i - n'_i)^2/n'_i$"] = table1["$(n_i - n'_i)^2$"] / table1["$n'_i$"]
table1["$n_i^ 2$"] = table1["$n_i$"] ** 2
table1["$n_i^ 2/n'_i$"] = table1["$n_i^ 2$"] / table1["$n'_i$"]


(table1
 .style
 .set_table_styles([{'selector': 'th', 
                     'props': [('width', '100px')]
                     }])
)


Unnamed: 0,интервал,z,$n_i$,$p_i$,$n'_i$,$(n_i - n'_i)^2$,$(n_i - n'_i)^2/n'_i$,$n_i^ 2$,$n_i^ 2/n'_i$
0,"[1.0, 12.0)","(-inf, -1.327)",6.0,0.092254,10.609249,21.245179,2.002515,36.0,3.393266
1,"[12.0, 23.0)","(-1.327, -0.577)",28.0,0.189715,21.817269,38.226157,1.752105,784.0,35.934836
2,"[23.0, 34.0)","(-0.577, 0.173)",42.0,0.286705,32.971024,81.522404,2.472547,1764.0,53.501523
3,"[34.0, 45.0)","(0.173, 0.923)",17.0,0.253322,29.132043,147.186462,5.052391,289.0,9.920348
4,"[45.0, 56.0)","(0.923, 1.673)",14.0,0.13084,15.046595,1.095361,0.072798,196.0,13.026203
5,"[56.0, 67.0)","(1.673, 2.423)",6.0,0.039467,4.538726,2.135321,0.470467,36.0,7.931741
6,"[67.0, 78.0)","(2.423, inf)",2.0,0.007696,0.885093,1.243017,1.404391,4.0,4.519298


In [8]:
chi1 = sum(table1["$(n_i - n'_i)^2/n'_i$"])
chiCrit1 = stats.chi2.ppf(1 - alpha, k-3)
chi1, chiCrit1, chi1 <= chiCrit1

(13.2272137423799, 9.487729036781154, False)

Были вычислены $\chi^2_{Набл} = 13.23$ и $\chi^2_{крит} = 9.49$. Поскольку $\chi^2_{Набл} > \chi^2_{крит}$, нулевая гипотеза отвергается. То есть принимается альтернативная гипотеза и утверждение, что закон распределения случайной величины не соответствует нормальному.

#### Признак 'Fare'

In [9]:
interv2 = []
for i in range(k):
    n = intervals2['interval'][i]
    interval = ()
    if i == 0:
        interval = (-np.Inf, round((n[1] - XB2) / S2, 3 ))
    elif i == k - 1: 
        interval = (round((n[0] - XB2) / S2, 3), np.Inf)
    else:
        interval = (round((n[0] - XB2) / S2, 3), round((n[1] - XB2) / S2, 3))
    
    interv2.append(interval)
    
interv2

[(-inf, -0.106),
 (-0.106, 0.518),
 (0.518, 1.141),
 (1.141, 1.764),
 (1.764, 2.387),
 (2.387, 3.011),
 (3.011, inf)]

In [10]:
table2 = pd.DataFrame({'интервал': intervals2['interval'],
                       'z': interv2,
                      '$n_i$': intervals2['относительная частота'] * N})

table2['$p_i$'] = [((stats.norm.cdf(table2['z'][i][1]) - 0.5) - (stats.norm.cdf(table2['z'][i][0]) - 0.5)) for i in range(k)]
table2["$n'_i$"] = N * table2['$p_i$']
table2["$(n_i - n'_i)^2$"] = (table2["$n_i$"] - table2["$n'_i$"]) ** 2
table2["$(n_i - n'_i)^2/n'_i$"] = table2["$(n_i - n'_i)^2$"] / table2["$n'_i$"]
table2["$n_i^ 2$"] = table2["$n_i$"] ** 2
table2["$n_i^ 2/n'_i$"] = table2["$n_i^ 2$"] / table2["$n'_i$"]

(table2
 .style
 .set_table_styles([{'selector': 'th', 
                     'props': [('width', '100px')]
                     }])
)

Unnamed: 0,интервал,z,$n_i$,$p_i$,$n'_i$,$(n_i - n'_i)^2$,$(n_i - n'_i)^2/n'_i$,$n_i^ 2$,$n_i^ 2/n'_i$
0,"(3.1708, 41.1708)","(-inf, -0.106)",87.0,0.457791,52.645985,1180.198329,22.417632,7569.0,143.771647
1,"(41.1708, 79.1708)","(-0.106, 0.518)",16.0,0.23998,27.597664,134.505816,4.873812,256.0,9.276147
2,"(79.1708, 117.1708)","(0.518, 1.141)",1.0,0.175294,20.15883,367.060764,18.208436,1.0,0.049606
3,"(117.1708, 155.1708)","(1.141, 1.764)",1.0,0.088069,10.127932,83.319138,8.226669,1.0,0.098737
4,"(155.1708, 193.1708)","(1.764, 2.387)",0.0,0.030373,3.492866,12.20011,3.492866,0.0,0.0
5,"(193.1708, 231.1708)","(2.387, 3.011)",4.0,0.007191,0.827,10.067931,12.174045,16.0,19.347045
6,"(231.1708, 269.1708)","(3.011, inf)",6.0,0.001302,0.149724,34.225734,228.592796,36.0,240.443072


In [11]:
chi2 = sum(table2["$(n_i - n'_i)^2/n'_i$"])
chiCrit2 = stats.chi2.ppf(1 - alpha, k-3)
chi2, chiCrit2, chi2 <= chiCrit2

(297.98625464585257, 9.487729036781154, False)

Были вычислены $\chi^2_{Набл} = 297.986$ и $\chi^2_{крит} = 9.49$. Поскольку $\chi^2_{Набл} > \chi^2_{крит}$, нулевая гипотеза отвергается. То есть принимается альтернативная гипотеза и утверждение, что закон распределения случайной величины не соответствует нормальному.

## Выводы

В ходе выполнения работы были вычислены точность и доверительный интервал для математического ожидания при неизвестном среднеквадратичном отклонении для доверительных точностей 0.95 и 0.99. 
Для признака 'Age' было определено, что с надежностью 0.95 математическое ожидание находится в интервале (28.756, 34.1744), и с надежностью 0.99 оно находится в интервале (27.8826, 35.0478).
Для признака 'Fare' было определено, что с надежностью 0.95 математическое ожидание находится в интервале (36.352, 58.8766), а с надежностю 0.99 находится в интервале (32.7211, 62.5074).

Также были вычислены доверительные интервалы для среднеквадратичного отклонения. 
Для признака 'Age' было определено, что с надежностью 0.95 среднеквадратичное отклонение находится в интервале (12.5686, 16.763) и с надежностью 0.99 находится в интервале (11.762, 17.5697). 
Для признака 'Fare' было определено, что с надежностью 0.95 среднеквадратичное отклонение находится в интервале (52.2485, 69.6851) и с надежностью 0.99 находится в интервале (48.8954, 73.0382).

Кроме того, была проверена гипотеза о нормальности заданного распределения с помощью критерия Пирсона. Для обоих признаков была принята альтернативная гипотеза.