# Практическая работа №2: Обработка выборочных данных. Нахождение точечных оценок параметров распределения

Выполнили студентки гр. 9383 Лихашва Анастасия и Карпекина Анна. Вариант №5

## Цель работы

Получение практических навыков нахождения точечных статистических оценок параметров распределения.

## Основные теоретические положения

Статистической оценкой $\Theta^*$ неизвестного параметра теоретического распределения $\Theta$ называется функцию от наблюдаемых случайной величины  $$\Theta^*=f\left(x_1, x_2, \ldots, x_n\right)$$   

Статистические оценки, определяемые одним числом называется точечными.  
Для того, чтобы оценки были надежными, к ним предъявляются требования несмещенности, состоятельности и эффективности.  
Оценка называется несмещенной, если её математическое ожидание равно оцениваемому параметру $\Theta$ при любом объеме выборки $n$, т.е. $$M\left(\Theta^*\right)=\Theta$$   

Оценка $\Theta^*$ называется эффективной, если при заданном объеме выборки $n$ она имеет наименьшую возможную дисперсию, т.е. $$D\left(\Theta^*\right) \rightarrow \min$$  

Оценка $\Theta^*$ называется состоятельной для параметра $\Theta$, если она сходится по вероятности к оцениваемому параметру при неограниченном возрастании объема выборки, т.е. $$\lim _{N \rightarrow \infty} P\left(\left|\Theta-\Theta^*\right| \leq \epsilon\right)=1$$ где $\epsilon>0$ - скольугодно малое положительное число. 

Для того, чтобы несмещенная оценка была состоятельной, необходимо и достаточно, чтобы было выполнено условие $$\lim _{N \rightarrow \infty} D\left(\Theta^*\right)=0$$  

Начальным эмпирическим моменток $k$-го порядка называется среднее значение $k$-х степеней элементов вариационного или интервального ряда: $$\bar{M}_k=\frac{1}{N} \sum n_j x_j^k$$ в частности $$\bar{x}_\sigma=\bar{M}_1=\frac{1}{N} \sum n_j x_j$$  

Центральным эмпирическим моментом $k$-го порядка называется среднее значение $k$-х степеней разностей $x_j-\bar{x}_{\varepsilon}$ для вариационного или интервального ряда: $$\bar{m}_k=\frac{1}{N} \sum n_j\left(x_j-\bar{x}_{\varepsilon}\right)^k$$  

В частности $$D_{\varepsilon}=\bar{m}_2=\frac{1}{N} \sum n_j\left(x_j-\bar{x}_{\varepsilon}\right)^2$$  

Следует отметить что указанная статистическая оценка дисперсии является смещенной оценкой, поэтому следует использовать исправленую оценку дисперсии $$s^2=\frac{N}{N-1} D_\sigma$$  

Статистические оценки СКO вычисляются как корень квадратный из соответствующих оценок дисперсии: $$\sigma_\sigma=\sqrt{D_\sigma} ; s=\sqrt{s^2}$$  

Статистические оценки ассиметрии и эксцесса вычисляются по формулам: $$\bar{A}_s=\frac{\bar{m}_3}{s^3} ; \bar{E}=\frac{\bar{m}_4}{s^4}-3$$  

Для упрощения вычислений эмпирических моментов вводят в рассмотрение так называемые условные варианты $$\quad u_j=\frac{x_j-C}{h}$$  
где $C$ - условный ноль, значение которого выбирается равным значению варианты интервального ряда, являющуюся средней или близкой к средней по значению в этом ряду. В результате все условные варианты оказываются целыми числами.  
Вводятся в рассмотрение условные моменты к-го порядка:
$$
\bar{M}_k^*=\frac{1}{N} \sum n_j\left(\frac{x_j-C}{h}\right)^k=\frac{1}{N} \sum n_j u_j^k
$$  
Легко показать справедливость следующих соотношений:
$$
\begin{gathered}
\bar{x}_6=\bar{M}_1=\bar{M}_1^* h+C \\
\bar{m}_2=\left(\bar{M}_2^*-\left(\bar{M}_1^*\right)^2\right) h^2 \\
\bar{m}_3=\left(\bar{M}_3^*-3 \bar{M}_2^* \bar{M}_1^*+2\left(\bar{M}_1^*\right)^3\right) h^3 \\
\bar{m}_4=\left(\bar{M}_4^*-4 \bar{M}_3^* \bar{M}_1^*+6 \bar{M}_2^*\left(\bar{M}_1^*\right)^2-3\left(\bar{M}_1^*\right)^4\right) h^4
\end{gathered}
$$

## Постановка задачи

Для заданных выборочных данных вычислить с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии и эксцесса исследуемой случайной величины. Полученные результаты содержательно проинтерпретировать.

## Выполнение работы



### Для середин интервального ряда, полученного в практической работе №1, вычислить условные варианты. 

In [None]:
from IPython.display import Javascript
def resize_colab_cell():
  display(Javascript('google.colab.output.setIframeHeight(0, true, {maxHeight: 300})'))
get_ipython().events.register('pre_run_cell', resize_colab_cell)

In [None]:
import pandas as pd
import numpy as np
from google.colab import files

files.upload()
df = pd.read_csv('student_clustering.csv')
df_iq = df.drop('cgpa', axis=1)

<IPython.core.display.Javascript object>

Saving student_clustering.csv to student_clustering.csv


In [None]:
import math
import statistics

k = np.floor(1 + 3.322 * math.log10(df_iq.size))
max = df_iq['iq'].max()
min = df_iq['iq'].min()
h = (max - min)/k
borders = []
for i in range(7):
  borders.append(round((min+i*h), 3))

borders.append(round((min+k*h), 3)) 
bins = pd.cut(df_iq['iq'], bins=[borders[i] for i in range(7)], right=False)

counts = pd.value_counts(bins, sort=False)

last_interval = pd.Interval(borders[-2], borders[-1], closed='both')
counts[last_interval] = len(df[(df['iq'] >= borders[-2]) & (df['iq'] <= borders[-1])])

df_interval_iq = pd.DataFrame(counts).reset_index()
df_interval_iq.columns = ['iq', 'Ni']
df_interval_iq.insert(1, 'Xi', df_interval_iq['iq'].apply(lambda x: (x.left + x.right)/2))
df_interval_iq = df_interval_iq.drop('iq', axis=1)
df_interval_iq['Pi'] = df_interval_iq['Ni'] / df_iq.size
df_interval_iq = df_interval_iq.drop('Ni', axis=1)
df_interval_iq = df_interval_iq.rename(columns = {'Pi': 'Ni'})


C = statistics.mean(df_interval_iq['Xi'])
print(C) #равняется 4 варианту интервального ряда
df_interval_iq['Ui'] = df_interval_iq['Xi'].apply(lambda x: (x - C)/h)

df_interval_iq['NiUi'] = df_interval_iq.apply(lambda row: row.Ni * row.Ui, axis=1)
df_interval_iq['NiUi^2'] = df_interval_iq.apply(lambda row: row.Ni * row.Ui**2, axis=1)
df_interval_iq['NiUi^3'] = df_interval_iq.apply(lambda row: row.Ni * row.Ui**3, axis=1)
df_interval_iq['NiUi^4'] = df_interval_iq.apply(lambda row: row.Ni * row.Ui**4, axis=1)
df_interval_iq['Ni(Ui+1)^4'] = df_interval_iq.apply(lambda row: round(row.Ni * (row.Ui+1)**4, 3), axis=1)

df_interval_iq.loc['Σ'] = df_interval_iq.sum()
df_interval_iq.iloc[-1, 2] = '-'

df_interval_iq



<IPython.core.display.Javascript object>

102.0


Unnamed: 0,Xi,Ni,Ui,NiUi,NiUi^2,NiUi^3,NiUi^4,Ni(Ui+1)^4
0,85.7145,0.2,-2.999961,-0.599992,1.799953,-5.399787,16.199147,3.2
1,91.143,0.084211,-1.999974,-0.168419,0.336833,-0.673658,1.347298,0.084
2,96.5715,0.189474,-0.999987,-0.189471,0.189469,-0.189466,0.189464,0.0
3,102.0,0.010526,0.0,0.0,0.0,0.0,0.0,0.011
4,107.4285,0.168421,0.999987,0.168419,0.168417,0.168414,0.168412,2.695
5,112.857,0.157895,1.999974,0.315785,0.631562,1.263108,2.526183,12.789
6,118.2855,0.189474,2.999961,0.568414,1.705218,5.115588,15.346561,48.503
Σ,714.0,1.0,-,0.094736,4.831452,0.284199,35.777064,67.282


In [None]:
moments = df_interval_iq.iloc[-1, [3,4,5,6]]
check = moments[3]+4*moments[2]+6*moments[1]+4*moments[0]+1
if round(check) == round(df_interval_iq.loc['Σ', ['Ni(Ui+1)^4']][0]):
  print('true')
else:
  print('false')  


<IPython.core.display.Javascript object>

true


Контрольные суммы совпадают, условие выполнено.

### Вычислить условные эмпирические моменты через условные варианты. С помощью условных эмпирических моментов вычислить центральные эмпирические моменты.

Условные эмпирические моменты:

In [None]:
df_moments_iq = pd.DataFrame(columns=['i', 'Vi'])
df_moments_iq.loc[0] = [1, df_interval_iq['NiUi']['Σ']/df_iq.size]
df_moments_iq.loc[1] = [2, df_interval_iq['NiUi^2']['Σ']/df_iq.size]
df_moments_iq.loc[2] = [3, df_interval_iq['NiUi^3']['Σ']/df_iq.size]
df_moments_iq.loc[3] = [4, df_interval_iq['NiUi^4']['Σ']/df_iq.size]
df_moments_iq


<IPython.core.display.Javascript object>

Unnamed: 0,i,Vi
0,1.0,0.000997
1,2.0,0.050857
2,3.0,0.002992
3,4.0,0.376601


Центральные эмпирические моменты:

In [None]:
#x = df_interval_iq.apply(lambda row: row['Ni'] * row['Xi'], axis=1).sum()/df_iq.size

x_st = 0
for i in range(7):
  x_st += df_interval_iq['Ni'][i]*df_interval_iq['Xi'][i]

print(x_st)  

x_2 = df_moments_iq['Vi'][0]*h + C
m1 = df_interval_iq.apply(lambda row: row['Ni'] * (row['Xi']-x_2), axis=1).sum()/df_iq.size

df_moments_iq['μi'] = pd.Series([m1, 
                                 (df_moments_iq['Vi'][1] - df_moments_iq['Vi'][0]**2)*h**2, 
                                 (df_moments_iq['Vi'][2] - 3*df_moments_iq['Vi'][1]*df_moments_iq['Vi'][0] + 2*(df_moments_iq['Vi'][0]**3))*h**3,
                                 (df_moments_iq['Vi'][3] - 4*df_moments_iq['Vi'][2]*df_moments_iq['Vi'][0] + 6*df_moments_iq['Vi'][1]*(df_moments_iq['Vi'][0]**2) - 3*df_moments_iq['Vi'][0]**4)*h**4])


df_moments_iq

<IPython.core.display.Javascript object>

102.51427894736842


Unnamed: 0,i,Vi,μi
0,1.0,0.000997,6.447405
1,2.0,0.050857,1.498707
2,3.0,0.002992,0.454242
3,4.0,0.376601,327.046805


### Вычислить выборочные среднее и дисперсию с помощью стандартной формулы и с помощью условных вариант. Убедиться, что результаты совпадают

Вычислим выборочное среднее по стандартной формуле:

In [None]:
x_st = 0
for i in range(7):
  x_st += df_interval_iq['Ni'][i]*df_interval_iq['Xi'][i]

print(x_st)  


<IPython.core.display.Javascript object>

102.51427894736842


Вычислим выборочное среднее с помощью условных вариант:

In [None]:
x_2 = df_moments_iq['Vi'][0]*h + C
print(x_2)

<IPython.core.display.Javascript object>

102.00541346260388


Вычислим дисперсию по стандартной формуле:

In [None]:
D = 0
for i in range(7):
  D += df_interval_iq['Ni'][i]*(df_interval_iq['Xi'][i]-x_2)**2
D = D/df_iq.size
print(D)  

<IPython.core.display.Javascript object>

1.4986777663278044


Вычислим дисперсию с помощью условных вариант:

In [None]:
print(df_moments_iq['μi'][1])

<IPython.core.display.Javascript object>

1.4987067634254063


Вычислим СКО:

In [None]:
standard_dev_D = math.sqrt(D)
print(standard_dev_D)

<IPython.core.display.Javascript object>

1.224204952745987


Результаты совпали с ожидаемыми - значения, полученные с помощью стандартных формул и через условные варианты, совпадают.

### Вычислить исправленную выборочную дисперсию и исправленное СКО. Сравнить данные оценки с смещёнными оценками дисперсии. Сделать выводы.

Исправленная оценка дисперсии:

In [None]:
S = (df_iq.size/(df_iq.size-1))*D
print(S)

<IPython.core.display.Javascript object>

1.5146211468206534


Вычислим СКО:

In [None]:
standard_dev_S = math.sqrt(S)
print(standard_dev_S)

<IPython.core.display.Javascript object>

1.230699454302574


В результате сравнения видно, что исправленные значения не много превышают смещенные.

### Найти статистическую оценку коэффициентов асимметрии и эксцесса. Сделать выводы.

In [None]:
As = df_moments_iq['μi'][2]/S**3
print(As)

<IPython.core.display.Javascript object>

0.130729979999162


In [None]:
E = (df_moments_iq['μi'][3]/S**4)-3
print(E)

<IPython.core.display.Javascript object>

59.14323348869949


Подсчет показал, что присутствует смещение симметрии влево, а также сильное отклонение от нормального распределения, это видно из высокого значения эксцесса.

### Для интервального ряда вычислить моду, медиану и коэффициент вариации заданного распределения. Сделать выводы

In [149]:
df_interval_iq = df_interval_iq.drop(df_interval_iq.index[-1])
idx_max_freq = df_interval_iq['Ni'].idxmax()
f_ui = df_interval_iq.loc[idx_max_freq, 'Ni']
ui = df_interval_iq.loc[idx_max_freq, 'Ui']
xi = df_interval_iq.loc[idx_max_freq, 'Xi']

mode = xi + ((f_ui - df_interval_iq.loc[idx_max_freq, 'Ni']) / ((2 * f_ui) - df_interval_iq.loc[idx_max_freq, 'Ni'] - df_interval_iq.loc[idx_max_freq+1, 'Ni'])) * h

print('Мода: ', mode)

<IPython.core.display.Javascript object>

Мода:  85.7145


In [None]:
df_interval_iq['Fi'] = df_interval_iq['Ni'].cumsum()
df_interval_iq['pi'] = df_interval_iq['Ni'] / df_interval_iq['Ni'].sum()
df_interval_iq['F(xi)'] = np.append(0, df_interval_iq['Fi'].values[:-1]) + df_interval_iq['pi'] / 2
median = np.interp(0.5, df_interval_iq['F(xi)'], df_interval_iq['Xi'])

print('Медиана: ', median)

cv = standard_dev_D/x_st*100
print('Коэффициент вариации: ', cv)


<IPython.core.display.Javascript object>

Медиана:  96.5715
Коэффициент вариации:  1.1941799379718632


Из полученных результатов видно, что присутствует малый разброс значений.

## Выводы

В ходе выполнения работы были получены практические навыки нахождения точечных статистических оценок параметров распределения. Для заданных выборочных данных были вычислены с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии и эксцесса исследуемой случайной величины.