Skip to content

Commit

Permalink
add lect 3
Browse files Browse the repository at this point in the history
  • Loading branch information
noasck committed Apr 24, 2021
1 parent 58c86fb commit 71e8ecb
Showing 1 changed file with 162 additions and 14 deletions.
176 changes: 162 additions & 14 deletions Statistics/Lectures/lectures_part_5.tex
Original file line number Diff line number Diff line change
Expand Up @@ -10,29 +10,29 @@ \subsection{Основнi поняття математичної статист
\begin{itemize}
\item\textbf{\color{javared} Математична статистика} -- це розділ математики, в якому вивчаються методи збору, систематизації та обробки інформації з метою виявлення існуючих закономірностей.
\end{itemize}
У математичній статистиці набір даних розглядається як реализація або спостереження деякої випадкової величини (в.в.) $\xi$, яка визначена на деякому ймовірнісному просторі $\left( \Sigma, F, P \right)$, пов'язаний із стохастичним експериментом.
У математичній статистиці набір даних розглядається як реализація або спостереження деякої випадкової величини (в.в.) $\xi$, яка визначена на деякому ймовірнісному просторі $\left( \Sigma, \mathcal{F}, P \right)$, пов'язаний із стохастичним експериментом.
\begin{itemize}
\item \textbf{\color{javared} Генеральна сукупність} (population) -- це (як правило, невідомий) ймовірнісний розподіл $F$ в.в. $\xi$, що спостерігається (ймовірнісна міра $P$)
\item \textbf{\color{javared} Вибірка} (sample) -- це набір незалежних в.в. $\xi_1, \xi_2 ,..., \xi_n$, кожна з яких має розподіл $F$. При цьому $n$ називається об'ємом вибірки.
\item \textbf{\color{javared} Генеральна сукупність} (population) -- це (як правило, невідомий) ймовірнісний розподіл $\mathcal{F}$ в.в. $\xi$, що спостерігається (ймовірнісна міра $P$)
\item \textbf{\color{javared} Вибірка} (sample) -- це набір незалежних в.в. $\xi_1, \xi_2 ,..., \xi_n$, кожна з яких має розподіл $\mathcal{F}$. При цьому $n$ називається об'ємом вибірки.
\item \textbf{\color{javared} Реалізація вибірки} -- це значення $x_1 , x_2 , ... , x_n$ або $\overrightarrow{x} = \begin{bmatrix}
x_1 & \cdots & x_n
\end{bmatrix}$, які прийняли в.в. $\xi_1 , ... , \xi_n$ в результаті конкретного стохастичного експерименту. При цьому $x_k$ називається \textbf{\color{javadocblue} варiантою}. Тобто:
$$
\begin{gathered}
\left( \Sigma , F, P \right)\\
\left( \Sigma , \mathcal{F}, P \right)\\
\omega_o \in \Sigma
\end{gathered} \qquad x_1 = \xi_1(\omega_0)\ , \ \cdots \ , \ x_n = \xi_n (\omega_0) \qquad \begin{array}{r}
\text{Вибірка: } (\xi_1 , ..., \xi_n) \\
\text{Реал. вибірки: } (x_1 , ... , x_n)
\end{array}
$$
\end{itemize}
Основою будь-яких висновкiв щодо властивостей г.с. $F$ є \textbf{\color{javadocblue} вибiрковий метод}, суть якого полягає в тому, що властивостi в.в. $\xi$
Основою будь-яких висновкiв щодо властивостей г.с. $\mathcal{F}$ є \textbf{\color{javadocblue} вибiрковий метод}, суть якого полягає в тому, що властивостi в.в. $\xi$
визначаються шляхом вивчення цих властивостей
на випадковiй вибiрцi. Множина всiх реалiзацiй $S$ вибiрки $x_1 , \dots , x_n$ називається \textbf{\color{javadocblue} вибiрковим простором}.

\begin{itemize}
\item Пара $(S,F)$ називається \textbf{\color{javadocblue} статистичною моделлю} опису серiї спостережень, якi породжують вибiрку. \item Якщо розподiл $F_{\xi}$ вiдомий з точнiстю до невiдомого вектора параметрiв $\overrightarrow{\theta} = \begin{bmatrix}
\item Пара $(S,\mathcal{F})$ називається \textbf{\color{javadocblue} статистичною моделлю} опису серiї спостережень, якi породжують вибiрку. \item Якщо розподiл $\mathcal{F}_{\xi}$ вiдомий з точнiстю до невiдомого вектора параметрiв $\overrightarrow{\theta} = \begin{bmatrix}
\theta_1 & \cdots & \theta_q
\end{bmatrix}$ з множиною значень
$\Theta (\overrightarrow{\theta} \in \Theta)$
Expand All @@ -42,7 +42,7 @@ \subsection{Основнi поняття математичної статист
\textbf{\color{javadocblue} вибiрковим розподiлом}, а значення $g(\overrightarrow{x})$ статистики за реалiзацiєю $\overrightarrow{x}$ - \textbf{ \color{javadocblue} вибiрковим
значенням}.
\end{itemize}
Статистичну модель називають неперервною або дискретною, якщо розподiл г.с. $F_\xi$ є
Статистичну модель називають неперервною або дискретною, якщо розподiл г.с. $\mathcal{F}_\xi$ є
неперервним або дискретним.
\begin{itemize}
\item
Expand Down Expand Up @@ -90,7 +90,7 @@ \subsection{Первинна обробка інформації.}
$$
R = x_{(n)} - x_{(1)}
$$
Нехай розподіл г.с. $F$ є дискретним. Тодi нехай $x_1^* , \dots , x_m^*$ – елементи вибiрки, впорядкованi
Нехай розподіл г.с. $\mathcal{F}$ є дискретним. Тодi нехай $x_1^* , \dots , x_m^*$ – елементи вибiрки, впорядкованi
за зростанням, причому кожне значення вказується лише один раз, $n_k$ – число разiв появи $x_k^*$ в реалiзацiї вибiрки. $n_k$ називається \red{частотою} появи $x_k^*$.\par
Зауважимо, що $n_1 + \dots + n_m = n$.\par
Сума частот елементiв $ \displaystyle\sum\limits_{i = 1}^{ \textbf{k}}{x_i^*}$ називається \blue{кумулятивною частотою} $n_k^*$:
Expand Down Expand Up @@ -171,7 +171,7 @@ \section{Дискриптивні міри.}
потрiбно введення числових параметрiв таких як, наприклад, середнє.\par
Iснують рiзнi шляхи, за допомогою яких ми можемо спробувати описати розподiл. Розглянемо
деякi з них, якi кориснi при описi гiстограми або полiгона частот.\par
Надалі, нехай $x_1, \dots, x_n$ реалiзацiя вибiрки з г.с. $F$.
Надалі, нехай $x_1, \dots, x_n$ реалiзацiя вибiрки з г.с. $\mathcal{F}$.

\subsection{Мiри центральної тенденцiї (measures of central tendency).}
\subsubsection{Вибiркове середнє.}
Expand Down Expand Up @@ -243,7 +243,7 @@ \subsubsection{Розмах вибiрки (range).}
R = x_{(n)} - x_{(1)}
$$
\subsubsection{Середнє абсолютне вiдхилення (mean absolute error).}
Якщо вiдомо математичне сподiвання розподiлу $F, \mathbb{E} \xi_j = \mu$ , тодi cереднє абсолютне вiдхилення розраховується наступним чином:
Якщо вiдомо математичне сподiвання розподiлу $\mathcal{F}, \mathbb{E} \xi_j = \mu$ , тодi cереднє абсолютне вiдхилення розраховується наступним чином:

\begin{itemize}
\item Якщо данi не групованi, то:
Expand Down Expand Up @@ -431,7 +431,7 @@ \subsubsection{Коефiцiєнт ексцесу (kurtosis).}
\item $Ek < 0$ – розподiл даних бiльш ”пласковершинний” нiж нормальний розподiл.
\end{itemize}
\section{Властивостi вибiркових характеристик.}
\subsection{Емпiрична функцiя розподiлу.}
\subsection{Емпiрична функцiя розподiлу. Властивостi.}
\begin{wrapfigure}[6]{R}{0.47\textwidth}
\vspace*{-2em}
\centering
Expand All @@ -445,7 +445,7 @@ \subsection{Емпiрична функцiя розподiлу.}
Із збільшенням кількості спостережень, емпірична функція розподілу наближається до теоретичної функції розподілу г.с. Зазначимо її основнi властивостi.

\begin{boxteo}[Консистентність]
Нехай $\xi_1, \dots , \xi_n$ – вибiрка з розподiлу $\mathbf{F}$ з ф.р. $F$ та нехай $F_n^*$ – емпiрична ф.р., яку
Нехай $\xi_1, \dots , \xi_n$ – вибiрка з розподiлу $\mathcal{F}$ з ф.р. $F$ та нехай $F_n^*$ – емпiрична ф.р., яку
побудовано по цiй вибiрцi. Тодi, $\forall y \in \mathbb{R}:$
$$
F_n^* (y) \xrightarrow[n\to\infty]{\text{м.н.}} F(y)
Expand All @@ -472,7 +472,7 @@ \subsection{Емпiрична функцiя розподiлу.}
\begin{boxteo}[Глівенко-Кантеллі]
В умовах теореми 3.1:
$$
\sup\limits_{y\in \mathbb{R}} \left| F_n^*(y) - F(y) \right| \xrightarrow[n \to \infty]{\text{м.н.}}
\sup\limits_{y\in \mathbb{R}} \left| F_n^*(y) - F(y) \right| \xrightarrow[n \to \infty]{\text{м.н.}} 0
$$
Без доведення $\blacksquare$.
\end{boxteo}
Expand All @@ -489,5 +489,153 @@ \subsection{Емпiрична функцiя розподiлу.}
\end{dcases}
$$
Без доведення $\blacksquare$.



\end{boxteo}



Нехай $\xi_1 , \dots, \xi_n$ --- вибірка з розподілу $\mathcal{F}$ з функцією розподілу $F$, а $F_n^*(y)$ -- емпірична функція розподілу. Тоді для довільного $y \in \mathbb{R}$:
\begin{enumerate}
\item $\mathbb{E} F_n^* (y) = F(y)$ \ \ \textit{(незміщеність оцінки)};
\item $\mathbb{D} F_n^* (y) = \dfrac{F(y) (1 -F(y))}{n} $;
\item $\sqrt{ n} \left( F_n^* (y) - F(y) \right) \ \Longrightarrow \ N(0, F(y) (1 - F(y)))$ при $F(y) \neq 0,1$;
\item величина $n F_n^* (y) $ має біноміальний розподіл $B(n. F(y))$.
\end{enumerate}
\begin{proof}
Помітимо, що $\index \left\lbrace \xi_1 < y \right\rbrace$ має розподiл Бернуллi $B(F(y))$, а тому:
$$
\mathbb{E} \index \left\lbrace \xi_1 < y \right\rbrace = F(y) \qquad \quad \mathbb{D}\index \left\lbrace \xi_1 < y \right\rbrace = F(y) (1- F(y))
$$
Оскiльки, крiм того $\index \left\lbrace \xi_1 < y \right\rbrace, \index \left\lbrace \xi_2 < y \right\rbrace, \dots $ є незалежними, то:
$$
nF_n^*(y) = \sum\limits_{i = 1}^{n}{\index \left\lbrace \xi_1 \right\rbrace} \ \sim \ B(n, F(y)) \ \Longrightarrow \ \textit{(властивість 4)}
$$
Властивостi 1, 2 випливають з 4-ї.
Для доведення 3-ї використаємо ЦГТ:
$$
\sqrt{n} (F_n^* - F(y)) = \frac{ \sum\limits_{i = 1}^{n}{\index \left\lbrace \xi_i < y \right\rbrace - nF(y)}}{\sqrt{n}} =\frac{ \sum\limits_{i = 1}^{n}{\index \left\lbrace \xi_i < y \right\rbrace - n \mathbb{E} \index (\xi_1 < y)}}{\sqrt{n} } \ \Longrightarrow
$$
$$
\Longrightarrow \ N(0, \mathbb{D} \index \left\lbrace \xi_1 < y \right\rbrace ) = N(0, F(y)(1 - F(y))) \ \ n \to \infty.
$$
\end{proof}
\subsection{Властивостi вибiркових моментiв.}
Нехай $\xi_1 , \dots , \xi_n$ --- вибірка з розподілу $\mathcal{F}$. Тоді:

\begin{enumerate}
\item Якщо $\mathbb{E} |\xi_1| < \infty $, то $\mathbb{E} \overline{\xi} = \mathbb{E} \xi_1 = a$ -- незміщеність $\overline{\xi}$;
\item Якщо $\mathbb{E} |\xi_1| < \infty $, то $\overline{\xi} \xrightarrow[n\to\infty]{\mathbb{P}} \mathbb{E} \xi_1 = a$ -- консистентність $\overline{\xi}$;
\item Якщо $\mathbb{D} \xi_1 < \infty, \mathbb{D} \xi_1 \neq 0$, то $\sqrt{n} (\overline{\xi} - \mathbb{E} \xi_1) \xrightarrow[n\to\infty]{} N(0, \mathbb{D} \xi_1)$
\end{enumerate}
\begin{proof}\ \\
\begin{itemize}
\item Властивiсть 1 випливає iз властивостей математичного сподiвання.\\
\item Доведення 2 та 3 випливає безпосередньо iз застосування ЗВЧ Хiнчина та ЦГТ,
вiдповiдно.
\end{itemize}
\end{proof}
\newpage
Вибiрковий $k$-й момент $\overline{\xi}^k$ є незмiщенною, консистентною та асимптотично нормальною для
теоретичного $k$-го момента.
Нехай $\xi_1 , \dots, \xi_n$ – вибiрка з розподiлу $\mathcal{F}$. Тодi:
\begin{enumerate}
\item Якщо $\mathbb{E} |\xi_1|^k < \infty , \mathbb{E} \overline{\xi}^k = \mathbb{E} \xi_1^k = m_k ;$
\item Якщо $\mathbb{E} |\xi_1|^k < \infty$ , то $ \overline{\xi}^k \xrightarrow[n\to\infty]{\mathbb{P}} \mathbb{E} \xi_1^k;$
\item Якщо $\mathbb{D}\xi_1^k < \infty , \mathbb{D} \xi_1^k \neq 0$, то $\sqrt{n} (\overline{\xi}^k - \mathbb{E} \xi_1^k) \xrightarrow[n\to\infty]{} N(0, \mathbb{D} \xi_1^k)$
\end{enumerate}
Вибiрковi дисперсiї мають наступнi властивостi:\par
Нехай $\xi_1 , \dots , \xi_n$ --- вибірка з розподілу $\mathcal{F}$ та $\mathbb{D} \xi_1 < \infty$. Тодi:
\begin{enumerate}
\item $\mathbb{E} s^2 = \frac{n-1}{n} \mathbb{D}\xi_1 = \frac{n-1}{n}\sigma^2 \neq \sigma^2 , \mathbb{E}s^2_0 = \mathbb{D} \xi_1 = \sigma^2 $;
\item $s^2 \xrightarrow[n\to\infty]{\mathbb{P}} \mathbb{D} \xi_1 = \sigma^2 , s^2_0 \xrightarrow[n\to\infty]{\mathbb{P}} \mathbb{D}\xi_1 = \sigma^2 $;

\end{enumerate}
\newpage
\section{Точкові оцінки параметрів Г.С.}
\vspace*{-2em}
Нехай є генеральна сукупнісь $\mathcal{F}$ випадкової величини $\xi$ з відомим розподілом, але невідомим вектором параметрів $\overrightarrow{\theta} = \begin{bmatrix}
\theta_1 & \cdots & \theta_n
\end{bmatrix}$.\\
\red{Оцінка $\theta^*$} параметру $\theta$ --- деяка статистика, значення якої ''близькі'' до $\theta$:
$$
\theta_n^* = \varphi(\xi_1 , \dots, \xi_n) \qquad \quad \theta \approx \theta^* (\xi_1 , ... , \xi_n)
$$
\vspace*{-4.5em}
\subsection{Методи побудови точкових оцінок.}
\vspace*{-1em}
\subsubsection{Метод моментів.}
\vspace*{-1em}
Нехай є генеральна сукупнісь $\mathcal{F}$ випадкової величини $\xi$, яка має характеристики:\\
{\centering
\blue{Теоретичні } ($\mathbb{E}\xi, \mathbb{D}\xi, \mathbb{E} \xi^k , \dots$)
\ та \
\blue{Вибіркові } ($\overline{\xi}, \mathbb{D}^{*, **,***}_\xi$)\\
}
Ідея методу моментів -- прийняти вибіркові значення характеристик за теоретичні.
\vspace*{-1.5em}
\subsubsection{Метод максимальної вірогідності (MLE).}
\vspace*{-1em}
Нехай $\mathcal{F}$ -- дискретна генеральна сукупність. Маємо:
$
\xi_1 , \dots , \xi_n \xrightarrow{\text{реалізація}} x_1 , \dots , x_n
$.
$$
\mathcal{L} (x_1, \dots, x_n, \theta) = \mathbb{P} \left\lbrace \xi_1 = x_1 , \dots , \xi_n = x_n \right\rbrace \ - \ \red{ Likelihood function.}
$$
\vspace*{-1em}
$$
\mathcal{L} (x_1, \dots, x_n, \theta) = \left| \independent \right| = \prod\limits_{i = 1}^{n}{ \mathbb{P} \left\lbrace \xi_i = x_i \right\rbrace} =
\prod\limits_{i = 1}^{ \infty}{\mathbb{P}_{\theta} \left\lbrace \xi= x_i \right\rbrace} \xrightarrow{\theta} \max
$$
Надалі максимізуємо вираз, застосувавши властивість монотонності логарифма:
\vspace*{-0.5em}
$$
\ln \mathcal{L} (x_1, \dots, x_n, \theta) = \sum\limits_{i = 1}^{ \infty} { \ln \mathbb{P}_{\theta} \left\lbrace \xi= x_i \right\rbrace} \xrightarrow{\theta} \max
$$
\vspace*{-0.5em}
$$
\frac{ \d \ln \mathcal{L} (x_1, \dots, x_n, \theta)}{\d \theta} =
\sum\limits_{i = 1}^{ \infty} { \frac{\d }{\d \theta} \ln \mathbb{P}_{\theta} \left\lbrace \xi= x_i \right\rbrace} = 0 \ \Longrightarrow \ \theta^*
$$
Нехай $\mathcal{F}$ -- неперервна генеральна сукупність. Маємо щільність розподілу вибірки:
\vspace*{-0.5em}
$$
\mathcal{L} (x_1, \dots, x_n , \theta) = f_{\xi_1 , \dots , \xi_n }(x_1, x_2 , \dots, x_n) = |\independent| = \prod\limits_{i = 1}^{n}{ f_{\xi_i} (x_i)} = \prod\limits_{i = 1}^{n}{ f_{\xi} (x_i)}
$$
Скористалися однаковою розподіленістю величин $\xi_1 , \dots , \xi_n$ з щільністю $f_{\xi} (x)$.\\ Надалі пошук оцінки $\theta^*$ аналогічно до дискретного випадку.
\subsection{Властивості оцінок.}
\subsubsection{Незміщеність(unbiasedness).}
\begin{defo}$\theta^*$ --- \red{незміщенна} оцінка параметру $\theta$, якщо $\mathbb{E} \theta^* = \theta$.
\end{defo}
\begin{defo}$\theta^*_n$ --- \red{ асимптотично незміщенна} оцінка параметру $\theta$, якщо:
$$\mathbb{E} \theta^* \xrightarrow[n\to\infty]{} \theta$$
\end{defo}
\subsubsection{Консистентність.}
\begin{defo} $\theta^*_n$ називається \red{консистентною} оцінкою параметра $\theta$, якщо:
$$
\theta^*_n \xrightarrow[n\to\infty]{\mathbb{P}} \theta \quad \blue{--- слабка} \qquad \quad
\theta^*_n \xrightarrow[n\to\infty]{\text{м.н.}} \theta \quad \blue{--- сильна }
$$
\end{defo}
\textit{Як перевіряти консистентність?}
\begin{enumerate}
\item За (посиленим, якщо у сенсі \textit{м.н.}) законом великих чисел.
\item За означенням збіжності ($\mathbb{P}$, \textit{м.н.}).
\item \textbf{Лема.} Для $\theta^*_n$: $\begin{cases}
\text{(Асимптотично) незміщена.}\\
\text{} \mathbb{D}\theta_n^* \xrightarrow[n\to\infty]{} 0
\end{cases} \Longrightarrow \theta_n^*$ -- слабко консистентна.
\begin{proof}
$$
\begin{cases}
\mathbb{E} \theta_n^* \xrightarrow[n\to\infty]{} 0;\\
\mathbb{D} \theta_n^* \xrightarrow[n\to\infty]{} 0.
\end{cases}
\Longrightarrow \left| \begin{gathered}
\text{За критерієм}\\
\mathbb{L}_2 \text{-збіжності до } const
\end{gathered} \right| \Longrightarrow \theta_n^* \xrightarrow[n\to\infty]{\mathbb{L}_2} \theta \Longrightarrow \theta_n^* \xrightarrow[n\to\infty]{\mathbb{P}} \theta
$$
\end{proof}
\end{enumerate}

0 comments on commit 71e8ecb

Please sign in to comment.