<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BC%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%B0%D0%B2%D0%B4%D0%BE%D0%BF%D0%BE%D0%B4%D0%BE%D0%B1%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Метод максимального правдоподобия



#### Введение

Метод максимального правдоподобия (ММП) — это один из фундаментальных методов статистической оценки параметров распределения вероятностей. Основная идея заключается в нахождении таких значений параметров модели, которые делают наблюдаемые данные наиболее вероятными. ММП широко применяется в различных областях науки, таких как машинное обучение, биология, экономика и другие.

#### Основные понятия

Прежде чем углубиться в детали метода максимального правдоподобия, важно определить ключевые понятия.

1. **Случайная величина** — величина, которая принимает различные значения в зависимости от исхода случайного эксперимента. Например, количество выпавших орлов при подбрасывании монеты.

2. **Распределение вероятностей** — функция, которая описывает вероятность различных значений случайной величины. Например, нормальное распределение описывает вероятности того, насколько отклонится случайная величина от среднего значения.

3. **Правдоподобие (likelihood)** — мера того, насколько вероятно наблюдать данные при определённых значениях параметров распределения.

Теперь перейдём к основным аспектам метода максимального правдоподобия.



### 1. **Основная идея метода максимального правдоподобия**

Метод максимального правдоподобия основывается на предположении, что мы можем получить параметры статистической модели, которые с наибольшей вероятностью объясняют наблюдаемые данные. Математически это выглядит следующим образом:

Пусть у нас есть набор данных $X = (x_1, x_2, ..., x_n)$, которые представляют собой выборку из некоторого распределения с неизвестным параметром $\theta$. Задача состоит в том, чтобы оценить этот параметр $\theta$.

1. Запишем **функцию правдоподобия** $L(\theta; X)$, которая показывает, какова вероятность наблюдать выборку $X$ при разных значениях параметра $\theta$. Обычно это записывается как произведение плотностей вероятностей для каждого наблюдения:

   $$
   L(\theta; X) = f(x_1; \theta) \cdot f(x_2; \theta) \cdot \ldots \cdot f(x_n; \theta)
   $$

   где $f(x_i; \theta)$ — это вероятность или плотность вероятности, соответствующая наблюдению $x_i$ при параметре $\theta$.

2. Метод максимального правдоподобия предлагает выбрать такое значение параметра $\theta$, которое **максимизирует функцию правдоподобия** $L(\theta; X)$. То есть мы ищем $\theta$, при котором наблюденные данные наиболее вероятны.



### 2. **Логарифмическая функция правдоподобия**

Обычно для упрощения вычислений мы используем **логарифм** функции правдоподобия, так как логарифм преобразует произведение в сумму, что значительно упрощает процесс оптимизации:

$$
\ell(\theta; X) = \log L(\theta; X)
$$

Применение логарифма не изменяет местоположение максимума функции, так как логарифм является монотонно возрастающей функцией. Логарифмическая функция правдоподобия:

$$
\ell(\theta; X) = \log f(x_1; \theta) + \log f(x_2; \theta) + \ldots + \log f(x_n; \theta)
$$

Задача теперь заключается в нахождении параметра $\theta$, который максимизирует логарифмическую функцию правдоподобия.



### 3. **Пример использования ММП**

Рассмотрим конкретный пример использования метода максимального правдоподобия для оценки параметра распределения. Пусть мы имеем выборку из $n$ наблюдений, которая предполагается быть из нормального распределения с неизвестными средним $\mu$ и дисперсией $\sigma^2$. То есть:

$$
X_i \sim \mathcal{N}(\mu, \sigma^2)
$$

1. **Функция плотности вероятности для нормального распределения** имеет вид:

$$
f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)
$$

2. **Функция правдоподобия** для всей выборки из $n$ наблюдений:

$$
L(\mu, \sigma^2; X) = \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left( -\frac{(x_i - \mu)^2}{2 \sigma^2} \right)
$$

3. **Логарифмическая функция правдоподобия**:

$$
\ell(\mu, \sigma^2; X) = \log L(\mu, \sigma^2; X)
$$
$$
\ell(\mu, \sigma^2; X) = \sum_{i=1}^{n} \left[ -\frac{1}{2} \log (2 \pi \sigma^2) - \frac{(x_i - \mu)^2}{2 \sigma^2} \right]
$$

4. Теперь задача состоит в нахождении максимума этой логарифмической функции по параметрам $\mu$ и $\sigma^2$. Для этого необходимо найти частные производные по $\mu$ и $\sigma^2$, приравнять их к нулю и решить получившиеся уравнения.

   Для $\mu$:

$$
\frac{\partial \ell}{\partial \mu} = \sum_{i=1}^{n} \frac{x_i - \mu}{\sigma^2}
$$

Решая это уравнение, получаем:

$$
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

   Таким образом, оценка максимального правдоподобия для $\mu$ — это просто среднее значение выборки.

   Для $\sigma^2$:

$$
\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2 \sigma^2} + \frac{1}{2 \sigma^4} \sum_{i=1}^{n} (x_i - \mu)^2
$$

Решая это уравнение, получаем:

$$
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2
$$

Таким образом, оценка максимального правдоподобия для $\sigma^2$ — это выборочная дисперсия.



### 4. **Свойства оценок максимального правдоподобия**

Оценки, полученные методом максимального правдоподобия, обладают рядом важных свойств:

1. **Состоятельность (consistency)**: При увеличении объёма выборки оценки максимального правдоподобия стремятся к истинным значениям параметров.

2. **Асимптотическая нормальность**: При больших объёмах выборки оценки максимального правдоподобия распределяются по нормальному закону.

3. **Эффективность**: Оценки максимального правдоподобия являются асимптотически эффективными, то есть при больших объёмах выборки их дисперсия достигает минимальной возможной дисперсии.



### 5. **Проблемы и недостатки ММП**

Хотя метод максимального правдоподобия широко применяется, он не лишён недостатков:

1. **Чувствительность к выбору модели**: Если выбор модели распределения неверен, оценки параметров могут быть значительно искажены.

2. **Многоэкстремальные функции правдоподобия**: Функции правдоподобия могут иметь несколько локальных максимумов, что усложняет задачу нахождения глобального максимума.

3. **Сложности вычислений**: Для сложных моделей или больших данных оптимизация может быть вычислительно трудной задачей.



### Заключение

Метод максимального правдоподобия — это мощный инструмент для статистической оценки параметров, который основан на интуитивной идее поиска параметров, делающих наблюдаемые данные наиболее вероятными. Его применение охватывает широкий круг задач, от простых моделей распределения до сложных многомерных моделей. Однако важно помнить, что успех метода зависит от правильного выбора модели и некоторых вычислительных тонкостей.

Давайте теперь рассмотрим два числовых примера применения метода максимального правдоподобия (ММП). Один пример будет связан с биномиальным распределением, а второй с нормальным распределением. В обоих случаях мы будем оценивать параметры распределения на основе наблюдаемых данных.

### Пример 1: Биномиальное распределение

#### Условия:
Предположим, мы провели серию экспериментов, в каждом из которых подбрасывали монету 10 раз. Результаты показали, что 6 раз из 10 монета выпала "орлом". Мы хотим оценить вероятность выпадения орла $p$ на основе этих данных, используя метод максимального правдоподобия.

##### 1. **Модель распределения**:
Рассмотрим биномиальное распределение с параметрами $n$ (число испытаний) и $p$ (вероятность успеха в одном испытании). Вероятность того, что орел выпадет ровно $k$ раз в $n$ испытаниях, выражается как:

$$
P(X = k | p) = \binom{n}{k} p^k (1 - p)^{n-k}
$$

Где $\binom{n}{k}$ — биномиальный коэффициент.

##### 2. **Функция правдоподобия**:
Мы наблюдаем, что орел выпал 6 раз из 10, то есть $X = 6$ и $n = 10$. Функция правдоподобия $L(p)$ выражает вероятность наблюдения именно такого исхода в зависимости от вероятности $p$:

$$
L(p) = \binom{10}{6} p^6 (1 - p)^4
$$

Для упрощения можно не учитывать биномиальный коэффициент, так как он не зависит от $p$, и мы максимизируем только часть, связанную с $p$:

$$
L(p) \propto p^6 (1 - p)^4
$$

##### 3. **Логарифмическая функция правдоподобия**:
Для упрощения максимизации, возьмём логарифм от функции правдоподобия:

$$
\ell(p) = \log L(p) = 6 \log(p) + 4 \log(1 - p)
$$

##### 4. **Максимизация логарифмической функции**:
Теперь найдём производную этой функции по $p$ и приравняем её к нулю:

$$
\frac{d\ell(p)}{dp} = \frac{6}{p} - \frac{4}{1 - p} = 0
$$

Решаем это уравнение:

$$
\frac{6}{p} = \frac{4}{1 - p}
$$
$$
6(1 - p) = 4p
$$
$$
6 - 6p = 4p
$$
$$
6 = 10p
$$
$$
p = \frac{6}{10} = 0.6
$$

##### 5. **Ответ**:
Оценка вероятности выпадения орла по методу максимального правдоподобия равна $\hat{p} = 0.6$. Это соответствует наблюдаемым данным: 6 орлов из 10 подбрасываний.



### Пример 2: Нормальное распределение

#### Условия:
Предположим, что у нас есть выборка данных, которая представляет собой измерения роста 5 человек: $X = \{170, 165, 180, 175, 160\}$. Мы считаем, что рост распределён нормально с неизвестными средним $\mu$ и дисперсией $\sigma^2$. Задача — оценить параметры $\mu$ и $\sigma^2$ с помощью метода максимального правдоподобия.

##### 1. **Модель распределения**:
Пусть $X_i \sim \mathcal{N}(\mu, \sigma^2)$, где $\mu$ — среднее значение роста, а $\sigma^2$ — дисперсия. Функция плотности нормального распределения для каждого наблюдения имеет вид:

$$
f(x_i; \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left( -\frac{(x_i - \mu)^2}{2 \sigma^2} \right)
$$

##### 2. **Функция правдоподобия**:
Для выборки из 5 наблюдений функция правдоподобия будет:

$$
L(\mu, \sigma^2) = \prod_{i=1}^{5} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left( -\frac{(x_i - \mu)^2}{2 \sigma^2} \right)
$$

##### 3. **Логарифмическая функция правдоподобия**:
Возьмём логарифм функции правдоподобия, чтобы упростить задачу:

$$
\ell(\mu, \sigma^2) = -\frac{5}{2} \log(2 \pi \sigma^2) - \frac{1}{2 \sigma^2} \sum_{i=1}^{5} (x_i - \mu)^2
$$

##### 4. **Максимизация по $\mu$**:
Для нахождения оценки $\mu$ найдём частную производную логарифмической функции правдоподобия по $\mu$ и приравняем её к нулю:

$$
\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{5} (x_i - \mu) = 0
$$

Отсюда получаем:

$$
\hat{\mu} = \frac{1}{5} \sum_{i=1}^{5} x_i = \frac{170 + 165 + 180 + 175 + 160}{5} = 170
$$

##### 5. **Максимизация по $\sigma^2$**:
Теперь найдём частную производную по $\sigma^2$:

$$
\frac{\partial \ell}{\partial \sigma^2} = -\frac{5}{2 \sigma^2} + \frac{1}{2 \sigma^4} \sum_{i=1}^{5} (x_i - \mu)^2 = 0
$$

Решаем это уравнение:

$$
\hat{\sigma}^2 = \frac{1}{5} \sum_{i=1}^{5} (x_i - \hat{\mu})^2
$$
$$
\hat{\sigma}^2 = \frac{1}{5} [(170 - 170)^2 + (165 - 170)^2 + (180 - 170)^2 + (175 - 170)^2 + (160 - 170)^2]
$$
$$
\hat{\sigma}^2 = \frac{1}{5} [0 + 25 + 100 + 25 + 100] = \frac{1}{5} \times 250 = 50
$$

##### 6. **Ответ**:
Оценки параметров нормального распределения по методу максимального правдоподобия:
- Среднее $\hat{\mu} = 170$
- Дисперсия $\hat{\sigma}^2 = 50$



### Заключение

Оба примера показывают, как метод максимального правдоподобия может быть использован для оценки параметров распределений на основе наблюдаемых данных. В первом примере мы оценили вероятность успеха в биномиальном распределении, а во втором — среднее и дисперсию нормального распределения. Этот метод остаётся основным инструментом для статистической оценки параметров в различных моделях.

