# Задание на тему "Метод моментов и метод максимального правдоподобия"
(задача для разогрева)

Пусть случайная величина $ X $ распределена экспоненциально с параметром $ \lambda $, то есть $ X \sim \text{Exp}(\lambda) $, где $ \lambda > 0 $. Известно, что было получено $ n $ независимых наблюдений: $ X_1, X_2, \dots, X_n $.

## Задание 4 (1 балл)
Реализуйте метод моментов и метод максимального правдоподобия для оценки параметра $ \lambda $. Для демонстрации ипользуйте $n = 1000$ и значение $\lambda = 2$. Для генерации можно использовать random.exponential из numpy (обратите внимание на правильную подачу параметра!). 

## Небольшая теоретическая справка

### 1. Метод моментов для оценки параметра $ \lambda $

Для экспоненциального распределения математическое ожидание:

$$
\mathbb{E}[X] = \frac{1}{\lambda}
$$

Используем выборочное среднее $ \overline{X} $ как оценку для $ \mathbb{E}[X] $:

$$
\hat{\lambda}_{\text{MM}} = \frac{1}{\overline{X}} = \frac{n}{\sum_{i=1}^{n} X_i}
$$

### 2. Метод максимального правдоподобия для оценки параметра $ \lambda $

Функция правдоподобия для экспоненциального распределения имеет вид:

$$
L(\lambda) = \prod_{i=1}^{n} \lambda \exp(-\lambda X_i)
$$

Логарифм функции правдоподобия:

$$
\ln L(\lambda) = n \ln \lambda - \lambda \sum_{i=1}^{n} X_i
$$

Для нахождения максимума, приравниваем первую производную логарифма функции правдоподобия к нулю:

$$
\frac{\partial}{\partial \lambda} \ln L(\lambda) = \frac{n}{\lambda} - \sum_{i=1}^{n} X_i = 0
$$

Решаем для $ \lambda $:

$$
\hat{\lambda}_{\text{ML}} = \frac{n}{\sum_{i=1}^{n} X_i}
$$

### Замечание:
Оценки по методу моментов и методу максимального правдоподобия для экспоненциального распределения совпадают.

### 3. Реализуйте оба метода на Python, используя сгенерированные данные.

In [3]:
import numpy as np
import matplotlib.pyplot as plt

# start your code
true_lambda = 2     # Истинное значение λ
n = 1000            # Размер выборки

data = np.random.exponential(scale = (1/true_lambda), size=n) # Параметр λ = 1/scale => scale = 1/λ

lambda_mm = 1 / np.mean(data) # Метод моментов
lambda_ml = n / np.sum(data) # Метод максимального правдоподобия


# end your code

# Вывод результатов
print(f"Оценка методом моментов: {lambda_mm:.4f}")
print(f"Оценка методом максимального правдоподобия: {lambda_ml:.4f}")

# График гистограммы данных и теоретической плотности
x = np.linspace(0, np.max(data), 1000)
pdf = true_lambda * np.exp(-true_lambda * x)

plt.hist(data, bins=30, density=True, alpha=0.6, color='g', label='Гистограмма данных')
plt.plot(x, pdf, 'r-', label=f'Теоретическая плотность (λ={true_lambda})')
plt.legend()
plt.title('Гистограмма выборки и теоретическая плотность')
plt.show()

ModuleNotFoundError: No module named 'matplotlib'

# Задание на тему "Метод моментов и метод максимального правдоподобия"

## Описание задачи
Мы будем работать с датасетом **Bank Marketing Dataset**, который содержит информацию о клиентах банка и их реакции на маркетинговые предложения. В этом задании мы используем два метода: метод моментов (MM) и метод максимального правдоподобия (MLE), чтобы оценить параметры распределений, описывающих данные.

**Цель задания**:

0. Постройте статистическую модель эксперимента в парадигме пройденного материала.
1. Применить метод моментов для оценки параметров распределения для числовых переменных.
2. Использовать метод максимального правдоподобия для оценки параметров распределения.
3. Сравнить результаты оценок с реальными данными и сделать выводы.

## Задание 5 (5 баллов)
Вам предстоит на примере датасета **Bank Marketing Dataset** (файл bank-full.csv) применить полученные знания. Постройте оценки методами моментов и максимального правдоподобия для переменных `duration` и `age`. Распределения для `age` рекомендуется (настаиваем) взять нормальное $N(\mu, \sigma^2)$ с двумя неизместными параметрами $\mu$ и $\sigma^2$ (выбор иного распределения необходимо будет объяснить). Выбор распределения для `duration` остается за вами, но его необходимо будет пояснить.

### Шаги выполнения задания

#### 1. (0.5 балла) Загрузите данные и проведите первичный осмотр данных. Выведете:
1. тип данных,
2. сколько строк,
3. переменных,
4. сколько значений принимает переменная `job`, `education` и `poutcome`.

#### 2. (1.5 балла) Анализ переменной `age`.
1. (0.5) Постройте оценку ММ для неизвестных параметров распределения `age`,
2. (0.5) Постройте оценку ММП для неизвестных параметров распределения `age`,
3. (0.5) Сравните оценки.

#### 3. (3 балла) Анализ переменной `duration`
1. (1) Постройте статистическую модель.
1. (1) Постройте оценку ММ для неизвестных параметров распределения `duration`,
2. (1) Постройте оценку ММП для неизвестных параметров распределения `duration`,
3. (0 :)) Сравните оценки.

In [None]:
# Импортируем необходимые библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#### 1. Загрузите данные и проведите первичный осмотр данных. Выведете:
1. тип данных,
2. сколько строк,
3. переменных,
4. сколько значений принимает переменная `job`, `education` и `poutcome`.

In [None]:
df = pd.read_csv('Users/arty/Desktop/bank_full.csv', delimiter = ';')
df.head()

In [None]:
print(f'Типы данных в датафрейме: \n{df.dtypes}')
print(f'\nКоличество строк в датафрейме: {df.shape[0]}')
print(f'Количество столбцов в датафрейме: {df.shape[1]}')

unique_values = {
    "job": df["job"].nunique(),
    "education": df["education"].nunique(),
    "poutcome": df["poutcome"].nunique()
}

print(f'Количество уникальных значений переменных: {unique_values}')

#### 2. Анализ переменной `age`.
1. Постройте оценку ММ для неизвестных параметров распределения `age`,
2. Постройте оценку ММП для неизвестных параметров распределения `age`,
3. Сравните оценки.

In [None]:
age_data = df["age"]

mu_mm = np.mean(age_data)
sigma_square_mm = np.var(age_data, ddof=1)

mu_ml = np.mean(age_data)
sigma_square_ml = np.var(age_data, ddof=0)

print(f"Среднее методом моментов: {mu_mm:.4f}")
print(f"Дисперсия методом моментов: {sigma_square_mm:.4f}")
print(f"Среднее методом максимального правдоподобия: {mu_ml:.4f}")
print(f"Дисперсия методом максимального правдоподобия: {sigma_square_ml:.4f}\n")

print(f"Разница между средними: {abs(mu_mm - mu_ml):.4f}")
print(f"Разница между дисперсиями: {abs(sigma_square_mm - sigma_square_ml):.4f}")

#### 3. Анализ переменной `duration`
1. Постройте статистическую модель.
1. Постройте оценку ММ для неизвестных параметров распределения `duration`,
2. Постройте оценку ММП для неизвестных параметров распределения `duration`,
3. Сравните оценки.

In [None]:
duration_data = df['duration']

plt.figure(figsize=(8, 5))
plt.hist(duration_data, bins=50, density=True, alpha=0.6, color='g', label='Гистограмма данных')

x = np.linspace(0, max(duration_data), 1000)

mu_norm, sigma_norm = np.mean(duration_data), np.std(duration_data)
pdf_norm = stats.norm.pdf(x, mu_norm, sigma_norm)
plt.plot(x, pdf_norm, 'm-', label='Нормальное распределение')

lambda_exp = 1 / np.mean(duration_data)
pdf_exp = lambda_exp * np.exp(-lambda_exp * x)
plt.plot(x, pdf_exp, 'b-', label='Экспоненциальное распределение')

shape_gamma, loc_gamma, scale_gamma = stats.gamma.fit(duration_data_clean, floc=0)
pdf_gamma = stats.gamma.pdf(x, shape_gamma, loc=loc_gamma, scale=scale_gamma)
plt.plot(x, pdf_gamma, 'r-', label='Гамма-распределение')

plt.xlabel('duration')
plt.ylabel('Плотность вероятности')
plt.title('Статистическая модель переменной duration')
plt.legend()
plt.grid()
plt.show()