# Углублённый анализ методов оценки качества аппроксимации

## 1. Коэффициент детерминации (R²)
**Математическая основа:**
$$ R^2 = 1 - \frac{\sum(y_i-\hat{y}_i)^2}{\sum(y_i-\bar{y})^2} $$

**Теоретические аспекты:**
1. **Объяснимая дисперсия**:
   - Фактически измеряет долю дисперсии Y, объяснённую моделью
   - Связан с F-статистикой: $F = \frac{R^2/(k)}{(1-R^2)/(n-k-1)}$

2. **Корректировки**:
   - Скорректированный R² для множественной регрессии:
     $$ R^2_{adj} = 1 - \left[\frac{(1-R^2)(n-1)}{n-k-1}\right] $$
   - Прогностический R² (использует кросс-валидацию)

**Границы применения**:
- Бессмыслен для нелинейных моделей
- Может давать отрицательные значения для плохих моделей

## 2. Сумма квадратов ошибок (SSE)
**Разложение дисперсии**:
$$ SST = SSR + SSE $$
где:
- $SST = \sum(y_i-\bar{y})^2$ (общая вариация)
- $SSR = \sum(\hat{y}_i-\bar{y})^2$ (объяснённая моделью)

**Статистические свойства**:
- При нормальности ошибок: $\frac{SSE}{\sigma^2} \sim \chi^2_{n-p}$
- Основа для расчёта стандартной ошибки регрессии:
  $$ SE_{reg} = \sqrt{\frac{SSE}{n-p}} $$

## 3. Среднеквадратичная ошибка (RMSE)
**Теория оценивания**:
- Является состоятельной оценкой $\sqrt{E[(Y-\hat{Y})^2]}$
- Связь с нормальным распределением:
  $$ P(|y-\hat{y}| < RMSE) \approx 0.68 $$
  для нормальных ошибок

**Асимптотическое поведение**:
$$ \sqrt{n}(RMSE - \sigma) \xrightarrow{d} N(0, \frac{\mu_4-\sigma^4}{4\sigma^2}) $$
где $\mu_4$ - четвёртый момент ошибок

## 4. Средняя абсолютная ошибка (MAE)
**Оптимальность**:
- Минимизация MAE даёт медианную регрессию
- Связь с распределением Лапласа:
  $$ f(e) = \frac{1}{2b}exp\left(-\frac{|e-\mu|}{b}\right) $$

**Робастность**:
- Функция влияния ограничена
- Точка останова: 50%

## 5. Средняя абсолютная процентная ошибка (MAPE)
**Альтернативные формы**:
1. Симметричная MAPE:
   $$ sMAPE = \frac{200\%}{n}\sum \frac{|y_i-\hat{y}_i|}{|y_i|+|\hat{y}_i|} $$

2. Модифицированная MAPE:
   $$ MdAPE = median\left(100\% \cdot \left|\frac{y_i-\hat{y}_i}{y_i}\right|\right) $$

**Критика**:
- Несимметричность штрафов
- Проблемы при нулевых значениях

## 6. Тест Шапиро-Уилка
**Теоретические основы**:
- Основан на корреляции между остатками и их нормальными квантилями
- Оптимален для выборок <50 наблюдений

**Вычислительный алгоритм**:
1. Упорядочить остатки: $e_{(1)} \leq ... \leq e_{(n)}$
2. Рассчитать статистику:
   $$ W = \frac{(\sum a_i e_{(i)})^2}{\sum(e_i-\bar{e})^2} $$
3. Сравнить с критическими значениями

**Альтернативы**:
- Тест Андерсона-Дарлинга
- Тест Лиллиефорса