Кейс-задание: «Анализ функций активации: непрерывность, дифференцируемость и численное поведение»

Цель задания

Сформулировать и подтвердить (с помощью ручных рассуждений и простейших численных экспериментов) ключевые свойства трёх функций активации — ReLU, Leaky ReLU (α=0.01) и Softplus — которые понадобятся впоследствии при знакомстве с обучением нейросетей:

1. Доказать формальные свойства (непрерывность и/или дифференцируемость) через ε–δ и односторонние производные.
2. Провести простейшие численные эксперименты (несколько точек, ручные вычисления или короткие скрипты на Python) для иллюстрации «негладких» точек и сравнения значений производных.
3. Сделать графические зарисовки (ручные эскизы или с использованием matplotlib) таких функций и их «приближённых производных» (через конечные разности), чтобы показать, где и как меняется поведение.

Без запуска «сложных» моделей — только ручные вычисления и короткие фрагменты кода, достаточные для нескольких численных примеров.

Структура задания

1. Теоретическая часть (40 %)

1.1 ReLU:

- Определение:
  ReLU(z) = max(0, z).

- Непрерывность:
  • Докажите (через ε–δ или через проверку пределов), что ReLU непрерывна при любом z ∈ ℝ.

- Дифференцируемость:
  • Найдите односторонние производные в точке z = 0:
    limₕ→0⁻ (ReLU(0 + h) - ReLU(0)) / h,
    limₕ→0⁺ (ReLU(0 + h) - ReLU(0)) / h.
  • Сделайте вывод о том, существует ли производная в z = 0.

- Рисунок:
  • Нарисуйте (от руки или в matplotlib) график функции ReLU на отрезке [−2, 2].
  • На том же рисунке проведите (штриховой линией) «приближенную производную» ReLU, вычисленную в трех вручную выбранных точках z = −1.0, 0.0, 1.0 с помощью формулы конечных разностей f'(z) ≈ (f(z + ε) − f(z − ε)) / (2ε), ε = 0.001.
    – Покажите, что для z > 0 значение ≈ 1, для z < 0 ≈ 0, а при z = 0 численно «разброс». 

1.2 Leaky ReLU (α = 0.01):

- Определение:
  ℓReLU(z) = { z, если z ≥ 0; 0.01·z, если z < 0 }.

- Непрерывность:
  • Покажите (формально или по смыслу), что Leaky ReLU непрерывна при всех z.

- Дифференцируемость:
  • Найдите односторонние производные в z = 0:
    limₕ→0⁻ (ℓReLU(0 + h) − ℓReLU(0)) / h,
    limₕ→0⁺ (ℓReLU(0 + h) − ℓReLU(0)) / h.
  • Опишите «ступеньку» между ними и объясните, почему это все равно лучше, чем ReLU.

- Рисунок + численный пример:
  • Нарисуйте ℓReLU(z) и приближенную производную (через конечные разности ε = 0.001) в трех точках: z = −1.0, 0.0, 1.0.
  • Запишите в табличке реальные значения (ℓReLU(z ± ε) разностей), чтобы показать значения ≈ 0.01, промежуточное, 1.0.

1.3 Softplus:

- Определение:
  Softplus(z) = ln(1 + eᶻ).

- Непрерывность и гладкость:
  • Докажите (через композицию непрерывных функций), что Softplus непрерывна и бесконечно дифференцируема.

- Вывод производной:
  • Выведите вручную формулу d/dz ln(1 + eᶻ) = eᶻ / (1 + eᶻ) = σ(z), где σ(z) — сигмоида.

- Численные проверки:
  • Посчитайте (вручную или коротким скриптом) Softplus(z) и σ(z) для z = −5, 0, 5 (например, Softplus(0) ≈ 0.693, σ(0) = 0.5; Softplus(5) ≈ 5.0067, σ(5) ≈ 0.9933; Softplus(−5) ≈ 0.0067, σ(−5) ≈ 0.0067).

- График:
  • Постройте в matplotlib (или нарисуйте от руки) Softplus и его производную (σ(z)) на отрезке [−5, 5].

1.4 Сравнительный анализ (таблица):

Соберите информацию о ReLU, Leaky ReLU и Softplus в одну таблицу, указав:
  1. Непрерывность при всех z?
  2. Дифференцируемость при всех z? Если нет, укажите точки разрыва.
  3. Односторонние производные в проблемных точках (z = 0 для ReLU и Leaky ReLU).
  4. Сложность вычисления f(z) и f'(z) (количество операций, качественный комментарий).
  5. Основные «ловушки» (мертвые нейроны, затухание градиента, переполнение exp(z)).

2. Простейшие численные эксперименты (30 %)

2.1 Приближённая производная ReLU (3 точки):

Напишите в Python (или запишите вручную) код:
  def relu(z): return max(0.0, z)
  def approx_derivative(f, z, eps=1e-3): return (f(z + eps) - f(z - eps)) / (2*eps)
  for z0 in [-1.0, 0.0, 2.0]: print(f"ReLU' approx at {z0} =", approx_derivative(relu, z0))

Сохраните вывод и поясните: для z = −1 ≈ 0; z = 2 ≈ 1; z = 0 — «разброс».

2.2 Приближённая производная Leaky ReLU (3 точки):

  def leaky_relu(z, α=0.01): return z if z >= 0 else α*z
  for z0 in [-1.0, 0.0, 2.0]: print(f"Leaky ReLU' approx at {z0} =", approx_derivative(leaky_relu, z0))
Запишите результаты и сравните с ожидаемыми (≈0.01, промежуточное, ≈1).

2.3 Softplus и сигмоида:

  import math
  def softplus(z): return math.log(1 + math.exp(z))
  def sigmoid(z): return 1 / (1 + math.exp(-z))
  for z0 in [-5.0, 0.0, 5.0]:
    sp = softplus(z0)
    sp_deriv = (softplus(z0 + 1e-3) - softplus(z0 - 1e-3)) / 2e-3
    sg = sigmoid(z0)
    print(f"z={z0}: Softplus={sp:.6f}, approx derivative={sp_deriv:.6f}, sigmoid={sg:.6f}")

Сравните приближённую деривативу и σ(z).

2.4 Большие значения z и численная устойчивость:

  print(softplus(50))  # ожидаем ≈ 50.0
  print(sigmoid(50))   # ожидаем ≈ 1.0
  print(sigmoid(-50))  # ожидаем ≈ 0.0 (примерно 1e-22)

Поясните: когда exp(z) может переполниться и почему Softplus(50) ≈ 50.

3. Задачи для самостоятельного решения (30 %)

3.1 Постройте (в matplotlib или от руки):
  – ReLU, Leaky ReLU и Softplus на [−3, 3].
  – Приближённые производные через конечные разности (ε = 0.001) для тех же функций.
Подпишите оси и поясните «неровности» и «скругления».

3.2 Доказательство гладкости Softplus:
  – Запишите рассуждение через композицию e^z → 1 + ⋅ → ln(⋅); все операции бесконечно дифференцируемы.
  – Прокомментируйте: какие могут проблемы при численных вычислениях (например, exp(100), overflow)?

3.3 Ручные расчёты (без GPT):
  – Для z₁ = −0.5, z₂ = 0, z₃ = 0.5 найдите:
    • ReLU(zᵢ), Leaky ReLU(zᵢ), Softplus(zᵢ) (с примерами шагов).
    • Односторонние производные ReLU, Leaky ReLU в z = 0 (через пределы).
    • Приближённые производные (ε = 0.001) для каждой функции и zᵢ.
  – Сверьте с результатами скрипта и опишите расхождения。

3.4 Текстовый абзац:
  – Напишите 5–6 предложений о том, почему при обучении нейросетей выбор активации влияет на скорость и стабильность обучения. Ссылайтесь на ваши выводы и эксперименты。
  – Приведите пример сценария，в котором ReLU «умирает» (когда градиент = 0) и объясните «на языке» приближённых производных.

Оформление решения

- Формат：Jupyter Notebook или Markdown-файл с кодом，выводами и графиками。
- Структура：
  1。Теоретическая часть (ReLU，Leaky ReLU，Softplus)。
  2。Численные эксперименты (фрагменты кода и результаты)。
  3。Графики (из matplotlib или от руки)。
  4。Ручные вычисления (таблицы)。
  5。Аналитический абзац。

- Критерии оценки：
  - Полнота формальных доказательств (25 %)
  - Точность численных экспериментов (25 %)
  - Качество графиков (20 %)
  - Аналитический текст (15 %)
  - Оформление и структура (15 %)

Удачи!
