###  8 cells / 1 lessons

### Data Analysis In Python. Оптимизация

### Ссылка для скачивания материалов курса: 

### https://github.com/IgorP-IP/Data_Analysis_In_Python 

#### Автор: Приходько Игорь Анатольевич

#### email: aieipidko@gmail.com 

##### г.Санкт-Петербург


![ML and BD-pic.gif](attachment:407b7395-cd7a-4533-8635-623c98e1e7fe.gif)

# 1 lesson ****************************************

# Lesson topic: Оптимизация

Оптимизация — это процесс нахождения наилучших параметров модели для минимизации функции потерь. 

Вот несколько ключевых понятий:

#### Функция потерь

Функция потерь измеряет, насколько хорошо модель предсказывает данные. 

Цель оптимизации — минимизировать функцию потерь, чтобы улучшить точность модели. 

Например, в задачах классификации часто используется функция потерь кросс-энтропии, а в задачах регрессии — среднеквадратичная ошибка.

Понимание функции потерь позволяет лучше настроить модель и улучшить ее производительность. 

Выбор правильной функции потерь является ключевым для успешного обучения моделей машинного обучения.

#### Градиентный спуск

Градиентный спуск — это алгоритм оптимизации, который использует градиенты для обновления параметров модели. 

Он итеративно уменьшает значение функции потерь, двигаясь в направлении наибольшего уменьшения. 

Градиентный спуск является основным методом оптимизации в машинном обучении и используется в большинстве алгоритмов.

Существует несколько вариантов градиентного спуска, включая стохастический градиентный спуск (SGD) и мини-батч градиентный спуск. 

Эти методы позволяют эффективно обучать модели на больших наборах данных и ускорять процесс оптимизации.

#### Стохастический градиентный спуск (SGD)

Стохастический градиентный спуск — это вариант градиентного спуска, который обновляет параметры модели на основе случайных подвыборок данных. 

Это делает его более эффективным для больших наборов данных. 

В отличие от обычного градиентного спуска, который использует весь набор данных для обновления параметров, 

SGD использует только небольшие подвыборки, что позволяет значительно ускорить процесс обучения.

SGD также позволяет избежать локальных минимумов функции потерь и улучшить общую производительность модели. 

Этот метод широко используется в нейронных сетях и других алгоритмах машинного обучения.

#### Регуляризация

Регуляризация — это техника, которая добавляет штрафы к функции потерь для предотвращения переобучения модели. 

Примеры регуляризации включают L1 и L2 регуляризацию. 

Регуляризация помогает улучшить обобщающую способность модели и предотвратить переобучение на тренировочных данных.

###### L1 регуляризация добавляет штраф за абсолютные значения параметров модели, что приводит к разреженным решениям. 

###### L2 регуляризация добавляет штраф за квадраты параметров, что приводит к более гладким решениям. 

Оба метода широко используются в машинном обучении для улучшения производительности моделей.

Понимание этих математических концепций поможет вам лучше понять и применять методы машинного обучения. 

### Кратко

![image.png](attachment:e31bd8b2-a423-4aff-bc75-3fe350591569.png)

![image.png](attachment:07aecc6f-2e8b-4daa-b0f6-364cab22e1b6.png)

![image.png](attachment:189e6bc6-7ddb-4ab1-81e6-c5f28b57286c.png)

![image.png](attachment:89724ad2-862f-42a0-a9c8-095aabf7830b.png)

![image.png](attachment:b666b9de-2c00-424e-ab5a-16a0af4668ab.png)

![image.png](attachment:f3479a0b-72ad-489f-8268-a060918a7274.png)

![image.png](attachment:9d0932e9-8682-4140-81d3-5b167a02295a.png)

![image.png](attachment:0ffd8353-a7a8-405d-879c-112cfa261d77.png)

![image.png](attachment:1f6f5fb0-2c82-4a0e-8d47-d83c79b82e58.png)
# Практика

### Задача 1: функция потерь для задачи классификации
![image.png](attachment:2ab214fe-3124-4d46-ba04-95695bd0fed5.png)
![image.png](attachment:89f2ca98-8b1d-4410-b916-6154dfa3211f.png)

In [None]:
import numpy as np

# Истинные метки (y) и предсказанные вероятности (p)
y_true = np.array([1, 0, 1, 1, 0])  # Истинные метки (0 или 1)
y_pred = np.array([0.9, 0.1, 0.8, 0.7, 0.2])  # Предсказанные вероятности для класса 1

# Функция для вычисления кросс-энтропийной потери
def binary_crossentropy(y_true, y_pred):
    # Для стабильности, ограничим значения вероятностей в пределах (0, 1) 
    # (предотвращаем логарифм от 0 или 1)
    epsilon = 1e-15
    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)
    
    # Вычисляем кросс-энтропийную потерю
    loss = -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
    return loss

# Вычислим кросс-энтропийную потерю для заданных данных
loss = binary_crossentropy(y_true, y_pred)
print(f"Кросс-энтропийная потеря: {loss}")

![image.png](attachment:827329f3-6031-473d-8e18-22c8457501a1.png)
![image.png](attachment:281fa54d-631c-41f1-a224-18d5d3ba41de.png)
![image.png](attachment:dfef072f-cb37-425f-8ac0-28e52a1805f7.png)

### Задача 2: функция потерь для задачи регрессии
![image.png](attachment:f1e66037-229f-4259-b266-53de9ba47d5a.png)
![image.png](attachment:4922fa08-c3ad-4c3e-8318-cde3f50a06ea.png)

In [None]:
import numpy as np

# Истинные значения и предсказанные значения
y_true = np.array([3.0, 2.5, 4.1, 5.0, 6.2])  # Истинные значения
y_pred = np.array([2.8, 2.7, 4.0, 5.1, 6.0])  # Предсказанные значения

# Функция для вычисления среднеквадратичной ошибки (MSE)
def mean_squared_error(y_true, y_pred):
    # Вычисляем среднеквадратичную ошибку
    mse = np.mean((y_true - y_pred) ** 2)
    return mse

# Вычислим среднеквадратичную ошибку для заданных данных
mse_value = mean_squared_error(y_true, y_pred)
print(f"Среднеквадратичная ошибка (MSE): {mse_value}")

![image.png](attachment:dc5adc47-0600-4839-8393-c3f3a639ce0f.png)
![image.png](attachment:95d58e4b-b095-4d0e-80e9-1145040241b6.png)
![image.png](attachment:bda2780b-408c-41ed-add0-341ec1db65f1.png)

### *************************************************************************************

![image.png](attachment:cc64acb1-7eb2-4203-8fb7-daa59def8114.png)

### Задача 3: градиентный спуск
![image.png](attachment:b1bf93cf-6edd-41e1-90d8-9736eae9a71a.png)
![image.png](attachment:6594a76e-d228-4968-a648-e01ecc9eba06.png)
![image.png](attachment:90e7c770-8c81-4ea7-94b0-19431b6bbb0e.png)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Функция f(x) = x^2 + 6x + 9
def f(x):
    return x**2 + 6*x + 9

# Производная функции f(x), то есть градиент
def df(x):
    return 2*x + 6

# Градиентный спуск
def gradient_descent(learning_rate, epochs, initial_x):
    x = initial_x
    x_values = [x]  # для сохранения значений x на каждом шаге
    for epoch in range(epochs):
        grad = df(x)  # вычисляем градиент
        x = x - learning_rate * grad  # обновляем x
        x_values.append(x)  # сохраняем новое значение x
    return x, x_values

# Параметры
learning_rate = 0.1  # темп обучения
epochs = 50  # количество шагов
initial_x = 5  # начальная точка

# Запуск градиентного спуска
min_x, x_values = gradient_descent(learning_rate, epochs, initial_x)

# Выводим результат
print(f"Минимум функции находится в точке x = {min_x}")

# Визуализация процесса
x_vals = np.linspace(-10, 2, 100)
y_vals = f(x_vals)

plt.plot(x_vals, y_vals, label="f(x) = x^2 + 6x + 9", color='b')  # график функции
plt.scatter(x_values, f(np.array(x_values)), color='r', label="Пути градиентного спуска", zorder=5)  # точки пути
plt.plot(x_values, f(np.array(x_values)), color='r', linestyle='--', alpha=0.5)  # траектория
plt.title("Градиентный спуск")
plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend()
plt.grid(True)
plt.show()

![image.png](attachment:41043489-07a7-4996-89b7-931c17924dcd.png)
![image.png](attachment:9a1552e1-4278-4cfe-a4b6-78c35305388c.png)

![image.png](attachment:6285b7ee-344e-4a5f-87a9-0a5576bc78af.png)

### *************************************************************************************

![image.png](attachment:a570c814-b9e2-4b74-bafa-38f1a993fb12.png)

### Задача 4: Стохастический градиентный спуск
![image.png](attachment:53f5e9b9-9e2b-47e9-a843-9e4cf56f22a0.png)
![image.png](attachment:54b9b96e-6878-4f79-a524-d6d74638c723.png)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Функция f(x) = x^2 + 6x + 9
def f(x):
    return x**2 + 6*x + 9

# Производная функции f(x), то есть градиент
def df(x):
    return 2*x + 6

# Стохастический градиентный спуск
def stochastic_gradient_descent(learning_rate, epochs, initial_x):
    x = initial_x
    x_values = [x]  # для сохранения значений x на каждом шаге
    for epoch in range(epochs):
        # Случайный выбор примера (здесь для простоты мы используем только один пример)
        grad = df(x)  # градиент функции
        x = x - learning_rate * grad  # обновляем x
        x_values.append(x)  # сохраняем новое значение x
    return x, x_values

# Параметры
learning_rate = 0.1  # темп обучения
epochs = 50  # количество шагов
initial_x = 5  # начальная точка

# Запуск стохастического градиентного спуска
min_x, x_values = stochastic_gradient_descent(learning_rate, epochs, initial_x)

# Выводим результат
print(f"Минимум функции находится в точке x = {min_x}")

# Визуализация процесса
x_vals = np.linspace(-10, 2, 100)
y_vals = f(x_vals)

plt.plot(x_vals, y_vals, label="f(x) = x^2 + 6x + 9", color='b')  # график функции
plt.scatter(x_values, f(np.array(x_values)), color='r', label="Пути стохастического градиентного спуска", zorder=5)  # точки пути
plt.plot(x_values, f(np.array(x_values)), color='r', linestyle='--', alpha=0.5)  # траектория
plt.title("Стохастический градиентный спуск")
plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend()
plt.grid(True)
plt.show()

![image.png](attachment:dd0a6500-885c-4568-ae21-0b5aa23ca893.png)
![image.png](attachment:142970ca-f20e-48e3-8d1e-d43acc17facb.png)
![image.png](attachment:e2adcb89-7e15-4275-b7c2-51abfaf67d04.png)

![image.png](attachment:d889a992-1196-44d1-8c5c-844c6d58edaa.png)

### *************************************************************************************

![image.png](attachment:4e6a7229-1052-4c89-bcf3-273fac5071ab.png)

### Задача 5: L1-регуляризация
![image.png](attachment:27a472a5-67a2-4117-9d15-c2d20e576815.png)
![image.png](attachment:d6251a7f-6288-4cc4-a38d-ecd1979d3a26.png)
![image.png](attachment:833cdb97-909b-41b0-8d52-c2e7e5171668.png)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Генерация синтетических данных для линейной регрессии
np.random.seed(42)
X = 2 * np.random.rand(100, 1)  # 100 примеров, 1 признак
y = 4 + 3 * X + np.random.randn(100, 1)  # y = 4 + 3X + шум

# Функция потерь с L1-регуляризацией
def loss_with_l1(X, y, theta, lambda_reg):
    m = len(y)
    predictions = X.dot(theta)  # предсказания
    loss = (1 / (2 * m)) * np.sum((predictions - y) ** 2)  # ошибка предсказания
    regularization = lambda_reg * np.sum(np.abs(theta))  # L1-регуляризация
    total_loss = loss + regularization  # Общая функция потерь
    return total_loss

# Градиент функции потерь с L1-регуляризацией
def gradient_with_l1(X, y, theta, lambda_reg):
    m = len(y)
    predictions = X.dot(theta)  # предсказания
    gradient = (1 / m) * X.T.dot(predictions - y)  # градиент ошибки
    regularization_grad = lambda_reg * np.sign(theta)  # градиент L1-регуляризации
    total_gradient = gradient + regularization_grad  # Общий градиент
    return total_gradient

# Градиентный спуск с L1-регуляризацией
def gradient_descent_l1(X, y, theta_initial, lambda_reg, learning_rate, iterations):
    theta = theta_initial
    loss_history = []
    
    for i in range(iterations):
        gradient = gradient_with_l1(X, y, theta, lambda_reg)
        theta = theta - learning_rate * gradient  # обновление коэффициентов
        loss = loss_with_l1(X, y, theta, lambda_reg)
        loss_history.append(loss)  # сохраняем ошибку на каждом шаге
    
    return theta, loss_history

# Параметры
lambda_reg = 0.1  # коэффициент регуляризации
learning_rate = 0.1  # темп обучения
iterations = 1000  # количество шагов
theta_initial = np.random.randn(2, 1)  # случайное начальное значение для коэффициентов

# Добавляем столбец единиц в X для учета смещения (базового уровня)
X_b = np.c_[np.ones((X.shape[0], 1)), X]

# Запуск градиентного спуска с L1-регуляризацией
theta_final, loss_history = gradient_descent_l1(X_b, y, theta_initial, lambda_reg, learning_rate, iterations)

# Выводим результат
print(f"Оптимизированные коэффициенты: {theta_final}")

# Визуализация потерь в процессе обучения
plt.plot(loss_history)
plt.title('Изменение функции потерь с L1-регуляризацией')
plt.xlabel('Шаги обучения')
plt.ylabel('Функция потерь')
plt.grid(True)
plt.show()

# Визуализация данных и линии регрессии
plt.scatter(X, y, color='blue', label='Данные')
plt.plot(X, X_b.dot(theta_final), color='red', label='Линия регрессии с L1-регуляризацией')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()

![image.png](attachment:01affb4f-071e-45b9-9513-94d6c6cfe3d4.png)
![image.png](attachment:8f83938f-d03d-4424-8612-24f2dcf1fdc3.png)

![image.png](attachment:07a528f1-ce44-420b-8993-8c9a26c08ec0.png)

### *************************************************************************************

![image.png](attachment:35b41e0f-0a1d-48ad-b823-ddc02aa31772.png)

### Задача 6: L2-регуляризация
![image.png](attachment:834d6bf0-6ef6-4d02-b32d-fb330168cf15.png)
![image.png](attachment:7396f224-97a2-4e01-b18e-36e0d8d36f18.png)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Генерация синтетических данных для линейной регрессии
np.random.seed(42)
X = 2 * np.random.rand(100, 1)  # 100 примеров, 1 признак
y = 4 + 3 * X + np.random.randn(100, 1)  # y = 4 + 3X + шум

# Функция потерь с L2-регуляризацией
def loss_with_l2(X, y, theta, lambda_reg):
    m = len(y)
    predictions = X.dot(theta)  # предсказания
    loss = (1 / (2 * m)) * np.sum((predictions - y) ** 2)  # ошибка предсказания
    regularization = (lambda_reg / 2) * np.sum(theta[1:] ** 2)  # L2-регуляризация (не штрафуем смещение)
    total_loss = loss + regularization  # Общая функция потерь
    return total_loss

# Градиент функции потерь с L2-регуляризацией
def gradient_with_l2(X, y, theta, lambda_reg):
    m = len(y)
    predictions = X.dot(theta)  # предсказания
    gradient = (1 / m) * X.T.dot(predictions - y)  # градиент ошибки
    regularization_grad = lambda_reg * theta  # градиент L2-регуляризации
    regularization_grad[0] = 0  # Не штрафуем смещение (первая компонента)
    total_gradient = gradient + regularization_grad  # Общий градиент
    return total_gradient

# Градиентный спуск с L2-регуляризацией
def gradient_descent_l2(X, y, theta_initial, lambda_reg, learning_rate, iterations):
    theta = theta_initial
    loss_history = []
    
    for i in range(iterations):
        gradient = gradient_with_l2(X, y, theta, lambda_reg)
        theta = theta - learning_rate * gradient  # обновление коэффициентов
        loss = loss_with_l2(X, y, theta, lambda_reg)
        loss_history.append(loss)  # сохраняем ошибку на каждом шаге
    
    return theta, loss_history

# Параметры
lambda_reg = 1.0  # коэффициент регуляризации
learning_rate = 0.1  # темп обучения
iterations = 1000  # количество шагов
theta_initial = np.random.randn(2, 1)  # случайное начальное значение для коэффициентов

# Добавляем столбец единиц в X для учета смещения (базового уровня)
X_b = np.c_[np.ones((X.shape[0], 1)), X]

# Запуск градиентного спуска с L2-регуляризацией
theta_final, loss_history = gradient_descent_l2(X_b, y, theta_initial, lambda_reg, learning_rate, iterations)

# Выводим результат
print(f"Оптимизированные коэффициенты: {theta_final}")

# Визуализация потерь в процессе обучения
plt.plot(loss_history)
plt.title('Изменение функции потерь с L2-регуляризацией')
plt.xlabel('Шаги обучения')
plt.ylabel('Функция потерь')
plt.grid(True)
plt.show()

# Визуализация данных и линии регрессии
plt.scatter(X, y, color='blue', label='Данные')
plt.plot(X, X_b.dot(theta_final), color='red', label='Линия регрессии с L2-регуляризацией')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()

![image.png](attachment:eef99389-6a30-46d9-9341-7f656f6d9121.png)
![image.png](attachment:6caf7864-db56-4921-bdcf-abda5670545e.png)


![image.png](attachment:fcd6f2fa-2f95-4d05-a2c5-071f1ab7059a.png)

### Домашнее задание

### Задача 1: нахождение функции потерь MAE (Mean Absolute Error) для задачи регрессии

y_true = np.array([3.0, -0.5, 2.0, 7.0])  # истинные значения

y_pred = np.array([2.5, 0.0, 2.1, 7.8])  # предсказанные значения

In [None]:
import numpy as np

# Функция для вычисления MAE
def mean_absolute_error(y_true, y_pred):
    # y_true - истинные значения, y_pred - предсказанные значения
    return np.mean(np.abs(y_true - y_pred))

# Пример данных
y_true = np.array([3.0, -0.5, 2.0, 7.0])  # истинные значения
y_pred = np.array([2.5, 0.0, 2.1, 7.8])  # предсказанные значения

# Вычисление MAE
mae = mean_absolute_error(y_true, y_pred)

print(f"Mean Absolute Error: {mae}")

![image.png](attachment:3b869f1f-6fe5-41bf-afdc-f76c307a34de.png)

### Задача 2: применить метод градиентного спуска 
![image.png](attachment:6d4f439c-10bb-4491-90e6-59316d22b210.png)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Функция (x^2)
def function(x):
    return x ** 2

# Производная функции (2x)
def gradient(x):
    return 2 * x

# Градиентный спуск
def gradient_descent(starting_point, learning_rate, iterations):
    x = starting_point
    history = [x]  # Для отслеживания процесса оптимизации

    for _ in range(iterations):
        grad = gradient(x)  # Вычисляем градиент функции
        x = x - learning_rate * grad  # Обновляем значение x
        history.append(x)  # Записываем новое значение x для отображения

    return x, history

# Параметры градиентного спуска
starting_point = 5  # Начальная точка
learning_rate = 0.1  # Шаг обучения
iterations = 50  # Количество итераций

# Применение градиентного спуска
minimized_value, history = gradient_descent(starting_point, learning_rate, iterations)

# Вывод минимизированного значения функции
print(f"Минимальное значение функции: {minimized_value}")
print(f"Количество итераций: {iterations}")

# Визуализация процесса
x_vals = np.linspace(-6, 6, 100)  # Создаем значения для оси x
y_vals = function(x_vals)  # Вычисляем соответствующие значения функции

plt.plot(x_vals, y_vals, label="f(x) = x^2", color='blue')
plt.scatter(history, function(np.array(history)), color='red', label='Путь оптимизации')
plt.plot(history, function(np.array(history)), linestyle="--", color='red')
plt.title("Градиентный спуск для функции x^2")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.legend()
plt.show()

![image.png](attachment:ac33ac83-3e67-4866-a3b0-f999c6f992ee.png)

![image.png](attachment:a24d7534-ca5f-4659-8324-fe55014d0900.png)