Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без

In [1]:
import numpy as np

In [2]:
# Заданные значения
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])  # Заработная плата
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])  # Поведенческий кредитный скоринг

# Количество наблюдений
n = len(zp)

# Вычисление коэффициентов линейной регрессии без использования intercept
b_without_intercept = np.sum(zp * ks) / np.sum(zp ** 2)

# Вычисление коэффициентов линейной регрессии с использованием intercept
b_with_intercept = (n * np.sum(zp * ks) - np.sum(zp) * np.sum(ks)) / (n * np.sum(zp ** 2) - np.sum(zp) ** 2)

# Вывод результатов
print("Коэффициенты линейной регрессии:")
print("Без использования intercept: b =", b_without_intercept)
print("С использованием intercept: b =", b_with_intercept)

Коэффициенты линейной регрессии:
Без использования intercept: b = 5.889820420132689
С использованием intercept: b = 2.6205388824027653


Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept)

In [3]:
# Заданные значения
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])  # Заработная плата
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])  # Поведенческий кредитный скоринг

# Гиперпараметры
learning_rate = 0.0001  # Скорость обучения
epochs = 1000  # Количество итераций

# Инициализация случайного значения коэффициента регрессии
b = np.random.randn()

# Градиентный спуск
for epoch in range(epochs):
    # Вычисление предсказаний
    y_pred = b * zp
    
    # Вычисление ошибки (среднеквадратичной ошибки)
    error = np.mean((y_pred - ks) ** 2)
    
    # Вычисление градиента функции потерь по параметру b
    gradient = np.mean(2 * (y_pred - ks) * zp)
    
    # Обновление коэффициента с учетом градиента и скорости обучения
    b -= learning_rate * gradient
    
    # Вывод каждой 100-й итерации
    if epoch % 100 == 0:
        print(f"Iteration {epoch}: Error = {error}")

# Вывод результата
print("Коэффициент линейной регрессии (без intercept):", b)

Iteration 0: Error = 1001078.660529458
Iteration 100: Error = 7.022481682396276e+54
Iteration 200: Error = 5.220965835081759e+103
Iteration 300: Error = 3.881602755820869e+152
Iteration 400: Error = 2.885833853337243e+201
Iteration 500: Error = 2.1455150238077773e+250
Iteration 600: Error = 1.5951142551265074e+299
Iteration 700: Error = inf
Iteration 800: Error = inf
Iteration 900: Error = inf
Коэффициент линейной регрессии (без intercept): -1.8808118228009613e+245


  ret = umr_sum(arr, axis, dtype, out, keepdims, where=where)
  error = np.mean((y_pred - ks) ** 2)


Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации)

In [4]:
# Заданные значения
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])  # Заработная плата
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])  # Поведенческий кредитный скоринг

# Гиперпараметры
learning_rate = 0.0001  # Скорость обучения
epochs = 1000  # Количество итераций

# Инициализация случайных значений коэффициентов регрессии
slope = np.random.randn()
intercept = np.random.randn()

# Градиентный спуск
for epoch in range(epochs):
    # Вычисление предсказаний
    y_pred = slope * zp + intercept
    
    # Вычисление ошибки (среднеквадратичной ошибки)
    error = np.mean((y_pred - ks) ** 2)
    
    # Вычисление градиентов функции потерь по параметрам slope и intercept
    gradient_slope = np.mean(2 * (y_pred - ks) * zp)
    gradient_intercept = np.mean(2 * (y_pred - ks))
    
    # Обновление коэффициентов с учетом градиентов и скорости обучения
    slope -= learning_rate * gradient_slope
    intercept -= learning_rate * gradient_intercept
    
    # Вывод каждой 100-й итерации
    if epoch % 100 == 0:
        print(f"Iteration {epoch}: Error = {error}")

# Вывод результата
print("Коэффициенты линейной регрессии (с intercept):")
print("slope =", slope)
print("intercept =", intercept)

Iteration 0: Error = 231481.54275817174
Iteration 100: Error = 1.3238041751515154e+54
Iteration 200: Error = 1.0010828428902576e+103
Iteration 300: Error = 7.570355775729033e+151
Iteration 400: Error = 5.724829566117758e+200
Iteration 500: Error = 4.329211800873375e+249
Iteration 600: Error = 3.2738223208854476e+298
Iteration 700: Error = inf
Iteration 800: Error = inf
Iteration 900: Error = inf
Коэффициенты линейной регрессии (с intercept):
slope = -8.815065512013509e+244
intercept = -6.488277953275935e+242


  error = np.mean((y_pred - ks) ** 2)
