## Пример линейной регрессии

In [1]:
import numpy as np
import random

In [2]:
#придумаем 2 признака в переменную Х
X = np.array( [
    [1,1],
    [1,2],
    [2,2],
    [3,4],
    [5,6]  
])

#y = 2*x1+3*x2 + 4 - любая зависимость, нужно просто, чтобы правильно сформировать таргеты
y = np.array([
    9,
    12,
    14,
    22,
    32    
])

In [3]:
#Наша линейная регрессия состоит из 2 признаков и 3-х параметров (2, 3, 4)
#t1, t2, t3 = какие-то случайные числа

t1, t2, t3 = random.random(), random.random(), random.random()

In [4]:
#Напишим ф-ю, которая делает предсказания для нашей линейной регрессии
#Она на вход принимает Х и коэффициенты

def lin_reg(x1, x2, t1, t2, t3):
    return x1*t1 + x2*t2 + t3

In [5]:
lin_reg(X[0,0], X[0,1], t1, t2, t3)

0.9406432316643368

In [None]:
#Задача подобрать оптимальные коэф t1, t2, t3
#которые наилучшим образом описывают наши данные. т.е. с этими коэф наша ф-я потерь достигает миним (ф-я потерь это MSE )

In [6]:
#Научиться эту ф-ю потерь считать. Научимся для одного примера считать
def mse_one_example(x1, x2, t1, t2, t3, y):
    return (lin_reg(x1, x2, t1, t2, t3)-y)**2

In [7]:
#Для первого примера MSE
mse_one_example(X[0,0], X[0,1], t1, t2, t3, y[0])

64.95323151931785

In [8]:
#Нам нужно посчитать МСЕ теперь для всей выборки
#Передаем матрицу Х и у в ф-ю и коэф
#Как будет работать. Посчитать МСЕ для всех примеров, сложить их и делить на кол-во примеров
def mse(X, y, t1, t2, t3):
    num_of_samples = len(y) #сколько записей в y
    total_mse = 0
    for i in range(num_of_samples): #пробегаемся по всем нашим примерам
        total_mse += mse_one_example(X[i, 0], X[i, 1], t1,t2,t3, y[0])
        # добавляем сюда МСЕ для одного примера. Это 0 признак для iитого объекта, потом 1 признак для iитого объекта
        #коэф и правильный ответ для iитого примера
        return   total_mse / num_of_samples

In [9]:
mse(X, y, t1, t2, t3)

12.99064630386357

In [None]:
#Начнем делать градиентный спуск. Для этого нужно научиться получать производные по каждому из наших параметров.
#Мы хотим оптимизировать - ф-ю потерь. У нас три параметра t1,t2,t3. Значит нам нужно вычислить 3 производные по этим параметрам 

In [29]:
#Создаем ф-ю первой частной производной
def der_mse_t1(X, y, t1, t2, t3):
    num_of_samples = len(y) 
    total_mse_der = 0
    for i in range(num_of_samples): 
        #Бежим по всем примерам
        total_mse_der += (lin_reg(X[i, 0], X[i, 1], t1,t2,t3) - y[i] * X[i,0])
        #складываем прогноз модели (lin_reg(X[i, 0], X[i, 1], t1,t2,t3) - правильный ответ  y[i] 
        #* на соответствующий признак этого набюлдения X[i,0]
    return  2 *  total_mse_der / num_of_samples

In [30]:
#Создаем ф-ю второй частной производной. Это параметр при свободном частном члене 
def der_mse_t2(X, y, t1, t2, t3):
    num_of_samples = len(y) 
    total_mse_der = 0
    for i in range(num_of_samples): 
        #Бежим по всем примерам
        total_mse_der += (lin_reg(X[i, 0], X[i, 1], t1,t2,t3) - y[i] * X[i,1])
        #Разница только в том, что берем не первый признак, а второй X[i,1]
    return  2 *  total_mse_der / num_of_samples

In [31]:
#Создаем последнюю частную производную. Это просто разница прогноза и правильного ответа 

def der_mse_t3(X, y, t1, t2, t3):
    num_of_samples = len(y) 
    total_mse_der = 0
    for i in range(num_of_samples): 
        #Бежим по всем примерам
        total_mse_der += (lin_reg(X[i, 0], X[i, 1], t1,t2,t3) - y[i])
        #Убираем умножение на X[i,1]) 
    return  2 *  total_mse_der / num_of_samples

In [34]:
der_mse_t3(X, y, t1, t2, t3)

-30.771716806694847

In [None]:
#Градиентный спуск - мы вычислили наши частные производные и дальше на их основе корректируем наш параметр 

In [35]:
#dt - производные 
#lr - шаг, леарнинг рейт
#Запишем ф-ю правила обновления градиентного спуска
def do_gradiend_update(t1, t2, t3, dt1, dt2, dt3, lr):
    return (
    t1 - lr * dt1,
    t2 - lr * dt2,
    t3 - lr * dt3
    )

In [37]:
#Запишем правило 
def do_gradiend_step(X, y, t1, t2, t3, lr):
      #Вычисляем наши частные производные 
    dt1 = der_mse_t1(X, y, t1, t2, t3)
    dt2 = der_mse_t2(X, y, t1, t2, t3)
    dt3 = der_mse_t3(X, y, t1, t2, t3)
    
    #Делаем градиентный апдейт 
    return do_gradiend_update(t1, t2, t3, dt1, dt2, dt3, lr)

In [48]:
lr = 0.01

In [50]:
print("BEFORE UPDATE. \nT1: {}, \nT2: {}, \nT3: {}".format(t1, t2, t3))
print("LOSS {}".format(mse(X,y,t1,t2,t3)))
print("")
dt1 = der_mse_t1(X, y, t1, t2, t3)
dt2 = der_mse_t2(X, y, t1, t2, t3)
dt3 = der_mse_t3(X, y, t1, t2, t3)
print("GRADINTS. \nDT1: {}, \nDT2: {}, \nDT3: {}".format(dt1, dt2, dt3))
print("")
t1, t2, t3 = do_gradiend_update(t1, t2, t3, dt1, dt2, dt3, lr)         
print("AFTER UPDATE. \nT1: {}, \nT2: {}, \nT3: {}".format(t1, t2, t3))
print("LOSS {}".format(mse(X,y,t1,t2,t3))) 

BEFORE UPDATE. 
T1: 1.8775826320686715, 
T2: 2.5546290944411014, 
T3: 0.512951071734067
LOSS 3.2883409465491455

GRADINTS. 
DT1: -84.63392665595563, 
DT2: -111.03392665595564, 
DT3: -10.233926655955633

AFTER UPDATE. 
T1: 2.7239218986282276, 
T2: 3.664968361000658, 
T3: 0.6152903382936232
LOSS 0.796659017141791
