# Ucitavanje biblioteka za rad 

In [46]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random
import time

random.seed(time.time())

In [2]:
# broj indeksa za studenta Jovan Dmitrović
ind = '2021/3096'

# odredjivanje parametra S 
S = 0
for i in range(4):
    S += int(ind[len(ind)-i-1])
S %=3

S_dict = {0: 'Rigde regresija',
          1: 'LASSO regresija',
          2: 'Lokalno ponderisana linearna regresija'}

print(f'Parametar S za broj indeksa {ind} je {S}, odnosno algoritam koji je potrebno implementirati je {S_dict[S]}.')

Parametar S za broj indeksa 2021/3096 je 0, odnosno algoritam koji je potrebno implementirati je Rigde regresija.


# Ucitavanje podataka 

In [3]:
data = pd.read_csv('data.csv').to_numpy()
X, y = data[:,0:5], data[:,5]

print('-------------------Ucitani su podaci-------------------')
print(f'Ukupan broj ucitanih primera je: {X.shape[0]}')
print(f'Ukupan broj ucitanih prediktora (dim(X)) je: {X.shape[1]}')


-------------------Ucitani su podaci-------------------
Ukupan broj ucitanih primera je: 341
Ukupan broj ucitanih prediktora (dim(X)) je: 5


# Teorijski osvrt

Dakle, potrebno je implementirati **Ridge regresiju**, koristeci se **polinomijalnom regresijom** ciji je red polinoma unapred odredjen zadatkom i iznosi 2. 

Polinomijalna regresija drugog reda ima sledeci oblik:
$$\hat{y} = \theta_0 + \theta_1x + \theta_2x^2,$$

U ovakvim slucajevima se javlja problem da mali red modela ogranicava ekspresivnost modela, odnosno model ne uspeva da dovoljno dobro isprati dinamiku koju unose ulazni podaci.
Taj problem se resava na dva nacina:
- ili povecavanjem reda modela (sto u vecini slucajeva nije dobro, jer dovodi do preobucavanja)
- ili regularizacijom (odlicna metoda)

Upravo jedan tip regularizacije, tzv. *L2* odnosno *Rigde* regularizaciju potrebno je implementirati ovde i inkorporirati u polinomijalnu regresiju drugog reda.

Regularizacija se uvodi u kriterijumsku funkciju kao sabirak:
$$J(\theta) = L(\hat{y}, y) + \lambda R(\theta),$$
gde je $L(\hat{y}, y)$ funkcija gubitka modela ((srednje) kvadratna greska), $\lambda$ hiper-parametar regularizacija koji odredjuje koliko ce regulazacioni sabirak ($R(\theta)$) biti penalizovan.

Regularizaciona funkcija za Rigde regularizaciju ima sledeci oblik:
$$R_{ridge}(\theta) = \sum_{i=1}^{n}{\theta_i^2},$$ gde je $n$ ukupan broj prediktora, odnosno komponenti vektora $\theta$, modela.

Hiper-parametar regularizacije $\lambda$ odredjujemo unakrsnom validacijom, minimizacijom (srednje) kvadratne greske.

In [4]:
# red polinoma 
p=2

# broj primera
m = X.shape[0] # 341

## Odredjivanje broja parametara vektora $\theta$

U pitanju je **Polinomijalna regresija**, pri cemu je red polimoma postavljen na $p=2$ i ona ima sledeci oblik:
$$\hat{y} = \theta_0 + \theta_1x + \theta_2x^2,$$

Ovakav oblik je validan kada je broj prediktora jedan 1. Medjutim, u slucajevima kada je broj prediktora razlicit od nule, postoje i unakrasna mnozenja pojedinacnih prediktora, po principu svaki sa svakim ($x_1x_2, x_1x_3, x_1x_4, x_1x_5, x_2x_3, ...$) i, naravno, postoje cisto kvadratni "novi" prediktori ($x_1^2, x_2^2, x_3^2, x_4^2, x_5^2$). 

Ukupan broj parametara u vektoru $\theta$ odredjen je:
- $\theta_0$ srednja vrednost - #1 (ovu vrednost odredjujemo kao srednju vrednost izlaznih primera $y_i$)
- 5 "linearnih" prediktora - #5
- 5 "kvadratnih" prediktora - #5
- kombinacija bez ponavljanja 5 "linearnih" prediktora - #10.

Dakle, ukupno 21 parametar, koji se nalaze u vektoru $\theta$, odnosno 20 prediktora.

In [31]:
# broj prediktora 
n=20

print(f'Red polinoma: p = {p}\nBroj prediktora: n = {n}\nBroj primera: m = {m}\n')

# theta 0
theta_0 = np.mean(y)

print('Odredjeni parametar theta_0 je : {:.3f}'.format(theta_0))

Red polinoma: p = 2
Broj prediktora: n = 20
Broj primera: m = 341

Odredjeni parametar theta_0 je : 153.745


# Implementacija potrebnih funkcija

In [116]:
def read_data(path: str='data.csv', separator_index: int=5) -> tuple:
    
    data = pd.read_csv('data.csv').to_numpy()
    X, y = data[:,0:separator_index], data[:,separator_index]
    
    return X, y

In [27]:
def factoriel(n: int) -> int:
    
    """
        Funkcija za preracunavanje faktorijela nekog prirodnog broja.
    """
    
    f = 1
    while n>1:
        f *= n
        n -=1
    return f

In [26]:
def make_polynomial_features(X: np.ndarray, p: int=2) -> np.ndarray:
    
    """
        Funkcija za kreiranje polinomijalnih obelezja od 
        obelezja datih kroz n-dimenzionu matricu X. 
        
        Broj kolona matrice X predstavlja broj prediktora, a broj njenih 
        vrsta prestavlja broj primera. 
        
        Funkcija radi za drugi red polinoma (p=2).
    """
    
    # broj primera
    m = X.shape[0] 
    
    # stari broj prediktora - za linearnu regresiju
    n_old = X.shape[1] 
    
    # novi broj prediktora
    n = int(p*n_old + factoriel(n_old)/(factoriel(n_old-p)*factoriel(p)))
    
    # kreiranje polinomijalnih obelezja svih stepena
    features = []
    for i in range(n_old):
        features.append(list(X[:,i]))
        
        for j in range(n_old):
            if j >= i:
                product = X[:,i]*X[:,j]
                features.append(list(product))
    
    return np.array(features, dtype='float32').reshape((m, n))

In [41]:
def train_test_data_split(X: np.ndarray, y: np.ndarray, split_ratio: float=0.8) -> tuple:
    
    """
        Funkcija za splitovanje svih dostupnih podataka na trening/obucavajuce
        i test podatke prema zadatom postotku (split_ratio).
        
    """
    
    m = X.shape[0]
    
    train_set_size = int(m*split_ratio)
    
    ind = np.arange(0,m).tolist()
    
    train_set_ind = random.sample(ind, k=train_set_size)
    test_set_ind = list(set(ind) - set(train_set_ind))
    
    X_train, y_train = X[train_set_ind], y[train_set_ind]
    X_test, y_test = X[test_set_ind], y[test_set_ind]
    
    return X_train, y_train, X_test, y_test

In [92]:
def get_fold_indeces(m: int, k: int=5) -> list:
    
    """
        Funkcija za dohvatanje listi pocetnih i krajnjih indeksa
        foldova na osnovu prosledjenog broja foldova - k i velicine celokupnog seta
        podataka - m.
        
    """
    
    fold_size = int(m/k)
    
    fold_indeces = []
    
    for i in range(k):
        
        fold_indeces.append([i*fold_size, (i+1)*fold_size if i != k-1 else m])
    
    return fold_indeces  

In [131]:
def get_fold(X: np.ndarray, y: np.ndarray, fold_index: list) -> tuple:
    
    """
        Funkcija za dohvatanje jednog folda podataka na osnovu proslednje
        liste koja sadrzi pocetni i krajnji indeks jednog folda.
    """
    
    X_fold = X[fold_index[0]:fold_index[1],:]
    
    y_fold = y[fold_index[0]:fold_index[1]]
    
    return (X_fold, y_fold)

In [142]:
def concat_folds(fold_1: tuple, fold_2: tuple=None) -> tuple:
    
    """
        Funkcija za spajanje dva odvojena folda podataka 
        koji u sebi sadrze i ulazne i izlazne podatke.
    """
    
    try:
        X_1, y_1 = fold_1[0], fold_1[1]
        X_2, y_2 = fold_2[0], fold_2[1]

        X_concat = np.concatenate((X_1, X_2), axis=0)
        Y_concat = np.concatenate((y_1, y_2), axis=0)
        
    except:
        X_1, y_1 = fold_1[0], fold_1[1]
        return (X_1, y_1)
    
    return (X_concat, Y_concat)

In [143]:
def get_validation_and_train_folds(X: np.ndarray, y: np.ndarray, validation_fold_index: int, fold_indeces: list) -> tuple:
    
    """
        Funkcija za dohvatanje jednog folda podataka za validaciju i ostatak podataka
        za obucavanje.
    """
    
    validation_fold = get_fold(X, y, fold_indeces[validation_fold_index])
    
    train_folds = None
    
    for i in range(len(fold_indeces)):
        if i != validation_fold_index:
            train_fold = get_fold(X, y, fold_indeces[i])
            train_folds = concat_folds(train_fold, train_folds)
    
    return validation_fold, train_folds

In [53]:
def get_statistics(X: np.ndarray) -> tuple:
    
    """
        Funkcija za dohvatanje statistika - srednja vrednost i standardna devijacija. 
        Za svaka od kolona matrice X vrsi se izracunavanje statistika, s obzirom na to da
        one predstavljaju posebne prediktore.
    """
    
    mu = np.zeros((X.shape[1],))
    std = np.zeros((X.shape[1],))
    
    for i in range(X.shape[1]):
        mu[i] = np.mean(X[:,i])
        std[i] = np.std(X[:,i])
    
    return mu, std

In [162]:
def standardize(X: np.ndarray, mu: np.ndarray, std: np.ndarray) -> np.ndarray:
    
    """
        Funkcija za standardizaciju prediktora - postavljanje prediktora na istu skalu.
        Svaka kolona matrice X se standardizuje sa sebi svojstvenim statistikama - mu i std,
        s obzirom na to da su to posebni prediktori i da u opstem slucaju ne moraju biti na istoj skali.
    """
    
    for i in range(X.shape[1]):
        X_std = X[:,i] - mu[i]*np.ones((X.shape[0],))
        X[:,i] = X_std/std[i]
        
    return X

In [107]:
def center_outputs(y: np.ndarray) -> float:
    
    """
        Funkcija za centriranje izlaznih podataka oko
        sopstevene srednje vrednosti.
    """
    
    y_mean = np.mean(y)
    
    y_center = y-y_mean
    
    return y_center

In [115]:
def calculate_theta_ridge(X: np.ndarray, y_center: np.ndarray, lambda_param: float) -> np.ndarray:
    
    """
        Funkcija za analiticko racunanje optimalnih parametara Theta koristeci se 
        Ridge regresijom. 
    """
    
    n = X.shape[1]
    theta = np.zeros((n,), dtype='float32')
    
    theta = np.linalg.inv(X.transpose()@X + lambda_param*np.identity(n))@X.transpose()@y_center
    
    return theta

In [166]:
def l2_norm(vec_1: np.ndarray, vec_2: np.ndarray=None) -> float:
    
    """
        Funkcija za racunanje L2 norme vektora.
        Racuna se suma kvadrata svih elemenata vektora.
    """
    if vec_2:
        l2_norm = np.linalg.norm(vec_1-vec_2) # linalg.norm vraca klasicnu normu vektora, sa korenom
    else:
        l2_norm = np.linalg.norm(vec_1)
    
    return l2_norm**2

In [165]:
def predict(X: np.ndarray, theta: np.ndarray, theta_0: float) -> np.ndarray:
    
    """
        Funkcija koja vrsi predikciju, odnosno daje estimirane
        izlazne vrednosti na osnovu dosada formiranog modela.
    """
    
    y_hat = theta0 + (theta.reshape(1,-1)@X.transpose()).flatten() 
    
    return y_hat

In [170]:
def mse(y_hat: np.ndarray, y_true: np.ndarray, root: bool=False) -> float:
    
    """
        Funkcija za racunananje (korena) srednje kvadratne greske
        predikcije modela. Dakle, ujedno funkcija za MSE i RMSE.
    """
    
    l = y_true.size
    
    if root:
        value = (l2_norm(y_hat, y_true)/l)**0.5
    else:
        value = l2_norm(y_hat, y_true)/l
    
    return value

In [172]:
def loss(y_hat: np.ndarray, y_true: np.ndarray, theta: np.ndarray, lambda_param: float) -> float:
    
    """
        Funkcija za racunanje vrednosti funkcije gubitka - loss funkcije.
        Tehnicki, ono se sada, tj. sa regularizacijom zove kriterijumska funkcija, ali zbog
        lakseg asociranja, uzeto je ime funkcija gubitka.
    """
    
    mse = mse(y_hat, y_true) 
    regularization_part = lambda_param*l2_norm(theta)
    
    loss = mse + regularization_part
    
    return loss

In [175]:
X, y = read_data()
X_poly = make_polynomial_features(X, p=2)

X_poly_train, y_train, X_poly_test, y_test = train_test_data_split(X_poly, y, split_ratio=0.8)

y_train_center = center_outputs(y_train)

m = X_poly_train.shape[0]
k = 5

fold_indeces = get_fold_indeces(m, k=k)

# ovde treba spolasnja petlja po lambda za njeno odredjivanje

for i in range(k):
    validation_fold, train_folds = get_validation_and_train_folds(X_poly_train, y_train_center, validation_fold_index=i, fold_indeces=fold_indeces)
    
    train_X, train_y = train_folds[0], train_folds[1]
    validation_X, validation_y = validation_fold[0], validation_fold[1]
    
    mu, std = get_statistics(train_X)
    
    train_X_std = standardize(train_X, mu, std)
    validation_X_std = standardize(validation_X, mu, std)
    
    theta = calculate_theta_ridge(train_X_std, train_y, lambda_param=1)
    
    # ovde treba storovanje parametara i racunanje greske odnosno loss-a i cuvanje svih K lossova za jedno lambda
    # potom odredjivanje srednje vrednosti tih parametara i std i to se plotuje