In [29]:
import numpy as np
from sklearn.datasets import fetch_openml
import joblib

x, y = fetch_openml('mnist_784', version=1, return_X_y=True, as_frame= False)

y = y.astype(int).reshape(-1)

y = y.reshape(-1,1)

data = np.hstack((y, x))

np.random.seed(42)
np.random.shuffle(data)

datatrain = data[:50000]
datadev = data[50000:60000]
datatest = data[60000:]

print(datatrain.shape, datadev.shape, datatest.shape)

def feature(df):
    return np.hstack((np.ones((df.shape[0],1)), df[:,1:] / 255))

def target(data):
    y = data[:,0].reshape(-1,1)
    return y

xtrain, xdev, xtest = tuple(feature(skup) for skup in [datatrain, datadev, datatest])

ytrain, ydev, ytest = tuple(target(skup) for skup in [datatrain, datadev, datatest])
print(xtrain.max())
xtrain.shape, xdev.shape, xtest.shape, ytrain.shape, ydev.shape, ytest.shape

(50000, 785) (10000, 785) (10000, 785)
1.0


((50000, 785), (10000, 785), (10000, 785), (50000, 1), (10000, 1), (10000, 1))

In [33]:
y = y.reshape(-1)
y = np.eye(np.max(y) + 1)[y]
y

array([[0., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [4]:
class Logit():
    
    def __init__(self, lr=0.1, regularizacija='', reg=0.01, maxIter=None, nIter = None):      
        '''Za regularizaciju uneti string 'l1' ili 'l2'
        reg je regularizacioni parametar lambda 
        learning rate: pocetna brzina ucenja (polovi se na svakih 1000 iteracija) '''
        
        self.lr = lr
        self.regularizacija = regularizacija
        self.reg = reg
        self.maxIter = maxIter
        self.preciznostTrain= None
        self.preciznostDev = None
        self.historyW = []

    def predict(self, x, y =None):
        """Racuna binarne predikcije za ulazne podatke x.
        Ako je prosleđen y, vraća dvojku (preciznost, predikcije)."""
        
        z = np.clip(x @ self.w, -500, 500)
        p = 1 / (1 + np.exp(-z))
        pred = (p > 0.5).astype(int)
        if y is not None:
            return (np.mean(pred == y.reshape(-1,1)), pred)
        else:
            return pred
    def predictProba(self,x):
        """Vraca predikcije verovatnoca za ulazne podatke x. """
        
        z = np.clip(x @ self.w, -500, 500)
        return 1 / (1 + np.exp(-z))
        
    def fit(self, x, y, xdev, ydev, randomState = 42, aktivacija = 'sigmoid'):
        """Treniranje modela koristeći grupni gradijentni spust (batch gradient descent).
        Funkcija prati preciznost na trening i dev skupu.
        Svakih 100 iteracija se čuvaju trenutne težine u self.historyW.
        Ako preciznost na dev skupu opadne u odnosu na 
        4 evaluacije unazad, smatra se da je dostigao plato i
        model se vraca na težine iz te iteracije i vraca
        dvojku (preciznost na trening skupu, preciznost na dev skupu)."""
        
        m, n = x.shape
        np.random.seed(randomState)
        self.w = np.random.rand(n,y.shape[1]) - .5
        trainscore = []
        devscore = [0 for _ in range(4)]
        i = 0
        lr = self.lr
        epsilon=.0000001
        self.aktivacija = aktivacija
        
        while True:
            z = x @ self.w
            
            if aktivacija == 'sigmoid':
                z = np.clip(z, -500, 500)
                pred = 1 / (1 + np.exp(-z))
                gradijenti = (x.T @ (pred - y.reshape(-1,1))) / m
                l = -np.mean(y * np.log(pred + epsilon) + (1 - y) * np.log(1 - pred + epsilon))                
                
            elif aktivacija == 'softmax':
                z -= np.max(z, axis = 1, keepdims = True)
                pred = np.exp(z) / np.sum(np.exp(z), axis = 1, keepdims = True)
                gradijenti = (x.T @ (pred - y)) / m
                l = -np.mean(np.sum(y * np.log(pred + epsilon), axis=1))
                
            else:
                raise ValueError("Aktivacija mora biti 'sigmoid' ili 'softmax'")
                

            
            if self.regularizacija.lower() == 'l1':
                l += (self.reg / m) * np.sum(np.abs(self.w[1:]))
                gradijenti[1:] += (self.reg / m) * np.sign(self.w[1:])
            elif self.regularizacija.lower() == 'l2':
                l += (self.reg / (2 * m)) * np.sum(np.square(self.w[1:]))
                gradijenti[1:] += (self.reg / m) * self.w[1:]

            self.w -= lr * gradijenti
            
            if i % 100 == 0:
                self.historyW.append(self.w.copy())
                preciznostTrain, _ = self.predict(x,y)
                trainscore.append(preciznostTrain)
                
                preciznostDev, _ = self.predict(xdev, ydev)
                devscore.append(preciznostDev)
            
            if i > 300 and (devscore[-1] - devscore[-5]) <= 0:
                print(f"Optimalni parametri su iz {i-300} iteracije")
                self.w = self.historyW[-4]
                break
            
            if self.maxIter is not None and i >= self.maxIter:
                print(f"Maksimalan broj iteracija ({self.maxIter}) dostignut.")
                break
            
            if i % 1000 == 0 and i > 0:
                lr *= 0.5
                print(f"Learning rate: {lr}, iteracija {i}")
                

            i += 1
        self.nIter = i - 300
        self.preciznostTrain, _ = self.predict(x,y)
        print("Preciznost na trening setu:", self.preciznostTrain)

        self.preciznostDev, _ = self.predict(xdev,ydev)
        print("Preciznost na dev setu:", self.preciznostDev)
        
        return self.preciznostTrain, self.preciznostDev

    
    def fitReg(self, x, y, xdev, ydev, listaRegularizacije):
        '''Fituje model za svaki parametar lambda iz liste, cuva rezultate na dev skupu
        na kraju fituje model sa lokalno optimalnim lambda parametrom i vraca recnik
        {lambda : rezultat na dev skupu}'''

        rezultati = []
        for i in range(len(listaRegularizacije)):
            self.reg = listaRegularizacije[i]
            _, devScore = self.fit(x, y, xdev, ydev)
            rezultati.append(devScore)
            
        self.w = self.historyW[np.argmax(rezultati)]
        self.reg = listaRegularizacije[np.argmax(rezultati)]
        self.fit(x, y, xdev, ydev)
        return {self.reg : rezultati[np.argmax(rezultati)]}

In [36]:
np.random.seed(42)
w = np.random.rand(xtrain.shape[1],y.shape[1]) - .5

In [38]:
w

array([[-0.12545988,  0.45071431,  0.23199394, ...,  0.36617615,
         0.10111501,  0.20807258],
       [-0.47941551,  0.46990985,  0.33244264, ...,  0.02475643,
        -0.06805498, -0.20877086],
       [ 0.11185289, -0.36050614, -0.20785535, ...,  0.01423444,
         0.09241457, -0.45354959],
       ...,
       [-0.14557601, -0.11885312, -0.08814772, ..., -0.16405385,
         0.06069448, -0.40494346],
       [-0.29953095, -0.08653423, -0.29379728, ...,  0.19186391,
        -0.11693063,  0.36909907],
       [ 0.06831915, -0.06049222, -0.43275937, ..., -0.00598833,
        -0.38153829, -0.48636015]])

In [None]:
z = x @ w
z -= np.max(z, axis=1, keepdims=True)
p = np.exp(z) / np.sum(np.exp(z), axis=1, keepdims=True)
pred = np.argmax(p, axis=1).reshape(-1, 1)