### Što je Perceptron?

Perceptron je jedan od najranijih oblika neuronskih mreža, koji je izvorno razvijen kao model za strojno učenje i predstavlja osnovu za moderne duboke neuronske mreže. To je vrsta umjetnog neurona koji koristi jednostavnu linearnu funkciju za izračunavanje ponderiranog zbroja ulaznih signala, kojima se zatim dodaje pristranost (bias). Rezultat te sume zatim prolazi kroz neku vrstu nelinearne aktivacijske funkcije, često sigmoidnu funkciju, kako bi se generirao izlaz.

#### Osnovne značajke Perceptrona:

1. **Ulazi i težine**: Perceptron prima višestruke ulazne signale, svaki od kojih ima pripadajuću težinu koja indicira važnost svakog ulaza. Ti ulazi se množe sa svojim težinama i zbroje se da bi se formirao ukupan ponderirani ulaz.

2. **Pristranost (Bias)**: Pored ponderiranih ulaza, perceptron uključuje i bias, koji se dodaje na zbroj kako bi se omogućilo fino podešavanje izlaza. Bias omogućava perceptronu da bolje prilagodi podatke koji nisu idealno linearno separabilni.

3. **Aktivacijska funkcija**: Nakon što se izračuna ponderirani zbroj ulaza i biasa, rezultat se šalje kroz aktivacijsku funkciju. U mnogim slučajevima, to je sigmoidna funkcija koja izlaz ograničava na raspon između 0 i 1, čineći ga pogodnim za probleme binarne klasifikacije.

4. **Učenje i prilagođavanje težina**: Perceptron se "uči" kroz proces prilagođavanja težina i biasa temeljen na greškama između predviđenih i stvarnih izlaza. Taj proces, poznat kao algoritam povratne propagacije, omogućava perceptronu da iterativno poboljšava svoje predviđanja prilagođavajući težine u skladu s greškama.

#### Primjena:

Perceptroni su jednostavni i efikasni za probleme binarne klasifikacije, kao što su prepoznavanje oblika i predikcija kategorije na osnovu skupa ulaznih značajki. Ipak, oni imaju ograničenja u radu s problemima koji nisu linearno separabilni, što je dovelo do razvoja višeslojnih perceptrona (MLP) i dubokih neuronskih mreža koji koriste više slojeva perceptrona za rješavanje složenijih problema.

Perceptron ostaje temeljni blok u učenju dubokih neuronskih mreža i povijesno značajan korak u razvoju algoritama strojnog učenja.

In [1]:
import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

class Perceptron:
    def __init__(self, input_size, learning_rate=0.1):
        self.weights = np.random.rand(input_size + 1) - 0.5
        self.learning_rate = learning_rate

    def predict(self, inputs):
        summation = np.dot(inputs, self.weights[1:]) + self.weights[0]
        return sigmoid(summation)
    
    def train(self, inputs, targets, epochs):
        for epoch in range (epochs):
            for input, target in zip(inputs, targets):
                prediction = self.predict(input)
                error = target-prediction
                self.weights[1:] += self.learning_rate * error * sigmoid_derivative(prediction) * input
                self.weights[0] += self.learning_rate * error * sigmoid_derivative(prediction)

if __name__ == "__main__":
    inputs = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
    targets = np.array([0, 1, 1, 0])

    perceptron = Perceptron(input_size=2)
    perceptron.train(inputs, targets, epochs=10000)

    for input in inputs:
        print(perceptron.predict(input))


0.5031444872132191
0.5
0.4968555127867808
0.49371127430020534


### Što je Višeslojni Perceptron (MLP)?

Višeslojni perceptron (MLP) je vrsta umjetne neuronske mreže koja se sastoji od više slojeva neurona, uključujući ulazni sloj, jedan ili više skrivenih slojeva i izlazni sloj. Za razliku od jednoslojnog perceptrona koji može modelirati samo linearno separabilne funkcije, MLP može naučiti i predstaviti složene nelinearne modele zahvaljujući svojim skrivenim slojevima.

#### Osnovne značajke MLP-a:

1. **Slojevi**: MLP ima tri osnovna tipa slojeva:
   - **Ulazni sloj**: prima ulazne podatke.
   - **Skriveni slojevi**: Ovi slojevi izvode većinu teškog računanja putem neurona koji nisu direktno izloženi ulazima ili izlazima. Broj skrivenih slojeva i broj neurona u svakom sloju može varirati, ovisno o složenosti problema.
   - **Izlazni sloj**: proizvodi konačni rezultat mreže.

2. **Težine i biasi**: Svaki neuron u jednom sloju povezan je s neuronima u sljedećem sloju preko težina, koje se prilagođavaju tijekom procesa učenja. Biasi su dodani za prilagodbu izlaza uz težine.

3. **Aktivacijska funkcija**: Koristi se za dodavanje nelinearnosti u mrežu, omogućujući modeliranje kompleksnijih funkcija. Sigmoidna funkcija je česta izbira za binarne klasifikacijske zadatke, iako se u modernim aplikacijama često koriste ReLU funkcije i njihove varijante.

#### Proces učenja u MLP-u:

1. **Naprijedna propagacija**: Počevši od ulaznog sloja, signali se šalju kroz mrežu do izlaznog sloja. Na svakom neurona izračunava se ponderirani zbroj ulaza i biasa, koji se zatim šalje kroz aktivacijsku funkciju.

2. **Povratna propagacija (backpropagation)**: Nakon dobivanja izlaza, izračunava se greška u odnosu na stvarne ciljeve. Greška se šalje natrag kroz mrežu, ažurirajući težine i biasi kako bi se minimizirala greška izlaza u sljedećim prolazima.

3. **Ažuriranje težina**: Težine se ažuriraju kako bi se smanjila ukupna greška, obično koristeći algoritme kao što je gradijentni spust ili njegove varijante.

#### Primjena:

MLP se široko koristi u dubokom učenju i može se primijeniti na različite zadatke kao što su klasifikacija slika, obrada prirodnog jezika, i predviđanje vremenskih serija. Sposobnost učenja složenih obrazaca i otkrivanja suptilnih veza u podacima čini MLP vrlo moćnim alatom u strojnom učenju.

MLP predstavlja temelj za mnoge složene arhitekture dubokog učenja, uključujući konvolucijske neuronske mreže (CNN) i rekurentne neuronske mreže (RNN), koje su prilagođene specifičnim vrstama podataka i zadacima.

In [6]:
import numpy as np

class NeuralNetwork:
    def __init__(self, input_size, hidden_layers, output_size, lr=0.1):
        self.lr = lr
        self.weights = []
        self.biases = []
        layer_sizes = [input_size] + hidden_layers + [output_size]
        for i in range(len(layer_sizes) - 1):
            self.weights.append(np.random.rand(layer_sizes[i], layer_sizes[i + 1]) - 0.5)
            self.biases.append(np.zeros(layer_sizes[i + 1]))

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))

    def sigmoid_derivative(self, x):
        return x * (1 - x)

    def predict(self, inputs):
        current_layer = inputs
        for weights, bias in zip(self.weights, self.biases):
            current_layer = self.sigmoid(np.dot(current_layer, weights) + bias)
        return current_layer

    def train(self, training_inputs, labels, epochs):
        for epoch in range(epochs):
            for inputs, label in zip(training_inputs, labels):
                activations = [inputs]
                current_layer = inputs

                # Forward propagation
                for weights, bias in zip(self.weights, self.biases):
                    current_layer = self.sigmoid(np.dot(current_layer, weights) + bias)
                    activations.append(current_layer)

                # Backward propagation
                errors = label - activations[-1]
                for i in reversed(range(len(self.weights))):
                    current_error = errors * self.sigmoid_derivative(activations[i + 1])
                    if i != 0:
                        errors = np.dot(current_error, self.weights[i].T) * self.sigmoid_derivative(activations[i])
                    delta = np.dot(activations[i].T.reshape(-1, 1), current_error.reshape(1, -1))
                    self.weights[i] += self.lr * delta
                    self.biases[i] += self.lr * current_error

if __name__ == '__main__':
    nn = NeuralNetwork(input_size=2, hidden_layers=[3], output_size=1)
    training_inputs = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
    labels = np.array([[0], [1], [1], [0]])  # XOR problem

    nn.train(training_inputs, labels, epochs=20000)
    for input in training_inputs:
        print(f'Input: {input} Output: {nn.predict(input)}')

Input: [0 0] Output: [0.05960368]
Input: [0 1] Output: [0.94346653]
Input: [1 0] Output: [0.9201462]
Input: [1 1] Output: [0.08467818]
