In [1]:
import numpy as np 
class Perceptron(object):
    def __init__(self, input_size, lr=1, epochs=10):
        self.W = np.zeros(input_size+1)
        self.epochs = epochs
        self.lr = lr

    def activation_fn(self, x):
        return 1 if x >=0 else 0

    def predict(self, x):
        x = np.insert(x, 0, 1)
        z = self.W.T.dot(x)
        a = self.activation_fn(z)
        #print(a)
        return a

    def fit(self, X, d):  #d veri
        for _ in range(self.epochs):
            for i in range(d.shape[0]):
                y = self.predict(X[i])
                e = d[i] - y  #error değeri
                self.W = self.W + self.lr * e * np.insert(X[i], 0, 1)


In [2]:
mp = Perceptron(5)

In [3]:
mp.activation_fn(-10)

0

In [4]:
x = np.asarray([1,2,3,4,5])
x

array([1, 2, 3, 4, 5])

In [5]:
mp.predict(x)

1

In [6]:
X = np.array([
    [0,0],
    [0,1],
    [1,0],
    [1,1]
])

In [7]:
d = np.array([0,0,0,1])

In [8]:
X

array([[0, 0],
       [0, 1],
       [1, 0],
       [1, 1]])

In [9]:
perceptron = Perceptron(input_size=2)

In [10]:
perceptron.W

array([0., 0., 0.])

In [11]:
perceptron.fit(X,d)  #perceptron eğitildi

In [12]:
perceptron.W

array([-3.,  2.,  1.])

In [13]:
perceptron.predict(np.asarray([0,0]))

0

# Ödev soruları ve cevapları

#### 1) Perceptron class tanımında var olan fonksiyonları kısaca tanıtınız.

- init metodu
    Bu metod perceptron sınıfından bir nesne oluşturduğumuzda otomatik olarak çalışır, perceptronumuz için gerekli matris ve hiper parametreleri ilklendirme (initiliazing) işlemini gerçekleştirir
    
- activation metodu:
    Bu metod aldığı girdinin istenilen bir eşik değeri olan 0 değerinden büyük olup olmamasına göre bir ateşleme sağlar.
    
- predict metodu:
    Bu metod perceptronumuzun ileri yayılım (forward propagating) ile aldığı girdiye karşılık bir tahminde bulunmasını sağlar. İleri yayılım esnasında girdi matrisine ağırlık matrisinin transpozesi ile dot product uygulanır ve yukarıda tanımlanmış aktivasyon fonksiyonundan geçirilir.
    
- fit metodu:
    Bu metod girdi olarak aldığı datasetin her bir elemanına yukarda tanımlanmış predict metodunu uygular ve gerçekte olması gereken değerlerden ne kadar uzak olduğunu hesaplayıp bu değere göre ağırlık matrisini yeni değerine günceller. Bütün bu işlemleri veri kümesi üzerinde kaç tur yapacağına da epoch değeri karar verir.

#### 2) XOR için verileri değiştirip çalışmasınızı gözlemleyiniz.  

In [14]:
d = np.array([0, 1, 1, 1])

perceptron.fit(X,d)

perceptron.W

array([-2.,  2.,  2.])

In [15]:
d = np.array([1, 1, 1, 0])

perceptron.fit(X,d)

perceptron.W

array([ 2., -2., -1.])

#### 3) Bu class ile dersimize kayıtlı 40 öğrenci için imza tanıması yapılırsa X ve d değerlerini ne olur, predict fonksiyonu nasıl kullanılır açıklayınız.

Her bir öğrencinin imzasını 128x128 boyutunda bir grayscale image şeklinde tutabiliriz.

Bu durumda X matrisimizin boyutu (40, 128, 128) şeklinde olur.

X = [ [ 1. imzaya ait resim ],.
        [2. imzaya ait resim] ,
        [3. imzaya ait resim] ,
        ...
        [40. imzaya ait resim]
    ]
       
Bu 40 öğrencinin her birini kendisine özel bir tamsayı ile etiketlersek (ahmet için 1, mehmet için 2 şeklinde)

d = [0, 3, 4, 1, 5 ... , 32] şeklinde değerler içeren (40,) şekline sahip bir vektör olur


Bu durumda predict fonksiyonunda predict için seçtiğimiz aktivasyon fonksiyonunu **softmax** aktivasyon fonksiyonu ile değiştirmeliyiz.

Softmax aktivasyon fonksiyonu alacağı girdiyi elimizdeki 40 sınıf için de olasılık değeri olarak bir vektör verecektir

Örnek bir çıktı şöyle olacaktır.

[ 0.001, 0.02, 0.009, ,,, , 0.92, 0.0004]   (40,)

Bu olasılıklardan en yüksek olana sahip index, imzanın hangi öğrenciye ait olduğuna dair tahmin olacaktır.

#### 4) Bu modelin hatası nasıl elde edilir, kendi çözümünüzü/ yorumunuzu yazınız.

Bu modelin hata değerini hesaplarken çıktıların gerçek değerlerine olan uzaklığının karesine bakılabilir, burada karesini almamızın sebeplerinden birisi negatif bir uzaklık değeri almak istemiyor oluşumuzdur.

Örneğin d de 3 olarak etiketlenmiş bir imzanın perceptrondaki softmax çıktısı şu şekilde bir şey olsun

[0.001,  0.6,  0.04, 0.3... , ]  shape = (40,)

burada görüleceği üzere 0.6 ihtimal ile girdinin 1 numaralı öğrenciye ait olduğunu gösteriyor, 0.3 ihtimal ile de 3 numaralı öğrenciye.

Bu durumda E = (0 - 0.001)^2 + (0 - 0.6)^2 + (1 - 0.3)^2 +  ... (0 - 0.002)^2 

şeklinde hesaplanır. Bu metoda Mean Square Error (MSE) da denir.

Bunun dışında karelerini almak yerine absolute değerlerini yani mutlak değerlerini alarak ta bu hata değerleri pozitif yapılabilirdi. Burada karesinin alınmasının asıl sebebi sanırım bu işlemin geri yayılım (back-propagation) esnasında türevini aldığımızda üst olan 2 nin başa geçirilerek kolayca türevinin alınabilmesi.