## Naivni Bayesov klasifikator

In [None]:
import numpy as np

### Primer za ogrevanje

V letniku športne gimnazije imamo 20 učencev. Vsak od njih sodeluje pri enem od športov: ```kosarka```, ```nogomet```, ```gimnastika```. Njihovo višino smo ocenili "na oko" in vsakemu učencu pripisali eno od možnih vrednosti: ```nizek```, ```srednji``` ali ```visok```.

<img src="footballers.png" width=600/>

<br/>
<font color="blue"> Kako bi novemu učencu Marku, ki je ```srednje (middle)``` rasti predlagali najprimernejši šport? </font>

In [None]:
data = np.genfromtxt("sports.csv", delimiter=",", skip_header=1, dtype=str)
data

array([['tall', 'basketball'],
       ['tall', 'basketball'],
       ['tall', 'basketball'],
       ['tall', 'basketball'],
       ['middle', 'basketball'],
       ['middle', 'basketball'],
       ['short', 'basketball'],
       ['tall', 'basketball'],
       ['middle', 'football'],
       ['middle', 'football'],
       ['middle', 'football'],
       ['tall', 'football'],
       ['tall', 'football'],
       ['short', 'football'],
       ['short', 'football'],
       ['short', 'gymnastics'],
       ['short', 'gymnastics'],
       ['short', 'gymnastics'],
       ['middle', 'gymnastics'],
       ['middle', 'gymnastics']], 
      dtype='<U10')

Kakšne vrednosti imajo spremenljivke?

In [None]:
heights = set(data[:, 0])
sports = set(data[:, 1]) 
print(heights)
print(sports)

{'middle', 'short', 'tall'}
{'basketball', 'football', 'gymnastics'}


Kako popularni so posamezni športi?

In [None]:
for sport in sports:
    subset_y = data[:,1] == sport
    print(sum(subset_y)/len(data))

0.4
0.35
0.25



<br/>
<br/>
Najpopularnejši šport je košarka, s katerim se ukvarja 8 oz. 40% učencev. Naš prvi predlog je torej, naj se Marko ukvarja s košarko. S tem rezultatom nismo najbolj zadovoljni, saj vidimo da med košarkaši ni veliko športnikov ```srednje``` višine. Razlog? Pri izračunu nismo upoštevali verjetnosti lastnosti oz. <i>atributa</i> o Markovi višini.
<br/>
<br/>

<div style="background-color:#00ccff; margin-left:50px; margin-right:50px"> Splošnim verjetnostmi razredov, ki smo jih izračunali pravimo <i>apriorne</i> verjetnosti.

Označimo jih z $P(Y)$, kjer je $Y$ spremenljivka razreda.
</div>

V našem primeru $Y$ zavzame vrednosti {```basketball```, ```football```, ```gymnastics```}.



<br/>
<br/>

In [None]:
for sport in sports:
    subset_y = data[:,1] == sport
    subset_x = np.logical_and(data[:,0] == "middle", data[:,1] == sport)
    p_xy = sum(subset_x) / sum(subset_y)
    
    print("Sport (Y): %s, verjetnost P(X=middle|Y=%s): %f" % (sport, sport, p_xy, ))

Sport (Y): basketball, verjetnost P(X=middle|Y=basketball): 0.250000
Sport (Y): football, verjetnost P(X=middle|Y=football): 0.428571
Sport (Y): gymnastics, verjetnost P(X=middle|Y=gymnastics): 0.400000



<br/>
Zanimivo! Verjetnost ```srednje``` višine je največja med nogometaši. Ali podatek zadošča za spremembo prvotne odločitve?

<br/>
<div style="background-color:#00ccff; margin-left:50px; margin-right:50px">
Verjetnosti $P(X|Y)$ pravimo <i>pogojna verjetnost spremenljivke $X$ pri znanem $Y$</i>.  Opredeljuje verjetnost, da je v primerih razreda $Y$ atribut $X$ zavzame določeno vrednost. 
</div>

Katera verjetnost pa nas v resnici zanima? Želimo, da izračun upošteva Markovo višino in oceni verjetnost vsakega od športov. To je verjetnost

$$ P(Y|X) $$

oz. v Markovem primeru

$$ P(Y|X=middle)$$

Za izračun te verjetnosti uporabimo

## Bayesov obrazec

Da bi izračunali verjetno razreda pri danih atributih $P(Y|X)$, potrebujemo verjetnost za vse možne kombinacije razreda $Y$ in atributov $X$, ki jo označimo z $P(X, Y)$. Iz pravil o pogojni verjetnosti sledi:

$$ P(X, Y) = P(X|Y) \cdot P(Y) = P(Y|X) \cdot P(X)$$ 

<br/>
<div style="background-color:#00ccff; margin-left:50px; margin-right:50px">
Iz česar sledi <i>Bayesov obrazec</i> za izračun $P(Y|X)$:

$$P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)} $$ 
</div>
<br/>

Izračun verjetnosti razreda $Y$ pri znanih atributih $X$ je torej odvisen od apriorne verjetnosti razreda $P(Y)$, pogojne verjetnosti $P(X|Y)$ in apriorne verjetnosti atributov $P(X)$. <font color="blue">V Markovem primeru torej:</font>

$$P(Y|X=middle) = \frac{P(X=middle|Y) \cdot P(Y)}{P(X=middle)} $$ 


<br/>
<br/>
Če verjetnost ocenimo za vsako možno vrednost razreda Y, torej {```kosarka```, ```nogomet```, ```gimnastika```}, dobimo odgovor na prvotno vprašanje.


Izračunajmo $P(Y | X = middle)$!

In [None]:
for sport in sports:
    for h in heights:
        
        inxs = np.logical_and(data[:,0]==h, data[:,1] ==sport)
        p_xy = sum(inxs) / len(inxs)

        print("P(X=%s, Y=%s)=%0.3f" %(h,sport,p_xy))
    
    print()

P(X=middle, Y=basketball)=0.100
P(X=short, Y=basketball)=0.050
P(X=tall, Y=basketball)=0.250

P(X=middle, Y=football)=0.150
P(X=short, Y=football)=0.100
P(X=tall, Y=football)=0.100

P(X=middle, Y=gymnastics)=0.100
P(X=short, Y=gymnastics)=0.150
P(X=tall, Y=gymnastics)=0.000



In [None]:
h = "short"

for s in sports:
        p_s = sum(data[:,1]==s) /len(data)
        p_hs = sum(np.logical_and(data[:,0]==h, data[:,1]==s))/sum(data[:,1]==s) #divided by sports of particular kind
        
        p_sh = p_hs * p_s
        print("P(Y=%s | X=%s) =%0.3f" %(s,h,p_sh))

P(Y=basketball | X=short) =0.050
P(Y=football | X=short) =0.100
P(Y=gymnastics | X=short) =0.150


### Implementacija Naivnega Bayesovega klasifikatorja

<i>Naivni Bayesov klasifikator</i> predpostavlja, da so atributi neodvisni med seboj, pri znanem razredu.

$$ P(Y|X_1, X_2, ..., X_p) = \frac{P(Y) \cdot P(X_1|Y) \cdot P(X_2|Y) \cdots P(X_p|Y)}{P(X)} $$

<font color="green"><b>Naredi sam/a.</b></font> Dopolni implementacijo naivnega Bayesovega klasifikatorja, ki je definiran v spodnjem odseku. Dopolniti je potrebno del kode, kjer izračunamo 
* verjetnostne porazdelitev razredov $P(Y)$
* verjetnostne porazdelitve atributov pri znanem razredu $P(X|Y)$



#### Sklepanje o podatkih

V primeru diskretnih atributov lahko obe porazdelitvi dobimo s <i>preštevanjem</i>.
* $P(Y)$ <i> Kolikokrat se v podatkih pojavi razred $Y$?</i>
* $P(X|Y)$ <i> Kolikokrat se v podatkih, ki spadajo v razred $Y$, pojavi atribut $X$?</i>


<font color="blue"><b>Kaj pa $P(X)$?</b></font> To verjetnost je včasih težko izračunljiva, posebej pri visoko dimenzionalnih podatkih, saj ni nujno, da bodo v podatki prisotne vse kombinacije atributov. Na srečo ta vrednost ne vpliva na izbiro najverjetnejšega razreda za posamezen primer!

#### Napovedovanje

Z nov primer $X^* = (X_1^*, X_2^*, ..., X_p^*)$ med vsemi vrednosti razreda $Y=y$, izberi tisto, ki maksimizira naslednji izraz:


$$ \text{arg max}_y \ P(Y=y) \cdot P(X_1^*|Y=y) \cdot P(X_2^*|Y=y) \cdots P(X_p^*|Y=y) $$

#### Log-transformacija

Težava pri zgornjem pristopu pre praktične narave; množenje velikega števila verjetnosti hitro privede do zelo majhnih števil, ki lahko presežejo strojno natančnost. Najenostavnejša rešitev, ki vede do enake izbire razreda je naslednja 

$$ \text{arg max}_y \ \text{log } P(Y=y) + \text{log } P(X_1|Y=y) + \text{log } P(X_2|Y=y) + ... + \text{log } P(X_p|Y=y) $$

Pri implementaciji si pomagaj s podatki potnikov ladje <i><a href="https://www.kaggle.com/c/titanic">Titanic</a></i>. Katere spremenljivke predstavljajo atribute in katera/e razred?

In [None]:
data = np.genfromtxt("titanic-training.csv", delimiter=",", skip_header=1, dtype=str)
data

array([['crew', 'adult', 'male', 'yes'],
       ['crew', 'adult', 'male', 'no'],
       ['third', 'adult', 'male', 'no'],
       ..., 
       ['second', 'adult', 'male', 'no'],
       ['second', 'adult', 'female', 'yes'],
       ['crew', 'adult', 'male', 'no']], 
      dtype='<U6')

In [None]:
class NaiveBayes:
    
    
    """
    Naive Bayes classifier.
    

    :attribute self.probabilities
        Dictionary that stores
            - prior class probabilities P(Y)
            - attribute probabilities conditional on class P(X|Y)
    
    :attribute self.class_values
        All possible values of the class.
        
    :attribute self.variables
        Variables in the data. 
    
    :attribute self.trained
        Set to True after fit is called.
    """
    
    def __init__(self):
        self.trained       = False
        self.probabilitiesY = dict()
        self.probabilitiesXY = dict()
        
        # You can add more auxilliary variables to store attribute and class values
    
    
    def fit(self, data, class_index=-1):
        """
        Fit a NaiveBayes classifier.
        
        :param data
            Data array       
        """
        
        
        
        # Store info on class varibles and attributes
        
        
        # Compute P(Y) - the overall probability of each class value.
        
        # Compute P(X|Y) - the probability of x given each class

        
        '''
        1. store info on class variables and attributes
          self.probabilities = {
            0:{
                "crew":
                "first":
                "second
            }
                1:{
                ...
            }

        }
        
        
        2. compute P(Y) - the overall probability of each value
        self.probabilitiesY = {
            "yes":p_yes, "no":p_no
        }
         3. Compute P(X|Y) - the probability of x given each class
        self.probabilitiesXY = {
            "yes":{0:{"crew": p1, "first": p2...,}, 1:{...}}
            "no" :{0:{"crew": p1, "first": p2...,}, 1:{...}}
        }
        
        
      
        '''
        
        class_index= -1
        classes = set(data[:, class_index]) 
        for c in classes:
            #2
            subset_y = data[:,class_index] == c
            p = round(sum(subset_y) / len(data), 4)
            self.probabilitiesY[c] = p
            
             #3
            #mormo it skoz vse indekse razn class
            self.probabilitiesXY[c] = dict()
            
            ncols = data.shape[1] ##pazi tko dobiš num of columns
            for attr_index in range(ncols):
                attr_values = set(data[:, attr_index])  ##all possible values for attribute attr_index
                self.probabilitiesXY[c][attr_index] = dict()
                for value in attr_values:
                    #binary vectors
                    inxs_y = data[:, class_index] == c #examples with class == c
                    inxs_xy = data[inxs_y, attr_index] == value #examples with class == c && attribute == val   !!!!!!!!!
                    
                    
                    p_xy = round(sum(inxs_xy) / sum(inxs_y), 4)
                    
                    
                    self.probabilitiesXY[c][attr_index][value] = p_xy 

        
            
        self.trained = True
        
    
    def predict_instance(self, row):
        """
        Predict a class value for one row in a data array.
        
        Compute 
            argmax P(Y|X) =  argmax P(X1|Y) * P(X2|Y) * ... * P(Y)
        
        :param row
            Array row.
        :return 
            Most probable class and the confidence.
        """
        # TODO: implement
        classes = self.probabilitiesY.keys()
        
        
        curr_c = ""
        curr_p = 0
        
        for c in classes: #ai je attribute index
            
            p = self.probabilitiesY[c]
            
            
            for ai in range(len(row)):
                v = row[ai]
                p = p * self.probabilitiesXY[c][ai][v] #for each class we get multiple results -store max
                
                if p > curr_p: #store max
                    curr_c = c
                    curr_p = p
                
        return curr_c, curr_p
        
   

    def predict(self, data):
        """
        Predict class labels for all rows in data. 
        
        :param data
            Data array
        :return y, c
            y: NumPy vector with predicted class values (str).
            c: NumPy vector with confidences.
            
        """
        ##call predict_instance for each row individually
        
        
        n = data.shape[0]
        #predictions = np.zeros((n, ))
        predictions = list()
        confidences = np.zeros((n, ))
    
        # TODO: implement
        return predictions, confidences

In [30]:
classes = set(data[:, -1]) 

for _class in classes:
    subset_y = data[:,-1] == _class
    print(sum(subset_y)/len(data))

0.314545454545
0.685454545455


####  Uporaba klasifikatorja

Primer uporabe na podatkih potnikov ladje <i><a href="https://www.kaggle.com/c/titanic">Titanic</a></i>.

In [43]:
model = NaiveBayes()
model.fit(data)

print(model.probabilitiesY)
model.probabilitiesXY

{'yes': 0.3145, 'no': 0.6855}


{'no': {0: {'crew': 0.43369999999999997,
   'first': 0.090200000000000002,
   'second': 0.1167,
   'third': 0.3594},
  1: {'adult': 0.96419999999999995, 'child': 0.035799999999999998},
  2: {'female': 0.083599999999999994, 'male': 0.91639999999999999},
  3: {'no': 1.0, 'yes': 0.0}},
 'yes': {0: {'crew': 0.28899999999999998,
   'first': 0.28029999999999999,
   'second': 0.17630000000000001,
   'third': 0.25430000000000003},
  1: {'adult': 0.91620000000000001, 'child': 0.083799999999999999},
  2: {'female': 0.49130000000000001, 'male': 0.50870000000000004},
  3: {'no': 0.0, 'yes': 1.0}}}

In [44]:
row = data[42]
row 
model.predict_instance(row)

('no', 0.2463687)

### Ocenjevanje uspešnosti klasifikacije

Za ocenjevanje uspešnosti klasifikacije vsak napovedani primer primerjamo s pripadajočim resničnim razredo. Štirje možni izidi primerjave so naslednji: 

<table>
<tr>
<td>
<ul>
<li>TP: True positives (pravilno napovedani pozitivni primeri)</li>
<li>FP: False positives (napačno napovedani negativni primeri)</li>
<li>TN: True negatives (pravilno napovedani negativni primeri)</li>
<li>FN: False negatives (napačno napovedani pozitini primeri)</li>
</ul> 

<br/>
<img src="type12_error.jpeg" width=400/>

</td>
<td><img width="400" src="Precisionrecall.png"></img><td>
<tr/>
<table>


#### Delež pravilno razvrščenih razredov (ang. classification accuracy)


$$ca = \frac{TP + TN}{TP + TN + FP + FN}$$

<font color="green">Prednosti</font>:
* Enostaven izračun, jasna interpretacija
* Uporabna mera za poljubno število razredov

<font color="red">Slabosti</font>:
* Lahko zavaja pri neuravnoteženih porazdelitvah razredov

<br/>

#### Natančnost, priklic (ang. precision, recall)



$$ p = \frac{TP}{TP + FP} $$

$$ r = \frac{TP}{TP + FN} $$

<font color="green">Prednosti</font>:
* Enostaven izračun, jasna interpretacija
* Ločitev obeh tipov napak (napačno pozitivni in napačno negativni primeri)
* Uporabna tudi pri neuravnoteženih porazdelitvah razredov

<font color="red">Slabosti</font>:
* Uporabno pretežno za klasifikacijo v dva razreda
* Težko povzeti obe meri ; približek je F1-vrednost (ang. F1-score)
$$ F1 = 2 \frac{p \cdot r}{p + r} $$


<font color="green"><b>Naredi sam/a.</b></font> Napovej razrede na testni množici. Napovedane razrede primerjaj z resničnimi in izmeri klasifikacijsko točnost, natančnost, priklic in F1-vrednost.

In [11]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

# uporaba metod: 
test_data      = Table("titanic-test.tab")
predictions, _ = model.predict(test_data) 
truth          = [row["survived"].value for row in test_data]
accuracy_score(truth, predictions)

NameError: name 'Table' is not defined

<font color="orange"><b>Izziv.</b></font> Nekateri atributi imajo verjetnost 0 pri posameznem razredu. Kako bi popravili klasifikator?

<font color="blue"><b>Razmisli.</b></font> Kako bi dopolnili klasifikator, če bi bili nekateri atributi lahko tudi zvezni? Namig: spomni se vaj, ko smo spoznali <i>verjetnostne porazdelitve</i> zveznih spremenljivk. 