# Наивен Баесов класификатор

Беасов класификатор е алгоритам за класификација кој на некој начин ја користи [Баесовата теорема](https://en.wikipedia.org/wiki/Bayes%27_theorem) за да класифицира. Наивен Баесов класификатор е Беасов класификатор кој моделира независност помеѓу карактеристиките во податочното множество. Објаснување за алгоритамот ќе најдете во книгата на професорката, а тука следува код соодветно ќе го класифицира дадениот податок.

In [1]:
import numpy as np
import pandas as pd

Нека е дадена табела `table`. Последната колона `y` е излезна колона, а сите други `f` колони се карактеристики.

In [2]:
table = np.array([[0, 1, 1, 0, 1],
                  [0, 0, 1, 1, 1],
                  [1, 0, 1, 0, 1],
                  [0, 0, 1, 1, 1],
                  [0, 0, 0, 1, 1],
                  [1, 0, 0, 1, 0],
                  [1, 1, 0, 1, 0],
                  [1, 0, 0, 0, 0],
                  [1, 1, 0, 1, 0],
                  [1, 0, 1, 1, 0]])
df = pd.DataFrame(table, columns=['f1', 'f2', 'f3', 'f4', 'y'])
df

Unnamed: 0,f1,f2,f3,f4,y
0,0,1,1,0,1
1,0,0,1,1,1
2,1,0,1,0,1
3,0,0,1,1,1
4,0,0,0,1,1
5,1,0,0,1,0
6,1,1,0,1,0
7,1,0,0,0,0
8,1,1,0,1,0
9,1,0,1,1,0


За да класифицираме даден податок, ќе ја пресметаме веројатноста тој податок да припаѓа на секоја можна класа. Потоа ќе ги споредиме тие веројатности и влезниот податок ќе го класифицираме дека припаѓа во онаа класа за која сме пресметале најголема веројатност.

При пресметката на гореспоменатите веројатности, лесно може да се заклучи дека сите имаат ист заеднички именител во дробниот израз. Тој именител е нормализаторот од Баесовата теорема. Доколку целта ни е само да класифицираме, нема потреба да ја пресметуваме точната веројатност, туку ќе ја пресметаме веројатноста без тој нормализатор. Во овој случај имаме "веројатност" која ја нарекуваме веродостојност.

Функцијата `r()` е функцијата $R$ од материјалите на професорката.

In [3]:
def r(feature, value, output):
    """
    Функцијата R според книгата на професорката.
    :param feature: број на карактеристика fx
    :param value: вредност која ја има новиот податок за карактеристиката fx
    :param output: вредност на колоната y
    """
#     податоци каде колоната y има вредност output, а карактеристиката feature има вредност value
    data_where_feature_equals_value_and_y_equals_output = df.query(f'f{str(feature)} == {value} and y == {output}')
#     податоци каде колоната y има вредност output
    data_where_y_equals_output = df.query(f'y == {output}')
    
    return data_where_feature_equals_value_and_y_equals_output.shape[0] / data_where_y_equals_output.shape[0]

Да речеме дека имаме влезен податок `0011`. Треба да го класифицираме во кој група спаѓа, односно да пресметаме дали излезот за овој податок е 0 или 1. Ќе ја користиме дадената табела `table`.

Прво ќе ја пресметаме веродостојноста излезот за дадениот податок да има вредност 0. Тоа ќе го пресметаме како $$ S(0) = R_1(0, 0) R_2(0, 0) R_3(1, 0) R_4(1, 0) $$
каде $R_a(b, c)$ ја пресметува застапеноста на податоците каде излез е `c`, а карактеристиката `a` има вредност `b`, во податоците каде излез е `c`. На овој начин секоја вредност ја пресметуваме со помош на статистика. Преку код ова ќе го запишеме како `r(a, b, c)`.

In [4]:
s_0 = r(1, 0, 0) * r(2, 0, 0) * r(3, 1, 0) * r(4, 1, 0)
s_0

0.0

Потоа ќе ја пресметаме веродостојноста излезот за дадениот податок да има вредност 1. Тоа ќе го пресметаме како $$ S(1) = R_1(0, 1) R_2(0, 1) R_3(1, 1) R_4(1, 1) $$.

In [5]:
s_1 = r(1, 0, 1) * r(2, 0, 1) * r(3, 1, 1) * r(4, 1, 1)
s_1

0.3072000000000001

$S(1) > S(0)$, па заклучуваме дека излезот за дадениот податок е 1. 

## Задача за самостојна работа

Воведете лапласова корекција за да ги избегнеме случаите кога во нашето податочно множество немаме податок дека се случил некој настан кој може да се случи, односно некоја вредност $R_a(b, c) = 0$.