# Naive Bayes

Vamos criar a classe Naive Bayes para representar o nosso algoritmo.
O método **__init__** representa o construtor, inicializando as variáveis do nosso modelo.
O modelo gerado é formado basicamente pela frequência das palavras, que em nosso caso, representa os possíveis valores de cada feature e label.

* O defaultdict é utilizado para inicializar nosso dicionário com valores default, no caso 0 (int), para chaves que tentamos acessar e ainda não foram adicionadas.


In [1]:
from collections import defaultdict
from functools import reduce
import math

class NaiveBayes:

    def __init__(self):

        self.freqFeature = defaultdict(int)
        self.freqLabel = defaultdict(int)

        # condFreqFeature[label][feature]
        self.condFreqFeature = defaultdict(lambda: defaultdict(int))

## Modelo

Como o modelo é representado basicamente pela frequência das palavras, precisamos categorizar os possíveis valores das features. Após esse processo, fazemos a contagem.

* countFrequencies: faz a contagem que cada valor de feature e label aparecem em todo o dataset de treino, independentemente.
* countCondFrequencies: faz a contagem que cada valor de feature aparece para cada possível label.

In [2]:
def countFrequencies(self):
        allFeatures = reduce(lambda x, y: x+y, self.dataSet_x)

        for f in allFeatures:
            self.freqFeature[f] += 1

        for l in self.dataSet_y:
            self.freqLabel[l] += 1

In [3]:
def countCondFrequencies(self):

        dataSet = list(zip(self.dataSet_x, self.dataSet_y)) #A partir de python 3, zip retorna object. Entao mudo para list

        for t in dataSet:
            for f in t[0]:
                # condFreqFeature[label][feature]
                self.condFreqFeature[t[1]][f] += 1


In [4]:
def train(self, dataSet_x, dataSet_y):

        self.dataSet_x = dataSet_x
        self.dataSet_y = dataSet_y

        self.countFrequencies()
        self.countCondFrequencies()

In [5]:
 def probLikelihood(self, f, l, vocabulary):
        laplace = 1

        condFreq = self.condFreqFeature[l][f]
        prob = (float)(condFreq + laplace) / (self.freqLabel[l] + vocabulary)

        # print l + " - " + f + " = " + str(prob)

        return prob

In [6]:
def predict(self, dataSet_x):

        # Correcao de Laplace
        # P( f | l) = (freq( f | l ) + laplace*) / ( freq(l)** + qnt(distinct(f))*** )
        #
        # * -> laplace smoothing: add 1
        # ** -> Frequencia com que o valor de label aparece
        # *** -> Quantidade de features distintas
        #

        # Devido a possibilidade de underflow de pontos flutuantes, eh interessante fazer
        # P(x1|l)*P(x2|l) ... -> Log(P(x1|l)) + Log(P(x2|l)) ...



        probs = []
        totalTuples = len(self.dataSet_y)
        vocabulary = len(self.freqFeature)

        #Cada tupla
        for index, t in enumerate(dataSet_x):
            probs.append(defaultdict(float))

            #Cada label
            for l in self.dataSet_y:
                prob = 0.0

                #Cada feature
                for f in t:
                    prob += math.log10(self.probLikelihood(f, l, vocabulary))

                prob += (self.freqLabel[l] / totalTuples)

                probs[index][l] = prob

        return probs

In [7]:
import random

# Car dataset
# Attribute Information:
#
# Class Values:
#
# unacc, acc, good, vgood
#
# Attributes:
#
# buying: vhigh, high, med, low.
# maint: vhigh, high, med, low.
# doors: 2, 3, 4, 5more.
# persons: 2, 4, more.
# lug_boot: small, med, big.
# safety: low, med, high.

#Retur dataset
def readFile(path):
    rawDataset = open(path, 'r')


    suffix = ['_buy', '_maint', '_doors', '_pers', '_lug', '_safety', '_class']

    dataset = []

    rawDataset.seek(0)
    for line in rawDataset:
    	l = line.split(',')
        l[-1] = l[-1].replace("\n", "")
        newTuple = map(lambda (x,y): x+y, zip( l , suffix))
        dataset.append( newTuple )

    return dataset


In [8]:
def main():

    preparedDataset = readFile('carData.txt')

    random.shuffle(preparedDataset)

    dataset = []
    #Features
    dataset.append([])
    #Label
    dataset.append([])

    for t in preparedDataset:
        dataset[0].append(t[:-1])
        dataset[1].append(t[-1])


    dataSet_x = dataset[0]
    dataSet_y = dataset[1]

    nTuples = len(dataSet_x)

    nToTrain = int(nTuples * 0.7)

    dataSet_x_train = dataSet_x[:nToTrain]
    dataSet_y_train = dataSet_y[:nToTrain]

    dataSet_x_test = dataSet_x[nToTrain:]
    dataSet_y_test = dataSet_y[nToTrain:]

    naive = NaiveBayes()

    naive.train(dataSet_x_train, dataSet_y_train)

    accuracy = 0.0

    results = naive.predict(dataSet_x_test)

    for index, r in enumerate(results):
        yPredicted = max(r, key=r.get)
        y = dataSet_y_test[index]
        
        if(y == yPredicted):
            accuracy += 1.0

    print accuracy / len(dataSet_y_test)

main()

IOError: [Errno 2] No such file or directory: 'carData.txt'