# Naive Bayers

https://www.organicadigital.com/blog/algoritmo-de-classificacao-naive-bayes/
https://folivetti.github.io/courses/AprendizadoMaquina/PDF/Aula08.pdf
https://www.vooo.pro/insights/6-passos-faceis-para-aprender-o-algoritmo-naive-bayes-com-o-codigo-em-python/

## O que é o algoritmo Naive Bayes?
É uma técnica de classificação baseado no teorema de Bayes com uma suposição de independência entre os preditores. Em termos simples, um classificador Naive Bayes assume que a presença de uma característica particular em uma classe não está relacionada com a presença de qualquer outro recurso. Por exemplo, um fruto pode ser considerado como uma maçã se é vermelho, redondo, e tiver cerca de 3 polegadas de diâmetro. Mesmo que esses recursos dependam uns dos outros ou da existência de outras características, todas estas propriedades contribuem de forma independente para a probabilidade de que este fruto é uma maçã e é por isso que é conhecido como ‘Naive’ (ingênuo).

O modelo Naive Bayes é fácil de construir e particularmente útil para grandes volumes de dados. Além de simples, Naive Bayes é conhecido por ganhar de métodos de classificação altamente sofisticados.

Teorema de Bayes fornece uma forma de calcular a probabilidade posterior P (C | X) a partir de P (C), P (x) e P (X | c). Veja a equação abaixo:

![probabilidade-Bayes.png](attachment:probabilidade-Bayes.png)

probabilidade Bayes
Acima,

* P (c | x) é a probabilidade posterior da classe (c, alvo) dada preditor (x, atributos).
* P (c) é a probabilidade original da classe.
* P (x | c) é a probabilidade que representa a probabilidade de preditor dada a classe.
* P (x) é a probabilidade original do preditor.

## Como o algoritmo Naive Bayes funciona?
Vamos entender isso usando um exemplo. Abaixo eu tenho um conjunto de dados de treinamento de clima e da correspondente variável-alvo ‘Play’ (sugerindo possibilidades de jogar). Agora, precisamos classificar se os jogadores vão jogar ou não com base na condição meteorológica. Vamos seguir os passos abaixo para realizar a operação.

Passo 1: Converter o conjunto de dados em uma tabela de frequência

Passo 2: Criar tabela de Probabilidade ao encontrar as probabilidades de tempo Nublado = 0,29 e probabilidade de jogar = 0,64.

![tabela-bayes.png](attachment:tabela-bayes.png)
tabela bayes
Passo 3: Agora, use a equação Bayesiana Naive para calcular a probabilidade posterior para cada classe. A classe com maior probabilidade posterior é o resultado da previsão.

**Problema:** Os jogadores irão jogar se o tempo está ensolarado. Esta afirmação está correta?

Podemos resolver isso usando o método discutido acima de probabilidade posterior.

P (Sim |Ensolarado) = P (Ensolarado | Sim) * P (Sim) / P (Ensolarado)

Aqui temos P (Ensolarado | Sim) = 3/9 = 0,33, P (Ensolarado) = 5/14 = 0,36, P (Sim) = 9/14 = 0,64

Agora, P (Sim | Ensolarado) = 0,33 * 0,64 / 0,36 = 0,60, que tem maior probabilidade.

Naive Bayes usa um método similar para prever a probabilidade de classe diferente com base em vários atributos. Este algoritmo é usado principalmente em classificação de texto e com os problemas que têm múltiplas classes.

## Quais são os prós e contras de Naive Bayes?
### Prós:

* É fácil e rápido para prever o conjunto de dados da classe de teste. Também tem um bom desempenho na previsão de classes múltiplas.
* Quando a suposição de independência prevalece, um classificador Naive Bayes tem melhor desempenho em comparação com outros modelos como regressão logística, e você precisa de menos dados de treinamento.
* O desempenho é bom em caso de variáveis categóricas de entrada comparada com a variáveis numéricas. Para variáveis numéricas, assume-se a distribuição normal (curva de sino, que é uma suposição forte).

### Contras:

* Se a variável categórica tem uma categoria (no conjunto de dados de teste) que não foi observada no conjunto de dados de treinamento, então o modelo irá atribuir uma probabilidade de 0 (zero) e não será capaz de fazer uma previsão. Isso é muitas vezes conhecido como “Zero Frequency”. Para resolver isso, podemos usar a técnica de alisamento. Uma das técnicas mais simples de alisamento é a chamada estimativa de Laplace.
* Por outro lado naive Bayes é também conhecido como um mau estimador, por isso, as probabilidades calculadas não devem ser levadas muito a sério.
* Outra limitação do Naive Bayes é a suposição de preditores independentes. Na vida real, é quase impossível que ter um conjunto de indicadores que sejam completamente independentes.

## 4 Aplicações do Algoritmo Naive Bayes
**Previsões em tempo real:** Naive Bayes é um classificador de aprendizagem voraz e com certeza rápido. Assim, pode ser usado para fazer previsões em tempo real.

**Previsões multi-classes:** Este algoritmo também é conhecido pela funcionalidade de previsão multi-classes. Aqui podemos prever a probabilidade de múltiplas classes das variáveis-alvo.

**Classificação de textos/Filtragem de spam/Análise de sentimento:** classificadores Naive Bayes utilizados principalmente em classificação de textos (devido a um melhor resultado em problemas de classes múltiplas e regra de independência) têm maior taxa de sucesso em comparação com outros algoritmos. Como resultado, é amplamente utilizado na filtragem de spam (identificar spam) e Análise de Sentimento (em análise de mídia social, para identificar sentimentos positivos e negativos dos clientes)

**Sistema de Recomendação:** o classificador e a filtragem colaborativa Naive Bayes em conjunto constroem um sistema de recomendação que utiliza técnicas de machine learning e mineração de dados para filtrar a informação invisível e prever se um usuário gostaria de um determinado recurso ou não



## Passos para construir um modelo básico Naive Bayes em Python
Mais uma vez, o scikit learn (biblioteca python) vai ajudar a construir um modelo Naive Bayes em Python. Existem três tipos de modelo Naive Bayes sob a biblioteca do scikit learn:

**Gaussian:** É usado na classificação e assume uma distribuição normal.

**Multinomial:** É usado para contagem discrete. Por exemplo, digamos que temos um problema de classificação de texto. Aqui podemos considerar tentativas de Bernoulli, que é um passo além e, em vez de “palavra que ocorre no documento”, temos “contar quantas vezes a palavra ocorre no documento”, você pode pensar nisso como “número de vezes que o número desfecho x_i é observado durante as n tentativas “.

**Bernoulli:** O modelo binomial é útil se os vetores são binários (ou seja zeros e uns). Uma aplicação seria de classificação de texto com um modelo de ‘saco de palavras’ onde os 1s e 0s são “palavra ocorre no documento” e “palavra não ocorre no documento”, respectivamente.

## Questão 58
Usar o método de classificação de Bayes usando a biblioteca de Machine Learning da OpenCv. Deve-se fazer com os métodos Hold Out e Leave One Out. Tudo deve ser feito utilizando a estrutura Mat da OpenCv.

In [1]:
import pandas as pd
import csv
from sklearn.naive_bayes import GaussianNB

In [2]:
def hold_out(df, train_size, shuffle=True):

    # Shuffle the dataframe if the shuffle is set to true
    if shuffle:
        df = df.sample(frac=1).reset_index(drop=True)

    # Convert the rows of the dataframe into a list of lists
    data = []
    for row in df.iterrows():
        index, values = row
        data.append(values.tolist())

    # Split the data into train and test
    X_train = data[:int(train_size*len(data))]
    X_test = data[int(train_size*len(data)):]

    # Get the correspondent labels to each feature vector
    y_train = [int(x[-1]) for x in X_train]
    y_test = [int(x[-1]) for x in X_test]

    # Remove the labels from the train and test vectors
    X_train = [x[:-1] for x in X_train]
    X_test = [x[:-1] for x in X_test]

    return X_train, X_test, y_train, y_test




In [3]:
def leave_one_out(df, shuffle=True):

    # Shuffle the dataframe if the shuffle is set to true
    if shuffle:
        df = df.sample(frac=1).reset_index(drop=True)

    # Convert the rows of the dataframe into a list of lists
    data = []
    for row in df.iterrows():
        index, values = row
        data.append(values.tolist())

    # Create a list of lists, in which each iteration of leave one out will be stored
    X_train = []
    X_test = []
    y_train = []
    y_test = []

    for i in range(len(data)):
        train = data.copy()
        train.remove(data[i])

        test = data[i]

        # Get the correspondent labels to each feature vector
        y_train.append([int(x[-1]) for x in train])
        y_test.append(int(test[-1]))

        # Remove the labels from the train and test vectors
        X_train.append([x[:-1] for x in train])
        X_test.append(test[:-1])

    return X_train, X_test, y_train, y_test

In [4]:
def read_data(file):
    # Load the features of a file in a dataframe
    return pd.read_csv(file, sep=',', header=None)

In [5]:
if __name__ == '__main__':

    # Read the file with the features to classify
    filename = 'features.txt'
    features = read_data(filename)

    # Split the database using hold out
    X_train, X_test, y_train, y_test = hold_out(features, train_size=0.9)

    # Create a naive-bayes object
    bayes = GaussianNB()

    # Train the model
    bayes.fit(X_train, y_train)

    # Evaluate in the test data
    predictions = bayes.predict(X_test)

    # Convert the results to a list
    predictions = list(predictions)

    # Calculates the accuracy using hold out
    count = 0
    for x, y in zip(y_test, predictions):
        if x == y:
            count += 1

    accuracy = count/len(y_test)
    print('Accuracy using hold out: {:.4f}'.format(accuracy))

    # Save the true and the predicted labels to use in question 59 and 60
    with open('true_and_predict_58.csv', 'w') as outfile:
        rows = [y_test, predictions]
        writer = csv.writer(outfile, delimiter=',')
        writer.writerows(rows)

    # Split the database using leave one out
    X_train, X_test, y_train, y_test = leave_one_out(features)

    # Apply SVM
    print('[INFO] Starting leave one out training...')
    count = 0
    sample_count = 0
    for train_set, test_set, label_train, label_test in zip(X_train, X_test, y_train, y_test):
        print('[INFO] Training sample {}/{}'.format(sample_count+1, len(y_train)))
        sample_count += 1

        # Create a naive-bayes object
        bayes = GaussianNB()

        # Train the model
        bayes.fit(train_set, label_train)

        # Evaluate in the test data
        new_list = []
        new_list.append(test_set)
        prediction = bayes.predict(new_list)

        if prediction == label_test:
            count += 1

    accuracy = count / len(y_test)

    print('Accuracy using leave one out: {:.4f}'.format(accuracy))

Accuracy using hold out: 0.7917
[INFO] Starting leave one out training...
[INFO] Training sample 1/473
[INFO] Training sample 2/473
[INFO] Training sample 3/473
[INFO] Training sample 4/473
[INFO] Training sample 5/473
[INFO] Training sample 6/473
[INFO] Training sample 7/473
[INFO] Training sample 8/473
[INFO] Training sample 9/473
[INFO] Training sample 10/473
[INFO] Training sample 11/473
[INFO] Training sample 12/473
[INFO] Training sample 13/473
[INFO] Training sample 14/473
[INFO] Training sample 15/473
[INFO] Training sample 16/473
[INFO] Training sample 17/473
[INFO] Training sample 18/473
[INFO] Training sample 19/473
[INFO] Training sample 20/473
[INFO] Training sample 21/473
[INFO] Training sample 22/473
[INFO] Training sample 23/473
[INFO] Training sample 24/473
[INFO] Training sample 25/473
[INFO] Training sample 26/473
[INFO] Training sample 27/473
[INFO] Training sample 28/473
[INFO] Training sample 29/473
[INFO] Training sample 30/473
[INFO] Training sample 31/473
[INFO

[INFO] Training sample 427/473
[INFO] Training sample 428/473
[INFO] Training sample 429/473
[INFO] Training sample 430/473
[INFO] Training sample 431/473
[INFO] Training sample 432/473
[INFO] Training sample 433/473
[INFO] Training sample 434/473
[INFO] Training sample 435/473
[INFO] Training sample 436/473
[INFO] Training sample 437/473
[INFO] Training sample 438/473
[INFO] Training sample 439/473
[INFO] Training sample 440/473
[INFO] Training sample 441/473
[INFO] Training sample 442/473
[INFO] Training sample 443/473
[INFO] Training sample 444/473
[INFO] Training sample 445/473
[INFO] Training sample 446/473
[INFO] Training sample 447/473
[INFO] Training sample 448/473
[INFO] Training sample 449/473
[INFO] Training sample 450/473
[INFO] Training sample 451/473
[INFO] Training sample 452/473
[INFO] Training sample 453/473
[INFO] Training sample 454/473
[INFO] Training sample 455/473
[INFO] Training sample 456/473
[INFO] Training sample 457/473
[INFO] Training sample 458/473
[INFO] T