# Naive Bayes <img width="100px" height="100px" src="https://pt.seaicons.com/wp-content/uploads/2015/07/Other-python-icon.png"> 


### **História** 


O algoritmo **Naive Bayes** é um classificador probabilístico baseado no **Teorema de Bayes** que foi criado por Thomas Bayes, caso queria saber mais sobre o teorema acesse o site [Teorema de Bayes](https://machinelearningmastery.com/bayes-theorem-for-machine-learning/). É um dos algoritmos de Classificação mais simples e eficazes que ajuda na construção de modelos rápidos de aprendizado de máquina que podem fazer previsões. O algoritmo se tornou popular na área de Aprendizado de Máquina (Machine Learning) para categorizar textos baseado na frequência das palavras usadas, e assim pode ser usado para identificar se determinado e-mail é um SPAM ou sobre qual assunto se refere determinado texto, por exemplo.

A principal característica do algoritmo é que ele desconsidera completamente a correlação entre as variáveis. Ou seja, se determinada fruta é considerada uma “Kiwi” se ela for “Marrom”, “Oval” e possui “aproximadamente 5cm de diâmetro”, o algoritmo não vai levar em consideração a correlação entre esses fatores, tratando cada um de forma independente.

### **Tipos de modelo Naive Bayes:**

Neste modulo iremos utlizar o Naive Bayes Multinominal, mas é importante saber que existem três tipos de modelo Naive Bayes, que são:

**Gaussiano**: O modelo gaussiano assume que os recursos seguem uma distribuição normal. Isso significa que, se os preditores assumem valores contínuos em vez de discretos, o modelo assume que esses valores são amostrados da distribuição gaussiana.

**Multinomial**: É usado principalmente para problemas de classificação de documentos, significa que um documento específico pertence a qual categoria, como Esportes, Política, educação, etc.
O classificador usa a frequência de palavras para os preditores.

**Bernoulli**: O classificador Bernoulli funciona de maneira semelhante ao classificador Multinomial, mas as variáveis ​​preditoras são as variáveis ​​booleanas independentes. Como se uma palavra específica estivesse presente ou não em um documento. Este modelo também é famoso pelas tarefas de classificação de documentos.

### **Algoritmo**

Naive Bayes é um algoritmo que usa dados históricos para visualizar uma classificação de um novo dado ou seja, ele calcula a probabilidade de um evento ocorrer dado que outro evento já ocorreu.

Os algoritmos de Machine Learning são implementados usando Python , porque essa linguagem já possui uma biblioteca com vários algoritmos implementados.

Vamos aprender a usar o Naive Bayes em um código Python, sem entrar nos detalhes matemáticos do algoritmo.

Para entender melhor o exemplo para identificar se o email é Spam ou Not Spam, observe a figura a abaixo.

<img src="http://www.matera.com/br/wp-content/uploads/2017/11/intro_machine_learning.jpg"> 

##### **Fonte** :http://www.matera.com/br/wp-content/uploads/2017/11/intro_machine_learning.jpg
    
Esta tabela é apenas um exemplo do nosso conjunto de dados, que possui milhares de infomações. Para entender melhor iremos dizer que cada linha é um conjunto de dados, e vamos informar que o SPAM (codificado como saída 1) e NOT SPAM (codificado como saída 0)e o SIM (codificado como saída 1) e o NÃO (codificado como saída 0), pois o computador não vai entender a sequência de caracter. Agora podemos prever alguns resultados utilizando o nosso conjunto de dados.



In [4]:
# importando a biblioteca Numpy "Matemática"
import numpy as np

# é necessário importar métricas de avalição da performance do algoritmo
# a métrica accuracy_score calcula o percentual absoluto de acertos que o algoritmo 
from sklearn.metrics import accuracy_score

import urllib
# importamos para ultizar as funçoes para extrair informações de algum conteúdo do site

from sklearn.naive_bayes import MultinomialNB
# importamos essa bibliteca para ultilizar o Naive Bayes Multinomial

from sklearn.model_selection import train_test_split
# esta biblioteca serve para dividir a base de dados em treinamento e teste

url = "http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.data"
# importamos o conjunto de dados 

url_data = urllib.request.urlopen(url)
# aqui iremos abrir a URL

dataSet = np.loadtxt(url_data,delimiter=',')
# iremos carregar os dados do arquivo de texto de forma simples e rapida
# como parametros temos o nome da variavel e colocamos um delimitador "," que serve para 
# separar as colunas 

print (dataSet[0])
# esta linha não é obrigatoria, mas serve para mostrar como esta o nosso conjunto de dados 



[  0.      0.64    0.64    0.      0.32    0.      0.      0.      0.
   0.      0.      0.64    0.      0.      0.      0.32    0.      1.29
   1.93    0.      0.96    0.      0.      0.      0.      0.      0.
   0.      0.      0.      0.      0.      0.      0.      0.      0.
   0.      0.      0.      0.      0.      0.      0.      0.      0.
   0.      0.      0.      0.      0.      0.      0.778   0.      0.
   3.756  61.    278.      1.   ]


Agora precisamos isolar a previsão das variáveis que definem a contagem de palavras que são padronizadas na mesma escala. Vamos analizar penas 48 caracteristicas que descrevem a frequencia de palavras, o que nos permite escolher ultilizar ou não o pré processsamento. Ultilizando os nossos recursos preditivos iremos definir o **X**, nela irá ser armazendo o conjunto de dados que possuem colunas com o valor de indice 0 a 48. E o **Y** será a nossa variavel destino é aqui que rotulamos registro no conjunto de dados como SPAM(codificado como saída 1) ou NOT SPAM (codificado como saída 0). Para executa-los precisaremos dividir os dados em conjunto de teste e treino.

In [1]:
X = dataSet[:, 0:48]
Y = dataSet[:, -1]

X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size = 0.33, random_state = 17)
# test_size é o tamanho do teste, por exemplo se temos 100 registros, quer dizer que teremos
# 33 para teste e 67 para treinamento. O padrão ultilizado é 0.30 para teste. E random_state 
# quer dizer que a base será sempre dividida com os mesmo registros. Se alterarmos o random_state 
# vamos gerar novas partições com novos registros. Pode utilizar qualquer número inteiro para 
# desginar o random_state

NameError: name 'dataSet' is not defined

Agora podemos utilizar o tipo Multiomial para calcular a precisão.

In [6]:
multiNB = MultinomialNB()

multiNB.fit(X_train, Y_train)
# ajusta e treina o classificador 

Y_pred = multiNB.predict(X_test)
# prediz a acuracia da classificação do vetor de treino

print(accuracy_score(Y_test, Y_pred))
# Calcula a acuracia do vetor de teste 

0.8736010533245556


### **Referência Bibliográfica**
<ul>
    <li> httpS://www.matera.com/blog/post/machine-learning-naive-bayes
    <li> https://imasters.com.br/desenvolvimento/classificador-naive-bayes-em-50-linhas
    <li> https://www.knowledgehut.com/blog/data-science/naive-bayes-in-machine-learning
    <li> www.lbd.dcc.ufmg.br›colecoes›erbd
    <li> https://minerandodados.com.br/naive-bayes-machine-learning/
<\ul>