                                        Naive Bayes

-> É um modelo de classificação mais simples e  rápido que existe e seu conceito é baseado em probabilidade.                                  

-> A palavra "Naive" (ingênuo em ingles) no nome do modelo é a chave para
entende-lo. Isso porque o Naive Bayes faz uma suposição muito ingênua, mas
que funciona surpreendentemente bem na prática: ele assume que as caracte
risticas: ele assume que as caracteristicas de um objeto são independentes
umas das outras. 

-> Pense em um classificador de e-mails de spam. O modelo Naive Bayes vai
analisar cada palavra do e-mail independente para decidir se é spam ou não.
Por exemplo:

    -> Se o e-mail tem a palavra "promoção", a probabilidade de ser spam
    aumenta

    -> Se ele tem a palavra "desconto" a probabilidade também aumenta.

    -> Se ele tem a palavra "reunião", a probabilidade de não ser spam
    aumenta

-> O modelo Naive Bayes não se importa se as palavras "promoção" e "desconto" aparecem juntas. Ele simplesmente soma as probabilidades de cada palavra individualmente. É como se ele dissesse: "Eu sei a probabilidade de um e-mail
com a palavra "promoção" ser spam. Eu também sei a probabilidade de um -email
com "desconto" ser spam. Para um email com duas palavras, eu só somo as duas
probabilidades.

                        Criando a predição do modelo

In [None]:
# Função que irá criar a classificação do modelo. A função irá receber
# como argumento:
# classificador: Modelo instanciado e treinado
# xtest:Dados que serão utilizados na classificação dos dados
def predicaoModelo(classificador, xtest):
    
    # Retorno da predição do modelo que irá usar a função predict do
    # classificador para classificar os dados usando os valores de xtest
    return classificador.predict(xtest[0])

Criando a matriz que contabiliza os erros e acertos do modelo de classificação

In [None]:
# Criação da função que irá construir a matriz de confusão.
# A função irá receber como argumento:
# ytest: valores reais da classificação
#ypredicao: Classificação feita pelo modelo.
def MatrizConfusao(ytest, ypredicao):
    
    # Import da classe confusion_matrix da biblioteca metrics do
    # módulo sklearn que tem como objetivo construir matrizes de
    # confusão com a quantidade de acertos e erros do modelo de 
    # classificação.
    from sklearn.metrics import confusion_matrix
    
    # Instância da classe (criação do objeto). O construtor irá receber
    # como argumento os valores de ytest e ypredicao
    matriz = confusion_matrix(ytest, ypredicao)
    
    # Retorno da matriz construida
    return matriz

Construindo o modelo Naive Bayes

In [None]:
    # Função que irá construir e treinar o modelo Naive Bayes.
    # A função irá receber como argumento:
    # xtrain: Conjunto de treino de x
    # ytrain: Conjunto de treino de y
    def computarNaiveBayes(xtrain, ytrain):
        
        # Import da classe GaussianNB da biblioteca naive_bayes do
        # módulo sklearn que tem como objetivo construir modelos de
        # classificação Naive Bayes
        from sklearn.naive_bayes import GaussianNB
        
        # Instância / criação do objeto
        classificador = GaussianNB()

        # Função que irá treinar o modelo usando os dados de xtrain
        # e ytrain. Vale lembrar que como o modelo trata todas as caracteristicas
        # como independentes, acredito que ele não irá identificar correlações em seu
        # treinamento
        classificador.fit(xtrain[0], ytrain)
        
        # Retorno do modelo treinado e pronto para realizar predições
        return classificador

Aplicando o modelo nos dados

In [None]:
# Import do nosso arquivo de funções
from minhasfuncoes import funcoes

# Função que irá aplicar o modelo de classificação nos dados. A função irá receber como argumento:
# nome_do_arquivo: Local que a base de dados está armazenada.

# Delimitador: Sinal que separa os dados no arquivo que contém a base de dados. O argumento terá
# como valor padrão a ',' que é o sinal comumente utilizado em arquivos csv.

# inicio_preenchimento: Irá conter o indice da coluna inicial do intervalo de preenchimento de 
# dados faltantes. Como não será um argumento obrigatório, ele tera como valor padrão o None

# fim_preenchimento: Irá conter o indice da coluna final do intervalo de preenchimento de 
# dados faltantes. Como não será um argumento obrigatório, ele tera como valor padrão o None

# lista_rotulacao: Irá conter a lista de indices de colunas categóricas que serão numericamente rotuladas
# com o objetivo de serem identificadas pelo modelo de classificação.
def NaiveBayes(nome_do_arquivo, delimitador=',', inicio_preenchimento = None, fim_preenchimento = None, lista_rotulacao = None):
    
    # Trecho que irá carregar o dataset na memória ram do computador: Como no arquivo
    # de funções nós dividimos os dados em 2 categorias (caracteristicas e alvo) usando
    # a função values do pandas (que transforma os dados em um array numpy), vamos precisar
    # atribuir os valores da função carregar_Dataset em 2 variáveis (x e y)
    
    # x: Caracteristicas
    
    # y: Variável alvo
    
    # carregar_Dataset: função que irá carregar o dataset usando o nome do arquivo
    # e o seu delimitador.
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    # Nessa etapa iremos verificar se a base de dados possui dados faltantes.
    # Basicamente, iremos verificar se os valore dos argumentos inicio_preenchimento
    # e fim_preenchimento são diferentes de None.
    if inicio_preenchimento != None and fim_preenchimento != None:
        
        # Se a condição for verdadeira, vamos atribuir em x a função que utiliza
        # o simpleImputer para preencher dados faltantes como argumentos o x (con
        # junto que será preenchido), o inicio_preenchimento e o fim_preenchimento. 
        x = funcoes.preencherDadosFaltantes(x, inicio_preenchimento, fim_preenchimento)
    
    
    # Nessa etapa vamos verificar se a necessidade de rotular numericamente 
    # colunas categóricas. Basicamente, vamos verificar se a lista_rotulcao
    # possui algum valor diferente do None
    if lista_rotulacao != None:
        
        # Se a condição for verdadeira, vamos percorrer a lista de 
        # indices aplicando a função de rotulação em todas as colunas
        # categóricas presentes na lista
        for i in lista_rotulacao:
            
            # Aplicando a função de rotulação usando os argumentos:
            # x: Conjunto que contém as colunas que serão rotuladas
            # i: Indice da coluna que será rotulada.
            x = funcoes.rotulacao(x, i)
    
    # Trecho que irá separar os dados em treino e teste
    # xtrain: Ira conter o conjunto de treino de x que irá ensinar o modelo
    # a identificar padrões (sem realizar correlações no caso)
    
    # xtest: Irá conter os dados usados na classificação
    
    # ytrain: Ira conter o conjunto de treino de y que irá ensinar como o
    # modelo deve classificar os dados, ou seja, como ele deve apresentar
    # as suas respostas.
    
    # ytest: Ira conter os dados reais que serão comparados com a predição
    # do modelo.
    
    # treino_teste: Função do nosso arquivo de funções que irá separar
    # os dados em conjuntos de treino e teste. A função irá receber como
    # argumento o conjunto x, o conjunto y e o tamanho do conjunto de testes
    # (0.2, 20% para testes e 80% para treino).
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    # Função que irá normalizar/padronizar os dados de treino e testes com o objetivo de criar escalas que evitam outliers. A escala criada será definir a média como zero e o desvio padrão igual a 1.
    xtrain = funcoes.normalizacao(xtrain)
    
    xtest = funcoes.normalizacao(xtest)
    
    # Variável que irá conter a criação do modelo treinado usando os dados
    # de x treino e y treino.
    classificador = computarNaiveBayes(xtrain, ytrain)
    
    # Variável que irá conter a classificação do modelo usando o modelo
    # treinado e os dados de xtest. 
    ypredicao = predicaoModelo(classificador, xtest)
    
    # Retorno da matriz confsão contendo a quantidade de erros e acertos
    # do modelo. A função irá receber como argumento os dados reais (ytest)
    # e a classificação do modelo (ypredicao)
    return MatrizConfusao(ytest, ypredicao)   

Chamada da função que irá aplicar o modelo de classificação nos dados.

In [None]:
# Observação: Como o arquivo utilizado ja possui o delimitador padrão (',')
# vamos omitir esse argumento na chamada da função
NaiveBayes(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2,  lista_rotulacao = [1,0])

array([[95, 19],
       [19, 46]])

                  Interpretação dos resultados da classificação

-> 95: Quantidade de pessoas que o modelo classificou corretamente como 
não sobreviventes

-> 19: Quantidade de pessoas que o modelo classificou incorretamente
como sobreviventes

-> 19: Quantidade de pessoas que o modelo classificou incorretamente 
como não sobreviventes

-> 46: Quantidade de pessoas que o modelo classificou corretamente
como sobreviventes

Testando a acurácia do modelo: Mesmo que não haja comparações nesse exercicio,
é interessante executar o modelo mais de uma vez. Dessa maneira conseguriemos
lidar com a aleatoriedade dos dados na separação dos dados em treino e teste, 
logo o teste da acurácia se torna mais eficiente já que iremos verificar o
desempenho do modelo em conjuntos diferentes.

In [None]:
# Import da função que constroi barras de progresso
# em estruturas de repetição
from tqdm import tqdm as tq

# Import da biblioteca numpy  que tem como objetivo realizar
# cálculos matemáticos e manipular arrays.
import numpy as np

# Lista que irá conter os valores das acurácias do modelo.  
array_naive_bayes = []

# For que irá permitir que a execução do modelo ocorra 20 vezes.
# Iremos utilizar na construção do for a função tqdm que irá 
# construir a barra de progresso. A função ira receber como
# argumento o range (que define o tamanho do loop) e o desc
# (que contém a descrição da barra de progresso).
for i in tq(range(0,20),desc="Testando a acurácia do modelo"):
    
    # Execução da função que aplica o modelo
    modelo = NaiveBayes(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2,  lista_rotulacao = [1,0])
    
    # Inserção dos valores da função acurácia no array. A função irá
    # receber como argumento a variável que contém o modelo de classificação.
    array_naive_bayes.append(funcoes.acuracia(modelo))

# Impressão da média das acurácias usando a função mean do numpy que
# retorna a média de um conjunto de valores.  
print("Média das acurácias do modelo: %.2f"% np.mean(array_naive_bayes))

Testando a acurácia do modelo: 100%|██████████| 20/20 [00:00<00:00, 72.28it/s]

Média das acurácias do modelo: 0.78



