In [20]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
from collections import Counter
import pandas as pd

dados = pd.read_csv('busca2.csv')

X_df = dados[['home','busca','logado']]
Y_df = dados['comprou']

Xdummies_df = pd.get_dummies(X_df)
Ydummies_df = Y_df

X = Xdummies_df.values
Y = Ydummies_df.values

#----------------------------------------------------------------------------------------#

# 80% para treino e 10% para teste e 10% para validação
porcentagem_treino = 0.8
porcentagem_teste = 0.1

# 1000 elementos
total_elementos = len(X)

# 800 de treino, 100 teste e 100 de validação
elementos_treino = int(porcentagem_treino * total_elementos)
elementos_teste = int(porcentagem_teste * total_elementos)
elementos_validacao = total_elementos - elementos_treino - elementos_teste

# 900 > auxiliar
fim_do_teste = elementos_teste + elementos_treino 

# 0 até o 799 TREINO
treino_dados = X[0:elementos_treino]
treino_marcacoes = Y[0:elementos_treino]

# 800 até 899 TESTE
teste_dados = X[elementos_treino:fim_do_teste]
teste_marcacoes = Y[elementos_treino:fim_do_teste]

# 900 até 999 VALIDAÇÃO
validacao_dados = X[fim_do_teste:]
validacao_marcacoes = Y[fim_do_teste:]

#----------------------------------------------------------------------------------------#

def fit_and_predict(nome, modelo, treino_dados, treino_marcacoes, teste_dados, teste_marcacoes):
    modelo.fit(treino_dados, treino_marcacoes) #treino do algoritmo
    resultado = modelo.predict(teste_dados) #resultado com as predições (array com 0 e 1)
    taxa_de_acerto = round((accuracy_score(resultado, teste_marcacoes)*100),3)
    '''
    acertos = (resultado == teste_marcacoes) #acertos, isto é, array com trues e falses em comparação com o resultado do
                                             #predict e do teste marcações       
    total_de_acertos = sum(acertos) #total de trues (acertos do algoritmo)
    total_de_elementos = len(teste_dados) #total de elementos que é igual a 100
    taxa_de_acertos = 100.0 * (total_de_acertos / total_de_elementos) #porcentagem de acertos do algoritmo
    '''
    
    mensagem = 'Taxa de acerto do algoritmo {0}: {1} %'.format(nome, taxa_de_acerto) 
    print(mensagem) #mensagem de saida com o nome do algoritmo e a taxa de acerto
    return taxa_de_acerto #retorno da função com a taxa de acertos

#----------------------------------------------------------------------------------------#

modelo_MultinomialNB = MultinomialNB()
resultado_MultinomialNB = fit_and_predict('MultinomialNB',
                                          modelo_MultinomialNB,
                                          treino_dados, 
                                          treino_marcacoes, 
                                          teste_dados, 
                                          teste_marcacoes)


modelo_AdaBoost = AdaBoostClassifier()
resultado_AdaBoost = fit_and_predict('AdaBoost',
                                     modelo_AdaBoost,
                                     treino_dados, 
                                     treino_marcacoes, 
                                     teste_dados, 
                                     teste_marcacoes)

#----------------------------------------------------------------------------------------#

if resultado_MultinomialNB > resultado_AdaBoost:
    vencedor = modelo_MultinomialNB
    nome_do_vencendor = 'Modelo MultinomialNB'
    
else:
        vencedor = modelo_AdaBoost
        nome_do_vencendor = 'Modelo AdaBoost'
        
print('Algoritmo vencedor: {}'.format(nome_do_vencendor))
          
resultado = vencedor.predict(validacao_dados)
taxa_de_acerto = accuracy_score(validacao_marcacoes, resultado)

'''
acertos = (resultado == validacao_marcacoes)
total_acertos = sum(acertos)
total_de_testes = len(validacao_marcacoes)

taxa_de_acertos = 100.0 * (total_acertos / total_de_testes)
'''

mensagem = 'Taxa de acertos do algoritmo {0} com dados de validacao: {1} %\n'.format(nome_do_vencendor, taxa_de_acerto*100)
print(mensagem)

#----------------------------------------------------------------------------------------#

#validação do teste que chuta sempre 1 - TESTE BASE
acertos = max(Counter(validacao_marcacoes).values())
total_de_elementos = len(validacao_dados)
taxa_de_acerto_base = 100.0 * (acertos / total_de_elementos)

print("Taxa de acerto com algoritmo base: {} %".format(taxa_de_acerto_base))

total_de_elementos = len(validacao_dados)
print("Total de teste: %d" % total_de_elementos)


Taxa de acerto do algoritmo MultinomialNB: 85.714 %
Taxa de acerto do algoritmo AdaBoost: 85.714 %
Algoritmo vencedor: Modelo AdaBoost
Taxa de acertos do algoritmo Modelo AdaBoost com dados de validacao: 62.5 %

Taxa de acerto com algoritmo base: 62.5 %
Total de teste: 8
