In [159]:
import pandas as pd
import numpy as np
from sklearn.cross_validation import cross_val_score
from sklearn.svm import LinearSVC

In [160]:
classificacoes = pd.read_csv('emails.csv')

In [161]:
textos_puros = classificacoes['email']

In [162]:
#Deixando a frase inteira minúscula antes de quebrá-la.
textos_quebrados = textos_puros.str.lower().str.split(' ')

> Criando um conjunto, que não aceita valores repetidos

In [163]:
dicionario = set()

> Inserindo itens de várias listas em uma lista e criando um dicionário dessa lista.

In [164]:
for lista in textos_quebrados:
    dicionario.update(lista)

In [165]:
tradutor = dict(zip(dicionario, range( len(dicionario) )))

> Criando função que cria vetor de um texto de acordo o dicionário

In [166]:
def vetorizar_texto(texto, tradutor):
    vetor = [0] * len(tradutor)
    
    for palavra in texto:
        if palavra in tradutor:
            posicao = tradutor[palavra]
            vetor[posicao] += 1
    return vetor

> Criando lista de listas que contém as frases vetorizadas.

In [167]:
vetores_de_texto = [vetorizar_texto(texto, tradutor) for texto in textos_quebrados]

> Pegando a coluna classificação do dataframe

In [168]:
marcas = classificacoes['classificacao']

> Criando os X e Y

In [169]:
X = vetores_de_texto
Y = marcas

In [170]:
tamanho_de_treino = int(int(0.8 * len(Y)))

treino_dados = X[:tamanho_de_treino]
treino_marcacoes = Y[:tamanho_de_treino]

validacao_dados = X[tamanho_de_treino:]
validacao_marcacoes = Y[tamanho_de_treino:]

> Criando função que treina e prevê os resultados

In [171]:
def fit_and_predict(nome, modelo, treino_dados, treino_marcacoes):
    score = cross_val_score(modelo, treino_dados, treino_marcacoes, cv = 10)
    taxa_de_acerto = np.mean(score)
    print('Taxa de acerto do algoritmo {0}: {1}%'.format(nome, round(taxa_de_acerto,3)*100))
    return taxa_de_acerto

In [172]:
def teste_real(modelo, validacao_dados, validacao_marcacoes):
    resultado = modelo.predict(validacao_dados)

    acertos = resultado == validacao_marcacoes

    total_de_acertos = sum(acertos)
    total_de_elementos = len(validacao_marcacoes)

    taxa_de_acerto = 100.0 * total_de_acertos / total_de_elementos

    print("Taxa de acerto do vencedor entre os dois algoritmos no mundo real: {0}%".format(taxa_de_acerto))

In [173]:
resultados = {}

In [174]:
from sklearn.ensemble import AdaBoostClassifier # Para usar AdaBoost
modelo_AdaBoostClassifier = AdaBoostClassifier()
resultado_AdaBoostClassifier = fit_and_predict('AdaBoostClassifier', modelo_AdaBoostClassifier, treino_dados, treino_marcacoes)
resultados['resultadoAdaBoost'] = resultado_AdaBoostClassifier

Taxa de acerto do algoritmo AdaBoostClassifier: 47.3%


In [175]:
from sklearn.naive_bayes import MultinomialNB # Para Naive Bayes
modelo_MultinomialNB = MultinomialNB()
resultado_MultinomialNB = fit_and_predict('MultinomialNB', modelo_MultinomialNB, treino_dados, treino_marcacoes)
resultados['resultadoMultinomialNB'] = resultado_MultinomialNB

Taxa de acerto do algoritmo MultinomialNB: 71.5%


In [176]:
from sklearn.multiclass import OneVsRestClassifier
modelo_OneVsRestClassifier = OneVsRestClassifier(LinearSVC(random_state=0))
resultadoOneVsRest = fit_and_predict('OneVsRest', modelo, treino_dados, treino_marcacoes)
resultados['resultadoOneVsRest'] = resultadoOneVsRest

Taxa de acerto do algoritmo OneVsRest: 72.3%


In [177]:
from sklearn.multiclass import OneVsOneClassifier 
modelo_OneVsOneClassifier = OneVsOneClassifier(LinearSVC(random_state=0))
resultado_OneVsOneClassifier = fit_and_predict('OneVsOneClassifier', modelo_OneVsOneClassifier, treino_dados, treino_marcacoes)
resultados['resultadoOneVsOne'] = resultado_OneVsOneClassifier

Taxa de acerto do algoritmo OneVsOneClassifier: 65.7%


> Testando vencedor com dados de validação

In [178]:
modelo_OneVsRestClassifier.fit(treino_dados, treino_marcacoes)

OneVsRestClassifier(estimator=LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=0, tol=0.0001,
     verbose=0),
          n_jobs=1)

In [180]:
teste_real(modelo_OneVsRestClassifier, validacao_dados, validacao_marcacoes)

Taxa de acerto do vencedor entre os dois algoritmos no mundo real: 88.88888888888889%
