In [None]:
%pylab inline

In [None]:
from os import sys
from scipy import stats

from subprocess import run

escaper_bash = str.maketrans({"(":  r"\(", ")":  r"\)", " ":  r"\ ", "[":  r"\[", "]":  r"\]", "\\": r"\\", 
                               "^":  r"\^", "$":  r"\$", "*":  r"\*", ",":  r"\,", "{":  r"\{", "}":  r"\}",
                               "&": r"\&"})

In [None]:
import cvxpy as cvx
import pandas as pd

In [None]:
import sklearn.feature_extraction as f_e

In [None]:
import sklearn.naive_bayes as n_bayes
import sklearn.svm as svm

In [None]:
from sklearn import metrics
from sklearn.model_selection import cross_validate

In [None]:
import builtins

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

# Classificação de emails em span e não span

## $\quad$ Primeiro, carrega-se os dados em tabelas, via o pacote pandas

 $\quad$ Uma inspeção aos arquivos de dados levou a concluir que carregá-los como tabelas facilitaria sua utilização e indexação durante a mineração.

In [None]:
# pasta com os data_sets enviados por email
tables_path = '/home/avalon/Code/Twist_seletivo/'
train_path = tables_path + 'Data_Train.csv'
test_path = tables_path + 'Data_Test.csv'

 $\quad$ As tabelas foram concatenadas e devidamente indexadas. Isso pois a classificação será feita sobre os dados no formato td-idf, portanto, por conveniência, a conversão para esse será feita sobre todos os dados de uma só vez. Assim, o universo de palavras fica estabelecido e a utilização dos pacotes mais direta.

In [None]:
whole_data_table = pd.concat ({'train': pd.read_csv (train_path, index_col='ID').sort_index (), 
                               'test': pd.read_csv (test_path, index_col='ID').sort_index ()}).sort_index ()

In [None]:
whole_data_table.loc (axis=0)['train', whole_data_table.loc['train'].index[:10], :]

In [None]:
whole_data_table.loc (axis=0)['test', whole_data_table.loc['test'].index[:10], :]

 $\quad$ Há 'nan's na tabela para os dados de teste como place-holders pois não há classificação destes

## Toma-se stop words fornecidos pelo módulo NLTK para a língua portuguesa

In [None]:
pt_stop = set (stopwords.words ('portuguese'))
count_data = f_e.text.CountVectorizer (stop_words=pt_stop) 

## Converte-se os dados para o formato tf-idf

In [None]:
whole_data = count_data.fit_transform (whole_data_table['Message'].as_matrix ())

## Separa-se então dados de treino e teste

In [None]:
# assume que o label 'test' vem antes de 'train'
test_range = (0, whole_data_table.loc['test'].shape[0])
train_range = (test_range[1], test_range[1] + whole_data_table.loc['train'].shape[0])

In [None]:
train_data = whole_data[train_range[0]:train_range[1]]
train_targets = whole_data_table['SPAM'][train_range[0]:train_range[1]].astype (float)
test_data = whole_data[test_range[0]:test_range[1]]

## Utilizar-se-á o método de classificação naive bayes, versão multinomial, para classificação do texto, disponibilizado pelo módulo sklearn

### Todavia, este medo possui um hiperparâmetro, $\alpha$, dito de suavização, que precisa ser escolhido
### Para tal, Cross Validation num grid de parâmetros será efetuado afim de melhor selecionar o melhor parâmetro. Isto é, o melhor entre as pontuações médias em cada subconjunto dos dados

In [None]:
# grid para o parâmetro de suavização, feito em escala log
# a escolha das bordas do grid foi feita em vista da significância do parâmetro ao modelo
# poderia ser tomado menor, a escolha foi conservadora
grid_len = 100
# grid de parâmetros de suavização
smoothing_params = logspace (-1, log10 (train_data.shape[0]), num=grid_len) 

In [None]:
multn_bayes_models = {alpha: [n_bayes.MultinomialNB (alpha)] for alpha in smoothing_params}

### O pacote sklearn possui um módulo para tal, capaz de realizar o processo, isso para diversas funções de pontuação

 $\quad$ Assim sendo, soluciona-se as pontuações, mais usuais, abaixo:

In [None]:
scores_list = ['f1', 'precision', 'recall']
scores_list

In [None]:
# Quantidade de classes para Cross V.
split_count = 10
score_names = [score_kind + '_macro' for score_kind in scores_list]

for alpha in multn_bayes_models:
    
    multn_bayes_models[alpha].append (cross_validate (multn_bayes_models[alpha][0], train_data, train_targets, 
                                                      scoring=['f1_macro', 'precision_macro', 'recall_macro'], cv=split_count))

 $\quad$ Avalia-se os melhores parâmetros para cada pontuação

In [None]:
alpha_bests = {}

for score_kind in scores_list:
    cl_scores = array ([multn_bayes_models[alpha][1]
                        ['test_' + score_kind + '_macro'].mean ()
                        for alpha in smoothing_params])
    
    alpha_bests[score_kind] = [smoothing_params[cl_scores.argmax ()], cl_scores.max ()]

In [None]:
alpha_bests

 $\quad$ Fita-se os modelos baseado nas melhores pontuações para cada potuação

In [None]:
multi_n_bayes = {score_kind: n_bayes.MultinomialNB (alpha_bests[score_kind][0]).fit (train_data, train_targets)
                 for score_kind in scores_list}

## Realizada escolhidos os hiperparâmetros e realizada a classificação, segue a performa-se global destes

In [None]:
for score_kind in scores_list:
    train_predict = multi_n_bayes[score_kind].predict (train_data)
    
    print ('Scores for ' + score_kind + ' score Cross V.\n')
    print (metrics.classification_report (train_targets, train_predict, target_names=['Spam', 'NoSpam']))
    print ('\nRespective Confusion Matrix, or ROC\n')
    print (metrics.confusion_matrix (train_targets, train_predict))
    print ('\n---\\\\---\n')

Como todos os resultados foram similares e os parâmetros próximos, toma-se um deles para a classificação no conjunto de teste.

In [None]:
whole_data_table['SPAM-pred'] = array (multi_n_bayes['f1'].predict (whole_data), dtype=bool, copy=False)

In [None]:
whole_data_table

In [None]:
whole_data_table.to_csv (tables_path + 'Data_stack_pred.csv')

## Resta, apenas, a performace no conjunto de teste
    
 $\quad$ A variável test_targets deve conter os targets para a classificação do conjunto de teste. Para isso, basta apenas carregar a tabela do conjunto de testes com a coluna de 'Spam' devidamente preenchida.

In [None]:
test_predict = whole_data_table['SPAM-pred']['test']

In [None]:
# Carrege aqui o vetor de classificação do conjunto de teste
test_targets = whole_data_table['SPAM']['test'].astype (float) 

### Performace no conjunto de teste

In [None]:
print ('Scores for ' + score_kind + ' score Cross V.\n')
print (metrics.classification_report (test_targets, test_predict, target_names=['Spam', 'NoSpam']))
print ('\nRespective Confusion Matrix, or ROC\n')
print (metrics.confusion_matrix (test_targets, test_predict))
print ('\n---\\\\---\n')

Obrigado pela atenção.
P.A.S.