## AULA - PREPARAÇÃO BÁSICA DE DADOS PARA MINERAÇÃO

#### Big Data & Analytics, PUCPR
#### Prof. Jean Paul Barddal, 2017

Nesta aula, utilizaremos a base de dados da Enron para conhecer 
algumas bibliotecas bastante úteis de Python para tratamento e 
prepação de dados.

Nos anos 2000, a Enron era uma das maiores empresas dos Estados Unidos. Em 2002, ela quebrou devido a uma fraude de grande escala. Como resultado de uma investigação federal, uma quantidade significante de dados confidenciais se tornaram públicos, incluindo dezenas de milhares de e-mails e informações financeiras para muitos executivos da empresa.
Nosso objetivo nesta aula é a de preparar os dados para que eles 
sejam usados para treinar um modelo de classificação que seja 
capaz de prever se uma pessoa é um não um POI no contexto do escândalo da Enron.

Como etapas desta aula, elenca-se:
    
1. Carregamento dos dados
2. Verificação dos tipos dos dados
3. Estatísticas básicas dos dados
4. Contagem de POIs
5. Contagem de valores faltantes
6. Remoção de valores faltantes
7. Imputação
8. Identificação e remoção de outliers
9. Criação de um novo atributo
10. Escala dos dados
11. Classificadores
13. Avaliação
14. Validação


#### Carregamento de pacotes

Neste projeto, vamos usar os seguintes pacotes:
* pandas (carregamento e tratamento de dados)
* matplotlib (para gráficos)
* scikit-learn (aprendizagem de máquina)

In [None]:
# por enquanto, vamos carregar apenas o pandas e o numpy
import pandas as pd
import numpy as np

# vamos carregar também o método display
from IPython.display import display


#### Carregamento de dados

#### Tipos dos dados


** Notem que temos dois tipos de dados aqui: **
* Dados financeiros:

In [None]:
financial_features = ['salary', 'deferral_payments', 'total_payments',
                     'loan_advances', 'bonus',
                     'restricted_stock_deferred', 'deferred_income',
                     'total_stock_value', 'expenses',
                     'exercised_stock_options', 'other',
                     'long_term_incentive', 'restricted_stock', 'director_fees']

* Dados sobre emails:

In [None]:
email_features = ['to_messages', 'email_address',
                 'from_poi_to_this_person', 'from_messages', 
                  'from_this_person_to_poi', 'shared_receipt_with_poi']

#### Estatísticas dos dados


#### Contagem de POIs


#### Contagem de valores faltantes


**Atenção:** A maioria dos classificadores não trabalha bem com valores faltantes. Então devemos tratá-los de alguma forma. Vamos trabalhar da seguinte forma aqui: caso um atributo possua mais de 40% de seus valores faltantes, vamos removê-lo, caso contrário, vamos imputar seus valores com a média dos valores restantes.

##### - Removendo atributos com mais de 50% de valores faltantes

##### - Imputando os valores restantes com a média

#### Identificação e remoção de outliers


In [None]:
# para gráficos, vamos importar o matplotlib
import matplotlib.pyplot as plt
%matplotlib inline  


### primeiramente, vamos dar uma olhada em atributos de emails


Temos 3 pontos mais "isolados" e que parecem ser muito diferentes dos demais.
Dois deles possuem os maiores valores para `to_messages`, e o outro para `from_messages`.

In [None]:
# vamos ordenar os nossos dados por `from_messages` em ordem decrescente


Parece que o Sr. Kaminski gostava bastante de enviar e-mails, mas ele não parece ser um outlier.

Vamos agora analizar a variável `to_messages`:

Novamente, mais um alarme falso, parece que o Sr. Shapiro recebia muitos e-mails, mas não é um outlier.

Bem, nós poderíamos continuar com esse processo para analizar cada variável, mas vamos analizar pelo menos mais duas.
Agora, vamos escolher duas variáveis financeiras: `expenses` e `salary`.

Bem, isso parece um pouco bizarro, não? Nós temos um ponto **MUITO** diferente dos demais.
Vamos repetir o processo que usamos anteriormente para verificar qual dado é este:

Ahá, essa linha é apenas um agregado das demais. 
Na prática, este dado deve ser removido, pois ele não representa um indivíduo!

Vamos ver o gráfico sem esse outlier:

#### DESAFIOS
Existem vários outliers neste conjunto de dados, mas dois são bem fáceis de encontrar:
1. Um possui todos os seus valores faltantes.
2. E o outro também não é um indivíduo.

Como atividade extra, considere continuar trabalhando na base de dados para encontrar estes dados e removê-los.

Além destes dois outliers, nós podemos continuar nossa análise usando outros métodos estatísticos um pouco mais interessantes.
Um exemplo seria usar o método IQR ([Inter-Quartile Range](https://stackoverflow.com/questions/34782063/how-to-use-pandas-filter-with-iqr)). Normalmente, este método nos ajuda a encontrar outliers de forma bastante rápida.
Como você verá no link acima, é bastante fácil executá-lo usando o pandas!

**Nota: não esqueça que não podemos remover POIs desta base de dados, caso contrário, a tarefa de aprendizagem se tornará ainda mais difícil pois estaremos desbalanceando ainda mais o problema!**

#### Seleção básica de atributos


Como vemos acima, existem três atributos do tipo `object`. Se abrirmos nossos dados no excel, veremos que dois destes dados são apenas `strings` e o outro é nossa classe, `poi`.
Aqui, temos que tomar cuidado e pensar nas seguintes possibilidades:
1. Os dados são `string`, mas trata-se de um atributo categórico.
2. Os dados são `string` e são inúteis.
3. Os dados são `string` e necessitam de tratamento especial.
4. O dado pode ser convertido para valores numéricos discretos.

* No caso #1, vamos precisar usar um processamento como [OneHotEncoding](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) antes de efetivamente realizar a aprendizagem. Note que no WEKA, isso não é necessário, mas caso usem o `scikit-learn`, isso é necessário.
* No caso #2, que é o que ocorre neste projeto, podemos apenas remover os atributos.
* No caso #3, precisamos tratar os dados usando [Bag of Words](https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) e/ou [TF-IDF](https://stackoverflow.com/questions/37593293/what-is-the-simplest-way-to-get-tfidf-with-pandas-dataframe).
* No caso #4, podemos simplesmente substituir os valores de outros tipos para que eles se tornem numéricos, como por exemplo, `True por 1` e `False por 0`.

Felizmente, os atributos `email_address` e `name` são strings que funcionam como identificadores, e este tipo de dado não ajuda na **generalização**, então vamos removê-los:

In [None]:
# remoção de email e name


In [None]:
# vamos agora substituir os True e False para que se tornem valores numéricos


#### Criação de um novo atributo

Muitas vezes, os atributos originais podem não ser suficientes, mas algumas pequenas transformações podem ser úteis e facilitar a vida de nossos classificadores. Uma técnica bastante comum é a criação de novos atributos. Para criar um novo atributo, precisamos apenas ter uma hipótese do por quê este novo atributo seja útil na nossa tarefa de classificação.

A seguir, vamos criar um novo atributo chamado `wealth`. Este atributo será simplesmente a soma de todos os atributos financeiros de uma pessoa. A hipótese neste caso é de que algumas pessoas podem ter salários baixos mas valores de bonificação altos, o que poderia ser um indicativo de fraude. Ao somar estas variáveis, nós (e o classificador) teremos uma melhor noção de quanto dinheiro cada pessoa realmente está ganhando.

In [None]:
# vamos começar ao arrumar o vetor que inicializamos lá no topo do código, `financial_features`

# como removemos algumas variáveis, vamos pegar a interseção entre essas variáveis e as variáveis
# que temos agora no dataset


# `wealth` é a soma dos atributos financeiros


#### Escala dos dados


Vamos dar mais uma olhada nos valores mínimos e máximos de cada atributos que temos:

Note que existem atributos que estão na escala de `10E8`, enquanto existem alguns que estão na casa de dezenas de milhares.
Existem classificadores que podem ser afetados por isso, como o kNN!

O motivo disso é que o kNN se baseia em cálculos de distância, e a distância é proporcional aos valores máximos e mínimos que um atributo pode assumir.
Não vamos detalhar isso, mas imaginem o seguinte:

Queremos calcular a distância entre **dois pontos A e B**.

**Atributo A**: 
* Ponto 1: possui valor `10`
* Ponto 2: possui valor `1000`
* A distância (diferença), seria `1000-10 = 900`

**Atributo B**:
* Ponto 1: possui valor `1`
* Ponto 2: possui valor `10`
* A distância (diferença), seria `10-1 = 9`

Neste caso, o atributo A seria mais *impactante* no nosso cálculo de distância, e isso não é preferível se não conhecemos bem os dados. O ideal é que todos os dados possuam o mesmo *impacto*!

Uma boa prática, independentemente de ser necessário ou não, é sempre alterar a escala dos dados.
Vamos fazer isso usando o método [StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

#### Classificadores


Determinar qual classificador deve ser usado não é uma tarefa simples.
Por mais que existam "dogmas" na área comentando que algoritmos baseados em 
instâncias são superiores quando possuímos apenas dados numéricos, não há 
prova formal que confirme tais afirmações.

Como devemos proceder? O ideal é testar diversos classificadores, sendo cada um de um tipo diferente (**bias**).
Por exemplo, podemos testar um classificador probabilístico ([Gaussian Naive Bayes](http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html)), um baseado em árvore de decisão ([Decision Tree](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)) e um baseado em instâncias ([kNN](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)).

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier

# vamos criar uma lista com um classificador de cada tipo para testarmos na sequência


#### Avaliação


Normalmente, maior parte das pessoas trabalham com **acurácia** para determinar quão bom um classificador é.
Isso não está errado, mas ao usar essa métrica, temos que tomar cuidado.
Digamos que nós temos um classificador bem ingênuo que não aprendeu nada, e para cada questionamento que fazemos para ele, ele nos afirma que um indivíduo **não é um POI**.
Lembre-se, na nossa base de dados, nós temos 18 indivíduos que são POIs e 128 que não são POIs.
Neste caso, a acurácia desse modelo seria de 128/146, significando que ele acertaria quase 90% dos dados.
Contudo, esse classificador jamais identificaria para nós sequer um POI!

* Como resolvemos isso de forma mais adequada?

Existem duas métricas que são utilizadas em problemas desbalanceados: **precision** e **recall**.

* **Precision:** Precision é a proporção de POIs que foram identificados corretamente, em relação a todos os POIs que nosso classificador identificou.
* **Recall:** Recall é a proporção dos POIs que foram identificados em relação a todos os POIs da base.

Para saber mais, dê uma olhada [aqui](https://en.wikipedia.org/wiki/Precision_and_recall) e [aqui](https://hackercollider.com/articles/2016/06/03/recall-vs-precision/)!




#### Validação

A idéia geral de criar modelos preditivos é que estes sejam capazes de **generalizar** bem.
Deste modo, após criar um modelo, nós devemos testá-lo usando dados **diferentes** dos usados durante o treinamento.
Existem diversas formas de fazer isso, mas como o nosso dataset é pequeno, a opção mais interessante é usar [validação cruzada](https://pt.wikipedia.org/wiki/Validação_cruzada).
Contudo, existe uma variação de validação cruzada que é ainda mais interessante e que faz muito sentido neste projeto: uma validação cruzada [estratificada](https://stats.stackexchange.com/questions/49540/understanding-stratified-cross-validation). Este procedimento tem como objetivo fazer com que cada *fold* possua a mesma distribuição de classes que o dataset original.

Vamos agora usar esse procedimento para testar os três classificadores e verificar os resultados em termos de **precision** e **recall**.

In [None]:
#### Código para teste de um classificador usando validação cruzada estratificada

from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.preprocessing import StandardScaler

def evaluateClassifier(clf, dataset, folds = 5):
    X = dataset.drop('poi', axis = 1).values
    X = StandardScaler().fit_transform(X) # escala de dados
    y = dataset['poi'].values
    cv = StratifiedShuffleSplit(y, random_state=42)
    true_negatives = 0
    false_negatives = 0
    true_positives = 0
    false_positives = 0
    for train_indices, test_indices in cv:
        X_train, X_test = X[train_indices], X[test_indices]
        y_train, y_test = y[train_indices], y[test_indices]

        ### treinamento do classificador
        clf.fit(X_train, y_train)

        ### obtenção de predições para os dados de teste
        predictions = clf.predict(X_test)
        
        ### cálculo da matriz de confusão
        for prediction, truth in zip(predictions, y_test):
            if prediction == 0 and truth == 0:
                true_negatives += 1
            elif prediction == 0 and truth == 1:
                false_negatives += 1
            elif prediction == 1 and truth == 0:
                false_positives += 1
            elif prediction == 1 and truth == 1:
                true_positives += 1
            else:
                print("Erro! Encontramos um valor diferente de 0 ou 1!")
                break
    try:
        total_predictions = true_negatives + false_negatives + false_positives + true_positives
        accuracy = 1.0*(true_positives + true_negatives)/total_predictions
        precision = 1.0*true_positives/(true_positives+false_positives)
        recall = 1.0*true_positives/(true_positives+false_negatives)
        f1 = 2.0 * true_positives/(2*true_positives + false_positives+false_negatives)
        f2 = (1+2.0*2.0) * precision*recall/(4*precision + recall)
    except:
        print("Houve uma divisão por zero!")
    print("{} \n \t Accuracy = {} \n \t Precision = {} \n \t Recall = {}\n\n".format(clf, accuracy, precision, recall))        

#### PRÓXIMOS PASSOS - TUNING

Muitos classificadores dependes de seus parâmetros. Um exemplo é o SVM, onde os parâmetros padrão normalmente não dão resultados bons. 
Os resultados que obtivemos acima são razoáveis, pois existem muitos processos a mais de limpeza e criação de novos atributos que poderíamos ter feito.
Outra forma de tentar melhorar os nossos resultados é através de **tuning**, onde podemos avaliar diferentes parametrizações para um classificador e manter apenas a que nos dá melhores resultados.
Como trabalho extra, experimente usar o método [GridSearchCV](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) para tunar os 3 classificadores que usamos acima, e compare os resultados obtidos com os originais.

#### PRÓXIMOS PASSOS - SELEÇÃO AUTOMÁTICA DE ATRIBUTOS

Neste projeto, nós estamos lidando com uma base de dados razoavelmente pequena, seja em número de instâncias, seja em número de atributos. Contudo, nós temos atributos nesta base de dados que são inúteis, e outros acabam até mesmo atrapalhando. Deste modo, selecionar atributos é uma tarefa extremamente importante e que nos ajudaria e muito a obter melhores resultados.
Infelizmente, o scikit-learn original não inclui muitos métodos de seleção de atributos, mas cito aqui o [SelectKBest](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html) como um bastante útil e rápido. 
Sugiro neste ponto testar diferentes números de atributos a serem obtidos pelo `SelectKBest` e testados na criação de um classificador.
Por exemplo:
* kNN com 3 atributos obtidos pelo `SelectKBest`
* kNN com 4 atributos obtidos pelo `SelectKBest`
* kNN com 5 atributos obtidos pelo `SelectKBest`


#### PRÓXIMOS PASSOS - COMBINANDO SELEÇÃO DE ATRIBUTOS E TUNING

Um fator bastante importante em aprendizagem de máquina é o viés indutivo (inductive bias) dos classificadores.
Ou seja, cada classificador "percebe" os dados de uma forma diferente, e assim, usa os mesmos atributos de formas diferentes para de fato extrair padrões e aprender um modelo preditivo.
Desta forma, seria interessante que cada classificador fosse tunado com diferentes conjuntos de atributos, unindo então o `GridSearch` e um método de seleção de atributos, como o `SelectKBest`.
Felizmente, isso é bastante fácil de se fazer ao usar a classe [Pipeline](http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html).