# Comparando o Naive Bayes com outros algoritmos em dados de texto


O algorimo Naive Bayes (NB), como visto em aula, é um tipo de classificador baseado no teorema de Bayes que faz uma suposição ingênua de que os atributos preditivos são independentes uns dos outros.

Em sua formulação mais básica, i.e., para dados discretos, a implementação do NB é muito simples. Todavia, dependendo do tipo dos dados de entrada precisamos de algumas suposições adicionais. Tais detalhes serão discutidos na monitoria.

O `sklearn` implementa várias variantes do NB, que são focadas em tipos diferentes de dados e/ou fazem suposições diferentes em relação aos dados de entrada. A [documentação do sklearn](https://scikit-learn.org/stable/modules/naive_bayes.html) é muito completa e nos ajuda durante o processo de escolha da melhor variante para o nosso problema. São poucos os hiperparâmetros que devem ser ajustados no NB (quando existentes), o que facita a sua rápida aplicação em um novo problema ou sua utilização para prototipagem.


Podemos importar as variantes do NB a partir do módulo `sklearn.naive_bayes`, por exemplo:


```python
from sklearn.naive_bayes import CategoricalNB
from sklearn.naive_bayes import GaussianNB

```

## Informações introdutórias e contexto 

Nessa semana aplicaremos o NB em tarefas de processamento de texto. A ideia é entender como o viés preditivo do NB se sai em comparação com outros algoritmos de aprendizado que vimos anteriormente. Para tal, precisamos de alguns recursos e ferramentas que nos permitam:

1. Carregar a base dados proposta (cujas entradas são textos)
2. Extrair atributos estruturados dessa base e pré-processa-la em um formato adequado para os classificadores

Como base de dados utilizaremos o [*20 newsgroups*](http://people.csail.mit.edu/jrennie/20Newsgroups/), que é um conjunto muito conhecido na área de pesquisa de mineração de dados de textos.

Devido ao tamanho desse dataset, limitaremos nossa análise a 4 sub-categorias de texto. Essas categorias serão as classes do problema preditivo que trateramos. O conjunto de dados mencionado está disponível diretamente no `sklearn`.


O trecho a seguir ilustra como carregar o conjunto de dados e também apresenta as categorias que consideraremos e como separá-las:

In [1]:
# Utilizaremos 4 das 20 categorias de texto disponiveis no dataset
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']

Carregaremos o subconjunto de treino do dataset e selecionaremos apenas as 4 categorias apresentadas anteriormente. Essas categorias serão as classes do sub-problema que levaremos em conta, ou seja, tentaremos predizer o assunto que cada texto aborda utilizando aprendizado de máquina.

In [2]:
from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True,
                                  random_state=42)

(Notem que usamos `shuffle=True`, então nossos dados já vêm embaralhados)

Vamos ver que campos temos no dataset e a quantidade de amostras:

In [3]:
print('Campos disponíveis:', list(twenty_train))
print('Quantidade de amostras:', len(twenty_train.data))

Campos disponíveis: ['data', 'filenames', 'target_names', 'target', 'DESCR']
Quantidade de amostras: 2257


Veremos também quão desbalanceado é o problema em nossas mãos:

In [4]:
import numpy as np

# Formato: (array_com_as_classes, array_com_qnt_exemplos_em_cada_classe)
np.unique(twenty_train.target, return_counts=True)

(array([0, 1, 2, 3]), array([480, 584, 594, 599]))

Os dados estão relativamente balanceados! Muito provavelmente não precisaremos nos preocupar com desbalanceamento.

Por outro lado nossos dados são textuais:

In [5]:
twenty_train['data'][0]

'From: sd345@city.ac.uk (Michael Collier)\nSubject: Converting images to HP LaserJet III?\nNntp-Posting-Host: hampton\nOrganization: The City University\nLines: 14\n\nDoes anyone know of a good way (standard PC application/PD utility) to\nconvert tif/img/tga files into LaserJet III format.  We would also like to\ndo the same, converting to HPGL (HP plotter) files.\n\nPlease email any response.\n\nIs this the correct group?\n\nThanks in advance.  Michael.\n-- \nMichael Collier (Programmer)                 The Computer Unit,\nEmail: M.P.Collier@uk.ac.city                The City University,\nTel: 071 477-8000 x3769                      London,\nFax: 071 477-8565                            EC1V 0HB.\n'

E agora?

Nosso foco aqui não é o processamento dos dados, e sim comparar algorítmos preditivos.

A extração de features pode ser feita de várias formas. O `sklearn` nos oferece ferramentos muito práticas para tal. Uma sugestão é utilizar o [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer) para a extração das features e o [`TfidfTransformer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer) como passo de pré-processamento.


Certo. Temos meios de organizar de forma tabular nossos dados e, assim, utilizá-los para treinar alguns modelos de aprendizado de máquina. 

Dados os pontos mencionados anteriormente, a tarefa é:

# **Tarefa:**

## Comparar o Naive Bayes contra o k-NN e Árvore de decisão utilizando as 4 categorias de tipo texto carregadas anteriormente da base de dados 20 newsgroups.

Passos:

1. [x] Carregar o conjunto de dados
2. [ ] Extrair atributos e aplicar pré-processamento (`CountVectorizer` e `TfidfTransformer`)
3. [ ] Separar os dados entre treinamento e validação
4. [ ] Escolher uma métrica de avaliação adequada
5. [ ] Comparar o desempenho dos algoritmos (Naive Bayes, k-NN e Árvore de Decisão)


*Observações:*

- **Não existe uma única forma "certa" de realizar a tarefa**, mas a motivação de cada escolha deve ser justificável.
- O ajuste de hiperparâmetros (quando aplicável) não precisa ser necessariamente automático, por simplicidade vocês podem ajustá-los manualmente
- A ideia aqui é discutir como os diferentes vieses preditivos se comportam no problema proposto e aplicar os conhecimentos adquiridos nas aulas passadas

Vale ressaltar que algumas decisões deverão ser tomadas para realizar essa tarefa:

a) Que variante do NB utilizaremos?

b) Como iremos configurar nossos preditores? (ajuste de hiperparâmetros)

c) Como avaliar a performance dos diferentes algoritmos de forma justa?
   - Que métrica de avaliação utilizar
   - Como particionar os dados? (e.g., cross-validation)

Lembrem-se de utilizar os mesmos passos de processamento no treino e teste (`fit` no treino e `transform` no teste). Dica para simplicidade e elegância: pipelines (no fórum temos um exemplo de utilização)!



## Desafios opcionais:

### Desafio extra 1:

Considerar a [Regressão Logística](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) na comparação.



### Desafio extra 2:

O conjunto que utilizamos conta com um sub-conjunto de dados de teste. Tais dados são carregados via:

In [6]:
twenty_test = fetch_20newsgroups(subset='test', categories=categories, shuffle=True, random_state=42)

Que tal aplicar os modelos selecionados na tarefa da semana nesses dados?

# Apêndice A

## Utilização básica do Naive Bayes e Regressão Logística na base de dados iris

In [7]:
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# recuperando conjunto de dados
data = load_iris()
X, y = data['data'], data['target']
print(X.shape)
print(y.shape)

#dividindo os dados em treino e teste.
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

(150, 4)
(150,)


In [8]:
clf = GaussianNB()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
acc_nb = accuracy_score(y_test, y_pred)

print("Acc do NB é: ", acc_nb)

Acc do NB é:  0.96


In [9]:
clf = LogisticRegression(random_state=0, max_iter=1000)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
acc_lr = accuracy_score(y_test, y_pred)

print("Acc do LR é: ", acc_lr)

Acc do LR é:  1.0


In [10]:
acc_lr > acc_nb

True