# Classificador com corpus de brinquedo

Vamos modelizar um conjunto fictício de resenhas de clientes sobre determinado restaurante. Além dos textos, temos à disposição uma etiqueta para cada resenha informando se a opinião do cliente soa positiva ou negativa.

A partir das probabilidades calculadas, será possível gerar uma função que avalie novas resenhas, classificando-as como positivas ou negativas.

In [1]:
# Estas são as resenhas para a modelização:
corpus = [('Esse restaurante é um lixo', 'NEG'), ('A comida servida no inferno', 'NEG'),
          ('Lugar imundo', 'NEG'), ('Perfeito para o seu cachorro', 'POS'), ('Restaurante ótimo', 'POS')]

# Esta é a resenha com a qual vamos testar o classificador. Você pode tentar com outras, também.
teste = 'Restaurante horroroso. A comida é lixo em estado coloidal! O outro emprego do garçom é carcereiro de masmorra.'

**Pré-processamento:**

*   Tokenização
*   Limpeza
* Filtragem de stop words

In [2]:
import itertools
from collections import Counter
from numpy import prod
from math import log

import nltk
nltk.download('punkt')
from nltk import tokenize 
nltk.download('stopwords')
stops = nltk.corpus.stopwords.words('portuguese')


def tokenizar(str_texto):
    return tokenize.word_tokenize(str_texto, language='portuguese')


def sem_stops(lst_palavras):
    return [p for p in lst_palavras if p not in stops]


def limpar(lista):
    return [i.lower() for i in lista if i.isalpha()]


def pre_processar(str_texto):
    return sem_stops(limpar(tokenizar(str_texto)))


def achatar(lista):
    return list(itertools.chain(*lista))

[nltk_data] Downloading package punkt to
[nltk_data]     /home/brunorosilva/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/brunorosilva/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [3]:
corpus = [(pre_processar(i[0]), i[1]) for i in corpus]
corpus

[(['restaurante', 'lixo'], 'NEG'),
 (['comida', 'servida', 'inferno'], 'NEG'),
 (['lugar', 'imundo'], 'NEG'),
 (['perfeito', 'cachorro'], 'POS'),
 (['restaurante', 'ótimo'], 'POS')]

**Separação dos documentos**

*   Extração de duas listas separadas contendo documentos etiquetados como "negativos" e "positivos"
*   Extração do vocabulário total do corpus (juntando as palavras das resenhas positivas e das negativas). Atenção! Lembre-se de que o vocabulário são as palavras sem repetição.


In [4]:
negativos = [i[0] for i in corpus if i[1] == 'NEG']
positivos = [i[0] for i in corpus if i[1] == 'POS']

vocab = set(achatar(negativos)) | set(achatar(positivos))

**Contagens**

*   *N* documentos negativos
*   *N* documentos positivos
* *N* total de documentos

* *N* itens no vocabulário
* Contagens de ocorrências de cada palavra nas resenhas negativas. **Dica:** use a função `Counter()` do módulo `collection`s para isso.
* Contagens de ocorrências de cada palavra nas resenhas positivas. 
* *N* total de palavras "negativas"
* *N* total de palavras "positivas"



In [5]:
# Contagens de documentos (resenhas)
n_docs_negativos = len(negativos)
n_docs_positivos = len(positivos)
n_docs_total = n_docs_negativos + n_docs_positivos

# N itens no vocabulário
n_vocab = len(vocab)

# Contagens de cada palavra (dicionários de ocorrências)
tokens_neg = achatar(negativos)
cont_neg = Counter(tokens_neg)
tokens_pos = achatar(positivos)
cont_pos = Counter(tokens_pos)

# N total de palavras em cada classe
n_tokens_neg = sum(cont_neg.values())
n_tokens_pos = sum(cont_pos.values())

**Cálculo das probabilidades de classificação**

Há duas probabilidades a calcular, uma para cada classe ($c$): a probabilidade de uma resenha qualquer ser negativa e a probabilidade de ela ser falsa.

Essa probabilidade é dada por:

\begin{equation}
P(c) \prod\limits_{i=1}^n P(f_{i} | c)
\end{equation}

Onde a probabilidade de cada atributo $f$ é dada pelo número de ocorrências (tokens) desse atributo dividido pelo número de tokens em cada classe.

**Dica:** para calcular o produtório de uma lista, use a função `prod` do módulo `numpy`.


Vamos suavizar a classificação com o método de Laplace, isto é, somando 1 a cada atributo no numerador e somando também a cardinalidade do vocabulário ao denominador.

A probabilidade isolada (anterior) da classe $c$ é dada por:

\begin{equation}
	P(c) = \dfrac{contagem(c)}{N}
\end{equation}

Já a probabilidade suavizada de um atributo qualquer pertencer a $c$ é:

\begin{equation}
	P(f_{i} | c) = \dfrac{contagem(f_{i},c) + 1}{contagem(c) + V}
 \end{equation}

Por fim, para evitar o underflow aritmético, é sempre uma boa ideia calcular probabilidades encadeadas com logaritmos. A diferença com documentos e vocabulários pequenos não é grande, mas tende a ser quando se trabalha com dados reais.

\begin{equation}
\hat{c} = \underset{c \in \mathcal{C}}{\operatorname{argmax}} \ \log P(c) + \sum\limits_{i=1}^n \log P(f_{i} | c)
\end{equation}

Agora, com base nessas informações, procure classificar a mensagem-teste apresentada acima.

In [6]:
tokens_teste = pre_processar(teste)
tokens_teste = [i for i in tokens_teste if i in vocab]

# Com logs
prob_neg = log(n_docs_negativos / n_docs_total) + sum([log((cont_neg[i] + 1) / (n_tokens_neg + n_vocab)) for i in tokens_teste])
prob_pos = log(n_docs_positivos / n_docs_total) + sum([log((cont_pos[i] + 1) / (n_tokens_pos + n_vocab)) for i in tokens_teste])

print(teste)
print(prob_neg, prob_pos)
if prob_neg > prob_pos:
    print('O cliente não gostou do restaurante.')
else:
    print('O cliente gostou do restaurante.')


Restaurante horroroso. A comida é lixo em estado coloidal! O outro emprego do garçom é carcereiro de masmorra.
-6.931024114254803 -8.140315540159985
O cliente não gostou do restaurante.


---

# **Tarefa:** Detecção de spam com corpus de dados reais

Nessa tarefa, você vai trabalhar com parte do corpus de mensagens de e-mail da Enron.

As mensagens estão em arquivos de texto curtos em inglês (principalmente, mas não só) e têm anotações manuais no título e na primeira linha de texto com sua etiqueta como "spam" (1) ou "ham" (0). 

Aqui está uma mensagem de exemplo:


---


0

Subject: meter 1517 - jan 1999
george ,
i need the following done :
jan 13
zero out 012 - 27049 - 02 - 001 receipt package id 2666
allocate flow of 149 to 012 - 64610 - 02 - 055 deliv package id 392
jan 26
zero out 012 - 27049 - 02 - 001 receipt package id 3011
zero out 012 - 64610 - 02 - 055 deliv package id 392
these were buybacks that were incorrectly nominated to transport contracts
( ect 201 receipt )
let me know when this is done
hc

---

Observe o 0 na primeira linha. Ele indica que a mensagem foi etiquetada como *ham*.

Você deve:



1.   Abrir cada arquivo de texto.
2.   Pré-processar os dados, implementando os seguintes procedimentos:

*   Tokenização
* Eliminação de stop words
*   Limpeza e homogeneização dos tokens
* Stemização

Use o NLTK para gerar a lista de stop words em inglês e para implementar um stemizador também em inglês:

---

```
import nltk
stops = nltk.corpus.stopwords.words('english')
from nltk.tokenize import word_tokenize
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer('english')

def stemizar(lista):
    return [stemmer.stem(i) for i in lista]
```

---

3. Dividir o corpus pré-processado em treinamento (80%) e teste (20%).

4. Usando o corpus de treinamento, realizar as contagens do vocabulário, das classes (*spam* ou *ham*) e dos atributos (cada token corresponde a um atributo).

5. Calcular as probabilidades relacionadas às contagens.

6. Implementar uma função bayes() que receba uma mensagem e devolva a probabilidade de ela ser classificada como *spam* e como *ham*:

`return prob_spam, prob_ham`

7. Nessa função, não deixe de incluir:

* Uma condicional para testar se as palavras a classificar fazem parte do vocabulário de treinamento. As que não fazem devem ser simplesmente ignoradas (ficar de fora do cálculo).

* A suavização de Laplace.

7. Classificar todo o corpus de teste passando cada mensagem pela função bayes().

8. Avaliar a performance do classificador: para cada mensagem, comparar a classificação com as etiquetas de *spam* ou *ham* e gerar uma lista com os resultados dessa avaliação em termos de Verdadeiro Positivo (VP), Verdadeiro Negativo (VN), Falso Positivo (FP) e Falso Negativo (FN).

9. Com base nessa lista, calcular:

* precisao = vp / (vp + fp)
* cobertura = vp / (vp + fn)
* acuracia = (vp + vn) / (vp + vn + fp + fn)
* Medida_F = 2 * (precisao * cobertura) / (precisao + cobertura)






