In [None]:
import matplotlib.pyplot as plt
plt.style.use('default')
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import classification_report


# Aula 11: Naive Bayes
**Objetivo da aula:** ao fim desta aula, o aluno será capaz de treinar e avaliar um modelo de classificação do tipo Naive Bayes.

# Exercício 1
*Objetivo: relacionar TF e DF a suas contrapartidas probabilísticas*

Complete as frases abaixo:

Term Frequency é a quantidade de __________________ em ________________. TF está ligado à probabilidade de, ao escolher aleatoriamente ___________________ entre todos(as) ______________________, encontrar ____________________.

Document Frequency é a quantidade de __________________ em ________________. DF está ligado à probabilidade de, ao escolher aleatoriamente ___________________ entre todos(as) ______________________, encontrar ____________________.



# Exercício 2
*Objetivo: relacionar eventos e probabilidades ao Teorema de Bayes*

O Teorema de Bayes pode ser enunciado como:

$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
$$

Numa situação fictícia, temos a seguinte situação:
* $10\%$ dos moradores do Bairro do Limoeiro são torcedores do Flamengo
* $5\%$ da população da cidade mora no bairro do limoreiro
* $30\%$ da população da cidade torce para o Flamengo

Sabendo que Sam torce para o Flamengo, qual é a probabilidade de Sam morar no Bairro do Limoeiro?


# Exercício 3
*Objetivo: aplicar o Teorema de Bayes para relacionar observações a probabilidades*

Uma possível característica de e-mails de spam (mensagens não solicitadas, com conteúdo de propaganda, possíveis golpes, ou malware) é possuir a expressão “WIN”. Porém, nem todos os e-mails de spam possuem a expressão “WIN”, e nem todos os e-mails que possuem a expressão “WIN” são spam.

Medindo uma amostra aleatória, contendo tanto e-mails de spam quanto não-spam, encontramos os seguintes dados:
*	10% dos e-mails (selecionados aleatoriamente, incluindo spam e não-spam) contém a expressão “WIN”,
*	1% dos e-mails da coleção são spam (e 99% não são),
*	Dos e-mails que são spam, 90% contém a expressão “WIN”,
*	Dos e-mails que não são spam, 1% contém a expressão “WIN”.

Se, ao selecionarmos um e-mail aleatório, ele contiver a expressão “WIN”, qual é a probabilidade de tratar-se de spam? Qual é a probabilidade de não se tratar de spam?



# Exercício 4
*Objetivo: aplicar o Teorema de Bayes para o caso de múltiplas variáveis independentes*

Uma outra característica típica de e-mails tipo “spam” é a presença da palavra “Nigéria”. Na mesma coleção acima, encontramos a palavra “Nigéria” em 95% dos e-mails de spam, mas em apenas 0.1% dos e-mails não-spam. 

1. Se, ao selecionarmos um e-mail aleatório, ele contiver a palavra “Nigéria”, qual é a probabilidade de tratar-se de spam? Qual é a probabilidade de não se tratar de spam?
1. Se um e-mail aleatório contiver, simultaneamente, as palavras “Nigéria” e “WIN”, qual é a probabilidade de tratar-se de spam, assumindo que são probabilidades independentes? Qual é a probabilidade de não se tratar de spam?



# Exercício 5
*Objetivo: analisar um conjunto de dados*

Neste exercício, trabalharemos com o "spam dataset", disponível no seu material de aula. Usando as técnicas de análise que você já conhece, encontre:

1. Quais são as palavras mais comuns em e-mails de spam
1. Quais são as palavras mais comuns em e-mails não-spam (ham)
1. Qual é a probabilidade de encontrar a palavra “cheap” ao selecionar um documento aleatório entre os e-mails de spam
1. Qual é a probabilidade de encontrar a palavra “cheap” ao selecionar um documento aleatório entre os e-mails de não-spam (ham)



In [None]:
df = pd.read_csv('./datasets/spam_ham_dataset.csv')
df.head()

In [None]:
# Faça sua análise aqui

# Exercício 7
*Objetivo: explicar a funcionalidade de dividir a base de dados em conjuntos de treino e teste*

No código abaixo, há um exemplo de divisão da base de dados em conjunto de treino e teste.

1. Por que devemos dividir nossa base de dados em “treino” e “teste”?
1. Qual é o critério para essa divisão quando usamos a função train_test_split()?
1. O que o parâmetro random_state faz?



In [None]:
# 1. Retirar dados do dataframe
textos = list(df['text'])
labels = list(df['label'])

# 2. Vetorizar
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(textos)

In [None]:
# 3. Divisão entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, random_state=37)

# Exercício 8
*Objetivo: explicar o processo de treinamento e teste usando BernoulliNB*

No código abaixo, usamos um modelo do tipo Bernoulli Naive Bayes.

1. Encontre as passagens responsáveis por:
    1. Definir e instanciar nosso modelo Naive Bayes
    1. Treinar o modelo com dados de treino
    1. Executar o modelo com dados de teste
    1. Avaliar o modelo

1. O que significa o "Bernoulli" em "Bernoulli Naive Bayes"?
1. O que significam os parâmetros fornecidos pelo `classification_report`?


In [None]:
# 4. Treinamento e teste do modelo
model = BernoulliNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# Exercício 9
*Objetivo: observar as probabilidades de palavras usadas para classificação*

No código abaixo:
1. qual é o conteúdo de vectorizer.vocabulary_?
1. qual é o conteúdo de model.feature_log_prob?
1. por que o modelo usa o logaritmo da probabilidade, não a probabilidade em si?
1. observando as palavras mais frequentes em cada classe, como poderíamos melhorar o desempenho do modelo? Realize essa alteração e verifique se o modelo, de fato, melhorou.

In [None]:
# (a) Qual é o conteúdo de "vectorizer.vocabulary_"?
vocab = vectorizer.vocabulary_
#print(vocab)

In [None]:
# Probabilidades
palavras_ham = []
palavras_spam = []
for t in vocab.keys():
    prob_ham = model.feature_log_prob_[0, vocab[t]]
    palavras_ham.append( (prob_ham, t) )
    prob_spam = model.feature_log_prob_[1, vocab[t]]
    palavras_spam.append( (prob_spam, t) )


In [None]:
# Plot das probabilidades
# Mostrando num gráfico
tuplas_ordenadas = sorted(palavras_ham, reverse=True) # reverse=True pede uma ordenação em ordem decrescente
palavras = [ t[1] for t in tuplas_ordenadas ]
contagens = [ t[0] for t in tuplas_ordenadas ]

n_palavras = 15
eixo_x = np.arange(n_palavras)
plt.figure(figsize=(14,3))
plt.bar(eixo_x[0:n_palavras], contagens[0:n_palavras])
plt.xticks(eixo_x[0:n_palavras], palavras[0:n_palavras], rotation=90)
plt.show()

In [None]:
# Plot das probabilidades
# Mostrando num gráfico
tuplas_ordenadas = sorted(palavras_spam, reverse=True) # reverse=True pede uma ordenação em ordem decrescente
palavras = [ t[1] for t in tuplas_ordenadas ]
contagens = [ t[0] for t in tuplas_ordenadas ]

n_palavras = 15
eixo_x = np.arange(n_palavras)
plt.figure(figsize=(14,3))
plt.bar(eixo_x[0:n_palavras], contagens[0:n_palavras])
plt.xticks(eixo_x[0:n_palavras], palavras[0:n_palavras], rotation=90)
plt.show()

# Exercício 10
*Objetivo: visualizar a diferença entre probabilidade de ocorrência de palavras e relevância de palavras para classificação*

Um problema que existe com Naive Bayes é que a probabilidade de ocorrência de uma palavra nem sempre é o maior determinante de sua importância para classificação. Um exemplo disso é a palavra "movie" na classificação de sentimentos do IMDB: ela é comum em ambas as classes, por isso sua presença -- embora contribua bastante para a probabilidade a posteriori do classificador -- não cria diferenças entre as probabilidades relacionadas às classes.

1. Que palavras do spam-ham dataset têm alta probabilidade igualmente alta nas duas classes?
1. O que acontece com o desempenho do classificador se essas palavras forem removidas do dataset?

# Exercício 11
*Objetivo: implementar um método para evidenciar a relevância de palavras na classificação Naive Bayes*

O problema de encontrar relevância de palavras nos classificadores Naive Bayes é bastante conhecido e antigo. Existem várias propostas para isso. Uma delas foi proposta por Chen et al. no artigo:

*Jingnian Chen, Houkuan Huang, Shengfeng Tian, Youli Qu, "Feature selection for text classification with Naïve Bayes", Expert Systems with Applications, Volume 36, Issue 3, Part 1, 2009, Pages 5432-5435, ISSN 0957-4174, https://doi.org/10.1016/j.eswa.2008.06.054. (https://www.sciencedirect.com/science/article/pii/S0957417408003564))*

Nesta proposta, a relevância $r_w$ de uma palavra $w$ é calculada como o módulo da diferença dos logaritmos das probailidades relacionadas a cada palavra, ou seja:

$$
r_w = 2 | \log{P( w | \text{spam})} - \log{P( w | \text{ham} ) } |
$$

Mostre, em um gráfico, quais são as palavras mais relevantes para a classificação de spam e ham em nosso modelo.


In [None]:
# Resolva o exercício aqui

# Exercício 12
*Objetivo: usar a ideia de classificação para fazer análise de sentimentos*

Um problema que é enfrentado atualmente por empresas é a manutenção de reputação em redes sociais. Para isso, as empresas precisam monitorar constantemente o que está sendo dito sobre elas, e é obviamente inviável fazer isso manualmente. Uma solução é ter um pequeno robô que monitora redes sociais e dispara alertas, por exemplo, quando alguém faz um tweet que pode ser interpretado como negativo em relação à empresa ou à indústria.


No [Kaggle](https://www.kaggle.com/datasets/crowdflower/twitter-airline-sentiment), há uma base de dados que contém diversos tweets relacionados a linhas aéreas dos Estados Unidos em 2015. Eles estão classificados como “positivo”, “negativo” ou “neutro”, dependendo do conteúdo.

1. Programe e avalie um classificador usando Naive Bayes que rotula um tweet como “positivo” ou “negativo” à partir de seu texto.
1. Use seu classificador para identificar as palavras mais relevantes para essa classificação



In [None]:
# Resolva aqui