<a href="https://colab.research.google.com/github/adolfoguimaraes/datascience/blob/main/code/07_laboratorio_classificacao_de_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Naive Bayes - Análise de Sentimento

Para essa atividade vamos gerar uma modelo de análise de sentimento em inglês baseado em reviews retirados de 3 sites: Amazon, IMDb e Yelp. Essa base está disponível [neste link](https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences). Mais detalhes podem ser encontrados no link ou no artigo de referência: *From Group to Individual Labels using Deep Features', Kotzias et. al,. KDD 2015*. 

A base possui um texto e para cada texto um sentimento sobre o conteúdo abordado no texto. Os sentimentos podem ser positivos (1) ou negativos (2). Foram coletados em média 500 textos para cada sentimento em cada base. 

A atividade consiste em construir uma modelo de aprendizagem para análise de sentimento em inglês. O primeiro passo foi carregar o Dataset de forma apropriada e em seguida construir a matriz de entrada para nosso algoritmo. As etapas do exercício juntamente com o que deve ser feito está descrito a seguir. 

## Carregando o Dataset

In [None]:
import pandas as pd

df_amazon = pd.read_csv("../datasets/analise_de_sentimento/amazon_cells_labelled.txt", 
                        sep="\t", header=None, names=['Text','Sentiment'])
df_imdb = pd.read_csv("../datasets/analise_de_sentimento/imdb_labelled.txt", 
                        sep="\t", header=None, names=['Text','Sentiment'])
df_yelp = pd.read_csv("../datasets/analise_de_sentimento/yelp_labelled.txt", 
                        sep="\t", header=None, names=['Text','Sentiment'])

In [None]:
print("Amazon dataset %s" % str(df_amazon.shape))
print("IMDb dataset %s" % str(df_imdb.shape))
print("Yelp dataset %s" % str(df_yelp.shape))

Amazon dataset (1000, 2)
IMDb dataset (748, 2)
Yelp dataset (1000, 2)


In [None]:
join_frames = [df_amazon, df_imdb, df_yelp]

df_final_dataset = pd.concat(join_frames)

df_final_dataset.shape

(2748, 2)

## Construindo a base de dados

A base de dados possui 2748 textos que foram classificados em dois sentimentos: negativo (0) e positivo (1). Construa uma base de dados apropriada para os testes. Divida a base em treino e teste (80% para treino e 20% para teste). A base de treinamento será utilizado para a construção do modelo e a de teste para o teste final do modelo construído. 

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_final_dataset['Text'], 
                                                    df_final_dataset['Sentiment'], 
                                                    random_state=1,
                                                    test_size=0.2
                                                   )

In [None]:
print('Number of rows in the total set: {}'.format(df_final_dataset.shape[0]))
print('Number of rows in the training set: {}'.format(X_train.shape[0]))
print('Number of rows in the test set: {}'.format(X_test.shape[0]))

Number of rows in the total set: 2748
Number of rows in the training set: 2198
Number of rows in the test set: 550


## Construindo o Bag of Words

Construa o Bag of Words para a base de treinamento. Para isso, utilize o método CountVectorizer como mostrado a seguir.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
count_vector = CountVectorizer()
count_vector

CountVectorizer()

O `CountVectorizer` permite construir o array que serve de entrada para os modelos de aprendizagem. O código a seguir, visualiza o array. 

In [None]:
training_data = count_vector.fit_transform(X_train)
training_data.shape

(2198, 4581)

Foi gerada uma matriz de 2198 linhas (os textos) e 4581 colunas (as palavras). Devemos fazer o mesmo com a base de teste. 

In [None]:
testing_data = count_vector.transform(X_test)
testing_data.shape

(550, 4581)

Foi gerada uma matriz com 550 linhas e 4581 colunas também. `training_data` e `testing_data` são as estruturas que devem ser utilizadas no modelo Naive Bayes.

## Atividade 1

Implemente um modelo Naive Bayes para a base gerada. Utilize validação cruzada de 5 folds na base de treinamento e em seguida teste o modelo gerado na base de testes. Reporte a acurácia resultante da validação cruzada e da base de testes. Teste os 3 tipos de Naive Bayes presentes no `scikit-learn`. 

In [None]:
# Insert your code here

### Atividade 2

O Naive Bayes em si não tem muitos parâmetros para ajustar. No entanto, podemos ajustar no pré-processamento. Quando utilizamos a classe `CountVectorizer` podemos utilizar uma série de técnicas de pré-processamento para melhorar os dados de entrada do modelo. 

Pesquise sobre o `CountVectorizer` e modifique os parâmetros `default` para gerar dados melhores e, consequentemente, um modelo melhor do que o construído na Atividade 1. Reporte seus resultados na validação cruzada e nos testes. Utilize somente o tipo de Naive Bayes que teve melhor resultado na atividade 1. 

In [None]:
# Insert your code here