## Aula 1 - NLP

Neste exercício faremos todos os pré-processamentos necessários para que sequências de textos possam ser interpretadas por Redes Neurais.

A tarefa que exploraremos é a Classificaćão de Sentimento usando um dataset de revisões de restaurantes (YELP), produtos (Amazon) e filmes (IMDB) [link](https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences).

A nossa tarefa consiste em analisar a revisão e classificá-la entre "positiva" ou "negativa".

Primeiramente, vamos explorar o dataset:

In [26]:
import tensorflow as tf
tf.__version__ #Talvez seja necessário instalar tensorflow 2 antes de iniciar esse notebook

'2.1.0'

Nosso dataset tem 3 colunas:

- sentence: O texto da revisão
- label: 1 para texto positivo e 0 para negativo
- source: yelp, amazon ou imdb


In [10]:
import pandas as pd
filepath_dict = {'yelp':   'data/sentiment/yelp_labelled.txt',
                 'amazon': 'data/sentiment/amazon_cells_labelled.txt',
                 'imdb':   'data/sentiment/imdb_labelled.txt'}

df_list = []
for source, filepath in filepath_dict.items():
    df = pd.read_csv(filepath, names=['sentence', 'label'], sep='\t')
    df['source'] = source  # Add another column filled with the source name
    df_list.append(df)

df = pd.concat(df_list)
df = df.sample(frac=1).reset_index(drop=True)
df.head()


Unnamed: 0,sentence,label,source
0,It was a pale color instead of nice and char a...,0,yelp
1,Love this headset!,1,amazon
2,This movie now joins Revenge of the Boogeyman ...,0,imdb
3,The best electronics of the available FM Trans...,1,amazon
4,My 5-year old Nokia 2160 from Tracfone holds t...,0,amazon


Primeiramente, vamos separar nosso dataset de modo que 15% dele seja reservado para teste.

In [41]:
perc_train = 0.85
len_train = int(len(df)*perc_train)

dataset_train = df.iloc[0:len_train, :-1]
dataset_test = df.iloc[len_train:, :-1]

print(len(dataset_train))
print(len(dataset_test))

dataset_train.head()

2335
413


Unnamed: 0,sentence,label
0,It was a pale color instead of nice and char a...,0
1,Love this headset!,1
2,This movie now joins Revenge of the Boogeyman ...,0
3,The best electronics of the available FM Trans...,1
4,My 5-year old Nokia 2160 from Tracfone holds t...,0


Agora que temos nosso dataset organizado, o primeiro passo é processar o texto para que seja legível por uma Rede Neural

O primeiro passo é gerar o vocabulário a partir da base de treinamento com a classe [Tokenizer](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer).

Essa classe executa diversas rotinas de pré-processamento úteis, entre elas:

- Remover pontuacões.
- através do parâmetro `num_words`, permite limitar o tamanho do vocabulário, descartando palavras incomuns.
- Normaliza capitalizacao com `lower=True`

Porém, antes de utilizar a classe, vamos remover stopwords do texto.

Stopwords são palavras com serventia apenas sintática, isso é, são irrelevantes para classificar o "sentimento" da sentenca (leia mais sobre stopwords [aqui](https://demacdolincoln.github.io/anotacoes-nlp/posts/pre-processamento-de-textos/#id2)).

In [42]:
#Estamos adicionando stopwords manualmente aqui. Também é possível baixá-las do módulo nltk
stopwords = [ "a", "about", "above", "after", "again", "against", "all", "am", "an", "and", "any", "are", "as", "at", "be", "because", "been", "before", "being", "below", "between", "both", "but", "by", "could", "did", "do", "does", "doing", "down", "during", "each", "few", "for", "from", "further", "had", "has", "have", "having", "he", "he'd", "he'll", "he's", "her", "here", "here's", "hers", "herself", "him", "himself", "his", "how", "how's", "i", "i'd", "i'll", "i'm", "i've", "if", "in", "into", "is", "it", "it's", "its", "itself", "let's", "me", "more", "most", "my", "myself", "nor", "of", "on", "once", "only", "or", "other", "ought", "our", "ours", "ourselves", "out", "over", "own", "same", "she", "she'd", "she'll", "she's", "should", "so", "some", "such", "than", "that", "that's", "the", "their", "theirs", "them", "themselves", "then", "there", "there's", "these", "they", "they'd", "they'll", "they're", "they've", "this", "those", "through", "to", "too", "under", "until", "up", "very", "was", "we", "we'd", "we'll", "we're", "we've", "were", "what", "what's", "when", "when's", "where", "where's", "which", "while", "who", "who's", "whom", "why", "why's", "with", "would", "you", "you'd", "you'll", "you're", "you've", "your", "yours", "yourself", "yourselves" ]


#Adicione seu código para Excluir todas as stopwords de todos os exemplos de treinamento
dataset_train.loc[:,'sentence'] = dataset_train.loc[:,'sentence'].apply(lambda x: ' '.join([item for item in x.split() if item not in stopwords]))
dataset_train.head()

Unnamed: 0,sentence,label
0,It pale color instead nice char NO flavor.,0
1,Love headset!,1
2,This movie now joins Revenge Boogeyman Zombiez...,0
3,The best electronics available FM Transmitters.,1
4,My 5-year old Nokia 2160 Tracfone holds charge...,0


Agora podemos gerar o vocabulário e codificar as sentencas

In [47]:
from tensorflow.keras.preprocessing.text import Tokenizer

max_vocab_size = 50000   #Tamanho máximo do vocabulário
oov_token = '<OOV>'   # Token usado caso alguma palavra não for encontrada no vocabulário

tokenizer = Tokenizer(num_words=max_vocab_size, lower=True, oov_token = oov_token)
tokenizer.fit_on_texts(dataset_train.loc[:, 'sentence'])

Através do atributo `word_index`, podemos consultar o vocabulário gerado. As primeiras palavras são as mais comuns.

Em seguida, codificamos o dataset de treinamento e de teste

In [48]:
tokenizer.word_index

{'<OOV>': 1,
 'i': 2,
 'the': 3,
 'not': 4,
 'it': 5,
 'good': 6,
 'great': 7,
 'this': 8,
 'movie': 9,
 'phone': 10,
 '0': 11,
 'film': 12,
 '1': 13,
 'one': 14,
 'like': 15,
 'just': 16,
 'food': 17,
 'time': 18,
 'place': 19,
 'bad': 20,
 'service': 21,
 'really': 22,
 'well': 23,
 "don't": 24,
 'no': 25,
 'even': 26,
 'best': 27,
 'ever': 28,
 'back': 29,
 'also': 30,
 'will': 31,
 'go': 32,
 'work': 33,
 'love': 34,
 "it's": 35,
 'quality': 36,
 'can': 37,
 'product': 38,
 'made': 39,
 'get': 40,
 'excellent': 41,
 "i've": 42,
 'all': 43,
 'use': 44,
 'nice': 45,
 'sound': 46,
 'recommend': 47,
 'first': 48,
 'think': 49,
 'never': 50,
 'works': 51,
 'better': 52,
 'if': 53,
 'headset': 54,
 'much': 55,
 'acting': 56,
 'very': 57,
 'make': 58,
 "didn't": 59,
 "i'm": 60,
 'but': 61,
 'a': 62,
 'battery': 63,
 'see': 64,
 'pretty': 65,
 'way': 66,
 'now': 67,
 'my': 68,
 'and': 69,
 'we': 70,
 '2': 71,
 'worst': 72,
 'say': 73,
 '10': 74,
 'got': 75,
 'right': 76,
 'amazing': 77,
 '

In [49]:
dataset_train.loc[:,'sentence'] = tokenizer.texts_to_sequences(dataset_train.loc[:,'sentence'])
dataset_test.loc[:,'sentence'] = tokenizer.texts_to_sequences(dataset_test.loc[:,'sentence'])
dataset_train.head()

Unnamed: 0,sentence,label
0,"[5, 2001, 468, 611, 45, 1290, 25, 293]",0
1,"[34, 54]",1
2,"[8, 9, 67, 2002, 2003, 2004, 2005, 178, 2006, ...",0
3,"[3, 27, 2008, 2009, 2010, 2011]",1
4,"[68, 179, 234, 180, 541, 2012, 2013, 612, 269,...",0


O último passo de pré-processamento agora consiste em realizar o padding das sequências.

Para isso, utilizaremos a funcão [`pad_sequences`](https://keras.io/preprocessing/sequence/)

Os principais argumentos dessa funcão são:

- `maxlen`: tamanho da sequência a ser gerada.
- `padding`: 'pre' para adicionar zeros à esquerda e 'post' para adicionar zeros à direita.
- `truncating`: 'pre' para remover palavras no comeco da frase se for maior que o tamanho especificado, 'post' para remover do final

In [60]:
maxlen = 500  #Tamanho máximo da frase
padding_type = 'post'
truncating_type = 'post'


from tensorflow.keras.preprocessing.sequence import pad_sequences

dataset_train['sentence'] = pad_sequences(dataset_train.loc[:,'sentence'], maxlen = maxlen, padding=padding_type, truncating=truncating_type)
dataset_test['sentence'] = pad_sequences(dataset_test.loc[:,'sentence'], maxlen = maxlen, padding=padding_type, truncating=truncating_type)

dataset_train.head()

ValueError: `sequences` must be a list of iterables. Found non-iterable: 5