# Neste lab vamos conhecer um pouco sobre o NLTK

Vamos utilizar um dataset de revisão de filmes disponível em http://www.cs.cornell.edu/people/pabo/movie-review-data/

Para esta prática baixamos o dataset http://www.cs.cornell.edu/people/pabo/movie-review-data/mix20_rand700_tokens_cleaned.zip

Baixe e descompacte este arquivo zip

In [None]:
# Primeiramente vamos abrir e ler o conteúdo de um dos arquivos baixados
import os
import nltk
with open(os.path.join("tokens","neg",  "cv011_tok-7845.txt"), "r") as f:
    text = f.read()
    print(text)

## Tokenização

Processo de dividir uma string em listas de pedaços ou "tokens". 
Um token é uma parte inteira. Por exemplo: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

In [None]:
# Tokenização de sentenças
from nltk.tokenize import sent_tokenize, word_tokenize
sent_tokens = sent_tokenize(text)
for sentence in sent_tokens:
    print (' - ',sentence)

In [None]:
# Tokenização de palavras
word_tokens = word_tokenize(text)
print(len(word_tokens),word_tokens)

## Calculando a frequência

Calcula quantas vezes uma palavra aparece em um texto ou corpus

In [None]:
# Vamos primeiro 
fdist = nltk.FreqDist(word_tokens)
print('\nContagem do número máximo de ocorrências do token "',fdist.max(),'" : ', fdist[fdist.max()])
print('\nNúmero total de tokens distintos : ', fdist.N())
print('\nA seguir estão os 10 tokens mais comuns')
print(fdist.most_common(40))
print("\n")

## Stop Words

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase e que por isso podem ser ignoradas em processamento PLN. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). 

Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

In [None]:
from nltk.corpus import stopwords
# Stop words em inglês
english_stops = set(stopwords.words('english'))
print(english_stops)

In [None]:
#Stop words em português
portuguese_stops = set(stopwords.words('portuguese'))
print(portuguese_stops)

In [None]:
# List comprehension para aplicar as portuguese_stop words a lista de palavras
word_tokens2 = [w for w in word_tokens if w not in english_stops]
print(len(word_tokens2),word_tokens2)

Veja que aqui temos menos palavras, pois as stopwords foram removidas 

In [None]:
# Podemos também criar uma lista de caracteres palavras que devem ser ignoradas
ignore = ['@', '.', '!','?',',','$','-','\'s','g','(',')','[',']','``',':','http','html','//members']
word_tokens3 = [w for w in word_tokens2 if w not in ignore]
print(len(word_tokens3),word_tokens3)

Veja que conseguimor limpar ainda mais as palavras a serem trabalhadas

# Part-of-Speech Tagging

O POS Tagging é o processo de rotulação de elementos textuais - tipicamente palavras e pontuação - com o fim de evidenciar 
a estrutura gramatical de um determinado trecho de texto. 

In [None]:
from nltk.tag import pos_tag
tags = pos_tag(word_tokens3)
print(tags)

In [None]:
# Para saber o que é cada código, utilize o exemplo abaixo (no caso para VB)
nltk.help.upenn_tagset('VB')

# Stemming

Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. 

Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. 

Stemming é muito usado em mecanismos de buscas para indexação de palavras. 

In [None]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.stem import RegexpStemmer
from nltk.stem import SnowballStemmer
# Cria o Stemmer
stemmer = SnowballStemmer('english')
# Para português: SnowballStemmer('portuguese')
for word in word_tokens3:
    print(stemmer.stem(word))

Veja que algumas palavras aparece apenas o stem

# Lemmatization

Lemmatização na linguística, é o processo de agrupar as diferentes formas flexionadas de uma palavra para que possam ser analisadas como um único item.
Na linguística computacional, a Lemmatização é o processo algorítmico de determinação do lema para uma determinada palavra. 

A Lemmatização está intimamente relacionada com o Stemming. 

A diferença é que um stemmer opera em uma única palavra sem conhecimento do contexto e, portanto, não pode discriminar entre palavras que têm diferentes significados, dependendo da parte da fala. No entanto, os stemmers são geralmente mais fáceis de implementar e executar mais rapidamente, e a precisão reduzida pode não ser importante para algumas aplicações.

O Stemmning pode gerar palavras geralmente inexistentes, enquanto as lemas são palavras reais.

In [None]:
from nltk.stem import WordNetLemmatizer
# Vamos aplicar às palavras
wordnet_lemmatizer = WordNetLemmatizer()
for word in word_tokens3:
    print(wordnet_lemmatizer.lemmatize(word))

Veja a diferença do Lemmatization para o Stemming

# Exercício 1

## Crie um código Python que faça o seguinte:
    
 1) Reuna em duas variáveis de texto (textoPos, textoNeg) todas as palavras de todos os documentos da categoria 'pos' e 'neg' respectivamente

 2) Execute os itens abaixo para textoPos e textoNeg
 
 2.1) Aplique o método de tokenização para separar as palavras
 
 2.2) Remova as stopwords e demais palavras que você julgar necessário para a limpeza do texto
 
 2.3) Aplique a lematização
 
 2.4) Calcule e imprima a frequência das 1000 palavras mais frequentes após todo o processamento 
 
Salve o Jupyter Notebook com os resultados e entregue pelo iLang