Adaptado de um notebook dos Autores: Arnaldo Gualberto e Leandro B. Marinho.
Documentação do NLTK: https://www.nltk.org/

# Tutorial NLTK

Nesse notebooks, nós vamos aprender o básico do módulo `NLTK`(*__N__atural __L__anguage __T__ool**K**it*).

Primeiramente, vamos importar as bibliotecas python que vamos usar nesse tutorial:

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer
from nltk.tokenize import sent_tokenize, word_tokenize


: 

e vamos fazer o download de alguns módulos específicos do NLTK:

In [None]:
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

# Tokenization

**Tokenization** é o processo de transformar um texto em uma lista de tokens. Esses tokens podem ser sentenças, palavras ou símbolos.

### Sentence Tokenization

In [None]:
text = """Hello Mr. Smith, how are you doing today?
    The weather is great, and city is awesome.
    The sky is pinkish-blue. You shouldn't eat cardboard
"""

tokenized_sent = sent_tokenize(text)
print(tokenized_sent)

['Hello Mr. Smith, how are you doing today?', 'The weather is great, and city is awesome.', 'The sky is pinkish-blue.', "You shouldn't eat cardboard"]


Nós também podemos tokenizar outras linguas:

In [None]:
portuguese_text = "Bom dia, Sr. Smith. Como você está? O tempo está bom, e a cidade maravilhosa."

print(sent_tokenize(portuguese_text, "portuguese"))

['Bom dia, Sr. Smith.', 'Como você está?', 'O tempo está bom, e a cidade maravilhosa.']


### Word Tokenization

In [None]:
tokenized_word = word_tokenize(text)
print(tokenized_word)

['Hello', 'Mr.', 'Smith', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', ',', 'and', 'city', 'is', 'awesome', '.', 'The', 'sky', 'is', 'pinkish-blue', '.', 'You', 'should', "n't", 'eat', 'cardboard']


# Stopwords

In [None]:
stop_words = set(stopwords.words("english"))

print(stop_words)

{"i'll", "they'll", 'few', 'of', "wouldn't", 've', 'did', 'out', 'by', "that'll", 'until', "we'd", 'are', "she'll", 'into', 'to', 'my', 'once', 'not', 'why', "hadn't", 'don', 'in', 'now', 'was', 'most', 'had', 'can', "didn't", 'o', 'll', 'hadn', 'too', 'couldn', 'theirs', "we're", "couldn't", "you're", 'she', "he'll", 'some', 'very', 'before', 'for', 'his', 'above', 'its', "aren't", 'if', 're', "she'd", 'the', "we'll", 'y', 'as', "he'd", "isn't", 'there', "he's", "shouldn't", 'they', 'am', 'nor', "we've", 'weren', 'what', 'd', 'having', 'you', 'under', 'about', 'ain', 'mustn', 'myself', "won't", "you'd", 'further', 'so', 'but', "they're", 'we', 'didn', 'have', 'only', 'shouldn', "wasn't", 'these', 'needn', 'those', 'doing', 'off', 'where', 'itself', 'me', "they've", 'yours', 'wouldn', "should've", 'yourself', "it'd", 'while', 'same', 'through', 'below', 'whom', 'ours', 'been', 'such', 'between', 'were', 'isn', 'this', 'which', 'then', 'won', 'down', 'than', 'over', 'at', 'be', 'here', 

In [None]:
stop_words = set(stopwords.words("portuguese"))

print(stop_words)

{'até', 'eu', 'sem', 'ele', 'tu', 'aquele', 'estou', 'teve', 'tínhamos', 'esse', 'fosse', 'aqueles', 'houveríamos', 'sejamos', 'tive', 'deles', 'ao', 'dos', 'como', 'depois', 'estiver', 'há', 'tivesse', 'forem', 'esteja', 'tiverem', 'pela', 'isto', 'vocês', 'muito', 'os', 'tenham', 'sejam', 'estiveram', 'nossa', 'estivessem', 'hajamos', 'houveram', 'o', 'foram', 'pelas', 'pelo', 'ser', 'fui', 'estiverem', 'por', 'aos', 'era', 'numa', 'for', 'houveria', 'esses', 'num', 'estas', 'houvessem', 'qual', 'as', 'tiver', 'nossos', 'hei', 'tinham', 'vos', 'te', 'tenho', 'com', 'houvesse', 'das', 'são', 'temos', 'serei', 'ou', 'teu', 'isso', 'entre', 'esteve', 'sou', 'estão', 'mas', 'teus', 'me', 'tuas', 'uma', 'minha', 'fôramos', 'minhas', 'aquelas', 'nem', 'também', 'houver', 'pelos', 'um', 'à', 'delas', 'estivemos', 'ela', 'tém', 'estar', 'estava', 'estive', 'não', 'de', 'éramos', 'houvéramos', 'para', 'havemos', 'seríamos', 'houvéssemos', 'houveremos', 'estamos', 'dela', 'fôssemos', 'esta', '

In [None]:
filtered_words =  [word for word in tokenized_word if word not in stop_words]

print("Tokenized Words:", tokenized_word)
print("Filterd Sentence:", filtered_words)

Tokenized Words: ['Hello', 'Mr.', 'Smith', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', ',', 'and', 'city', 'is', 'awesome', '.', 'The', 'sky', 'is', 'pinkish-blue', '.', 'You', 'should', "n't", 'eat', 'cardboard']
Filterd Sentence: ['Hello', 'Mr.', 'Smith', ',', 'today', '?', 'The', 'weather', 'great', ',', 'city', 'awesome', '.', 'The', 'sky', 'pinkish-blue', '.', 'You', "n't", 'eat', 'cardboard']


# Stemming

A **Stemming** reduz as palavras aos seus radicais. Por exemplo, as palavras *connection*, *connected*, *connecting* serão reduzidas a "*connect*". Há diversos algoritmos de stemming, mas o mais famoso é o `Porter stemming`.

In [None]:
example_words = ['connect', 'connected', 'connecting']

ps = PorterStemmer()

stemmed_words = [ps.stem(w) for w in example_words]

print("Filtered Sentence:", example_words)
print("Stemmed Sentence:", stemmed_words)

Filtered Sentence: ['connect', 'connected', 'connecting']
Stemmed Sentence: ['connect', 'connect', 'connect']


O algoritmo `SnowBall` pode faz o processo de stemming em até 13 línguas diferentes:

In [None]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [None]:
example_words = ['conexão', 'conectado', 'conectando', 'conectar']

ss = SnowballStemmer("portuguese")

stemmed_words = [ss.stem(w) for w in example_words]

print('Stemmed sentence:', stemmed_words)

Stemmed sentence: ['conexã', 'conect', 'conect', 'conect']


# Lemmatization

O processo de **Lemmatization** reduz as palavras à sua forma base, conhecida como *lemma*. Por exemplo, a palavra "better" tem "good" como sua lemma.  Em geral, é mais sofisticada que o stemming, pois leva em consideração o contexto. Entretanto, é mais lenta que o stemming.

In [None]:
stemmer = PorterStemmer()
print(stemmer.stem('stones'))
print(stemmer.stem('speaking'))
print(stemmer.stem('are'))
print(stemmer.stem('geese'))
print(stemmer.stem('went'))

stone
speak
are
gees
went


In [None]:
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('stones'))
print(lemmatizer.lemmatize('speaking',pos='v'))
print(lemmatizer.lemmatize('are',pos='v'))
print(lemmatizer.lemmatize('geese'))
print(lemmatizer.lemmatize('went',pos='v'))

stone
speak
be
goose
go


# POS Tagging

O principal objetivo de **Part-of-Speech (POS)** é identificar o grupo gramatical de uma certa palavra: *nome, pronome, adjetivo, verbo, advérbio, etc. Ela leva em consideração o contexto e procura por relacionamentos dentro da sentença e atribui uma tag correspondente a palavra.

In [None]:
sent = "Albert Einstein was born in Ulm, Germany in 1879."

tokens = nltk.word_tokenize(sent)
print('Sentence:', tokens)

nltk.pos_tag(tokens)

# N-Gramas


Sequências sobrepostas de n-palavras.

In [None]:
from nltk import bigrams
string_bigrams = list(bigrams(tokenized_word))
print(string_bigrams)
