# Tutorial NLTK

## Configuração

Importando bibliotecas

In [7]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer
from nltk.tokenize import sent_tokenize, word_tokenize

Fazendo download de alguns módulos especificos do NLTK

In [5]:
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/lucasqueiros/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/lucasqueiros/nltk_data...
[nltk_data] Downloading package punkt to
[nltk_data]     /home/lucasqueiros/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/lucasqueiros/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

## Tokenization

Tokenization é o processo de transformar um texto em uma lista de tokens. Esses tokens podem ser senteças, palavras ou símbolos

### Sentence Tokenization

In [9]:
music = """I sit back with this pack of Zig Zags and this bag.
Of this weed it gives me the shit needed to be.
The most meanest MC on this Earth. 
And since birth I've been cursed with this curse to just curse. 
And just blurt this berserk and bizarre shit that works.
And it sells and it helps in itself to relieve.
All this tension dispensing these sentences.
Getting this stress that's been eating me recently off of this chest."""

In [10]:
tokenized_sent = sent_tokenize(music)
print(tokenized_sent)

['I sit back with this pack of Zig Zags and this bag.', 'Of this weed it gives me the shit needed to be.', 'The most meanest MC on this Earth.', "And since birth I've been cursed with this curse to just curse.", 'And just blurt this berserk and bizarre shit that works.', 'And it sells and it helps in itself to relieve.', 'All this tension dispensing these sentences.', "Getting this stress that's been eating me recently off of this chest."]


Tambem podemos tokenizar em outras linguas.

In [13]:
musica = """O que é, o que é?
Clara e salgada.
Cabe em um olho e pesa uma tonelada.
Tem sabor de mar.
Pode ser discreta.
Inquilina da dor.
Morada predileta.
Na calada ela vem.
Refém da vingança.
Irmã do desespero.
Rival da esperança.
Pode ser causada por vermes e mundanas.
E o espinho da flor."""

In [14]:
print(sent_tokenize(musica), "portuguese")

['O que é, o que é?', 'Clara e salgada.', 'Cabe em um olho e pesa uma tonelada.', 'Tem sabor de mar.', 'Pode ser discreta.', 'Inquilina da dor.', 'Morada predileta.', 'Na calada ela vem.', 'Refém da vingança.', 'Irmã do desespero.', 'Rival da esperança.', 'Pode ser causada por vermes e mundanas.', 'E o espinho da flor.'] portuguese


### Word Tokenization

In [22]:
tokenized_word = word_tokenize(music)
print(tokenized_word)

print("----------------------------------------------------")


tokenized_word_ptbr = word_tokenize(musica)
print(word_tokenize(musica, "portuguese"))

['I', 'sit', 'back', 'with', 'this', 'pack', 'of', 'Zig', 'Zags', 'and', 'this', 'bag', '.', 'Of', 'this', 'weed', 'it', 'gives', 'me', 'the', 'shit', 'needed', 'to', 'be', '.', 'The', 'most', 'meanest', 'MC', 'on', 'this', 'Earth', '.', 'And', 'since', 'birth', 'I', "'ve", 'been', 'cursed', 'with', 'this', 'curse', 'to', 'just', 'curse', '.', 'And', 'just', 'blurt', 'this', 'berserk', 'and', 'bizarre', 'shit', 'that', 'works', '.', 'And', 'it', 'sells', 'and', 'it', 'helps', 'in', 'itself', 'to', 'relieve', '.', 'All', 'this', 'tension', 'dispensing', 'these', 'sentences', '.', 'Getting', 'this', 'stress', 'that', "'s", 'been', 'eating', 'me', 'recently', 'off', 'of', 'this', 'chest', '.']
----------------------------------------------------
['O', 'que', 'é', ',', 'o', 'que', 'é', '?', 'Clara', 'e', 'salgada', '.', 'Cabe', 'em', 'um', 'olho', 'e', 'pesa', 'uma', 'tonelada', '.', 'Tem', 'sabor', 'de', 'mar', '.', 'Pode', 'ser', 'discreta', '.', 'Inquilina', 'da', 'dor', '.', 'Morada', 

## Stopwords

- Stopwords sao palavras comuns que nao carregam muito significado contextual, e por isso, são frequentemente removidas durante o pré-processamento do texto.
- Essas palavras incluem: artigos, preposições, conjunções, etc.

In [21]:
stop_words = set(stopwords.words("english"))
print(stop_words)

print("----------------------------------------------------")

stop_words_ptbr = set(stopwords.words("portuguese"))
print(stop_words_ptbr)

{'through', 'before', 'was', 'ma', 'the', "it's", 'up', 'so', 'over', 'or', 'their', 'no', 'mightn', 'mustn', 'be', 'shan', 'your', 'such', "don't", 'nor', 'now', 'itself', 've', 'had', 're', 'as', 'shouldn', 'hadn', "shan't", 'in', 'few', 'and', 'where', 'out', 'am', 'a', 'needn', 'theirs', 'ours', 'for', 'couldn', 'you', 'who', "isn't", 'we', 'it', 'an', 'than', 'any', 'themselves', 'to', 'yourself', 'only', 'hers', 'each', 'doing', 'did', 't', 'he', 'there', 'just', 'below', 'after', 'under', 'into', "that'll", 'above', 'o', 'weren', 'were', 'while', 'of', "you'd", 'himself', 'when', 'him', 'my', "needn't", 'both', 'from', 'because', 'will', 'all', 'having', 'these', 'once', 'about', 'me', 'm', 'didn', 'same', 'wouldn', 'does', 'own', "won't", "wouldn't", 'what', 'which', 'but', 's', 'how', 'haven', "weren't", 'll', 'those', "doesn't", 'they', 'doesn', 'is', 'between', 'do', 'isn', 'she', 'i', "mustn't", 'wasn', "didn't", "you're", 'has', 'not', 'herself', 'too', 'are', 'that', 'd',

In [20]:
filtered_words = [word for word in tokenized_word if word not in stop_words]
print("Tokenized words:", tokenized_word)
print("Filtered Sentence:", filtered_words)

print("----------------------------------------------------")

palavras_filtradas = [palavra for palavra in tokenized_word_ptbr if palavra not in stop_words_ptbr]
print("Palavras tokenizadas:", tokenized_word_ptbr)
print("Sentenças filtradas:", palavras_filtradas)

Tokenized words: ['I', 'sit', 'back', 'with', 'this', 'pack', 'of', 'Zig', 'Zags', 'and', 'this', 'bag', '.', 'Of', 'this', 'weed', 'it', 'gives', 'me', 'the', 'shit', 'needed', 'to', 'be', '.', 'The', 'most', 'meanest', 'MC', 'on', 'this', 'Earth', '.', 'And', 'since', 'birth', 'I', "'ve", 'been', 'cursed', 'with', 'this', 'curse', 'to', 'just', 'curse', '.', 'And', 'just', 'blurt', 'this', 'berserk', 'and', 'bizarre', 'shit', 'that', 'works', '.', 'And', 'it', 'sells', 'and', 'it', 'helps', 'in', 'itself', 'to', 'relieve', '.', 'All', 'this', 'tension', 'dispensing', 'these', 'sentences', '.', 'Getting', 'this', 'stress', 'that', "'s", 'been', 'eating', 'me', 'recently', 'off', 'of', 'this', 'chest', '.']
Filtered Sentence: ['I', 'sit', 'back', 'pack', 'Zig', 'Zags', 'bag', '.', 'Of', 'weed', 'gives', 'shit', 'needed', '.', 'The', 'meanest', 'MC', 'Earth', '.', 'And', 'since', 'birth', 'I', "'ve", 'cursed', 'curse', 'curse', '.', 'And', 'blurt', 'berserk', 'bizarre', 'shit', 'works',

## Stemming

- A Stemming reduz as palavras aos seus radicais. Por exemplo, as palavras connection, connected, connecting serão reduzidas a "connect".
- Existem diversos algoritmos de Stemming, mas o mais famoso é o Porter stemming.

In [23]:
example_words = ['connect', 'connecting', 'connected']

ps = PorterStemmer()

stemmed_words = [ps.stem(w) for w in example_words]

print("Filtered Sentence:", example_words)
print("Stemmed Sentence:", stemmed_words)

Filtered Sentence: ['connect', 'connecting', 'connected']
Stemmed Sentence: ['connect', 'connect', 'connect']


O algoritmo SnowBall pode fazer stemming em até 13 línguas diferentes.

In [24]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [25]:
exemplo_palavras = ['conexão', 'conectado', 'conectando', 'conectar']

ss = SnowballStemmer("portuguese")

palavras_stemmed = [ss.stem(w) for w in exemplo_palavras]

print('Palavras Stemmed:', palavras_stemmed)

Palavras Stemmed: ['conexã', 'conect', 'conect', 'conect']


## Lemmatization

- O processo de Lematization reduz as palavras a sua forma base, conhecida como lemma. 
- Por exemplo, a palavra "better" tem "good" como sua lemma.
- Em geral, é mais sofisticada que o stemming, pois leva em consideração o contexto.
- É mais lento que o stemming.

In [26]:
stemmer = PorterStemmer()
print(stemmer.stem('stones'))
print(stemmer.stem('speaking'))
print(stemmer.stem('are'))
print(stemmer.stem('geese'))
print(stemmer.stem('went'))

stone
speak
are
gees
went


In [28]:
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('stones'))
print(lemmatizer.lemmatize('speaking', pos='v'))
print(lemmatizer.lemmatize('are', pos='v'))
print(lemmatizer.lemmatize('geese'))
print(lemmatizer.lemmatize('went', pos='v'))
print(lemmatizer.lemmatize('went'))

stone
speak
be
goose
go
went


- aqui usamos o parametro "pos='v'" para especificar a classe gramatical da palavra onde 'v' significa verbo.
- Na ultima linha usamos a palavra went sem passar 'v' como parametro e podemos ver que o lemmatize retornou o próprio went

## POS Tagging

O principal objetivo de **Part-of-Speech (POS)** é identificar o grupo gramatical de uma certa palavra: *nome, pronome, adjetivo, verbo, advérbio, etc. Ela leva em consideração o contexto e procura por relacionamentos dentro da sentença e atribui uma tag correspondente a palavra.

In [29]:
sent = "Albert Einstein was born in Ulm, Germany in 1879."

tokens = nltk.word_tokenize(sent)
print('Sentence:', tokens)

nltk.pos_tag(tokens)

Sentence: ['Albert', 'Einstein', 'was', 'born', 'in', 'Ulm', ',', 'Germany', 'in', '1879', '.']


[('Albert', 'NNP'),
 ('Einstein', 'NNP'),
 ('was', 'VBD'),
 ('born', 'VBN'),
 ('in', 'IN'),
 ('Ulm', 'NNP'),
 (',', ','),
 ('Germany', 'NNP'),
 ('in', 'IN'),
 ('1879', 'CD'),
 ('.', '.')]

## N-Gramas

Sequencias sobrepostas de n-palavras

In [31]:
from nltk import bigrams

string_bigrams = list(bigrams(tokenized_word))
print(string_bigrams)

print("-----------------------------------------")

string_bigramas = list(bigrams(tokenized_word_ptbr))
print(string_bigramas)

[('I', 'sit'), ('sit', 'back'), ('back', 'with'), ('with', 'this'), ('this', 'pack'), ('pack', 'of'), ('of', 'Zig'), ('Zig', 'Zags'), ('Zags', 'and'), ('and', 'this'), ('this', 'bag'), ('bag', '.'), ('.', 'Of'), ('Of', 'this'), ('this', 'weed'), ('weed', 'it'), ('it', 'gives'), ('gives', 'me'), ('me', 'the'), ('the', 'shit'), ('shit', 'needed'), ('needed', 'to'), ('to', 'be'), ('be', '.'), ('.', 'The'), ('The', 'most'), ('most', 'meanest'), ('meanest', 'MC'), ('MC', 'on'), ('on', 'this'), ('this', 'Earth'), ('Earth', '.'), ('.', 'And'), ('And', 'since'), ('since', 'birth'), ('birth', 'I'), ('I', "'ve"), ("'ve", 'been'), ('been', 'cursed'), ('cursed', 'with'), ('with', 'this'), ('this', 'curse'), ('curse', 'to'), ('to', 'just'), ('just', 'curse'), ('curse', '.'), ('.', 'And'), ('And', 'just'), ('just', 'blurt'), ('blurt', 'this'), ('this', 'berserk'), ('berserk', 'and'), ('and', 'bizarre'), ('bizarre', 'shit'), ('shit', 'that'), ('that', 'works'), ('works', '.'), ('.', 'And'), ('And', '