# Preparação

## 1) Instale e importe o NLTK, baixe os recursos necessários (punkt, stopwords, wordnet, omw-1.4).

In [92]:
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('rslp')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

## 2) Carregue um pequeno texto em português para análise.

In [93]:
with open('eclesiaste-11.txt', 'r') as f:
    texto = f.read()

# Tokenização

## 1) Use sent_tokenize e word_tokenize para contar sentenças e tokens de um texto.

In [94]:
setencas = nltk.sent_tokenize(texto)
palavras = nltk.word_tokenize(texto)

print(f"sentenças: {len(setencas)}")
print(f"palavras: {len(palavras)}")

sentenças: 16
palavras: 258


## 2) Normalize tokens: minúsculas, remova pontuação/números, filtre tokens < 2 caracteres.

In [95]:
palavras_limpas = [palavra.lower() for palavra in palavras if palavra.isalpha() and len(palavra) > 2]

print(f"palavras: {len(palavras_limpas)}")

palavras: 173


## 3) Use RegexpTokenizer para manter palavras com hífen e compare com word_tokenize.

In [96]:
palavras_hifen = nltk.RegexpTokenizer(r'\w+-\w+')
palavras_hifen.tokenize(texto)

['Aplique-o']

# Stopwords

## 1) Carregue stopwords em português, remova-as e mostre as 20 palavras mais frequentes.

In [97]:
stopwords = nltk.corpus.stopwords.words('portuguese')

stopwords

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

In [98]:
palavras_sem_stopwords = [palavra for palavra in palavras_limpas if palavra not in stopwords]

palavras_sem_stopwords

['empregue',
 'dinheiro',
 'bons',
 'negócios',
 'tempo',
 'lucro',
 'vários',
 'lugares',
 'negócios',
 'diferentes',
 'porque',
 'sabe',
 'crise',
 'poderá',
 'acontecer',
 'mundo',
 'nuvens',
 'ficam',
 'cheias',
 'chuva',
 'cai',
 'árvore',
 'pode',
 'cair',
 'qualquer',
 'direção',
 'lugar',
 'cair',
 'ficará',
 'fica',
 'esperando',
 'vento',
 'mude',
 'tempo',
 'fique',
 'bom',
 'nunca',
 'plantará',
 'colherá',
 'nada',
 'deus',
 'faz',
 'todas',
 'coisas',
 'pode',
 'entender',
 'começa',
 'nova',
 'vida',
 'dentro',
 'barriga',
 'mulher',
 'assim',
 'pode',
 'entender',
 'coisas',
 'deus',
 'faz',
 'semeie',
 'manhã',
 'tarde',
 'porque',
 'sabe',
 'todas',
 'sementes',
 'crescerão',
 'bem',
 'crescerá',
 'melhor',
 'outra',
 'agradável',
 'luz',
 'dia',
 'bom',
 'ver',
 'sol',
 'viva',
 'alegre',
 'durante',
 'todos',
 'anos',
 'vida',
 'viva',
 'muitos',
 'anos',
 'lembre',
 'ficará',
 'morto',
 'durante',
 'tempo',
 'tudo',
 'acontece',
 'ilusão',
 'jovem',
 'aproveite',
 

In [99]:
frequencia = nltk.FreqDist(palavras_sem_stopwords)

frequencia.most_common(20)

[('tempo', 3),
 ('pode', 3),
 ('deus', 3),
 ('tudo', 3),
 ('negócios', 2),
 ('porque', 2),
 ('sabe', 2),
 ('cair', 2),
 ('ficará', 2),
 ('bom', 2),
 ('nada', 2),
 ('faz', 2),
 ('todas', 2),
 ('coisas', 2),
 ('entender', 2),
 ('vida', 2),
 ('viva', 2),
 ('durante', 2),
 ('anos', 2),
 ('lembre', 2)]

## 2) Adicione stopwords customizadas (ex.: 'dados', 'modelo') e compare distribuição.

In [100]:
stopwords.append('tempo')
stopwords.append('deus')



In [101]:
palavras_sem_stopwords = [palavra for palavra in palavras_limpas if palavra not in stopwords]

frequencia_custpmizada = nltk.FreqDist(palavras_sem_stopwords)

frequencia_custpmizada.most_common(20)

[('pode', 3),
 ('tudo', 3),
 ('negócios', 2),
 ('porque', 2),
 ('sabe', 2),
 ('cair', 2),
 ('ficará', 2),
 ('bom', 2),
 ('nada', 2),
 ('faz', 2),
 ('todas', 2),
 ('coisas', 2),
 ('entender', 2),
 ('vida', 2),
 ('viva', 2),
 ('durante', 2),
 ('anos', 2),
 ('lembre', 2),
 ('mocidade', 2),
 ('faça', 2)]

In [102]:
print(f"frequencia: {frequencia.most_common(20)}")
print(f"frequencia_custpmizada: {frequencia_custpmizada.most_common(20)}")

frequencia: [('tempo', 3), ('pode', 3), ('deus', 3), ('tudo', 3), ('negócios', 2), ('porque', 2), ('sabe', 2), ('cair', 2), ('ficará', 2), ('bom', 2), ('nada', 2), ('faz', 2), ('todas', 2), ('coisas', 2), ('entender', 2), ('vida', 2), ('viva', 2), ('durante', 2), ('anos', 2), ('lembre', 2)]
frequencia_custpmizada: [('pode', 3), ('tudo', 3), ('negócios', 2), ('porque', 2), ('sabe', 2), ('cair', 2), ('ficará', 2), ('bom', 2), ('nada', 2), ('faz', 2), ('todas', 2), ('coisas', 2), ('entender', 2), ('vida', 2), ('viva', 2), ('durante', 2), ('anos', 2), ('lembre', 2), ('mocidade', 2), ('faça', 2)]


# N-grams

## 1) Gere bigramas e trigramas sem stopwords e liste os 15 mais comuns.

In [103]:
bigramas = nltk.bigrams(palavras_sem_stopwords)

frequencia_bigramas = nltk.FreqDist(bigramas)

frequencia_bigramas.most_common(15)

[(('porque', 'sabe'), 2),
 (('pode', 'entender'), 2),
 (('empregue', 'dinheiro'), 1),
 (('dinheiro', 'bons'), 1),
 (('bons', 'negócios'), 1),
 (('negócios', 'lucro'), 1),
 (('lucro', 'vários'), 1),
 (('vários', 'lugares'), 1),
 (('lugares', 'negócios'), 1),
 (('negócios', 'diferentes'), 1),
 (('diferentes', 'porque'), 1),
 (('sabe', 'crise'), 1),
 (('crise', 'poderá'), 1),
 (('poderá', 'acontecer'), 1),
 (('acontecer', 'mundo'), 1)]

In [104]:
trigramas = nltk.trigrams(palavras_sem_stopwords)

frequencia_trigramas = nltk.FreqDist(trigramas)

frequencia_trigramas.most_common(15)

[(('empregue', 'dinheiro', 'bons'), 1),
 (('dinheiro', 'bons', 'negócios'), 1),
 (('bons', 'negócios', 'lucro'), 1),
 (('negócios', 'lucro', 'vários'), 1),
 (('lucro', 'vários', 'lugares'), 1),
 (('vários', 'lugares', 'negócios'), 1),
 (('lugares', 'negócios', 'diferentes'), 1),
 (('negócios', 'diferentes', 'porque'), 1),
 (('diferentes', 'porque', 'sabe'), 1),
 (('porque', 'sabe', 'crise'), 1),
 (('sabe', 'crise', 'poderá'), 1),
 (('crise', 'poderá', 'acontecer'), 1),
 (('poderá', 'acontecer', 'mundo'), 1),
 (('acontecer', 'mundo', 'nuvens'), 1),
 (('mundo', 'nuvens', 'ficam'), 1)]

## 2) Crie função para melhores n-grams com qualquer n e compare resultados.

In [105]:
def gerar_ngramas(palavras, n):
    ngramas = nltk.ngrams(palavras, n)
    frequencia_ngramas = nltk.FreqDist(ngramas)
    return frequencia_ngramas.most_common(15)


gerar_ngramas(palavras_sem_stopwords, 5)

[(('empregue', 'dinheiro', 'bons', 'negócios', 'lucro'), 1),
 (('dinheiro', 'bons', 'negócios', 'lucro', 'vários'), 1),
 (('bons', 'negócios', 'lucro', 'vários', 'lugares'), 1),
 (('negócios', 'lucro', 'vários', 'lugares', 'negócios'), 1),
 (('lucro', 'vários', 'lugares', 'negócios', 'diferentes'), 1),
 (('vários', 'lugares', 'negócios', 'diferentes', 'porque'), 1),
 (('lugares', 'negócios', 'diferentes', 'porque', 'sabe'), 1),
 (('negócios', 'diferentes', 'porque', 'sabe', 'crise'), 1),
 (('diferentes', 'porque', 'sabe', 'crise', 'poderá'), 1),
 (('porque', 'sabe', 'crise', 'poderá', 'acontecer'), 1),
 (('sabe', 'crise', 'poderá', 'acontecer', 'mundo'), 1),
 (('crise', 'poderá', 'acontecer', 'mundo', 'nuvens'), 1),
 (('poderá', 'acontecer', 'mundo', 'nuvens', 'ficam'), 1),
 (('acontecer', 'mundo', 'nuvens', 'ficam', 'cheias'), 1),
 (('mundo', 'nuvens', 'ficam', 'cheias', 'chuva'), 1)]

# Stemização e Lematização

## 1) Aplique RSLPStemmer aos tokens e mostre dicionário {original: stem}.

In [106]:
stem_original = nltk.RSLPStemmer()

stem_original.stem('desejos')

'desej'

## 2) Compare RSLPStemmer com SnowballStemmer('portuguese') e discuta.

In [107]:
snowball_original = nltk.SnowballStemmer('portuguese')

snowball_original.stem('desejos')

'desej'

## 3) Use WordNetLemmatizer com texto em inglês e compare com stemming.

In [108]:
wordnext = nltk.WordNetLemmatizer()

wordnext.lemmatize('wishs')

'wish'

# Default Tagger

## 1) Crie DefaultTagger('NOUN') e aplique a tokens de texto PT-BR.

In [109]:
default_tagger = nltk.DefaultTagger('NOUN')

default_tagger.tag(palavras_sem_stopwords)

[('empregue', 'NOUN'),
 ('dinheiro', 'NOUN'),
 ('bons', 'NOUN'),
 ('negócios', 'NOUN'),
 ('lucro', 'NOUN'),
 ('vários', 'NOUN'),
 ('lugares', 'NOUN'),
 ('negócios', 'NOUN'),
 ('diferentes', 'NOUN'),
 ('porque', 'NOUN'),
 ('sabe', 'NOUN'),
 ('crise', 'NOUN'),
 ('poderá', 'NOUN'),
 ('acontecer', 'NOUN'),
 ('mundo', 'NOUN'),
 ('nuvens', 'NOUN'),
 ('ficam', 'NOUN'),
 ('cheias', 'NOUN'),
 ('chuva', 'NOUN'),
 ('cai', 'NOUN'),
 ('árvore', 'NOUN'),
 ('pode', 'NOUN'),
 ('cair', 'NOUN'),
 ('qualquer', 'NOUN'),
 ('direção', 'NOUN'),
 ('lugar', 'NOUN'),
 ('cair', 'NOUN'),
 ('ficará', 'NOUN'),
 ('fica', 'NOUN'),
 ('esperando', 'NOUN'),
 ('vento', 'NOUN'),
 ('mude', 'NOUN'),
 ('fique', 'NOUN'),
 ('bom', 'NOUN'),
 ('nunca', 'NOUN'),
 ('plantará', 'NOUN'),
 ('colherá', 'NOUN'),
 ('nada', 'NOUN'),
 ('faz', 'NOUN'),
 ('todas', 'NOUN'),
 ('coisas', 'NOUN'),
 ('pode', 'NOUN'),
 ('entender', 'NOUN'),
 ('começa', 'NOUN'),
 ('nova', 'NOUN'),
 ('vida', 'NOUN'),
 ('dentro', 'NOUN'),
 ('barriga', 'NOUN'),
 ('mu