In [14]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize, sent_tokenize

Exemplos de Recursos do NLTK:
Tokenização e Segmentação de Frases:

nltk.download('punkt'): Conjunto de modelos para tokenização de palavras e frases.
Stopwords:

nltk.download('stopwords'): Conjunto de listas de stopwords (palavras comuns) em vários idiomas.
Lematização e Stemming:

nltk.download('wordnet'): Conjunto de sinônimos em inglês, usado para lematização.
nltk.download('omw-1.4'): Open Multilingual Wordnet, uma versão multilíngue do WordNet.
Corpora Textuais:

nltk.download('gutenberg'): Coleção de textos do Projeto Gutenberg.
nltk.download('brown'): Corpus com textos categorizados por tópicos (notícias, ficção, etc.).
nltk.download('reuters'): Conjunto de notícias da Reuters.
nltk.download('movie_reviews'): Conjunto de análises de filmes, útil para tarefas de classificação de sentimento.
Classificação e Rotulação:

nltk.download('averaged_perceptron_tagger'): Modelo para rotulação gramatical de palavras (POS tagging).
nltk.download('maxent_ne_chunker'): Modelo para reconhecimento de entidades nomeadas (NER).
Parsing de Gramática e Sintaxe:

nltk.download('treebank'): Corpus com análises sintáticas em formato de árvore.
nltk.download('conll2000'): Conjunto de dados com gramática para chunking (identificação de frases).
Tradução e Tradução Automática:

nltk.download('omw'): Wordnet multilíngue, para lematização e tradução em diversos idiomas.
Modelos Pré-Treinados:

nltk.download('vader_lexicon'): Lexicon para análise de sentimento, muito usado em análise de textos curtos como tweets.

In [15]:
# Baixar recursos necessários do NLTK
nltk.download('punkt')                      # Conjunto de modelos para tokenização de palavras e frases.
nltk.download('stopwords')                  # Conjunto de listas de stopwords (palavras comuns) em vários idiomas.
nltk.download('wordnet')                    # Conjunto de sinônimos em inglês, usado para lematização.
nltk.download('omw-1.4')                    # Para suporte multilíngue
nltk.download('averaged_perceptron_tagger') # Modelo para rotulação gramatical de palavras (POS tagging)

[nltk_data] Downloading package punkt to /Users/fseixas/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/fseixas/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/fseixas/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Tokenização é o processo de dividir um texto em unidades menores chamadas tokens. Em processamento de linguagem natural (NLP), tokens geralmente são palavras, mas também podem ser frases, caracteres ou outros elementos significativos. A tokenização é uma etapa fundamental na análise de texto, pois permite que o texto seja manipulado e analisado em partes que são mais fáceis de processar.

In [17]:
# Texto de exemplo
texto = "Olá! Eu sou um chatbot. Como posso ajudá-lo hoje?"

# Tokenização em sentenças
sentencas = sent_tokenize(texto)
print("Exemplos de Tokenização em Sentenças:")
print(sentencas)

Exemplos de Tokenização em Sentenças:
['Olá!', 'Eu sou um chatbot.', 'Como posso ajudá-lo hoje?']


In [31]:
# Texto de exemplo
texto = "Olá! Eu sou um chatbot. Como posso ajudá-lo hoje?"

# Tokenização em palavras
palavras = word_tokenize(texto)
print("\nExemplos de Tokenização em Palavras:")
print(palavras)


Exemplos de Tokenização em Palavras:
['Olá', '!', 'Eu', 'sou', 'um', 'chatbot', '.', 'Como', 'posso', 'ajudá-lo', 'hoje', '?']


In [34]:
# Tagging das partes do discurso (POS tagging)
tagged = nltk.pos_tag(palavras)

print("\nExemplos de tagging:")
print(tagged)

[('Olá', 'NN'), ('!', '.'), ('Eu', 'NNP'), ('sou', 'VBD'), ('um', 'JJ'), ('chatbot', 'NN'), ('.', '.'), ('Como', 'NNP'), ('posso', 'JJ'), ('ajudá-lo', 'JJ'), ('hoje', 'NN'), ('?', '.')]


Stop words são palavras que são frequentemente removidas de textos durante o processamento de linguagem natural (NLP) e outras tarefas de análise de texto. Essas palavras são consideradas "stop words" porque, em muitos contextos, elas são de pouca relevância para a análise de significado e, portanto, podem ser ignoradas para melhorar a eficiência e a precisão da análise.

Exemplos de Stop Words
Stop words geralmente incluem palavras comuns, como:

Artigos: "o", "a", "um", "uma"
Preposições: "em", "para", "de", "com"
Conjunções: "e", "ou", "mas"
Pronomes: "ele", "ela", "isso", "aquilo"
Por Que Usar Stop Words?
Redução de Ruído: Stop words são muitas vezes removidas porque elas aparecem com alta frequência em quase todos os textos e não adicionam valor significativo ao contexto ou à análise.

Melhoria na Performance: Remover stop words pode ajudar a reduzir a quantidade de dados a serem processados, o que pode melhorar o desempenho de algoritmos de aprendizado de máquina e técnicas de recuperação de informações.

Foco em Palavras Significativas: Ao remover stop words, você pode se concentrar mais nas palavras que realmente carregam o significado do texto.

In [19]:
# Obter stopwords em português
stop_words = set(stopwords.words('portuguese'))

# Imprimir algumas stopwords em português
print("Exemplos de stopwords em português:")
print(list(stop_words)[:10])  # Exibe as 10 primeiras stopwords

Exemplos de stopwords em português:
['teus', 'fôssemos', 'houvermos', 'e', 'há', 'tuas', 'dele', 'houverá', 'formos', 'houveria']


In [None]:
# Obter sinônimos de uma palavra
sinonimos = wordnet.synsets("chatbot")

print("Exemplos de Sinonímia para 'chatbot':")
for sinonimo in sinonimos:
    print(sinonimo.name(), "-> Definição:", sinonimo.definition())

# Exibir as palavras associadas ao primeiro sinônimo encontrado
print("\nPalavras associadas ao primeiro sinônimo:")
print(sinonimos[0].lemma_names())

In [35]:
# Remoção de Stopwords
stop_words = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [word for word in palavras if word.lower() not in stop_words]
print("Tokens sem Stopwords:")
print(tokens_sem_stopwords)

Tokens sem Stopwords:
['Olá', '!', 'chatbot', '.', 'posso', 'ajudá-lo', 'hoje', '?']


A lematização (ou lemmatization) é uma técnica de processamento de linguagem natural (PLN) que transforma palavras na sua forma básica ou "lema". O objetivo é reduzir palavras flexionadas ou derivadas à sua forma dicionária, preservando o significado. Ao contrário do stemming, que simplesmente remove sufixos para reduzir uma palavra, a lematização leva em conta o contexto e a função gramatical.

Como Funciona a Lematização?
A lematização usa informações sobre o contexto gramatical e as regras linguísticas para transformar uma palavra. Por exemplo:

Correr, correndo, correu → correr (verbo no infinitivo)
Meninos, menino → menino (substantivo no singular)
Para isso, a lematização precisa identificar a função gramatical da palavra (como substantivo, verbo, etc.), pois o mesmo termo pode ter diferentes lemas dependendo do contexto.

Diferença Entre Stemming e Lematização
Stemming: Reduz as palavras removendo sufixos ou prefixos, muitas vezes resultando em formas truncadas e sem sentido. Exemplo: "amigos" → "amig".
Lematização: Converte as palavras para o lema correto, resultando em formas linguísticas corretas. Exemplo: "amigos" → "amigo".

In [23]:
# Lematização
lemmatizer = WordNetLemmatizer()
tokens_lemmatizados = [lemmatizer.lemmatize(word) for word in tokens_sem_stopwords]
print("Tokens Lematizados:")
print(tokens_lemmatizados)

Tokens Lematizados:
['Olá', '!', 'chatbot', '.', 'posso', 'ajudá-lo', 'hoje', '?']
