In [1]:
# Importando bibliotecas
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from gensim import corpora, models
from pprint import pprint

In [4]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [5]:
# Texto de exemplo
texto = """
Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial que se concentra na interação entre
computadores e linguagem humana. A tokenização é o primeiro passo no pré-processamento de texto, onde o texto é dividido
em tokens. Bag of Words (BoW) é uma técnica que representa um documento como um conjunto de palavras, sem levar em conta
a ordem. A biblioteca Gensim é comumente usada para modelagem de tópicos, enquanto o TF-IDF destaca a importância das
palavras em um documento.
"""

In [6]:
# Tokenização
tokens = word_tokenize(texto.lower())  # Converte para minúsculas para evitar diferenciação entre maiúsculas e minúsculas
print("Tokens:", tokens)

Tokens: ['processamento', 'de', 'linguagem', 'natural', '(', 'pln', ')', 'é', 'uma', 'área', 'da', 'inteligência', 'artificial', 'que', 'se', 'concentra', 'na', 'interação', 'entre', 'computadores', 'e', 'linguagem', 'humana', '.', 'a', 'tokenização', 'é', 'o', 'primeiro', 'passo', 'no', 'pré-processamento', 'de', 'texto', ',', 'onde', 'o', 'texto', 'é', 'dividido', 'em', 'tokens', '.', 'bag', 'of', 'words', '(', 'bow', ')', 'é', 'uma', 'técnica', 'que', 'representa', 'um', 'documento', 'como', 'um', 'conjunto', 'de', 'palavras', ',', 'sem', 'levar', 'em', 'conta', 'a', 'ordem', '.', 'a', 'biblioteca', 'gensim', 'é', 'comumente', 'usada', 'para', 'modelagem', 'de', 'tópicos', ',', 'enquanto', 'o', 'tf-idf', 'destaca', 'a', 'importância', 'das', 'palavras', 'em', 'um', 'documento', '.']


In [8]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [9]:
# Remoção de stop words
stop_words = set(stopwords.words("portuguese"))
filtered_tokens = [word for word in tokens if word.isalnum() and word not in stop_words]
print("Tokens filtrados:", filtered_tokens)

Tokens filtrados: ['processamento', 'linguagem', 'natural', 'pln', 'área', 'inteligência', 'artificial', 'concentra', 'interação', 'computadores', 'linguagem', 'humana', 'tokenização', 'primeiro', 'passo', 'texto', 'onde', 'texto', 'dividido', 'tokens', 'bag', 'of', 'words', 'bow', 'técnica', 'representa', 'documento', 'conjunto', 'palavras', 'levar', 'conta', 'ordem', 'biblioteca', 'gensim', 'comumente', 'usada', 'modelagem', 'tópicos', 'enquanto', 'destaca', 'importância', 'palavras', 'documento']


In [12]:
# Bag of Words
freq_dist = FreqDist(filtered_tokens)
print("Bag of Words:")
pprint(freq_dist)

Bag of Words:
FreqDist({'linguagem': 2, 'texto': 2, 'documento': 2, 'palavras': 2, 'processamento': 1, 'natural': 1, 'pln': 1, 'área': 1, 'inteligência': 1, 'artificial': 1, ...})


In [13]:
# Gensim - Modelo de Tópicos (LDA)
# Preparando o corpus
dictionary = corpora.Dictionary([filtered_tokens])
corpus = [dictionary.doc2bow(filtered_tokens)]

In [14]:
# Treinando o modelo
lda_model = models.LdaModel(corpus, num_topics=1, id2word=dictionary, passes=10)
print("\nModelo de Tópicos (LDA):")
pprint(lda_model.print_topics())


Modelo de Tópicos (LDA):
[(0,
  '0.037*"documento" + 0.037*"linguagem" + 0.037*"texto" + 0.037*"palavras" + '
  '0.024*"tokenização" + 0.024*"passo" + 0.024*"pln" + 0.024*"ordem" + '
  '0.024*"representa" + 0.024*"onde"')]


In [15]:
# TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform([texto])
print("\nTF-IDF Matrix:")
print(tfidf_matrix)


TF-IDF Matrix:
  (0, 11)	0.09622504486493763
  (0, 22)	0.09622504486493763
  (0, 13)	0.09622504486493763
  (0, 21)	0.09622504486493763
  (0, 46)	0.09622504486493763
  (0, 17)	0.09622504486493763
  (0, 50)	0.09622504486493763
  (0, 27)	0.09622504486493763
  (0, 35)	0.09622504486493763
  (0, 53)	0.09622504486493763
  (0, 6)	0.09622504486493763
  (0, 19)	0.09622504486493763
  (0, 2)	0.09622504486493763
  (0, 33)	0.09622504486493763
  (0, 9)	0.09622504486493763
  (0, 25)	0.09622504486493763
  (0, 44)	0.09622504486493763
  (0, 34)	0.19245008972987526
  (0, 8)	0.09622504486493763
  (0, 4)	0.09622504486493763
  (0, 15)	0.19245008972987526
  (0, 51)	0.28867513459481287
  (0, 42)	0.09622504486493763
  (0, 49)	0.09622504486493763
  (0, 3)	0.09622504486493763
  :	:
  (0, 32)	0.09622504486493763
  (0, 45)	0.19245008972987526
  (0, 40)	0.09622504486493763
  (0, 30)	0.09622504486493763
  (0, 36)	0.09622504486493763
  (0, 38)	0.09622504486493763
  (0, 47)	0.09622504486493763
  (0, 20)	0.096225044864

In [21]:
# Obtendo o vocabulário do vetorizador
vocabulario = tfidf_vectorizer.get_feature_names_out()

# Obtendo a palavra correspondente à posição (0, 2)
palavra = vocabulario[2]

# Imprimindo a palavra correspondente
print("A palavra correspondente à posição (0, 2) é:", palavra)

A palavra correspondente à posição (0, 2) é: biblioteca
