In [1]:
import re
import regex
import unicodedata
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

# Baixa o modelo de tokenização para português e outros compomentes do NLTK
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('omw-1.4')  # Suporte multilíngue
nltk.download('wordnet')   # WordNet principal
nltk.download('rslp')

#def download_nltk_resource(resource):
#    try:
#        nltk.data.find(resource)
#    except LookupError:
#        nltk.download(resource.split('/')[-1])
#
# Baixa os recursos necessários
# download_nltk_resource('tokenizers/punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping stemmers\rslp.zip.


True

In [2]:
##
# Lista de textos de exemplo
##
#texto = "Bom dia! Como você está?"
#texto = "Olá, tudo bem? Meu nome é Zé das Coves. Gosto de programação!"
texto = [
    "Olá, tudo bem? Este é um texto de Exemplo!",
    "Eu amo programação em Python e Machine Learning.",
    "Texto com MUITAS PONTUAÇÕES... e alguns STOP WORDS!",
    "Outro exemplo: A corrida de dados é essencial em ML!!!"
]


# 1) Definir stopwords (ex.: português, mas ajuste conforme sua necessidade)
# "de", "a", "o", "e", ...
stopwords_pt = set(stopwords.words('portuguese'))  

# 2) Função de limpeza e tokenização
def preprocess_text(text):
    # a) Colocar tudo em minúsculo
    text = text.lower()
    
    # b) Remover pontuações e caracteres especiais (regex)
    #text = re.sub(r'[^a-z0-9\s]', '', text)
    #text = re.sub(r'[.,!?;:()\[\]{}\'"\-_]', '', text)
    text = regex.sub(r'\p{P}+', '', text)

    # c) Tokenizar de forma simples (split por espaço)
    #tokens = text.split()
    tokens = word_tokenize(text, language='portuguese')    
    
    # d) Remover stopwords
    tokens = [t for t in tokens if t not in stopwords_pt]
    
    # e) Reunir tokens novamente, se quisermos gerar um "texto limpo"
    return " ".join(tokens)

# 3) Limpar cada texto na lista
texto_limpo = [preprocess_text(txt) for txt in texto]


print (f"Texto original: \n\t{texto}\n")
print (f"Texto limpo   : \n\t{texto_limpo}\n")

Texto original: 
	['Olá, tudo bem? Este é um texto de Exemplo!', 'Eu amo programação em Python e Machine Learning.', 'Texto com MUITAS PONTUAÇÕES... e alguns STOP WORDS!', 'Outro exemplo: A corrida de dados é essencial em ML!!!']

Texto limpo   : 
	['olá tudo bem texto exemplo', 'amo programação python machine learning', 'texto muitas pontuações alguns stop words', 'outro exemplo corrida dados essencial ml']



In [3]:
from nltk.stem import PorterStemmer, WordNetLemmatizer, RSLPStemmer
import spacy

##
# Inglês
##
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

print("\nStemming    :", stemmer.stem("running"))
print("Lematização :", lemmatizer.lemmatize("running"))

print("\nStemming    :", stemmer.stem("correndo"))
print("Lematização :", lemmatizer.lemmatize("correndo"))


Stemming    : run
Lematização : running

Stemming    : correndo
Lematização : correndo


In [4]:
##
# Portugues - Stemming
##
stemmer_pt = RSLPStemmer()

palavras = ["correr", "correndo", "corrida", "cão", "cães"]
print(f"\nPalavras    : {palavras}")

palavras_stemmed = [stemmer_pt.stem(p) for p in palavras]
print(f"Stemming PT : {palavras_stemmed} \n")


##
# Portugues - Lematização 
##

# Carrega o modelo em português
nlp = spacy.load("pt_core_news_sm")  

frase = "Eu estava correndo com meus cães na praia"
doc = nlp(frase)
for token in doc:
    print(f"Palavra: {token.text} \t → Lemma: {token.lemma_}")  


Palavras    : ['correr', 'correndo', 'corrida', 'cão', 'cães']
Stemming PT : ['corr', 'corr', 'corr', 'cão', 'cão'] 

Palavra: Eu 	 → Lemma: eu
Palavra: estava 	 → Lemma: estar
Palavra: correndo 	 → Lemma: correr
Palavra: com 	 → Lemma: com
Palavra: meus 	 → Lemma: meu
Palavra: cães 	 → Lemma: cão
Palavra: na 	 → Lemma: em o
Palavra: praia 	 → Lemma: praia


In [5]:
##
# Portugues
##

# Carrega o modelo em português
nlp = spacy.load("pt_core_news_sm")  

def lemmatizar_frases(lista_frases):
    frases_lematizadas = []
    
    for frase in lista_frases:
        doc = nlp(frase)
        # Lematiza cada token e junta novamente em uma string
        frase_lematizada = " ".join([token.lemma_ for token in doc])
        frases_lematizadas.append(frase_lematizada)
    
    return frases_lematizadas

def remover_acentos(texto):
    # Normaliza o texto (decompõe os caracteres acentuados em caracteres simples + acento)
    texto_normalizado = unicodedata.normalize('NFKD', texto)

    # Remove os caracteres de acentuação (como ~, ´, `, ^, etc.)
    texto_sem_acentos = ''.join(c for c in texto_normalizado if not unicodedata.combining(c))
    
    return texto_sem_acentos


# Aplica a lematização
texto_lematizado = lemmatizar_frases(texto_limpo)

# Removendo os acentos
texto_lematizado_sem_acento=[]
for linha in texto_lematizado:
    linha_sem_acento=remover_acentos(linha)
    texto_lematizado_sem_acento.append(linha_sem_acento)

# Mostra o resultado
for original, lematizada, lematizada_sem_acento in zip(texto_limpo, texto_lematizado,  texto_lematizado_sem_acento):
    print(f"Original             : {original}")
    print(f"Lematizada           : {lematizada}")
    print(f"Lematizada s/acento  : {lematizada_sem_acento}\n")

Original             : olá tudo bem texto exemplo
Lematizada           : olá tudo bem texto exemplo
Lematizada s/acento  : ola tudo bem texto exemplo

Original             : amo programação python machine learning
Lematizada           : amo programação python Machine learning
Lematizada s/acento  : amo programacao python Machine learning

Original             : texto muitas pontuações alguns stop words
Lematizada           : texto muito pontuação algum stop word
Lematizada s/acento  : texto muito pontuacao algum stop word

Original             : outro exemplo corrida dados essencial ml
Lematizada           : outro exemplo corrida dar essencial ml
Lematizada s/acento  : outro exemplo corrida dar essencial ml



In [6]:
# 4) Vetorizar com CountVectorizer (Bag-of-Words)
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(texto_lematizado_sem_acento)

print(f"\n\nVocabulário: \n\n{vectorizer.get_feature_names_out()}\n")
print(f"\nMatriz BOW:\n\n {bow_matrix.toarray()}")



Vocabulário: 

['algum' 'amo' 'bem' 'corrida' 'dar' 'essencial' 'exemplo' 'learning'
 'machine' 'ml' 'muito' 'ola' 'outro' 'pontuacao' 'programacao' 'python'
 'stop' 'texto' 'tudo' 'word']


Matriz BOW:

 [[0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 1 0]
 [0 1 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 1]
 [0 0 0 1 1 1 1 0 0 1 0 0 1 0 0 0 0 0 0 0]]


In [9]:
# 5) Converter para DataFrame, apenas para visualização
bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out())

bow_df.head(5)

Unnamed: 0,algum,amo,bem,corrida,dar,essencial,exemplo,learning,machine,ml,muito,ola,outro,pontuacao,programacao,python,stop,texto,tudo,word
0,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,1,0
1,0,1,0,0,0,0,0,1,1,0,0,0,0,0,1,1,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,1,1,0,1
3,0,0,0,1,1,1,1,0,0,1,0,0,1,0,0,0,0,0,0,0


In [11]:
bow_df.to_csv('dataset_bow_matrizx-2025.06.30.csv', index=False)
bow_df.to_csv('dataset_bow_matrizx-2025.06.30.csv.gzip', compression='gzip', index=False)

In [12]:
#print (f"Texto original: \n\t{texto}\n")
print("Textos originais:")
for i, t in enumerate(texto):
    print(f"\t{i+1}: {t}")



print("\nTextos pós-limpeza:")
for i, ct in enumerate(texto_lematizado_sem_acento):
    print(f"\t{i+1}: {ct}")

print("\nMatriz Bag-of-Words:")
bow_df.head()

Textos originais:
	1: Olá, tudo bem? Este é um texto de Exemplo!
	2: Eu amo programação em Python e Machine Learning.
	3: Texto com MUITAS PONTUAÇÕES... e alguns STOP WORDS!
	4: Outro exemplo: A corrida de dados é essencial em ML!!!

Textos pós-limpeza:
	1: ola tudo bem texto exemplo
	2: amo programacao python Machine learning
	3: texto muito pontuacao algum stop word
	4: outro exemplo corrida dar essencial ml

Matriz Bag-of-Words:


Unnamed: 0,algum,amo,bem,corrida,dar,essencial,exemplo,learning,machine,ml,muito,ola,outro,pontuacao,programacao,python,stop,texto,tudo,word
0,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,1,0
1,0,1,0,0,0,0,0,1,1,0,0,0,0,0,1,1,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,1,1,0,1
3,0,0,0,1,1,1,1,0,0,1,0,0,1,0,0,0,0,0,0,0
