1. Normalização de texto e Remoção de Ruído

In [None]:
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '',original)

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

2. Tokenização

In [None]:
!pip install nltk

In [None]:

import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

tokens = word_tokenize(texto_normalizado)

print(f'Texto original: {original}')
print(f'\n\nTexto limpo: {texto_limpo}')
print(f'\n\nTexto normalizado: {texto_normalizado}')
print(f'\n\nTokens extraidos: {tokens}\n')

3. Remoção de Stopwords

In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

print(stopwords_pt)

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(f'\n\nTokens extraidos: {tokens} + \n quantidade de tokens: {len(tokens)}')
print(f'\n\nTokens extraidos: {tokens_sem_stopwords} + \n quantidade de tokens: {len(tokens_sem_stopwords)}\n')

4. Stemming e Lemalização

In [None]:

from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(f'\n\nTokens extraidos: {tokens_sem_stopwords}')
print(f'\n\nTokens radicais: {stemming}\n\n\n')

5. Exemplo 01 - Pré Processamento completo

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

nltk.download('punkt')
nltk.download('stopwords')

texto = input("Insira um texto que seja coerente, podendo ter símbolos: ")

texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)
texto_lower = texto_limpo.lower()

tokens = nltk.word_tokenize(texto_lower)

stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

print(palavras_stemizadas)

Exemplo 02 - Estrutura de Pré-processamento de texto

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

In [None]:
import re
import spacy
import nltk
from nltk.corpus import stopwords
import string

nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('rslp')

# (Trocar para 'en_core_web_sm' se for inglês)
nlp = spacy.load("pt_core_news_sm")

texto = "O Processamento de Linguagem Natural (PLN) é uma área essencial da inteligência artificial! 😊 Confira mais em: https://exemplo.com"

def normalizar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)
    texto = re.sub(r'[^a-zA-Zá-úÁ-ÚçÇ ]', '', texto)
    return texto

texto_normalizado = normalizar_texto(texto)

tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [token for token in tokens if token not in stopwords_pt]

stemmer = nltk.RSLPStemmer()
tokens_stem = [stemmer.stem(token) for token in tokens_sem_stopwords]

def lematizar_com_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

tokens_lematizados = lematizar_com_spacy(tokens_sem_stopwords)

print("Texto Original:\n", texto)
print("\nTexto Normalizado:\n", texto_normalizado)
print("\nTokens:\n", tokens)
print("\nTokens Sem Stopwords:\n", tokens_sem_stopwords)
print("\nStemming:\n", tokens_stem)
print("\nLematização:\n", tokens_lematizados)


Exemplo 03 - O modelo pre treinado

In [None]:
import spacy

nlp = spacy.load("pt_core_news_sm")

textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print('\nAnálise gramatical das palavras:')
for token in doc:
    print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnalise de Dependências:")
for token in doc:
  print(f"Palavra: {token.text}, Depende de: {token.head.text}")

from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)