# 1. Normalização de texto e Remoção de Ruído

In [None]:
# importa a biblioteca para trabalhar com expressões regulares
import re

original = "Olá!! este é um exemplo de texto com várias PONTUAÇÕES, símbolos #especiais e letras MAIÚSCULAS"

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', original)
 #re.sub() função que substitui os caracteres que não estão na lista de caracteres permitidos
 #r'[^A-Za-zÀ-ÿ\s]' expressão regular que busca caracteres que não estão na lista de caracteres permitidos
 #'[^A-Za-zÀ-ÿ\s]' expressão regular que busca caracteres que não estão na lista de caracteres permitidos
 # ^ faz a negação da expressão regular
 # '' substitui os caracteres que não estão na lista de caracteres permitidos

texto_normalizado = texto_limpo.lower()

print(f'\nTexto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')


Texto original: Olá!! este é um exemplo de texto com várias PONTUAÇÕES, símbolos #especiais e letras MAIÚSCULAS

Texto limpo: Olá este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e letras MAIÚSCULAS

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


# 2. Tokenização

In [None]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

tokens = word_tokenize(texto_normalizado)

print(tokens)

['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


#3. Remoção de Stopwords

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]
print(tokens_sem_stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...


['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']


[nltk_data]   Unzipping corpora/stopwords.zip.


# 4. Stemming e Lemalização

In [None]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(token) for token in tokens_sem_stopwords]
print(f'Tokens extraídos: {tokens_sem_stopwords}')
print(f'\nTokens radicais: {stemming}\n')

Tokens extraídos: ['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']

Tokens radicais: ['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']



[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


#5. Exemplo 01 - Pré Processamento completo

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

#Download dos recursos necessários
nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = input("Digite aqui um texto coerente podendo ter símbolos e pontuações: ")

# Limpeza dos ruídos e normalização do texto
texto_limpo = re.sub(r'[^a-zA-Z]', '', texto) # Remove caracteres não alfabéticos
texto_lower = texto_limpo.lower() # Converte para minúsculas

# Tokenização
tokens = nltk.word_tokenize(texto_lower) # Tokeniza o texto

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese')) # Define as stopwords em português
tokens_sem_stopwords = [token for token in tokens if token not in stop_words] # Remove as stopwords

# Stemming
stemmer = PorterStemmer() # Inicializa o stemmer
tokens_stemmed = [stemmer.stem(token) for token in tokens_sem_stopwords] # Aplica o stemming

# Exibe os resultados
print(f'Texto original: {texto}')
print(f'Texto limpo: {texto_lower}')
print(f'Tokens: {tokens}')
print(f'Tokens sem stopwords: {tokens_sem_stopwords}')
print(f'Tokens stemmed: {tokens_stemmed}')

# Exemplo 02 - Estrutura de Pré-processamento de texto

In [2]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m62.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


# Exemplo 03 - O modelo pré treinado

In [5]:
import spacy

# Carregar o modelo para português
nlp = spacy.load("pt_core_news_sm")

# Processar um texto de português
textoRecebido = input("Digite um texto a ser analisado: ")
doc = nlp(textoRecebido)

print('\nAnálise gramatical das palavras:')
for token in doc:
  print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnálise de dependências: ")
for token in doc:
  print(f"Palavra: {token.text}, Dependencia: {token.head.text}")

# Visualizar a árvore graficamente (opcional
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite um texto a ser analisado: O som da chuva batendo na janela criava uma melodia hipnótica. Era como se cada gota contasse uma história ao tocar o vidro, ecoando memórias esquecidas e promessas silenciosas. Lá fora, o mundo continuava sua dança caótica, mas ali, dentro daquele pequeno espaço, havia uma paz inesperada

Análise gramatical das palavras:
Palavra: O, Classe: DET
Palavra: som, Classe: NOUN
Palavra: da, Classe: ADP
Palavra: chuva, Classe: NOUN
Palavra: batendo, Classe: VERB
Palavra: na, Classe: ADP
Palavra: janela, Classe: NOUN
Palavra: criava, Classe: VERB
Palavra: uma, Classe: DET
Palavra: melodia, Classe: NOUN
Palavra: hipnótica, Classe: ADJ
Palavra: ., Classe: PUNCT
Palavra: Era, Classe: ADV
Palavra: como, Classe: ADV
Palavra: se, Classe: SCONJ
Palavra: cada, Classe: DET
Palavra: gota, Classe: NOUN
Palavra: contasse, Classe: VERB
Palavra: uma, Classe: DET
Palavra: história, Classe: NOUN
Palavra: ao, Classe: SCONJ
Palavra: tocar, Classe: VERB
Palavra: o, Classe: DET
Pa