# Aula 03 - Processamento de Texto e Pré-processamento de Dados

## 1. Normalização de texto e Remoção de Ruído

In [3]:
# importa a biblioteca para trabalhar com expressões regulares
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', original)

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos especiais e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


## 2. Tokenização  
Tokenização é dividir o texto em unidades menores (tokens), que geralmente são palavras ou pontuações.

In [8]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

tokens = word_tokenize(texto_normalizado)

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')
print(tokens)

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos especiais e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas
['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


## 3. Remoção de Stopwords  
Stopwords são palavras de pouco valor semântico (como 'de', 'a', 'o') que podem ser removidas para simplificar o texto.

In [13]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]
print(f"Tokens extraídos: {tokens}" + f"\nquantidade de tokens: {len(tokens)}")
print(f"Tokens sem stopwords: {tokens_sem_stopwords}" + f"\nquantidade de tokens sem stopwords: {len(tokens_sem_stopwords)}")

Tokens extraídos: ['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']
quantidade de tokens: 15
Tokens sem stopwords: ['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']
quantidade de tokens sem stopwords: 9


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 4. Stemming e Lemalização


*   Stemming reduz as palavras às suas raízes (ou radicais);
*   Lematização normaliza as palavras para suas formas base, levando em conta contexto e gramática.



In [18]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print("Tokens:", tokens_sem_stopwords)
print("Tokens radicais:", stemming)

Tokens: ['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']
Tokens radicais: ['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


## 5. Exemplo 01 - Pré-Processamento Completo

In [29]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = input("Insira um texto que seja coerente, podendo ter símbolos: ")

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', texto)
texto_normalizado = texto_limpo.lower()

# Tokenização
tokens = nltk.word_tokenize(texto_normalizado)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas_ex = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = RSLPStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas_ex]

# Impressão do resultado final
print(palavras_stemizadas)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Insira um texto que seja coerente, podendo ter símbolos: pontuação como pontos
['pontu', 'pont']


## Exemplo 02 - Estrutura de Pré-processamento de texto


In [34]:
!pip install spacy
!python -m spacy download pt_core_news_sm
import re
import spacy
import nltk
from nltk.corpus import stopwords
import string

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m60.2 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## Exemplo 03 - O modelo pré-treinado

In [35]:
import spacy

# Carregar,o modelo para português
nlp = spacy. load("pt_core_news_sm")

# Processar um texto em português
textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print( '\nAnálise gramatical das palavras:')
for token in doc:
  print(f"Palavra: {token.text}, Classe: {token.pos_}")

print ("\nAnalise de Dependências:")
for token in doc:
  print(f"Palavra: (token.text), Depende de: {token.head.text}")

# Visualizar a árvore graficamente (opcional)
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite um texto para ser analisado: Olá, Como vai? Tudo bem?

Análise gramatical das palavras:
Palavra: Olá, Classe: PROPN
Palavra: ,, Classe: PUNCT
Palavra: Como, Classe: ADV
Palavra: vai, Classe: AUX
Palavra: ?, Classe: PUNCT
Palavra: Tudo, Classe: PRON
Palavra: bem, Classe: ADV
Palavra: ?, Classe: PUNCT

Analise de Dependências:
Palavra: (token.text), Depende de: Olá
Palavra: (token.text), Depende de: Olá
Palavra: (token.text), Depende de: vai
Palavra: (token.text), Depende de: Olá
Palavra: (token.text), Depende de: Olá
Palavra: (token.text), Depende de: Tudo
Palavra: (token.text), Depende de: Tudo
Palavra: (token.text), Depende de: Tudo
