<a href="https://colab.research.google.com/github/PedroFatec/Processamento-de-Linguagem-Natural-A914-N-D.S.M.-113-20242/blob/main/Aula4_29_11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 4 - Limpeza de dados textuais
## 4.1 Normalização de texto e Remoção de Ruído

*Remover caracteres especiais, pontuações, e normalizar o uso de letras maiúsculas e minúsculas*

Aluno: Pedro Henrique Figueira - DSM 6º SEMESTRE

In [1]:
# Biblioteca re traz as funcionalidades para expressões regulares
import re

In [3]:
# Texto original contendo pontuações, símbolos especiais e letras maiúsculas
original = 'olá!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e Letras maiúsculas.'

# Limpeza do texto: remove todos os caracteres que não sejam letras ou espaços
texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', original)
# Explicação:
# - `re.sub`: Substitui partes do texto com base em um padrão.
# - `[^A-Za-zÀ-ÿ\s]`: Expressão regular que seleciona qualquer caractere que:
#   - Não seja uma letra (maiúscula ou minúscula) no alfabeto inglês (`A-Za-z`).
#   - Não seja uma letra com acento (`À-ÿ`) para suportar idiomas com caracteres especiais.
#   - Não seja um espaço (`\s`).
# - Substitui os caracteres selecionados por uma string vazia `''`.

# Normalização do texto: converte todo o texto para letras minúsculas
texto_normalizado = texto_limpo.lower()
# Explicação:
# - `.lower()`: Converte todas as letras maiúsculas do texto para minúsculas.

# Exibe o texto original
print(f'Texto original: {original}')

# Exibe o texto após a limpeza
print(f'\nTexto limpo: {texto_limpo}')

# Exibe o texto após a normalização
print(f'\nTexto normalizado: {texto_normalizado}')


Texto original: olá!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e Letras maiúsculas.

Texto limpo: olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e Letras maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


In [8]:
# Importa a biblioteca NLTK e a função word_tokenize, que realiza a tokenização de texto
import nltk
from nltk.tokenize import word_tokenize

# Faz o download do recurso 'punkt', necessário para a tokenização de palavras
nltk.download('punkt_tab')  # O 'punkt_tab' é um conjunto de dados que contém um modelo para tokenização

# Texto já normalizado (completo do código anterior)
texto_normalizado = 'olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas'

# Realiza a tokenização do texto, separando-o em palavras (tokens)
tokens = word_tokenize(texto_normalizado)

# Exibe a lista de tokens (palavras separadas)
print(tokens)

# Exibe a quantidade de tokens (número de palavras)
print(len(tokens))


['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']
15


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


# 4.3 Remoção de Stopwords
*Stopwords são palavras de pouco valor semântico (como "de", "a", "o") que podem ser removidas para simplificar o texo*

In [9]:
# Importa a função stopwords do NLTK
from nltk.corpus import stopwords

# Faz o download do recurso stopwords (palavras comuns, irrelevantes para a análise)
nltk.download('stopwords')

# Carrega o conjunto de stopwords em português
stopwords_pt = set(stopwords.words('portuguese'))

# Filtra os tokens removendo as stopwords
token_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

# Exibe os tokens sem stopwords
print(token_sem_stopwords)

# Exibe o número de tokens após a remoção das stopwords
print(len(token_sem_stopwords))


['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']
9


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# 4.4 Stemming e Lemalização
*Stemming reduz as palavras às suas raízes (ou radicais);*
* Lematização normaliza as palavras para suas formas base, levando em conta contexto e gramática.

In [None]:
# Importa o stemmer RSLP (Recursos de Stemmer para o Português) do NLTK
from nltk.stem import RSLPStemmer

# Faz o download do recurso RSLP, necessário para o stemmer
nltk.download('rslp')

# Cria uma instância do stemmer para o idioma português
stemmer = RSLPStemmer()

# Aplica o stemming nas palavras restantes (sem stopwords)
stemming = [stemmer.stem(palavra) for palavra in token_sem_stopwords]

# Exibe as palavras após o processo de stemming
print(stemming)


# 4.5 Utilizando todo o processo de hoje

In [10]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
nltk.download('punkt')  # Pacote necessário para tokenização
nltk.download('stopwords')  # Pacote necessário para stopwords

# Texto de exemplo
texto = "Este é um exemplo de texto com muitas palavras, algumas repetidas outra @não, e pontuação, símbolos #especiais, e Letras maiúsculas."

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)  # Remove tudo que não for letra e substitui por espaços
texto_lower = texto_limpo.lower()  # Converte o texto para minúsculas

# Tokenização
tokens = nltk.word_tokenize(texto_lower)  # Divide o texto em palavras (tokens)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))  # Carrega as stopwords em português
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]  # Remove as stopwords

# Stemming
stemmer = PorterStemmer()  # Instancia o stemmer (utiliza o modelo de inglês, mas pode ser usado com português limitado)
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]  # Aplica o stemming nas palavras filtradas

# Impressão do resultado final
print(palavras_stemizadas)


['exemplo', 'texto', 'muita', 'palavra', 'alguma', 'repetida', 'outra', 'n', 'pontua', 's', 'mbolo', 'especiai', 'letra', 'mai', 'scula']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
