<a href="https://colab.research.google.com/github/LuigiFalcade13/fatec_PLN_Codes/blob/main/Aula_4_Limpeza_de_dados_textuais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Luigi Falcade de Souza**

# Aula 4 - Limpeza de dados textuais

## 4.1 Normalização de texto e Remoção de ruído

*   Remover caracteres especiais, pontuações, e normalizar o uso de letras maiúsculas e minúsculas



In [1]:
# importar a biblioteca que tras as funcionalidades para expressões regulares
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', original)
  # realiza a substituicação dos caracteres especiais
  # re.sub(parametro1, parametro2, parametro3) >>> realizar a busca e a substituição
    # parametro1: r'[^A-Za-zÀ-ÿ\s]': é o trecho que irá ser buscado para substituir
      # ^A-Za-zÀ-ÿ\s: os intervalos de texto que serão procurados
        # A-Z: busca o intervalo de letras de A até Z
        # a-z: busca o intervalo de letras de a até z
        # À-ÿ: busca qualquer letra acentuada
        # ^: representa a negação dos valores
        # [^A-Za-zÀ-ÿ\s]: busca todos os valores que não são letras (com ou sem acento)
        # \s: deixar os espaços
    # parametro2: '' >>> o termo que eu vou substituir, no caso uma string vazia
    # parametro3: variável que contém o meu texto
    # O QUE É O TERMO R NA EXPRESSÃO REGULAR REGEX - OLHAR NA DOCUMENTAÇÃO

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas



O código limpa e normaliza um texto, removendo pontuações, símbolos especiais e deixando todas as letras em minúsculas. Primeiro, ele elimina os caracteres indesejados, como letras não acentuadas e símbolos, mantendo apenas letras e espaços. Depois, transforma todas as letras em minúsculas para padronizar o texto. O resultado é um texto mais simples e pronto para ser analisado.








In [3]:

# Importa a biblioteca NLTK e a função word_tokenize, que realiza a tokenização de texto
import nltk
from nltk.tokenize import word_tokenize

# Faz o download do recurso 'punkt', necessário para a tokenização de palavras
nltk.download('punkt_tab')  # O 'punkt_tab' é um conjunto de dados que contém um modelo para tokenização

# Texto já normalizado (completo do código anterior)
texto_normalizado = 'olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas'

# Realiza a tokenização do texto, separando-o em palavras (tokens)
tokens = word_tokenize(texto_normalizado)

# Exibe a lista de tokens (palavras separadas)
print(tokens)

# Exibe a quantidade de tokens (número de palavras)
print(len(tokens))

['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']
15


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


O código realiza a tokenização de um texto, ou seja, separa o texto em palavras individuais, chamadas de tokens. Primeiro, ele importa a biblioteca NLTK e a função word_tokenize, que é usada para dividir o texto em palavras. Em seguida, faz o download do recurso necessário para a tokenização. O texto fornecido já foi normalizado (sem pontuações e em minúsculas) e, ao aplicar word_tokenize, ele separa o texto em tokens. Por fim, o código exibe a lista de palavras separadas e a quantidade de palavras (tokens) no texto. Esse processo é útil em tarefas de Processamento de Linguagem Natural, como análise de frequência de palavras.

## 4.2 Tokenização
*   Tokenização é dividir o texto em unidades menores (tokens), que geralmente são palavras ou pontuações.



In [4]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')

tokens = word_tokenize(texto_normalizado)

print(tokens)
print(len(tokens))

['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']
15


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


O código utiliza a biblioteca NLTK para dividir um texto em palavras (tokens). Ele faz o download do recurso necessário para a tokenização, aplica word_tokenize no texto normalizado e imprime a lista de palavras separadas, além de mostrar o número total de palavras. Esse processo é importante para análises de texto em PLN.








## 4.3 Remoção de StopWords

*   StopWords são palavras de pouco valor semântico (como "de", "a", "o") que podem ser removidas para simplificar o texto



In [5]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set (stopwords.words('portuguese'))
tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]
print(tokens_sem_stopwords)
print(len(tokens_sem_stopwords))

['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']
9


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 4.4 Stemming e Lematização

*   Stemming reduz as palavras às suas raízes (ou radicais);
*   Lematização normaliza as palvras para suas formas base, levando em conta contexto e gramática - ESTE EXEMPLO



In [6]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(stemming)

['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## 4.5 Utilizando todo o processo de hoje

In [7]:
# importação das bibliotecas - por ordem alfabética
import nltk
import re
# importação das funcionalidades
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

# Download dos recursos do NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = "Este é um exemplo de texto com muitas palavras, algumas repetidas outra @não, e pontuação e outros simbolos que não FAzem parte do texto que desejo . Vamos limpar e organizar esse texto. Há também números 123 e caracteres especiais @#$%."

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)
texto_lower = texto_limpo.lower()

# Tokenização
tokens = nltk.word_tokenize(texto_lower)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impressão do resultado final
print(palavras_stemizadas)

['exemplo', 'texto', 'muita', 'palavra', 'alguma', 'repetida', 'outra', 'n', 'pontua', 'outro', 'simbolo', 'n', 'fazem', 'part', 'texto', 'desejo', 'vamo', 'limpar', 'organizar', 'texto', 'h', 'tamb', 'm', 'n', 'mero', 'caracter', 'especiai']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
