<a href="https://colab.research.google.com/github/caroline-dainezi-fatec/fatec_PLN_Codes/blob/main/Aula4_LimpezaNormalizacao/%5BPLN%5D_Aula_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 4 - Limpeza de dados textuais

## 4.1 Normalização de texto e Remoção de Ruído

* Remover caracteres especiais, pontuações, e normalizar o uso de letras maiúsculas e minúsculas

In [1]:
# importar a biblioteca que traz as funcionalidades para expressões regulares
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', original)
  # realiza a substituição dos caracteres especiais
  # re.sub(param1, param2, param3) >>> realizar a busca e a substituição
    # param1: r'[^A-Za-zÀ-ÿ\s]': é o trecho que irá ser buscado para substituir
      # A-Za-zÀ-ÿ\s: os intervalos de texto que serão procurados
          # A-Z: busca o intervalo de letras de A até Z
          # a-z: busca o intervalo de letras de a até z
          # À-ÿ: buscar qualquer letra acentuada
          # \s: ignora os espaços no texto
      # ^: representa a negação dos valores
      # [^A-Za-zÀ-ÿ\s]: busca todos os valores que não são letras (com ou sem acento)
      # param2: '' >>> o termo que eu vou substitur, no caso uma string vazia
      # param3: variável que contém o meu texto
  # r: o que é o termo r? Pesquisem na documentação

texto_normalizado = texto_limpo.lower()
  # olá != OLÁ != Olá

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


## 4.2 Tonekização
* Tokenização é dividir o texto em unidades menores (tokens), que geralmente são palavras ou pontuações.

In [2]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')

tokens = word_tokenize(texto_normalizado)

print(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']


## 4.3 Remoção de Stopwords
* Stopwords são palavras de pouco valor semântico (como "de", "a", "o") que podem ser removidas para simplificar o texto.

In [3]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(tokens_sem_stopwords)

['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 4.4 Stemming e Lematização
* Stemming reduz as palavras às suas raízes (ou radicais);
* Lematização normaliza as palavras para suas formas base, levando em conta contexto e gramática.

In [4]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(stemming)

['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## 4.5 - Utilizando todo o processo de hoje

In [8]:

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
# texto = input("Insira um texto que seja coerente, podendo ter símbolos: ")
texto = "Este é um exemplo de texto com muitas palavras, algumas repetidas outra @não, e pontuação e outros simbolos que não FAzem parte do texto que desejo . Vamos limpar e organizar esse texto. Há também números 123 e caracteres especiais @#$%."


# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto) # Remove tudo que não for letra e substitui por espaço
texto_lower = texto_limpo.lower() # Converte para minúsculas

# Tokenização
tokens = nltk.word_tokenize(texto_lower)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impressão do resultado final
print(palavras_stemizadas)

['exemplo', 'texto', 'muita', 'palavra', 'alguma', 'repetida', 'outra', 'n', 'pontua', 'outro', 'simbolo', 'n', 'fazem', 'part', 'texto', 'desejo', 'vamo', 'limpar', 'organizar', 'texto', 'h', 'tamb', 'm', 'n', 'mero', 'caracter', 'especiai']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
