<a href="https://colab.research.google.com/github/iagoslopes/DSM_PLN/blob/master/Aula4_Fundamentos/%5BPLN%5D_Aula_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 4 - Limpeza de dados textuais

## 4.1 Normalização de texto e Remoção de Ruído

* Remover caracteres especiais, pontuações, e normalizar o uso de letras maiúsculas e minúsculas

In [None]:
# Importar a biblioteca que traz as funcionalidades para expressões regulares
import re

In [None]:
original = 'olá!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e Letras maiúsculas.'

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]','',original)
  # Realiza a substituição dos caracteres especiais
  # re.sub(par1, par2, par3) >>> realizar a busca e a subtituição
    #par1: r'[^A-Za-zÀ-ÿ\s]': é o trecho que irá ser buscado para substituir
      # A-Za-zÀ-ÿ\s: os intervalos de texto que serão procurados
        # A-Z: busca o intervalo de letras de A até Z
        # a-z: busca o intervalo de letras de a até z
        # À-ÿ: busca qualquer letra acentuada
      # ^: representa a negação dos valores
      # [^A-Za-zÀ-ÿ\s]: busca todos os valores que não são letras (com ou sem acento)
    #par2: '' >>> o termo que eu vou substituir, no caso uma string vazia
    #par3: variável que contém o meu texto
  # r: o que é o termo r? Pesquisem na documentação

texto_normalizado = texto_limpo.lower()
  # olá != OLÁ != Olá

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: olá!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e Letras maiúsculas.

Texto limpo: olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e Letras maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


## 4.2 Tokenização

In [None]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

# Exemplo de uso
tokens = word_tokenize(texto_normalizado)

print(tokens)
print(len(tokens))

['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']
15


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


## 4.3 Remoção de Stopwords
* Stopwords são palavras de pouco valor semântico (como "de", "a", "o") que podem ser removidas para simplificar o texo

In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

token_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(token_sem_stopwords)
print(len(token_sem_stopwords))

['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']
9


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 4.4 Stemming e Lemalização
* Stemming reduz as palavras às suas raízes (ou radicais);
* Lematização normaliza as palavras para suas formas base, levando em conta contexto e gramática.

In [None]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in token_sem_stopwords]
print(stemming)

['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## 4.5 Utilizando todo o processo de hoje

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
nltk.download('punkt_tab')
nltk.download('stopwords')

# Texto de exemplo
texto = "Este é um exemplo de texto com muitas palavras, algumas repetidas outra @não, e pontuação, símbolos #especiais, e Letras maiúsculas."

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto) # Remove tudo que não for letra e substitui por especiais
texto_lower = texto_limpo.lower()

# Tokenização
tokens = nltk.word_tokenize(texto_lower)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impressão do resultado final
print(palavras_stemizadas)

['exemplo', 'texto', 'muita', 'palavra', 'alguma', 'repetida', 'outra', 'n', 'pontua', 's', 'mbolo', 'especiai', 'letra', 'mai', 'scula']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
