# **Aula 03** - Processamento de Texto e Pré-processamento de Dados

O pré-processamento limpa e transforma esse texto para facilitar o trabalho do algoritmo, deixando só as informações relevantes. Técnicas de Pré-processamento de Texto:
1. **Normalização de Texto** - Ajusta do texto para ter uma grafia padronizada;
2. **Remoção de Ruído** - Retirar elementos do texto que não agregam valor à análise e podem atrapalhar;
3. **Tokenização** - Tokenizar é dividir o texto em pequenas unidades;
4. **Remoção de Stopwords** - Remover palavras que não carregam muito significado para análise;
5. **Stemming** - Técnica para reduzir palavras às suas raízes ou radicais, cortando sufixos e prefixos;
6. **Lematização** - Redução da palavra à sua forma de dicionário (forma canônica)


## 1. Normalização de texto e Remoção de Ruído
* Remover caracteres especiais, pontuações, e normalizar o uso de letras maiúsculas e minúsculas

In [None]:
 # importa a biblioteca para trabalhar com expressões regulares
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '',original)
  # re.sub() função que realiza substituição
  # r'[^A-Za-zÀ-ÿ\s]'>>> expressão regular que define um conjunto de caracteres a serem removidos
    # [A-Za-zÀ-ÿ\s] >>> define um conjunto de caracteres de A até Z, a até z e acentos e espaços
    # ^faz a negação de uma expressão regular
  # '' substitui a expressão regular por uma string vazia

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

## 2. Tokenização
* Tokenização é dividir o texto em unidades menores (tokens), que geralmente são palavras ou pontuações.

In [None]:
import nltk
from nltk.tokenize import word_tokenize

#nltk.download('punkt_tab')

tokens = word_tokenize(texto_normalizado)

print(f'Texto original: {original}')
print(f'\n\nTexto limpo: {texto_limpo}')
print(f'\n\nTexto normalizado: {texto_normalizado}')
print(f'\n\nTokens extraidos: {tokens}\n')

## 3. Remoção de Stopwords
* Stopwords são palavras de pouco valor semântico (como "de", "a", "o") que podem ser removidas para simplificar o texto




In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

print(stopwords_pt)

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(f'\n\nTokens extraidos: {tokens} + \n quantidade de tokens: {len(tokens)}')
print(f'\n\nTokens extraidos: {tokens_sem_stopwords} + \n quantidade de tokens: {len(tokens_sem_stopwords)}\n')

## 4. Stemming e Lemalização


*   Stemming reduz as palavras às suas raízes (ou radicais);
*   Lematização normaliza as palavras para suas formas base, levando em conta contexto e gramática.

In [None]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(f'\n\nTokens extraidos: {tokens_sem_stopwords}')
print(f'\n\nTokens radicais: {stemming}\n\n\n')

## 5. Exemplo 01 - Pré Processamento completo

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
#nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = input("Insira um texto que seja coerente, podendo ter símbolos: ")

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)  # Remove tudo que não for letra e substitui por espaço
texto_lower = texto_limpo.lower()  # Converte para minúsculas

# Tokenização
tokens = nltk.word_tokenize(texto_lower)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impressão do resultado final
print(palavras_stemizadas)

## Exemplo 02 - Estrutura de Pré-processamento de texto


In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

In [None]:
import re
import spacy
import nltk
from nltk.corpus import stopwords
import string


# Baixar stopwords do NLTK (se necessário)
nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('rslp')

# Carregar modelo do spaCy (português como exemplo, pode trocar para 'en_core_web_sm' se for inglês)
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo (pode ser uma review ou trecho de notícia)
texto = "O Processamento de Linguagem Natural (PLN) é uma área essencial da inteligência artificial! 😊 Confira mais em: https://exemplo.com"

# 1. Normalização (remover acentos, transformar em minúsculas, etc.)
def normalizar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)  # Remover URLs
    texto = re.sub(r'[^a-zA-Zá-úÁ-ÚçÇ ]', '', texto)     # Remover caracteres especiais (ajuste para outros idiomas)
    return texto

texto_normalizado = normalizar_texto(texto)

# 2. Tokenização (nltk)
tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

# 3. Remoção de stopwords (nltk)
stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [token for token in tokens if token not in stopwords_pt]

# 4. Stemming (nltk)
stemmer = nltk.RSLPStemmer()
tokens_stem = [stemmer.stem(token) for token in tokens_sem_stopwords]

# 5. Lematização (spaCy)
def lematizar_com_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

tokens_lematizados = lematizar_com_spacy(tokens_sem_stopwords)

# 6. Comparação
print("Texto Original:\n", texto)
print("\nTexto Normalizado:\n", texto_normalizado)
print("\nTokens:\n", tokens)
print("\nTokens Sem Stopwords:\n", tokens_sem_stopwords)
print("\nStemming:\n", tokens_stem)
print("\nLematização:\n", tokens_lematizados)


## Exemplo 03 - O modelo pre treinado

In [None]:
import spacy

# Carregar o modelo para português
nlp = spacy.load("pt_core_news_sm")

# Processar um texto em português
textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print('\nAnálise gramatical das palavras:')
for token in doc:
    print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnalise de Dependências:")
for token in doc:
  print(f"Palavra: {token.text}, Depende de: {token.head.text}")

# Visualizar a árvore graficamente (opcional)
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

* O que são: Conjuntos de dados estatísticos e regras, Treinados com milhões de textos, Especializados em tarefas específicas de linguagem, Resultado de aprendizado de máquina
* Como são treinados: Alimentados com grande volume de textos, Aprendem padrões do idioma, Reconhecem estruturas gramaticais, Identificam relações entre palavras, São testados e refinados
* Tipos de modelos por tamanho:
  * Pequeno (sm): Mais rápido, menor precisão, Usa menos memória, Bom para testes
  * Médio (md): Equilíbrio entre velocidade e precisão, Precisão moderada
Bom para uso geral
  * Grande (lg): Mais preciso, Mais lento, Usa mais memória, Melhor para análises detalhadas
* Alguns modelos pré-treinados:
  * Português - nlp_pt = spacy.load('pt_core_news_sm')
  * Inglês - nlp_en = spacy.load('en_core_web_sm')
  * Espanhol - nlp_es = spacy.load('es_core_news_sm')
  * Francês - nlp_fr = spacy.load('fr_core_news_sm')
  * Alemão - nlp_de = spacy.load('de_core_news_sm')
