# **Aula 03** - Processamento de Texto e Pré-processamento de Dados

O pré-processamento limpa e transforma esse texto para facilitar o trabalho do algoritmo, deixando só as informações relevantes. Técnicas de Pré-processamento de Texto:

1. **Normalização de Texto** - Ajuste do texto para ter uma grafia padronizada;
2. **Remoção de Ruido** - Retirar elementos do texto que não agregam valor à análise e podem atrapalhar;
3. **Tokenização** - Tokenizar é dividir o texto em pequenas unidade;
4. **Remoção de Stopwords** - Remover palavras que não carregam muito significado para análise;
5. **Stemming** - Técnica para reduzir palavras às suas raizes ou radicais, cortando sufixos e prefixos;
6. **Lematização** - Redução da palavra para a sua forma de dicionário (forma canônica).

## 1. Normalização de texto e Remoção de Ruido

*  Remover caracteres especiais, pontuações, e normalizar o uso de letras maiúsculas e minúsculas

In [1]:
# importa a biblioteca para trabalhar com expressões regulares
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '',original)
  # re.sub() função que realiza substituição
  # r'[^A-Za-zÀ-ÿ\s]'>>> expressão regular que define um conjunto de caracteres a serem removidos
    # [A-Za-zÀ-ÿ\s] >>> define um conjunto de caracteres de A até Z, a até z e acentos e espaços
    # ^faz a negação de uma expressão regular
  # '' substitui a expressão regular por uma string vazia

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


## 2. Tokenização

*  Tokenização é dividir o texto em unidades menores (tokens), que geralmente são palavras

In [3]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

tokens = word_tokenize(texto_normalizado)

print(f'Texto original: {original}')
print(f'\n\nTexto limpo: {texto_limpo}')
print(f'\n\nTexto normalizado: {texto_normalizado}')
print(f'\n\nTokens extraidos: {tokens}\n')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.


Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas


Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


Tokens extraidos: ['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']



## 3. Remoção de Stopwords

* Stopwords são palavras de pouco valor semântico (como "de", "a", "o") que podem ser removidas para simplificar o texto

In [4]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

print(stopwords_pt)

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(f'\n\nTokens extraidos: {tokens} + \n quantidade de tokens: {len(tokens)}')
print(f'\n\nTokens extraidos: {tokens_sem_stopwords} + \n quantidade de tokens: {len(tokens_sem_stopwords)}\n')

{'mais', 'teremos', 'dos', 'houve', 'esta', 'tivesse', 'e', 'tinham', 'aqueles', 'fôssemos', 'era', 'por', 'tivermos', 'me', 'lhe', 'nem', 'entre', 'seus', 'tenham', 'numa', 'tem', 'uma', 'houveriam', 'teu', 'minhas', 'havemos', 'será', 'fomos', 'sejamos', 'estou', 'teriam', 'estava', 'haver', 'ela', 'que', 'seu', 'estiver', 'tivessem', 'estejam', 'está', 'somos', 'quando', 'nossas', 'fôramos', 'tuas', 'fossem', 'estes', 'houveremos', 'tinha', 'serei', 'aquilo', 'houvesse', 'um', 'vos', 'estávamos', 'se', 'pela', 'da', 'éramos', 'estivéramos', 'as', 'seria', 'tém', 'deles', 'nossa', 'houveríamos', 'de', 'pelas', 'estamos', 'meu', 'são', 'terão', 'aos', 'do', 'esteve', 'hão', 'haja', 'estive', 'você', 'estivesse', 'a', 'esses', 'dele', 'essas', 'só', 'foram', 'eu', 'para', 'tivéramos', 'sem', 'estar', 'tua', 'à', 'teríamos', 'pelo', 'este', 'for', 'houveria', 'estivéssemos', 'tenhamos', 'fui', 'num', 'vocês', 'houvermos', 'ou', 'tivéssemos', 'houveram', 'mesmo', 'elas', 'depois', 'estej

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 4. Stemming e Lemalização

*   Stemming reduz as palavras às suas raízes (ou radicais);
*   Lematização normaliza as palavras para suas formas base, levando em conta contexto e gramática.

In [5]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(f'\n\nTokens extraidos: {tokens_sem_stopwords}')
print(f'\n\nTokens radicais: {stemming}\n\n\n')



Tokens extraidos: ['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']


Tokens radicais: ['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']





[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## 5. Exemplo 01 - Pré Processamento completo

In [6]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
#nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = input("Insira um texto que seja coerente, podendo ter símbolos: ")

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)  # Remove tudo que não for letra e substitui por espaço
texto_lower = texto_limpo.lower()  # Converte para minúsculas

# Tokenização
tokens = nltk.word_tokenize(texto_lower)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impressão do resultado final
print(palavras_stemizadas)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Insira um texto que seja coerente, podendo ter símbolos: A vida é uma lição e temos que aprender. Para nos ensinar, Deus usa a vida e a vida usa tudo.
['vida', 'li', 'aprend', 'ensinar', 'deu', 'usa', 'vida', 'vida', 'usa', 'tudo']


## Exemplo 02 - Estrutura de Pré-processamento de texto

In [7]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m80.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [8]:
import re
import spacy
import nltk
from nltk.corpus import stopwords
import string


# Baixar stopwords do NLTK (se necessário)
nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('rslp')

# Carregar modelo do spaCy (português como exemplo, pode trocar para 'en_core_web_sm' se for inglês)
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo (pode ser uma review ou trecho de notícia)
texto = "O Processamento de Linguagem Natural (PLN) é uma área essencial da inteligência artificial! 😊 Confira mais em: https://exemplo.com"

# 1. Normalização (remover acentos, transformar em minúsculas, etc.)
def normalizar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)  # Remover URLs
    texto = re.sub(r'[^a-zA-Zá-úÁ-ÚçÇ ]', '', texto)     # Remover caracteres especiais (ajuste para outros idiomas)
    return texto

texto_normalizado = normalizar_texto(texto)

# 2. Tokenização (nltk)
tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

# 3. Remoção de stopwords (nltk)
stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [token for token in tokens if token not in stopwords_pt]

# 4. Stemming (nltk)
stemmer = nltk.RSLPStemmer()
tokens_stem = [stemmer.stem(token) for token in tokens_sem_stopwords]

# 5. Lematização (spaCy)
def lematizar_com_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

tokens_lematizados = lematizar_com_spacy(tokens_sem_stopwords)

# 6. Comparação
print("Texto Original:\n", texto)
print("\nTexto Normalizado:\n", texto_normalizado)
print("\nTokens:\n", tokens)
print("\nTokens Sem Stopwords:\n", tokens_sem_stopwords)
print("\nStemming:\n", tokens_stem)
print("\nLematização:\n", tokens_lematizados)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Texto Original:
 O Processamento de Linguagem Natural (PLN) é uma área essencial da inteligência artificial! 😊 Confira mais em: https://exemplo.com

Texto Normalizado:
 o processamento de linguagem natural pln é uma área essencial da inteligência artificial  confira mais em 

Tokens:
 ['o', 'processamento', 'de', 'linguagem', 'natural', 'pln', 'é', 'uma', 'área', 'essencial', 'da', 'inteligência', 'artificial', 'confira', 'mais', 'em']

Tokens Sem Stopwords:
 ['processamento', 'linguagem', 'natural', 'pln', 'área', 'essencial', 'inteligência', 'artificial', 'confira']

Stemming:
 ['process', 'lingu', 'natur', 'pln', 'áre', 'essenc', 'intelig', 'artific', 'conf']

Lematização:
 ['processamento', 'linguagem', 'natural', 'pln', 'área', 'essencial', 'inteligência', 'artificial', 'confira']


## Exemplo 03 - O modelo pre treinado

In [9]:
import spacy

# Carregar o modelo para português
nlp = spacy.load("pt_core_news_sm")

# Processar um texto em português
textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print('\nAnálise gramatical das palavras:')
for token in doc:
    print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnalise de Dependências:")
for token in doc:
  print(f"Palavra: {token.text}, Depende de: {token.head.text}")

# Visualizar a árvore graficamente (opcional)
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite um texto para ser analisado: A vida é uma lição e temos que aprender. Para nos ensinar, Deus usa a vida e a vida usa tudo.

Análise gramatical das palavras:
Palavra: A, Classe: DET
Palavra: vida, Classe: NOUN
Palavra: é, Classe: AUX
Palavra: uma, Classe: DET
Palavra: lição, Classe: NOUN
Palavra: e, Classe: CCONJ
Palavra: temos, Classe: VERB
Palavra: que, Classe: SCONJ
Palavra: aprender, Classe: VERB
Palavra: ., Classe: PUNCT
Palavra: Para, Classe: SCONJ
Palavra: nos, Classe: PRON
Palavra: ensinar, Classe: VERB
Palavra: ,, Classe: PUNCT
Palavra: Deus, Classe: PROPN
Palavra: usa, Classe: VERB
Palavra: a, Classe: DET
Palavra: vida, Classe: NOUN
Palavra: e, Classe: CCONJ
Palavra: a, Classe: DET
Palavra: vida, Classe: NOUN
Palavra: usa, Classe: VERB
Palavra: tudo, Classe: PRON
Palavra: ., Classe: PUNCT

Analise de Dependências:
Palavra: A, Depende de: vida
Palavra: vida, Depende de: lição
Palavra: é, Depende de: lição
Palavra: uma, Depende de: lição
Palavra: lição, Depende de: lição


* O que são: Conjuntos de dados estatísticos e regras, Treinados com milhões de textos, Especializados em tarefas específicas de linguagem, Resultado de aprendizado de máquina
* Como são treinados: Alimentados com grande volume de textos, Aprendem padrões do idioma, Reconhecem estruturas gramaticais, Identificam relações entre palavras, São testados e refinados
* Tipos de modelos por tamanho:
  * Pequeno (sm): Mais rápido, menor precisão, Usa menos memória, Bom para testes
  * Médio (md): Equilíbrio entre velocidade e precisão, Precisão moderada
Bom para uso geral
  * Grande (lg): Mais preciso, Mais lento, Usa mais memória, Melhor para análises detalhadas
* Alguns modelos pré-treinados:
  * Português - nlp_pt = spacy.load('pt_core_news_sm')
  * Inglês - nlp_en = spacy.load('en_core_web_sm')
  * Espanhol - nlp_es = spacy.load('es_core_news_sm')
  * Francês - nlp_fr = spacy.load('fr_core_news_sm')
  * Alemão - nlp_de = spacy.load('de_core_news_sm')