# PRÉ-PROCESSAMENTO DE TEXTO

**OBJETIVOS DESSE NOTEBOOK/AULA:** Ensinar os principais passos de pré-processamento textual com código e aplicar esse conhecimento num pequeno dataset.

TAREFAS:

- Como limpar textos;
- Como tokenizar frases;
- Como remover stopwords;
- Como aplicar stemming e lematização.

Vamos usar as bibliotecas: `re`, `nltk` e `spaCy`.

**LIMPEZA BÁSICA (Remoção de pontuação, números...)**

Antes de analisar ou usar um texto em modelos de NLP, é fundamental limpar o texto cru para facilitar o processamento e melhorar os resultados.

Por que isso é importante?

**Reduzir o ruído**

Pontuação, números, símbolos e caracteres especiais muitas vezes não carregam significado útil para tarefas de linguagem (como classificação de sentimento, por exemplo). Se esses elementos ficarem no texto, eles podem atrapalhar o modelo, que vai “ver” muitas coisas irrelevantes.

**Uniformizar os dados**

A limpeza ajuda a deixar o texto mais homogêneo. Por exemplo, sem pontuação e em letras minúsculas, palavras iguais aparecem sempre da mesma forma (“Casa”, “casa,” “casa.” → “casa”). Isso evita que o modelo trate variações iguais como coisas diferentes.

**Diminuir o vocabulário**

Remover caracteres desnecessários reduz o número de tokens únicos, deixando o vocabulário mais “limpo” e gerenciável. Isso é importante para modelos tradicionais, pois melhora a eficiência e evita “overfitting” em dados ruidosos.

**Facilitar tarefas subsequentes**

Passos como tokenização, remoção de stopwords, lematização e stemming funcionam melhor quando o texto está limpo. Por exemplo, se houver vírgulas ou pontos grudados às palavras, a tokenização pode separar de forma incorreta.

**Melhorar a qualidade dos dados para modelos**

Modelos de machine learning e deep learning aprendem padrões a partir dos dados de entrada. Quanto mais limpos e consistentes forem esses dados, mais precisos e robustos serão os modelos gerados.

In [None]:
import re

texto = "Oi! Esse é um exemplo de texto com pontuação, números como 123 e símbolos #NLP :)"

# Remover pontuação, números e símbolos, às vezes, é essencial para deixar o dataset limpo e os textos mais claros antes de colocar para um modelo aprender
texto_limpo = re.sub(r"[^\w\s]", "", texto)  # remove pontuação
texto_limpo = re.sub(r"\d+", "", texto_limpo)  # remove números

print("Texto limpo:", texto_limpo)


Texto limpo: Oi Esse é um exemplo de texto com pontuação números como  e símbolos NLP 


###Mini tarefa 1:
Crie uma função `limpar_texto` que remova pontuação, números e transforme o texto para minúsculas.


In [None]:
texto1 = "Oi! Esse é um exemplo de texto com pontuação, números como 123 e símbolos #NLP :)"

def limpar_texto(texto_sujo):
  texto_limpo = re.sub(r"[^\w\s]", "", texto_sujo) # sem pontuação
  texto_limpo = re.sub(r"\d+", "", texto_limpo)    # sem números
  texto_limpo = texto_limpo.lower()                # transforma em minúsculo
  print("Texto limpo:", texto_limpo)

limpar_texto(texto1)

Texto limpo: oi esse é um exemplo de texto com pontuação números como  e símbolos nlp 


TOKENIZAÇÃO (Um token pode ser uma palavra, uma expressão...)

Tokenização é o processo de dividir um texto em unidades menores chamadas tokens.
Normalmente, esses tokens são palavras, mas podem ser também frases, caracteres ou subpalavras, dependendo do tipo de tokenização usada.

Por exemplo, a frase:

"Hoje o dia está lindo."

Pode ser tokenizada em palavras:
["Hoje", "o", "dia", "está", "lindo", "."]


POR QUE É IMPORTANTE TOKENIZAR?

**Transformar texto bruto em dados estruturados**

Modelos de NLP não entendem diretamente uma sequência de caracteres. Eles trabalham com unidades menores, os tokens. Tokenizar o texto é transformar uma sequência contínua de texto em uma lista organizada de pedaços que o computador consegue manipular.

**Base para etapas posteriores**

Muitas etapas essenciais de NLP, como remoção de stopwords, lematização, stemming, análise sintática e vetorização, dependem de tokens. Sem tokenização, essas operações não podem ser aplicadas corretamente.

**Permite análise granular**

Tokenização permite analisar texto palavra a palavra, facilitando a extração de informações, como frequência, padrões, sentimentos, entidades nomeadas, etc.

**Flexibilidade para diferentes tarefas**

Dependendo da tarefa, podemos usar diferentes tipos de tokenização: por palavras, por sentenças, por caracteres ou subpalavras (como em modelos Transformers). Isso possibilita adaptar o processamento à complexidade do problema.

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# garanta o download (roda só uma vez)
nltk.download("punkt_tab")

texto = "Esse é um texto simples para tokenização."
tokens = word_tokenize(texto, language="portuguese")
print(tokens)

['Esse', 'é', 'um', 'texto', 'simples', 'para', 'tokenização', '.']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


### Mini tarefa 2:
Aplique a tokenização em três frases diferentes à sua escolha.


In [None]:
texto = "Corinthians é o maior."
tokens = word_tokenize(texto, language="portuguese")
print(tokens)

texto = "He who controls the spice controls the universe."
tokens = word_tokenize(texto, language="english")
print(tokens)

texto = "Que a Força esteja com você."
tokens = word_tokenize(texto, language="portuguese")
print(tokens)

['Corinthians', 'é', 'o', 'maior', '.']
['He', 'who', 'controls', 'the', 'spice', 'controls', 'the', 'universe', '.']
['Que', 'a', 'Força', 'esteja', 'com', 'você', '.']


REMOÇÃO DE STOPWORDS

Stopwords são palavras muito comuns em uma língua que geralmente têm pouco significado próprio no contexto de análise textual.
Exemplos em português: “de”, “a”, “o”, “que”, “e”, “para”.

PARA QUE SERVE?

**Reduzir o ruído**

Stopwords aparecem com muita frequência e não agregam valor semântico significativo para a maioria das tarefas de NLP, como análise de sentimento, classificação de texto, etc.

**Diminuir o tamanho do vocabulário**

Remover essas palavras ajuda a reduzir o número de tokens únicos, simplificando os dados e acelerando o processamento.

**Focar nas palavras relevantes**

Ao eliminar stopwords, destacam-se termos mais importantes que carregam o significado real do texto, facilitando a identificação de padrões.

**Melhorar o desempenho dos modelos**

Com menos tokens irrelevantes, os modelos tendem a aprender melhor as características importantes, aumentando a eficiência e a precisão.

In [None]:
nltk.download("stopwords")
from nltk.corpus import stopwords

stop_words = set(stopwords.words("portuguese"))
tokens_sem_stopwords = [token for token in tokens if token not in stop_words]
print(tokens_sem_stopwords)


['Que', 'Força', '.']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Mini tarefa 3:
Crie uma função `remover_stopwords` que receba uma lista de tokens e retorne apenas as palavras relevantes.


In [None]:
def remover_stopwords(tokens):
    stop_words = set(stopwords.words("portuguese"))
    tokens_filtrados = [token for token in tokens if token.lower() not in stop_words]
    return tokens_filtrados

texto = "Este é um exemplo simples para testar a remoção de stopwords em português."

tokens = word_tokenize(texto, language="portuguese")

tokens_sem_stopwords = remover_stopwords(tokens)

print(tokens_sem_stopwords)

['exemplo', 'simples', 'testar', 'remoção', 'stopwords', 'português', '.']


STEMMING E LEMATIZAÇÃO

Ambos são técnicas de redução de palavras à sua forma base ou raiz, muito usadas no pré-processamento de texto para agrupar variações de uma palavra em uma única representação.

**Stemming**

É o processo que corta os sufixos das palavras para chegar a uma raiz comum, geralmente sem considerar o significado da palavra.

Como funciona: regras simples, como remover terminações, às vezes de forma "bruta" e sem garantir uma palavra real no final.

Exemplo:

palavras “amando”, “amaria”, “amar” → podem virar “am”

“computador”, “computação” → “comput”

Vantagem: rápido e fácil de aplicar.

Desvantagem: pode gerar raízes artificiais, que não são palavras válidas (ex: “am”).

**Lematização**

É o processo que reduz a palavra à sua forma canônica ou dicionarizada, chamada lematização.

Como funciona: usa análise morfológica e dicionários para encontrar a forma base correta.

Exemplo:

“amando”, “amaria”, “amar” → todos lematizados para “amar”

“melhores” → lematizado para “melhor”

Vantagem: resultados mais precisos e compreensíveis.

Desvantagem: mais lento e complexo, requer recursos linguísticos.

In [None]:
!python -m spacy download pt_core_news_sm


Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m52.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
from nltk.stem import RSLPStemmer
from nltk.stem import WordNetLemmatizer
nltk.download('rslp')


stemmer = RSLPStemmer()
tokens_stemm = [stemmer.stem(token) for token in tokens_sem_stopwords]
print("Stemming:", tokens_stemm)

# Para lematização em português, usaremos spaCy
import spacy
nlp = spacy.load("pt_core_news_sm")

doc = nlp(" ".join(tokens_sem_stopwords))
tokens_lema = [token.lemma_ for token in doc]
print("Lematização:", tokens_lema)


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Stemming: ['diss', '.']
Lematização: ['dizer', '.']


### Mini tarefa 4:
Compare os resultados de stemming e lematização. Qual parece mais legível? Traga novas frases e exemplos para poder embasar a comparação.


In [None]:
texto = "Foi o que ela disse."

tokens = word_tokenize(texto, language="portuguese")

# Stemming
stemmer = RSLPStemmer()
tokens_stemm = [stemmer.stem(token) for token in tokens]
print("Stemming:", tokens_stemm)

# Lematização
doc = nlp(" ".join(tokens))
tokens_lema = [token.lemma_ for token in doc]
print("Lematização:", tokens_lema)

Stemming: ['foi', 'o', 'que', 'ela', 'diss', '.']
Lematização: ['foi', 'o', 'que', 'ela', 'dizer', '.']


Dá pra ver que o stemming corta as palavras, deixando elas meio estranhas, como "exempl", "remoç" e "portugu".
Já a lematização mantém as palavras certinhas, como "exemplo" e "remoção", o que faz muito mais sentido.
Por isso, a lematização acaba sendo melhor pra entender o texto, e é mais útil para análise do conteúdo de forma mais clara.

###Tarefa Final: Aplicando tudo em um dataset simples

In [None]:
import pandas as pd
import re

# Dataset manual com frases e emoções
data = {
    "text": [
        "Hoje o dia está lindo e me sinto muito bem.",
        "Essa comida está horrível, não gostei.",
        "Estou muito feliz com o meu resultado!",
        "Não suporto mais esse trânsit@o terrível.",
        "Que filme% maravilhoso, adorei cada segundo.",
        "Foi um desastre total, tudo deu errado.",
        "Estou animado para o final# de semana!",
        "O atendimento foi péssimo, estou revoltado.",
        "Ganhei um presente incr*ível hoje!",
        "Me senti mal com aquele comentário."
    ]

}

df = pd.DataFrame(data)
df.head()

# --- Funções reutilizáveis ---

def tokenizar(texto):
    return word_tokenize(texto, language="portuguese")

def aplicar_stemming(tokens):
    stemmer = RSLPStemmer()
    return [stemmer.stem(token) for token in tokens]

def aplicar_lemmatizacao(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

# --- Aplicação no DataFrame ---

# Pré-processamento: limpeza
df["texto_limpo"] = df["text"].apply(limpar_texto)

# Tokenização
df["tokens"] = df["texto_limpo"].apply(tokenizar)

# Remoção de stopwords (usando NLTK)
df["sem_stopwords"] = df["tokens"].apply(remover_stopwords)

# Nova coluna: texto pré-processado (sem stopwords, como string)
df["texto_processado"] = df["sem_stopwords"].apply(lambda x: " ".join(x))

# Stemming e lematização
df["stemming"] = df["sem_stopwords"].apply(aplicar_stemming)
df["lemmatizacao"] = df["sem_stopwords"].apply(aplicar_lemmatizacao)

# Exibir resultado
pd.set_option("display.max_colwidth", None)
display(df[["text", "texto_limpo", "tokens", "sem_stopwords", "stemming", "lemmatizacao"]])

Unnamed: 0,text,texto_limpo,tokens,sem_stopwords,stemming,lemmatizacao
0,Hoje o dia está lindo e me sinto muito bem.,hoje o dia está lindo e me sinto muito bem,"[hoje, o, dia, está, lindo, e, me, sinto, muito, bem]","[hoje, dia, lindo, sinto, bem]","[hoj, dia, lind, sint, bem]","[hoje, dia, lir, sinto, bem]"
1,"Essa comida está horrível, não gostei.",essa comida está horrível não gostei,"[essa, comida, está, horrível, não, gostei]","[comida, horrível, gostei]","[com, horr, gost]","[comida, horrível, gostar]"
2,Estou muito feliz com o meu resultado!,estou muito feliz com o meu resultado,"[estou, muito, feliz, com, o, meu, resultado]","[feliz, resultado]","[feliz, result]","[feliz, resultado]"
3,Não suporto mais esse trânsit@o terrível.,não suporto mais esse trânsito terrível,"[não, suporto, mais, esse, trânsito, terrível]","[suporto, trânsito, terrível]","[suport, trânsit, terr]","[suporto, trânsito, terrível]"
4,"Que filme% maravilhoso, adorei cada segundo.",que filme maravilhoso adorei cada segundo,"[que, filme, maravilhoso, adorei, cada, segundo]","[filme, maravilhoso, adorei, cada, segundo]","[film, maravilh, ador, cad, segund]","[filme, maravilhoso, adorar, cada, segundo]"
5,"Foi um desastre total, tudo deu errado.",foi um desastre total tudo deu errado,"[foi, um, desastre, total, tudo, deu, errado]","[desastre, total, tudo, deu, errado]","[desastr, total, tud, deu, err]","[desastre, total, tudo, dar, errar]"
6,Estou animado para o final# de semana!,estou animado para o final de semana,"[estou, animado, para, o, final, de, semana]","[animado, final, semana]","[anim, final, seman]","[animar, final, semana]"
7,"O atendimento foi péssimo, estou revoltado.",o atendimento foi péssimo estou revoltado,"[o, atendimento, foi, péssimo, estou, revoltado]","[atendimento, péssimo, revoltado]","[atend, péss, revolt]","[atendimento, péssimo, revoltar]"
8,Ganhei um presente incr*ível hoje!,ganhei um presente incrível hoje,"[ganhei, um, presente, incrível, hoje]","[ganhei, presente, incrível, hoje]","[ganh, pres, incr, hoj]","[ganhar, presente, incrível, hoje]"
9,Me senti mal com aquele comentário.,me senti mal com aquele comentário,"[me, senti, mal, com, aquele, comentário]","[senti, mal, comentário]","[sent, mal, coment]","[sentir, mal, comentário]"


'\nAnalisando os resultados, o stemming ajudou a deixar as palavras mais simples, mas às vezes cortou demais, como "maravilh", "trânsit" e "coment", que ficam difíceis de entender.\nJá a lematização conseguiu deixar as palavras parecidas com o jeito correto de escrever, facilitando muito a leitura e o entendimento. \nPor exemplo, "ganh" virou "ganhar" e "coment" virou "comentário", mantendo o sentido original.\nPor isso, a lematização é melhor quando a gente precisa entender bem o texto, como em análise de sentimentos ou classificação. \nO stemming pode ser útil em tarefas mais rápidas, tipo buscas ou agrupamentos, onde não precisa ser tão preciso.\n'

Analisando os resultados, o stemming ajudou a deixar as palavras mais simples, mas às vezes cortou demais, como "maravilh", "trânsit" e "coment", que ficam difíceis de entender.
Já a lematização conseguiu deixar as palavras parecidas com o jeito correto de escrever, facilitando muito a leitura e o entendimento.
Por exemplo, "ganh" virou "ganhar" e "coment" virou "comentário", mantendo o sentido original.
Por isso, a lematização é melhor quando a gente precisa entender bem o texto, como em análise de sentimentos ou classificação.
O stemming pode ser útil em tarefas mais rápidas, tipo buscas ou agrupamentos, onde não precisa ser tão preciso.

TAREFAS:

1. Pré-processamento básico de texto

- Converter todo texto para letras minúsculas.

- Remover pontuações, símbolos (ex.: vírgulas, pontos, exclamações).

- Fazer tokenização simples dividindo o texto em palavras usando .split().

2. Remover stopwords usando a biblioteca NLTK e a Spacy e comparar.

3. Criar uma coluna nova com o texto pré-processado.

4. Realizar a lemmatização e o Stemming e ver qual foi melhor, segundo o seu ponto de vista.