# üìì Notebook: Pipeline e Pr√©-processamento em PLN (Aula 1)

## 1\. Introdu√ß√£o ao Processamento de Linguagem Natural (PLN)

O Processamento de Linguagem Natural (PLN), ou Natural Language Processing (NLP), √© um campo de estudo fundamental na intersec√ß√£o entre a ci√™ncia da computa√ß√£o, a intelig√™ncia artificial e a lingu√≠stica. Seu foco √© fazer com que os computadores processem, "entendam" e alavanquem dados de linguagem humana.

O estudo do PLN √© motivado pelo imenso volume de dados de linguagem gerados diariamente, sendo a maior parte deles textuais. O ponto central da computa√ß√£o √© auxiliar os seres humanos; portanto, o PLN √© um passo obrigat√≥rio para que os computadores auxiliem significativamente nossas vidas, entendendo a forma como nos comunicamos.

Os dois pilares do PLN s√£o:

  * **Representa√ß√£o:** Focada em converter o significado simb√≥lico da linguagem (palavras, fala, sinais) em uma forma que o computador possa entender, geralmente dados num√©ricos, como vetores densos (embeddings).
  * **Modelagem:** Envolve o uso dessas representa√ß√µes num√©ricas para executar tarefas de linguagem, o que hoje √© dominado por Redes Neurais Profundas.

## 2\. Configura√ß√£o do Ambiente e Pipeline Gen√©rica

Antes de iniciar qualquer tarefa de PLN, definimos a pipeline gen√©rica, que √© conceitualmente dividida em fases distintas:

1.  Aquisi√ß√£o de Dados
2.  Limpeza (Text Cleaning)
3.  Pr√©-processamento
4.  Feature Engineering (Representa√ß√£o de Texto)
5.  Modelagem
6.  Avalia√ß√£o

Neste Notebook, focaremos nas etapas 2 e 3: **Limpeza** e **Pr√©-processamento**.

In [2]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.9.2-py3-none-any.whl.metadata (3.2 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2025.10.23-cp312-cp312-macosx_11_0_arm64.whl.metadata (40 kB)
Downloading nltk-3.9.2-py3-none-any.whl (1.5 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.5/1.5 MB[0m [31m444.4 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading regex-2025.10.23-cp312-cp312-macosx_11_0_arm64.whl (288 kB)
Installing collected packages: regex, nltk
Successfully installed nltk-3.9.2 regex-2025.10.23


In [3]:
import re
import nltk # Usado para muitas tarefas de PLN, como tokeniza√ß√£o e stemming
from nltk.corpus import stopwords
# No ambiente real, usar√≠amos ferramentas como Spark NLP para pipelines complexas

# Importa√ß√µes comuns para tarefas de pr√©-processamento

# Simula√ß√£o de dados de texto que geralmente √© o ponto de partida
texto_bruto = """
<doc>
  <title>AULA 1 - Exemplo de PLN</title>
  <text>
    O PLN √© uma √É¬°rea cr√Ética! H√É¬° muitos dados textuais (e.g., TwEETS, coment√É¬°rios).
    A tokeniza√É¬ß√É¬£o (tokenizer) √É¬© a primeira etapa. N√É¬£o se esque√É¬ßa de Lematiza√É¬ß√É¬£o.
    √â F√ÅCIL SOBREAJUSTAR O MODELO (overfitting).
  </text>
</doc>
"""



# ----------------------------------------------------
# 1. Etapa de Aquisi√ß√£o de Dados
# Em projetos reais, envolve a coleta de datasets p√∫blicos ou rotulados.
# Aqui, usamos uma string de exemplo que simula dados "sujos" extra√≠dos (scraped data).
print("Texto Bruto Adquirido:\n", texto_bruto)

Texto Bruto Adquirido:
 
<doc>
  <title>AULA 1 - Exemplo de PLN</title>
  <text>
    O PLN √© uma √É¬°rea cr√Ética! H√É¬° muitos dados textuais (e.g., TwEETS, coment√É¬°rios).
    A tokeniza√É¬ß√É¬£o (tokenizer) √É¬© a primeira etapa. N√É¬£o se esque√É¬ßa de Lematiza√É¬ß√É¬£o.
    √â F√ÅCIL SOBREAJUSTAR O MODELO (overfitting).
  </text>
</doc>



## 3\. Etapa de Limpeza de Texto (Text Cleaning)

A Limpeza de Texto √© cr√≠tica, pois afeta todas as fases subsequentes da pipeline. O foco √© a extra√ß√£o do texto bruto e a remo√ß√£o de informa√ß√µes n√£o textuais.

Exemplos de tarefas de limpeza incluem:

  * Remo√ß√£o de marca√ß√µes HTML/XML, metadados e artefatos de raspagem.
  * Normaliza√ß√£o de Unicode e corre√ß√£o ortogr√°fica (crucial para dados de m√≠dias sociais).

<!-- end list -->

In [6]:
# 2. Etapa de Limpeza (Text Cleaning)

# 2.1 Remo√ß√£o de Marca√ß√µes e Metadados
# Remove tags XML/HTML.
texto_limpo = re.sub(r'<[^>]+>', '', texto_bruto)
texto_limpo = texto_limpo.strip()

# 2.2 Normaliza√ß√£o de Unicode (Exemplo simples: substitui√ß√£o de acentos codificados incorretamente)
# No exemplo, corrigimos codifica√ß√µes erradas comuns (√É¬° -> √°, √É¬ß -> √ß)
texto_normalizado = texto_limpo.replace("√É¬°", "√°").replace("√É¬£", "√£").replace("√É¬©", "√©").replace("√É¬ß", "√ß").replace("√É", "√≠")

print("Texto ap√≥s Limpeza e Normaliza√ß√£o de Unicode:\n", texto_normalizado)

Texto ap√≥s Limpeza e Normaliza√ß√£o de Unicode:
 AULA 1 - Exemplo de PLN
  
    O PLN √© uma √°rea cr√≠tica! H√° muitos dados textuais (e.g., TwEETS, coment√°rios).
    A tokeniza√ß√£o (tokenizer) √© a primeira etapa. N√£o se esque√ßa de Lematiza√ß√£o.
    √â F√ÅCIL SOBREAJUSTAR O MODELO (overfitting).


## 4\. Etapa de Pr√©-processamento: Tokeniza√ß√£o e Segmenta√ß√£o

Ap√≥s a limpeza, o Pr√©-processamento converte o texto em uma forma can√¥nica e estruturalmente utiliz√°vel, pois o software de PLN opera no n√≠vel de senten√ßa e palavra.

### 4.1 Tokeniza√ß√£o

A Tokeniza√ß√£o √© uma das t√©cnicas mais fundamentais e a primeira etapa crucial do pr√©-processamento. Consiste em dividir uma string de caracteres em peda√ßos menores, geralmente palavras, chamadas **tokens**. O PLN geralmente opera no n√≠vel de palavra, pois √© a menor unidade de significado conveniente.

Embora em ingl√™s um tokenizer simples possa usar espa√ßos em branco, o processo √© afetado pelo sistema de escrita da linguagem e deve lidar com complexidades como pontua√ß√µes e abrevia√ß√µes (e.g., dividindo "NLP." em "NLP" e ".").

In [7]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/rooneycoelho/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [8]:
# 3. Etapa de Pr√©-processamento

# A Segmenta√ß√£o de Senten√ßa (Sentence Segmentation) √© um preliminar essencial.
# Usamos o NLTK para simular o processo.

# Download dos recursos necess√°rios do NLTK (para tokeniza√ß√£o)
# nltk.download('punkt')

from nltk.tokenize import sent_tokenize
# Nota: Para este exemplo, simplificaremos, mas sent_tokenize() realiza a separa√ß√£o de frases.

# Tokeniza√ß√£o de Palavras (Word Tokenization)
from nltk.tokenize import word_tokenize

# Tratamento do texto para Tokeniza√ß√£o (remo√ß√£o de quebras de linha/espa√ßos excessivos)
texto_para_tokenizar = re.sub(r'\s+', ' ', texto_normalizado)
tokens = word_tokenize(texto_para_tokenizar)

print(f"N√∫mero total de tokens: {len(tokens)}")
print("\nTokens (unidades at√¥micas de significado):\n", tokens)

N√∫mero total de tokens: 50

Tokens (unidades at√¥micas de significado):
 ['AULA', '1', '-', 'Exemplo', 'de', 'PLN', 'O', 'PLN', '√©', 'uma', '√°rea', 'cr√≠tica', '!', 'H√°', 'muitos', 'dados', 'textuais', '(', 'e.g.', ',', 'TwEETS', ',', 'coment√°rios', ')', '.', 'A', 'tokeniza√ß√£o', '(', 'tokenizer', ')', '√©', 'a', 'primeira', 'etapa', '.', 'N√£o', 'se', 'esque√ßa', 'de', 'Lematiza√ß√£o', '.', '√â', 'F√ÅCIL', 'SOBREAJUSTAR', 'O', 'MODELO', '(', 'overfitting', ')', '.']


## 5\. Etapa de Pr√©-processamento: Redu√ß√£o de Vocabul√°rio e Normaliza√ß√£o

O Pr√©-processamento tamb√©m inclui a **Redu√ß√£o de Vocabul√°rio**, visando agrupar formas flexionadas da mesma palavra em uma √∫nica forma can√¥nica, al√©m de outras pr√°ticas de normaliza√ß√£o.

### 5.1 Redu√ß√£o de Vocabul√°rio: Stemming e Lematiza√ß√£o

Reduzir o vocabul√°rio √© essencial para evitar que o modelo trate varia√ß√µes de uma mesma palavra (como "estudar", "estudando", "estudante") como entidades distintas, o que pode levar ao sobreajuste (overfitting).

| T√©cnica | Objetivo |
| :--- | :--- |
| **Stemming** | Remove afixos gramaticais (sufixos/prefixos), frequentemente resultando em uma "raiz" que pode n√£o ser uma palavra real (e.g., *organi* de organiza√ß√£o). |
| **Lematiza√ß√£o** | Reduz a palavra √† sua forma de dicion√°rio (lema), que √© uma palavra v√°lida (e.g., *organiza√ß√£o* para organiza√ß√£o ou *correr* para correndo). |

Geralmente, a lematiza√ß√£o √© mais sofisticada, pois utiliza informa√ß√µes de contexto (POS tagging) para garantir que a palavra base seja morfologicamente correta.

In [10]:
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     /Users/rooneycoelho/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [None]:
!pip install spacy

In [18]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m13.0/13.0 MB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [19]:
import spacy

nlp = spacy.load("pt_core_news_sm")

In [20]:
# Simula√ß√£o de Redu√ß√£o de Vocabul√°rio usando NLTK (para fins did√°ticos)

# Exemplo de Lowercasing (Convers√£o para min√∫sculas)
# Converter todo o texto para min√∫sculas √© uma boa pr√°tica de normaliza√ß√£o,
# pois em muitos casos, o caso n√£o √© relevante para o problema (e.g., classifica√ß√£o de not√≠cias).
tokens_lower = [t.lower() for t in tokens]
print("Tokens em min√∫sculas (Lowercasing):\n", tokens_lower)

# Exemplo de Stemming (usando RSLP Stemmer para Portugu√™s, se dispon√≠vel, ou uma simula√ß√£o)
# Como nossos tokens est√£o em Portugu√™s e o ambiente PySpark/SparkNLP √© frequentemente preferido,
# usamos a implementa√ß√£o de conceitos.
# Exemplo te√≥rico de Stemming:
# from nltk.stem import PorterStemmer # Para Ingl√™s
# stemmer = PorterStemmer()
# stems = [stemmer.stem(t) for t in tokens_lower]
# print("\nExemplo de Stems (ingl√™s, apenas demonstra√ß√£o):", stems)

lemma = [t.lemma_ for t in nlp(" ".join(tokens_lower))]
print("\nLemas (Portugu√™s):\n", lemma)

stemmer = nltk.stem.RSLPStemmer()
stems = [stemmer.stem(t) for t in tokens_lower]
print("\nTokens ap√≥s Stemming (Portugu√™s):\n", stems)

# Exemplo de Lematiza√ß√£o (conceitual)
# LemmatizationModel.pretrained() √© frequentemente usado em bibliotecas profissionais (e.g., Spark NLP).
print("\nNota: Lematiza√ß√£o seria aplicada aqui para obter a forma de dicion√°rio (lema).")

Tokens em min√∫sculas (Lowercasing):
 ['aula', '1', '-', 'exemplo', 'de', 'pln', 'o', 'pln', '√©', 'uma', '√°rea', 'cr√≠tica', '!', 'h√°', 'muitos', 'dados', 'textuais', '(', 'e.g.', ',', 'tweets', ',', 'coment√°rios', ')', '.', 'a', 'tokeniza√ß√£o', '(', 'tokenizer', ')', '√©', 'a', 'primeira', 'etapa', '.', 'n√£o', 'se', 'esque√ßa', 'de', 'lematiza√ß√£o', '.', '√©', 'f√°cil', 'sobreajustar', 'o', 'modelo', '(', 'overfitting', ')', '.']

Lemas (Portugu√™s):
 ['aular', '1', '-', 'exemplo', 'de', 'pln', 'o', 'pln', 'ser', 'um', '√°rea', 'cr√≠tico', '!', 'haver', 'muito', 'dado', 'textual', '(', 'e.g.', ',', 'tweet', ',', 'coment√°rio', ')', '.', 'o', 'tokeniza√ß√£o', '(', 'tokenizer', ')', 'ser', 'o', 'primeiro', 'etapa', '.', 'n√£o', 'se', 'esquecer', 'de', 'lematiza√ß√£o', '.', 'ser', 'f√°cil', 'sobreajustar', 'o', 'modelo', '(', 'overfitting', ')', '.']

Tokens ap√≥s Stemming (Portugu√™s):
 ['aul', '1', '-', 'exempl', 'de', 'pln', 'o', 'pln', '√©', 'uma', '√°re', 'cr√≠t', '!', 'h√°',

### 5.2 Normaliza√ß√£o Adicional: Stop Words

Outra pr√°tica essencial de normaliza√ß√£o √© a **Remo√ß√£o de Stop Words**, que s√£o palavras muito frequentes que n√£o carregam significado de conte√∫do √∫til para o problema (e.g., "a", "an", "o", "de", "em").

In [21]:
# Defini√ß√£o de Stop Words (exemplo simulado)

# (Em um Colab real, voc√™ precisaria baixar o corpus de stopwords)
# nltk.download('stopwords')

stop_words_list = ['a', 'o', '√©', 'e', 'de', 'do', 'da', 'uma', 'um'] # Exemplo simples

# Remo√ß√£o de Stop Words
# Usamos .isalnum() para remover tamb√©m pontua√ß√µes que foram tokenizadas (como '!' e '.')
tokens_filtrados = [word for word in tokens_lower if word not in stop_words_list and word.isalnum()]

print("Tokens ap√≥s remo√ß√£o de Stop Words:\n", tokens_filtrados)

# Demonstra√ß√£o de Corpus de Stop Words em Ingl√™s, frequentemente usado em PLN:
# stop_words_en = stopwords.words('english')
# print(f"\nN√∫mero de Stop Words em Ingl√™s (NLTK): {len(stop_words_en)}")

Tokens ap√≥s remo√ß√£o de Stop Words:
 ['aula', '1', 'exemplo', 'pln', 'pln', '√°rea', 'cr√≠tica', 'h√°', 'muitos', 'dados', 'textuais', 'tweets', 'coment√°rios', 'tokeniza√ß√£o', 'tokenizer', 'primeira', 'etapa', 'n√£o', 'se', 'esque√ßa', 'lematiza√ß√£o', 'f√°cil', 'sobreajustar', 'modelo', 'overfitting']


## 7\. Conclus√£o

O pipeline de pr√©-processamento (Limpeza, Tokeniza√ß√£o, Normaliza√ß√£o e Redu√ß√£o de Vocabul√°rio) √© essencial para preparar o texto para a modelagem. Uma vez que o texto √© transformado em vetores (Representa√ß√µes Discretas como BoW ou TF-IDF), podemos alimentar algoritmos cl√°ssicos de Machine Learning, como o Classificador Naive Bayes, que √© frequentemente usado como modelo baseline (linha de base) em classifica√ß√£o de texto devido √† sua rapidez e robustez.

O Naive Bayes, contudo, baseia-se na suposi√ß√£o ing√™nua de que todas as palavras no documento s√£o mutuamente independentes e que a ordem das palavras n√£o importa, o que √© uma limita√ß√£o crucial. Isso motiva a pr√≥xima aula a explorar representa√ß√µes mais densas e ricas em contexto, como os Word Embeddings (Word2vec, GloVe), que capturam melhor o significado sem√¢ntico.