
# Preparação e Análise de Texto em **Python** com *pandas* e *NLTK*

Neste tutorial faremos uma rápida introdução em **Python** sobre a **preparação** de dados textuais para **análise**. Nosso objetivo é saber transformar e identificar padrões em textos para que possamos organizar e preparar uma coleção de documentos para análise após a coleta via raspagem de dados e/ou após a extração a partir de documentos de imagem/pdf.

Com as bibliotecas de strings do Python (via `re` e utilitários como `unidecode`) aprenderemos a fazer manipulações simples nos conjuntos de dados, como buscas com **expressões regulares**, remoção de caracteres, transformação em **maiúsculas/minúsculas**, remoção de **espaços extras** etc.

A seguir, utilizaremos `pandas` (data frames) e funções de tokenização do `nltk` para organizar um **corpus** em formato “*tidy*” (uma linha por token) e tornar a manipulação das informações relativamente simples.



> Referências úteis (em espírito semelhante às do tutorial original):  
> - Documentação `re` (regex): https://docs.python.org/pt-br/3/library/re.html  
> - NLTK Book: https://www.nltk.org/book/  
> - pandas: https://pandas.pydata.org/docs/



---

## Preparação para o tutorial: pacotes e objeto *corpus*
Vamos utilizar os seguintes pacotes:

* **pandas**: manipulação de dados em data frames.
* **regex (`re`)**: buscas e transformações com expressões regulares.
* **unidecode**: remoção de acentos.
* **nltk**: tokenização e stopwords (português e inglês).
* **matplotlib**: gráficos (barras de frequências).


In [None]:

# Se necessário, instale os pacotes (descomente se estiver em um ambiente local):
# !pip install pandas unidecode nltk matplotlib

import pandas as pd
import re
from unidecode import unidecode
import matplotlib.pyplot as plt

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
from nltk.util import ngrams

# Download de recursos do NLTK (somente na primeira vez)
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)



**O que está acontecendo acima?**  
Carregamos as bibliotecas e, no `NLTK`, baixamos recursos necessários (`stopwords` e `punkt`) — semelhante a preparar o ambiente no R com `library(...)`.



Vamos agora carregar os textos que analisaremos. Há no curso um [tutorial sobre como criar um corpus a partir dos PDFs de proposições legislativas em Python](https://github.com/leobarone/cebrap-lab-ia-r-python/blob/main/tutorial/tutorial-proposicoes-legislativas-python.ipynb) sobre como criar um corpus a partir de PDFs de proposições legislativas. 

**Corpus**, no contexto da análise de dados, é o conjunto de documentos textuais. Em Python, vamos representá-lo como um `DataFrame` com, no mínimo, duas colunas: `id` e `texto`. Pode conter também metadados (autoria, data etc.).

O *corpus* que vamos utilizar neste tutorial pode ser carregado diretamente de `data/corpus_docs.csv` (mesmo caminho citado no material do curso).


In [None]:

url_corpus = "https://raw.githubusercontent.com/leobarone/cebrap-lab-ia-r-python/main/tutorial/data/corpus_docs.csv"
corpus_docs = pd.read_csv(url_corpus, sep=";", encoding="utf-8")
corpus_docs = corpus_docs.rename(columns={"text": "texto"})
corpus_docs.head()



**Por que isso?**  
Lemos o CSV hospedado no GitHub (formato *raw*), ajustando o separador `;` (equivalente ao `read_csv2` do R) e renomeamos a coluna `text` para `texto` para manter consistência com o restante do tutorial.


In [None]:

corpus_docs['texto'].iloc[0][:1000]



**Inspeção rápida**  
Mostramos os primeiros 1000 caracteres do primeiro documento — útil para verificar ruídos vindos de OCR/PDF antes da limpeza.



---

## Limpeza e preparação de textos (equivalentes em Python)



### Remover acentos
Aplicamos uma função simples com `unidecode` para converter caracteres acentuados em ASCII, tal como a função `remove_acentos()` em R via `iconv(...)`.


In [None]:

def remove_acentos(s: str) -> str:
    return unidecode(s) if isinstance(s, str) else s

corpus_docs['texto'] = corpus_docs['texto'].apply(remove_acentos)
corpus_docs['texto'].iloc[0][:1000]



**Resultado esperado**  
Os acentos (e.g., `ação` → `acao`) e cedilhas (`ç` → `c`) são removidos, uniformizando o texto para buscas e contagens.



### Padronizar minúsculas/maiúsculas
Transformamos tudo em **minúsculas** (equivalente a `str_to_lower`), reduzindo variações artificiais entre termos.


In [None]:

corpus_docs['texto'] = corpus_docs['texto'].str.lower()
corpus_docs['texto'].iloc[0][:1000]



**Por que minúsculas?**  
Evita que `Lei`, `lei` e `LEI` sejam tratados como palavras distintas na análise de frequência e n-gramas.



### Remover pontuação (regex)
Usamos `str.replace` com expressão regular para remover tudo que **não** é palavra (`\w`) nem espaço. É o análogo do `str_remove_all(texto, '[:punct:]')`.


In [None]:

# Fallback para ambientes sem suporte a classes unicode: remove tudo que não for \w ou espaço
corpus_docs['texto'] = corpus_docs['texto'].str.replace(r'[^\w\s]', ' ', regex=True)
corpus_docs['texto'].iloc[0][:1000]



**Dica**  
Dependendo do corpus, você pode preservar dígitos (`\d`) ou hífens, ajustando a regex ao seu caso.



### Normalização de espaços (equivalente ao `str_squish`)
Compactamos **múltiplos espaços** em um só e removemos espaços nas extremidades (começo/fim).


In [None]:

corpus_docs['texto'] = (corpus_docs['texto']
                        .str.replace(r'\s+', ' ', regex=True)
                        .str.strip())
corpus_docs['texto'].iloc[0][:1000]



**Quando usar**  
Após remoções com regex, sobram lacunas de espaço. Esta etapa consolida o texto para tokenizações mais limpas.



Vejamos como ficaram os primeiros mil caracteres do primeiro texto depois de modificado:


In [None]:

primeiro_texto = corpus_docs['texto'].iloc[0]
primeiro_texto[:1000]



**Checagem**  
Útil para validar se a sequência de limpeza atingiu o efeito esperado antes de seguir para as métricas e tokens.



---

## Medidas simples e detecção de padrões
**Qual dos textos do nosso *corpus* é o mais longo?** Vamos criar uma variável de **tamanho** (em caracteres):


In [None]:

corpus_docs['tamanho'] = corpus_docs['texto'].str.len()
corpus_docs.sort_values('tamanho', ascending=False).head()



**Interpretação**  
A coluna `tamanho` nos permite identificar rapidamente documentos extensos (que podem exigir tratamento especial ou amostragem).



**Identificar padrões** (“jornada de trabalho”, “meio ambiente”) com operações vetorizadas:


In [None]:

padrao_jornada = corpus_docs['texto'].str.contains('jornada de trabalho', regex=False)
padrao_meioamb = corpus_docs['texto'].str.contains('meio ambiente', regex=False)

indices_jornada = padrao_jornada[padrao_jornada].index.tolist()
indices_meioamb = padrao_meioamb[padrao_meioamb].index.tolist()

subset_jornada = corpus_docs.loc[padrao_jornada, 'texto']
subset_meioamb = corpus_docs.loc[padrao_meioamb, 'texto']

padrao_jornada, indices_jornada, subset_jornada.head(3)



**Equivalências ao R**  
`str.contains` ≈ `str_detect`; índices via `.index.tolist()` ≈ `str_which`; subconjuntos obtidos por máscara booleana ≈ `str_subset`.



**Marcar no DataFrame** (em vez de filtrar): criar colunas lógicas e de **contagem** de ocorrências:


In [None]:

corpus_docs = corpus_docs.assign(
    tem_jornada = corpus_docs['texto'].str.contains('jornada de trabalho', regex=False),
    tem_meioamb = corpus_docs['texto'].str.contains('meio ambiente', regex=False),
    n_jornada   = corpus_docs['texto'].str.count('jornada de trabalho'),
    n_meioamb   = corpus_docs['texto'].str.count('meio ambiente')
)
corpus_docs.head()



**Uso prático**  
Essas colunas permitem filtros analíticos (e.g., documentos com `tem_meioamb == True`) e análises de intensidade (`n_jornada`, `n_meioamb`). 



---

## Tidy text: tokens, stopwords e frequências

Agora vamos organizar o texto em **formato *tidy***: cada linha corresponde a um **token** (palavra, bigram, trigram…). Começaremos por **palavras**.

> A ideia central: transformar a coluna `texto` em muitos registros, um por token, preservando a ligação com `id`.



### Tokenização em palavras
Usaremos o **padrão do NLTK** com `RegexpTokenizer(r"\w+")`, que ignora pontuação e é robusto para português.


In [None]:

rtok = RegexpTokenizer(r"\w+")
tokens = (
    corpus_docs[["id","texto"]]
    .assign(word=lambda df: df["texto"].apply(lambda s: rtok.tokenize(s) if isinstance(s, str) else []))
    .explode("word")
    .dropna()
)

# Remove strings vazias e tokens de 1 caractere
tokens = tokens.loc[tokens["word"].str.len() > 1].copy()
tokens.head()



**Observação**  
A coluna `id` é preservada; `texto` se transforma em `word`. Esse formato *tidy* simplifica contagens e junções com metadados.



### Stopwords (pt e en) e filtro por tamanho
Removeremos palavras muito comuns (pouco informativas) com as listas do NLTK e manteremos tokens com 2+ caracteres.


In [None]:

stops = set(stopwords.words('portuguese'))
tokens = tokens.loc[~tokens['word'].isin(stops)].copy()
tokens = tokens.loc[tokens['word'].str.len() > 1].copy()
tokens.head()



**Por que filtrar?**  
Isso reduz ruído e foca em termos mais descritivos do conteúdo (nomes, substantivos compostos etc.).



### Frequência de palavras
Calcularemos a contagem global de tokens e inspecionaremos os principais termos.


In [None]:

freq = tokens['word'].value_counts().reset_index()
freq.columns = ['word','n']
freq.head(10)



**Leitura**  
A tabela exibe os tokens mais frequentes após limpeza e remoção de stopwords.



### Gráfico de barras dos termos mais frequentes
Visualizaremos os *top-N* termos. Ajuste `top_n` conforme o tamanho do corpus.


In [None]:

top_n = 20  # ajuste conforme seu corpus
top = freq.head(top_n).iloc[::-1]  # invertido para plot vertical agradável

plt.figure(figsize=(8, 6))
plt.barh(top['word'], top['n'])
plt.xlabel('Frequência')
plt.ylabel('Palavra')
plt.title('Termos mais frequentes')
plt.show()



**Dica visual**  
Barras horizontais facilitam a leitura de rótulos longos; experimente diferentes `top_n` e filtros temáticos.



---

## Bigrams e n-grams

**Bigrams (pares de palavras)** por documento e contagens globais, agora com `nltk.util.ngrams` usando o mesmo tokenizador e stopwords.


In [None]:

def doc_ngrams(texto: str, n: int = 2):
    if not isinstance(texto, str):
        return []
    toks = rtok.tokenize(texto)
    toks = [t for t in toks if (t not in stops and len(t) > 1)]
    return list(ngrams(toks, n))

# Gera bigrams por doc e "explode"
bigrams_df = (
    corpus_docs[["id","texto"]]
    .assign(bigrams=lambda df: df["texto"].apply(lambda s: doc_ngrams(s, n=2)))
    .explode("bigrams")
    .dropna()
)

bigrams_df[["word1","word2"]] = pd.DataFrame(bigrams_df["bigrams"].tolist(), index=bigrams_df.index)

bigram_freq = (
    bigrams_df
    .groupby(["word1","word2"])  
    .size()
    .reset_index(name="n")
    .sort_values("n", ascending=False)
)
bigram_freq.head(10)



**Por que bigrams?**  
Capturam **coocorrências** (e.g., “meio ambiente”) que se perdem na análise de palavras isoladas.



Exemplos de consultas: palavras que antecedem **“trabalho”** e que sucedem **“ambiente”**.


In [None]:

antecedem_trabalho = (
    bigram_freq[bigram_freq['word2']=='trabalho']
    .sort_values('n', ascending=False)
    .head(10)
)
sucedem_ambiente = (
    bigram_freq[bigram_freq['word1']=='ambiente']
    .sort_values('n', ascending=False)
    .head(10)
)

antecedem_trabalho, sucedem_ambiente



**Leitura rápida**  
Essas tabelas mostram os contextos mais comuns imediatamente antes/depois dos termos de interesse.



### Trigrams (3-palavras)
Aplicamos a mesma lógica para sequências de três palavras.


In [None]:

trigrams_df = (
    corpus_docs[["id","texto"]]
    .assign(trigrams=lambda df: df["texto"].apply(lambda s: doc_ngrams(s, n=3)))
    .explode("trigrams")
    .dropna()
)

trigrams_df[["word1","word2","word3"]] = pd.DataFrame(trigrams_df["trigrams"].tolist(), index=trigrams_df.index)

trigram_freq = (
    trigrams_df
    .groupby(["word1","word2","word3"])  
    .size()
    .reset_index(name="n")
    .sort_values("n", ascending=False)
)
trigram_freq.head(10)



**Quando usar**  
Trigrams ajudam a capturar expressões mais estáveis (e.g., “projeto de lei complementar”), úteis para análise temática.
