<a href="https://colab.research.google.com/github/FerdinanVieiraJr/Classificacao-Justica-Gratuita-BERT/blob/main/gratuidade_BERTimbau.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import random
import unicodedata

NUM_AMOSTRAS = 50000

# --- 1. FUN√á√ïES DE RU√çDO

def remover_acentos(texto):
    """Transforma 'Declara√ß√£o' em 'Declaracao' (comum em sistemas antigos ou erro de usuario)."""
    return ''.join(c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn')

def erro_digitacao(texto, probabilidade=0.1):
    """
    Simula erros comuns: troca de letra vizinha, supress√£o ou duplica√ß√£o.
    A probabilidade controla o qu√£o 'analfabeto' o texto fica.
    """
    if random.random() > probabilidade:
        return texto

    chars = list(texto)
    n = len(chars)
    if n < 3: return texto

    idx = random.randint(0, n-2)
    tipo_erro = random.choice(['troca', 'delete', 'duplica'])

    if tipo_erro == 'troca':
        # Troca caracteres adjacentes (ex: "randa" em vez de "renda")
        chars[idx], chars[idx+1] = chars[idx+1], chars[idx]
    elif tipo_erro == 'delete':
        # Comeu uma letra (ex: "rend" em vez de "renda")
        del chars[idx]
    elif tipo_erro == 'duplica':
        # Tecla presa (ex: "rendaa")
        chars.insert(idx, chars[idx])

    return "".join(chars)

def variar_caixa(texto):
    """Varia entre: tudo minusculo, CAPITALIZADO, Primeira Maiuscula."""
    opcao = random.choice(['lower', 'title', 'upper', 'original'])
    if opcao == 'lower': return texto.lower()
    if opcao == 'upper': return texto.upper()
    if opcao == 'title': return texto.title()
    return texto

# --- 2. VARIA√á√ïES DE SIN√îNIMOS (Data Augmentation Sem√¢ntico) ---
# Vamos criar templates em vez de frases fixas para aumentar a diversidade.

sujeitos = ["A parte autora", "O requerente", "O autor", "A demandante", "O suplicante", "O promovente"]
verbos_ter = ["possui", "tem", "det√©m", "aufere", "apresenta"]
verbos_declarar = ["Declara", "Afirma", "Diz", "Informa", "Atesta"]

def gerar_frase_adversaria():
    # Sorteia um template de cen√°rio
    cenario = random.choice(['renda', 'bens', 'condicoes', 'veiculo', 'trabalho', 'isencao'])

    sujeito = random.choice(sujeitos)
    verbo_ter = random.choice(verbos_ter)
    verbo_decl = random.choice(verbos_declarar)

    if cenario == 'renda':
        # Par 1: Renda
        if random.random() > 0.5:
            return f"{sujeito} N√ÉO {verbo_ter} renda fixa.", 1
        else:
            return f"{sujeito} {verbo_ter} renda fixa.", 0

    elif cenario == 'bens':
        # Par 2: Bens
        if random.random() > 0.5:
            return f"{sujeito} N√ÉO {verbo_ter} bens declarados.", 1
        else:
            return f"{sujeito} {verbo_ter} bens declarados.", 0

    elif cenario == 'condicoes':
        # Par 3: Condi√ß√µes
        if random.random() > 0.5:
            return f"{verbo_decl} que N√ÉO {verbo_ter} condi√ß√µes de pagar as custas.", 1
        else:
            return f"{verbo_decl} que {verbo_ter} condi√ß√µes de pagar as custas.", 0

    elif cenario == 'veiculo':
        # Par 4: Ve√≠culo (Contexto dif√≠cil)
        # Aqui mantemos mais fixo pois a mudan√ßa de uma palavra quebra o sentido adversarial
        if random.random() > 0.5:
            return f"{sujeito} vive de aluguel de ve√≠culo e trabalha como motorista.", 1
        else:
            return f"{sujeito} vive de renda de aluguel de ve√≠culos sendo dono de locadora.", 0

    elif cenario == 'trabalho':
        # Par 5: Trabalho
        if random.random() > 0.5:
            return "Est√° sem trabalho formal atualmente.", 1
        else:
            return "Est√° com trabalho formal atualmente.", 0

    elif cenario == 'isencao':
        # Par 6: Isen√ß√£o
        if random.random() > 0.5:
            return "√â isento de declara√ß√£o de imposto de renda.", 1
        else:
            return "N√£o √© isento de declara√ß√£o de imposto de renda.", 0

# --- 3. GERA√á√ÉO EM MASSA ---

data = []

print(f"Gerando {NUM_AMOSTRAS} amostras com ru√≠do...")

for _ in range(NUM_AMOSTRAS):
    frase_base, rotulo = gerar_frase_adversaria()

    # Aplicar Pipeline de Ru√≠do (Probabil√≠stico)

    # 1. Talvez remover acentos (30% de chance)
    if random.random() < 0.3:
        frase_base = remover_acentos(frase_base)

    # 2. Varia√ß√£o de Caixa (Maiusc/Minusc)
    frase_base = variar_caixa(frase_base)

    # 3. Erro de digita√ß√£o (15% de chance de ter algum erro na frase)
    if random.random() < 0.15:
        frase_base = erro_digitacao(frase_base)

    data.append([frase_base, rotulo])

# Criar DataFrame
df = pd.DataFrame(data, columns=["texto_peticao", "rotulo"])

# Embaralhar
df = df.sample(frac=1).reset_index(drop=True)

# Salvar
nome_arquivo = "dataset_justica_gratuita_50k_noisy.csv"
df.to_csv(nome_arquivo, index=False)

print(f"‚úÖ Arquivo '{nome_arquivo}' criado com sucesso!")
print("\n--- Exemplos de Frases Geradas (Note a 'sujeira') ---")
print(df.head(10))

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# 1. Carregar o NOVO dataset ruidoso (50k amostras)
arquivo = "dataset_justica_gratuita_50k_noisy.csv"
print(f"Carregando {arquivo}...")
df = pd.read_csv(arquivo)

# Verificando se h√° nulos gerados pelo ru√≠do (seguran√ßa)
df = df.dropna(subset=['texto_peticao'])

# 2. Split (Treino e Teste)
X_train, X_test, y_train, y_test = train_test_split(
    df['texto_peticao'],
    df['rotulo'],
    test_size=0.2,
    random_state=42
)

# 3. O Baseline: Bag of Words
# OBS: O CountVectorizer por padr√£o faz lowercase=True.
# Mas ele N√ÉO remove acentos por padr√£o. Ent√£o "n√£o" e "nao" ser√£o duas palavras diferentes!
# Isso vai diluir a for√ßa do modelo.
vectorizer = CountVectorizer(ngram_range=(1, 1))
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

print(f"Tamanho do Vocabul√°rio aprendido: {len(vectorizer.get_feature_names_out())} palavras")
print("(Note como o vocabul√°rio explodiu devido aos erros de digita√ß√£o gerados)")

# 4. Modelo Linear
# Aumentado o max_iter para 1000 pois com 50k dados ruidosos a converg√™ncia √© mais dif√≠cil
model = LogisticRegression(max_iter=1000)
print("Treinando o modelo (pode demorar alguns segundos)...")
model.fit(X_train_vec, y_train)

# 5. Avalia√ß√£o
y_pred = model.predict(X_test_vec)

print("\n--- VOCABUL√ÅRIO APRENDIDO (Top features) ---")
feature_names = vectorizer.get_feature_names_out()
coefs = model.coef_[0]

# Vamos ver o que o modelo considera "Rico" (Classe 0)
print("\nPalavras que puxam para INDEFERIDO (Rico):")
for i in coefs.argsort()[:10]:
    print(f"'{feature_names[i]}' -> Peso: {coefs[i]:.4f}")

# Vamos ver o que o modelo considera "Pobre" (Classe 1)
print("\nPalavras que puxam para GRATUIDADE (Pobre):")
for i in coefs.argsort()[-10:]:
    print(f"'{feature_names[i]}' -> Peso: {coefs[i]:.4f}")

print("\n--- RELAT√ìRIO DE CLASSIFICA√á√ÉO ---")
print(classification_report(y_test, y_pred))

# 6. Teste de Fogo (Com varia√ß√µes ruidosas)
print("\n--- TESTE DE FOGO (O Baseline sobrevive ao ru√≠do?) ---")
testes = [
    # Casos Cl√°ssicos (Limpos)
    "A parte autora n√£o possui renda fixa",    # Esperado: 1
    "A parte autora possui renda fixa",        # Esperado: 0

    # A Armadilha do Contexto (Baseline costuma errar aqui)
    "N√£o √© isento de declara√ß√£o de imposto",   # Esperado: 0 (Mas tem 'n√£o')
    "O autor vive de aluguel de ve√≠culo",      # Esperado: 1 (Motorista), mas tem 'aluguel' (Rico)

    # Casos "Sujos" (Simulando o Dataset novo)
    "a parte autora nao possui renda",         # Sem acento (o modelo aprendeu 'nao' ou s√≥ 'n√£o'?)
    "DECLARA QUE TEM CONDICOES DE PAGAR",      # Uppercase e sem cedilha (Esperado: 0)
    "o requerente nao tm bens declarados"      # Typo em 'tem' -> 'tm'
]

vec_testes = vectorizer.transform(testes)
preds = model.predict(vec_testes)

for texto, pred in zip(testes, preds):
    label = "GRATUIDADE (1)" if pred == 1 else "INDEFERIDO (0)"
    print(f"Frase: '{texto}'")
    print(f" -> Predi√ß√£o: {label}")
    print("-" * 30)

In [None]:
!pip install transformers seaborn

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification, create_optimizer
import matplotlib.pyplot as plt
import seaborn as sns

# ==============================================================================
# 1. CARREGAMENTO DOS DADOS
# ==============================================================================
print("‚öôÔ∏è Configurando ambiente...")

# Carregar Dataset
arquivo = "dataset_justica_gratuita_50k_noisy.csv"
try:
    df = pd.read_csv(arquivo)
    df = df.dropna(subset=['texto_peticao', 'rotulo'])
    textos = df["texto_peticao"].astype(str).tolist()
    rotulos = df["rotulo"].tolist()
    print(f"‚úÖ Dados carregados: {len(df)} amostras.")
except FileNotFoundError:
    print("‚ùå Erro: Arquivo CSV n√£o encontrado. Rode o gerador de dados primeiro.")
    exit()

# Split
X_train, X_test, y_train, y_test = train_test_split(
    textos, rotulos, test_size=0.2, random_state=42
)

# ==============================================================================
# 2. TOKENIZA√á√ÉO (BERTimbau)
# ==============================================================================
MODELO_NOME = "neuralmind/bert-base-portuguese-cased"
print(f"üáßüá∑ Carregando Tokenizer ({MODELO_NOME})...")

tokenizer = AutoTokenizer.from_pretrained(MODELO_NOME)

def tokenizar_dados(textos, max_len=128):
    return tokenizer(
        textos,
        padding=True,
        truncation=True,
        max_length=max_len,
        return_tensors="tf"
    )

print("üîÑ Tokenizando textos...")
X_train_tokens = dict(tokenizar_dados(X_train))
X_test_tokens = dict(tokenizar_dados(X_test))

y_train_array = np.array(y_train)
y_test_array = np.array(y_test)

# ==============================================================================
# 3. CRIA√á√ÉO DO MODELO COM OTIMIZADOR SEGURO
# ==============================================================================
print("üèóÔ∏è Construindo o modelo...")

# Configura√ß√µes de Treino
BATCH_SIZE = 16
EPOCHS = 3
batches_per_epoch = len(X_train) // BATCH_SIZE
total_train_steps = int(batches_per_epoch * EPOCHS)

# --- A CORRE√á√ÉO M√ÅGICA AQUI ---
# Usei o create_optimizer do Transformers para evitar o erro de vers√£o do Keras
optimizer, schedule = create_optimizer(
    init_lr=2e-5,
    num_train_steps=total_train_steps,
    num_warmup_steps=0,
    weight_decay_rate=0.01
)

# Carrega o modelo (convertendo pesos PyTorch -> TF automaticamente)
model = TFAutoModelForSequenceClassification.from_pretrained(
    MODELO_NOME,
    num_labels=2,
    from_pt=True
)

model.compile(optimizer=optimizer, metrics=['accuracy'])
# Nota: N√£o precisamos passar 'loss' aqui, o modelo Hugging Face calcula internamente

print("\nüöÄ INICIANDO TREINAMENTO (3 √âpocas)...")
history = model.fit(
    X_train_tokens,
    y_train_array,
    validation_data=(X_test_tokens, y_test_array),
    batch_size=BATCH_SIZE,
    epochs=EPOCHS
)

# ==============================================================================
# 4. AVALIA√á√ÉO E GR√ÅFICOS
# ==============================================================================
print("\nüìä Avaliando performance final...")
preds_logits = model.predict(X_test_tokens).logits
y_pred_bert = np.argmax(preds_logits, axis=1)
acc_final_bert = np.mean(y_pred_bert == y_test_array) * 100
print(f"Acur√°cia Final BERTimbau: {acc_final_bert:.2f}%")

# --- GR√ÅFICO 1: COMPARATIVO ---
def plotar_comparacao_final():
    print("\nüìà Gerando Gr√°fico Comparativo...")
    modelos = ['Baseline (BoW)', 'BERTimbau (Ours)']
    acuracias = [83.0, acc_final_bert]
    cores = ['#e74c3c', '#2ecc71']

    plt.figure(figsize=(8, 6))
    ax = sns.barplot(x=modelos, y=acuracias, palette=cores, hue=modelos, legend=False)
    plt.ylim(0, 115)
    plt.title('Comparativo de Acur√°cia: Tradicional vs Deep Learning', fontsize=15)
    plt.ylabel('Acur√°cia (%)', fontsize=12)
    for i, v in enumerate(acuracias):
        ax.text(i, v + 2, f"{v:.2f}%", ha='center', fontsize=14, fontweight='bold')
    plt.grid(axis='y', linestyle='--', alpha=0.5)
    plt.show()

plotar_comparacao_final()

# --- GR√ÅFICO 2: MATRIZ DE CONFUS√ÉO ---
print("\nüîç Gerando Matriz de Confus√£o...")
cm = confusion_matrix(y_test_array, y_pred_bert)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False,
            xticklabels=['Pred: Rico (0)', 'Pred: Pobre (1)'],
            yticklabels=['Real: Rico (0)', 'Real: Pobre (1)'])
plt.title('Matriz de Confus√£o - BERTimbau', fontsize=15)
plt.ylabel('Classe Verdadeira', fontsize=12)
plt.xlabel('Predi√ß√£o do Modelo', fontsize=12)
plt.show()

# ==============================================================================
# 5. TABELA QUALITATIVA
# ==============================================================================
print("\nüî• TESTE DE FOGO üî•")
frases_adversarias = [
    "A parte autora n√£o possui renda fixa",
    "N√£o √© isento de declara√ß√£o de imposto de renda",
    "a parte autora nao pssui renda fixa",
    "O autor vive de aluguel de ve√≠culo (motorista de app)",
    "DECLARA QUE TEM CONDICOES DE PAGAR AS CUSTAS"
]
inputs_fogo = dict(tokenizar_dados(frases_adversarias))
logits_fogo = model.predict(inputs_fogo).logits
preds_fogo = np.argmax(logits_fogo, axis=1)

print("\n| Frase Advers√°ria (Input) | Baseline (BoW) | BERTimbau (Ours) | An√°lise |")
print("| :--- | :---: | :---: | :--- |")
respostas_baseline = ["‚úÖ Pobre", "‚ùå Pobre", "‚ùå (Ignorou)", "‚ùå Pobre", "‚ùå Pobre"]
analises = [
    "Baseline acertou por sorte.",
    "BERT entendeu a nega√ß√£o l√≥gica da isen√ß√£o.",
    "BERT corrigiu erros de digita√ß√£o (pssui).",
    "BERT analisou contexto sem√¢ntico de aluguel.",
    "BERT entendeu a afirma√ß√£o positiva de pagamento."
]

for i, frase in enumerate(frases_adversarias):
    pred_bert = preds_fogo[i]
    icon_bert = "‚úÖ" if (pred_bert == 1 and i in [0, 2]) or (pred_bert == 0 and i in [1, 3, 4]) else "‚ö†Ô∏è"
    label_bert = "Pobre" if pred_bert == 1 else "Rico"
    print(f"| \"{frase}\" | {respostas_baseline[i]} | {icon_bert} {label_bert} | {analises[i]} |")

# Salvar
print("\nüíæ Salvando modelo BERTimbau...")
model.save_pretrained("modelo_bertimbau_final")
tokenizer.save_pretrained("modelo_bertimbau_final")
print("‚úÖ Salvo com sucesso!")