In [1]:
!pip install openai pandas tqdm



In [None]:
import pandas as pd
import openai
from tqdm import tqdm
import time

# Inicializa o cliente da Maritaca
client = openai.OpenAI(
    api_key="INSERIR_CHAVE_API",
    base_url="https://chat.maritaca.ai/api"
)

# Carrega o CSV
caminho_arquivo = r'C:\Users\Documents\Dados-Sinteticos\Dados\dataset-petitions-legal-br.csv'
df = pd.read_csv(caminho_arquivo).reset_index(drop=True)

# Prompt builder
def criar_prompt_formatado(fato, categoria):
    return f"""
Você é um(a) assistente jurídico(a) especializado(a) na geração de documentos legais sintéticos e totalmente anonimizados.

Sua tarefa é criar uma petição jurídica simulada, baseada no fato apresentado abaixo, garantindo:

1. **Anonimização completa e irreversível**:
   - Substitua todos os dados pessoais por marcadores padronizados como:
     - [NOME_ANONIMIZADO]
     - [CPF_ANONIMIZADO]
     - [RG_ANONIMIZADO]
     - [DATA_ANONIMIZADA]
     - [ENDERECO_ANONIMIZADO]
     - [EMAIL_ANONIMIZADO]
     - [TELEFONE_ANONIMIZADO]
     - [CIDADE_ANONIMIZADA]
     - [ESTADO_ANONIMIZADO]
     - [NUMERO_PROCESSO_ANONIMIZADO]
     - [DEFENSORIA_ANONIMIZADA]
     - [DEFENSOR_ANONIMIZADO]
     - [FORUM_ANONIMIZADO]
     - [BANCO_ANONIMIZADO]
     - [ESCOLA_ANONIMIZADA]
     - [EMPRESA_ANONIMIZADA]
   - Isso inclui **nomes próprios, instituições, locais, datas, números de documentos, telefones, endereços, e-mails e qualquer outra informação que permita identificação direta ou indireta**.

2. **Coerência jurídica e linguagem formal**:
   - Estruture o texto como uma petição tradicional, com uso de parágrafos claros, pontuação adequada e vocabulário jurídico.
   - Mantenha o raciocínio lógico e o encadeamento textual, respeitando o estilo profissional de uma peça judicial.

3. **Aderência à categoria do caso**:
   - O conteúdo deve refletir e respeitar a natureza da seguinte categoria jurídica: **{categoria}**

---

### Fato base (original):

\"\"\"{fato}\"\"\"

---

Agora, com base nessas diretrizes, gere o texto jurídico sintético, formatado, anonimizando completamente todas as referências pessoais e institucionais.
"""

def contar_tokens(texto):
    return int(len(texto.split()) * 1.3)

# Limites da Maritaca (Tier 0)
RPM = 60
TPM_INPUT = 128000
TPM_OUTPUT = 10000
MAX_OUTPUT_TOKENS = 1500

# Estado inicial
fatos_sinteticos = []
checkpoint_path = r'C:\Users\Documents\Dados-Sinteticos\Saida_Sinteticos\checkpoint_sabia.csv'

# Tenta retomar de onde parou
try:
    df_checkpoint = pd.read_csv(checkpoint_path)
    inicio_idx = len(df_checkpoint)
    fatos_sinteticos = df_checkpoint['facts_sinteticos_formatados'].tolist()
    print(f"Retomando do índice {inicio_idx}")
except:
    inicio_idx = 0
    print("Iniciando do zero.")

tokens_usados_input = 0
tokens_usados_output = 0
reqs_no_minuto = 0
inicio_minuto = time.time()

for idx in tqdm(range(inicio_idx, len(df))):
    row = df.iloc[idx]
    prompt = criar_prompt_formatado(row['facts'], row['issue_area'])

    tokens_prompt = contar_tokens(prompt)
    tokens_resposta = MAX_OUTPUT_TOKENS
    tempo_passado = time.time() - inicio_minuto

    while (
        (tokens_usados_input + tokens_prompt > TPM_INPUT) or
        (tokens_usados_output + tokens_resposta > TPM_OUTPUT) or
        (reqs_no_minuto + 1 > RPM)
    ):
        esperar = max(0.1, 60 - tempo_passado)
        print(f"Aguardando {esperar:.1f}s para respeitar o rate limit...")
        time.sleep(esperar)
        inicio_minuto = time.time()
        tokens_usados_input = 0
        tokens_usados_output = 0
        reqs_no_minuto = 0
        tempo_passado = 0

    try:
        response = client.chat.completions.create(
            model="sabia-3.1",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.1,
            max_tokens=MAX_OUTPUT_TOKENS
        )

        resposta_texto = response.choices[0].message.content.strip()
        fatos_sinteticos.append(resposta_texto)
        tokens_usados_input += tokens_prompt
        tokens_usados_output += contar_tokens(resposta_texto)
        reqs_no_minuto += 1

    except Exception as e:
        print(f"Erro no item {idx}: {e}")
        fatos_sinteticos.append("ERRO")

    # Salva a cada item
    df_parcial = df.iloc[:inicio_idx + len(fatos_sinteticos)].copy()
    df_parcial['facts_sinteticos_formatados'] = fatos_sinteticos
    df_parcial.to_csv(checkpoint_path, index=False)

# Salva arquivo final
output_path = r'C:\Users\Documents\Dados-Sinteticos\Saida_Sinteticos\dataset_peticoes_sintetico_formatado.csv'
df['facts_sinteticos_formatados'] = fatos_sinteticos
df.to_csv(output_path, index=False)
print(f"Arquivo final salvo em: {output_path}")

Iniciando do zero.


  0%|          | 15/3458 [04:52<19:33:39, 20.45s/it]

Aguardando 0.1s para respeitar o rate limit...


  1%|          | 28/3458 [09:33<19:23:19, 20.35s/it]

Aguardando 0.1s para respeitar o rate limit...


  1%|▏         | 44/3458 [14:28<16:31:21, 17.42s/it]

Aguardando 0.1s para respeitar o rate limit...


  2%|▏         | 60/3458 [20:26<19:04:32, 20.21s/it]

Aguardando 0.1s para respeitar o rate limit...


  2%|▏         | 76/3458 [25:06<17:48:32, 18.96s/it]

Aguardando 0.1s para respeitar o rate limit...


  3%|▎         | 92/3458 [30:02<17:02:53, 18.23s/it]

Aguardando 0.1s para respeitar o rate limit...


  3%|▎         | 105/3458 [38:12<32:57:47, 35.39s/it]

Aguardando 0.1s para respeitar o rate limit...


  3%|▎         | 117/3458 [43:30<25:48:11, 27.80s/it]

Aguardando 0.1s para respeitar o rate limit...


  4%|▎         | 128/3458 [48:31<25:58:40, 28.08s/it]

Aguardando 0.1s para respeitar o rate limit...


  4%|▍         | 139/3458 [53:31<25:28:57, 27.64s/it]

Aguardando 0.1s para respeitar o rate limit...


  4%|▍         | 150/3458 [58:20<24:02:12, 26.16s/it]

Aguardando 0.1s para respeitar o rate limit...


  5%|▍         | 161/3458 [1:03:12<24:44:56, 27.02s/it]

Aguardando 0.1s para respeitar o rate limit...


  5%|▍         | 172/3458 [1:08:08<23:59:26, 26.28s/it]

Aguardando 0.1s para respeitar o rate limit...


  5%|▌         | 183/3458 [1:13:25<24:56:54, 27.42s/it]

Aguardando 0.1s para respeitar o rate limit...


  6%|▌         | 194/3458 [1:18:09<25:05:31, 27.68s/it]

Aguardando 0.1s para respeitar o rate limit...


  6%|▌         | 207/3458 [1:23:19<21:38:36, 23.97s/it]

Aguardando 0.1s para respeitar o rate limit...


  6%|▋         | 219/3458 [1:28:18<21:00:38, 23.35s/it]

Aguardando 0.1s para respeitar o rate limit...


  7%|▋         | 231/3458 [1:33:12<20:43:09, 23.11s/it]

Aguardando 0.1s para respeitar o rate limit...


  7%|▋         | 242/3458 [1:38:06<23:26:11, 26.24s/it]

Aguardando 0.1s para respeitar o rate limit...


  7%|▋         | 254/3458 [1:43:18<21:06:23, 23.72s/it]

Aguardando 0.1s para respeitar o rate limit...


  8%|▊         | 267/3458 [1:48:22<21:43:53, 24.52s/it]

Aguardando 0.1s para respeitar o rate limit...


  8%|▊         | 280/3458 [1:53:21<21:24:25, 24.25s/it]

Aguardando 0.1s para respeitar o rate limit...


  8%|▊         | 292/3458 [1:58:03<20:09:59, 22.93s/it]

Aguardando 0.1s para respeitar o rate limit...


  9%|▉         | 305/3458 [2:03:00<19:23:31, 22.14s/it]

Aguardando 0.1s para respeitar o rate limit...


  9%|▉         | 318/3458 [2:07:59<17:47:21, 20.40s/it]

Aguardando 0.1s para respeitar o rate limit...


 10%|▉         | 330/3458 [2:12:43<19:14:14, 22.14s/it]

Aguardando 0.1s para respeitar o rate limit...


 10%|▉         | 341/3458 [2:17:29<23:35:34, 27.25s/it]

Aguardando 0.1s para respeitar o rate limit...


 10%|█         | 352/3458 [2:22:20<23:10:56, 26.87s/it]

Aguardando 0.1s para respeitar o rate limit...


 11%|█         | 364/3458 [2:27:48<22:09:40, 25.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 11%|█         | 375/3458 [2:32:45<23:21:18, 27.27s/it]

Aguardando 0.1s para respeitar o rate limit...


 11%|█         | 387/3458 [2:37:57<21:48:20, 25.56s/it]

Aguardando 0.1s para respeitar o rate limit...


 12%|█▏        | 399/3458 [2:43:28<28:37:40, 33.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 12%|█▏        | 412/3458 [2:48:46<21:49:26, 25.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 12%|█▏        | 423/3458 [2:53:47<21:44:26, 25.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 13%|█▎        | 435/3458 [2:59:10<21:47:10, 25.94s/it]

Aguardando 0.1s para respeitar o rate limit...


 13%|█▎        | 447/3458 [3:04:30<21:41:30, 25.94s/it]

Aguardando 0.1s para respeitar o rate limit...


 13%|█▎        | 459/3458 [3:10:09<27:09:37, 32.60s/it]

Aguardando 0.1s para respeitar o rate limit...


 14%|█▎        | 472/3458 [3:14:51<20:16:39, 24.45s/it]

Aguardando 0.1s para respeitar o rate limit...


 14%|█▍        | 485/3458 [3:19:39<20:32:54, 24.88s/it]

Aguardando 0.1s para respeitar o rate limit...


 14%|█▍        | 498/3458 [3:24:41<19:49:41, 24.12s/it]

Aguardando 0.1s para respeitar o rate limit...


 15%|█▍        | 509/3458 [3:29:18<21:47:51, 26.61s/it]

Aguardando 0.1s para respeitar o rate limit...


 15%|█▌        | 522/3458 [3:34:34<21:11:29, 25.98s/it]

Aguardando 0.1s para respeitar o rate limit...


 15%|█▌        | 535/3458 [3:39:30<19:47:52, 24.38s/it]

Aguardando 0.1s para respeitar o rate limit...


 16%|█▌        | 548/3458 [3:44:42<19:26:24, 24.05s/it]

Aguardando 0.1s para respeitar o rate limit...


 16%|█▋        | 562/3458 [3:49:46<18:03:23, 22.45s/it]

Aguardando 0.1s para respeitar o rate limit...


 17%|█▋        | 578/3458 [3:54:35<13:03:14, 16.32s/it]

Aguardando 0.1s para respeitar o rate limit...


 17%|█▋        | 598/3458 [3:59:54<12:27:46, 15.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 18%|█▊        | 610/3458 [4:05:23<22:17:24, 28.18s/it]

Aguardando 0.1s para respeitar o rate limit...


 18%|█▊        | 621/3458 [4:11:38<24:59:51, 31.72s/it]

Aguardando 0.1s para respeitar o rate limit...


 18%|█▊        | 632/3458 [4:16:48<21:51:14, 27.84s/it]

Aguardando 0.1s para respeitar o rate limit...


 19%|█▊        | 643/3458 [4:21:43<20:10:07, 25.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 19%|█▉        | 654/3458 [4:26:51<20:36:38, 26.46s/it]

Aguardando 0.1s para respeitar o rate limit...


 19%|█▉        | 669/3458 [4:32:02<15:20:35, 19.80s/it]

Aguardando 0.1s para respeitar o rate limit...


 20%|█▉        | 684/3458 [4:37:59<20:08:18, 26.14s/it]

Aguardando 0.1s para respeitar o rate limit...


 20%|██        | 695/3458 [4:43:21<22:18:46, 29.07s/it]

Aguardando 0.1s para respeitar o rate limit...


 20%|██        | 707/3458 [4:48:32<19:15:13, 25.20s/it]

Aguardando 0.1s para respeitar o rate limit...


 21%|██        | 720/3458 [4:53:20<15:09:24, 19.93s/it]

Aguardando 0.1s para respeitar o rate limit...


 21%|██        | 731/3458 [4:58:05<19:27:24, 25.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 22%|██▏       | 749/3458 [5:03:11<11:35:00, 15.39s/it]

Aguardando 0.1s para respeitar o rate limit...


 22%|██▏       | 761/3458 [5:08:17<18:13:03, 24.32s/it]

Aguardando 0.1s para respeitar o rate limit...


 22%|██▏       | 774/3458 [5:13:36<16:58:53, 22.78s/it]

Aguardando 0.1s para respeitar o rate limit...


 23%|██▎       | 790/3458 [5:18:17<12:44:20, 17.19s/it]

Aguardando 0.1s para respeitar o rate limit...


 23%|██▎       | 802/3458 [5:23:06<19:38:01, 26.61s/it]

Aguardando 0.1s para respeitar o rate limit...


 24%|██▎       | 813/3458 [5:28:07<21:01:28, 28.62s/it]

Aguardando 0.1s para respeitar o rate limit...


 24%|██▍       | 825/3458 [5:32:58<16:22:15, 22.38s/it]

Aguardando 0.1s para respeitar o rate limit...


 24%|██▍       | 836/3458 [5:37:48<18:55:39, 25.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 24%|██▍       | 847/3458 [5:42:41<19:31:11, 26.91s/it]

Aguardando 0.1s para respeitar o rate limit...


 25%|██▍       | 858/3458 [5:47:20<18:51:17, 26.11s/it]

Aguardando 0.1s para respeitar o rate limit...


 25%|██▌       | 869/3458 [5:52:08<17:55:34, 24.93s/it]

Aguardando 0.1s para respeitar o rate limit...


 25%|██▌       | 880/3458 [5:56:55<19:06:46, 26.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 26%|██▌       | 891/3458 [6:01:52<19:19:33, 27.10s/it]

Aguardando 0.1s para respeitar o rate limit...


 26%|██▌       | 902/3458 [6:06:44<18:23:03, 25.89s/it]

Aguardando 0.1s para respeitar o rate limit...


 26%|██▋       | 912/3458 [6:11:23<19:08:44, 27.07s/it]

Aguardando 0.1s para respeitar o rate limit...


 27%|██▋       | 923/3458 [6:16:09<18:55:40, 26.88s/it]

Aguardando 0.1s para respeitar o rate limit...


 27%|██▋       | 934/3458 [6:20:57<17:32:49, 25.03s/it]

Aguardando 0.1s para respeitar o rate limit...


 27%|██▋       | 945/3458 [6:25:41<17:22:42, 24.90s/it]

Aguardando 0.1s para respeitar o rate limit...


 28%|██▊       | 956/3458 [6:30:15<17:00:58, 24.48s/it]

Aguardando 0.1s para respeitar o rate limit...


 28%|██▊       | 967/3458 [6:35:35<19:40:05, 28.42s/it]

Aguardando 0.1s para respeitar o rate limit...


 28%|██▊       | 978/3458 [6:40:53<19:54:30, 28.90s/it]

Aguardando 0.1s para respeitar o rate limit...


 29%|██▊       | 989/3458 [6:45:57<19:37:04, 28.60s/it]

Aguardando 0.1s para respeitar o rate limit...


 29%|██▉       | 1001/3458 [6:51:13<18:58:14, 27.80s/it]

Aguardando 0.1s para respeitar o rate limit...


 29%|██▉       | 1012/3458 [6:56:16<18:43:18, 27.55s/it]

Aguardando 0.1s para respeitar o rate limit...


 30%|██▉       | 1023/3458 [7:01:16<17:20:57, 25.65s/it]

Aguardando 0.1s para respeitar o rate limit...


 30%|██▉       | 1034/3458 [7:06:12<17:33:02, 26.07s/it]

Aguardando 0.1s para respeitar o rate limit...


 30%|███       | 1046/3458 [7:11:52<18:26:26, 27.52s/it]

Aguardando 0.1s para respeitar o rate limit...


 31%|███       | 1056/3458 [7:16:37<19:22:33, 29.04s/it]

Aguardando 0.1s para respeitar o rate limit...


 31%|███       | 1067/3458 [7:21:42<18:21:33, 27.64s/it]

Aguardando 0.1s para respeitar o rate limit...


 31%|███       | 1079/3458 [7:26:59<17:23:40, 26.32s/it]

Aguardando 0.1s para respeitar o rate limit...


 31%|███▏      | 1089/3458 [7:31:46<18:25:06, 27.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 32%|███▏      | 1100/3458 [7:36:38<18:12:02, 27.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 32%|███▏      | 1111/3458 [7:41:27<17:30:02, 26.84s/it]

Aguardando 0.1s para respeitar o rate limit...


 32%|███▏      | 1122/3458 [7:46:19<16:28:31, 25.39s/it]

Aguardando 0.1s para respeitar o rate limit...


 33%|███▎      | 1134/3458 [7:51:23<13:21:33, 20.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 33%|███▎      | 1147/3458 [7:56:41<16:28:12, 25.66s/it]

Aguardando 0.1s para respeitar o rate limit...


 34%|███▎      | 1159/3458 [8:01:54<17:20:16, 27.15s/it]

Aguardando 0.1s para respeitar o rate limit...


 34%|███▍      | 1170/3458 [8:07:01<18:19:26, 28.83s/it]

Aguardando 0.1s para respeitar o rate limit...


 34%|███▍      | 1181/3458 [8:12:05<17:06:22, 27.05s/it]

Aguardando 0.1s para respeitar o rate limit...


 34%|███▍      | 1193/3458 [8:17:11<16:33:12, 26.31s/it]

Aguardando 0.1s para respeitar o rate limit...


 35%|███▍      | 1206/3458 [8:22:26<15:11:53, 24.30s/it]

Aguardando 0.1s para respeitar o rate limit...


 35%|███▌      | 1219/3458 [8:27:16<14:06:34, 22.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 36%|███▌      | 1233/3458 [8:32:38<16:12:28, 26.22s/it]

Aguardando 0.1s para respeitar o rate limit...


 36%|███▌      | 1246/3458 [8:37:42<13:49:04, 22.49s/it]

Aguardando 0.1s para respeitar o rate limit...


 36%|███▋      | 1258/3458 [8:42:55<16:42:54, 27.35s/it]

Aguardando 0.1s para respeitar o rate limit...


 37%|███▋      | 1271/3458 [8:47:53<13:39:22, 22.48s/it]

Aguardando 0.1s para respeitar o rate limit...


 37%|███▋      | 1283/3458 [8:52:58<15:16:01, 25.27s/it]

Aguardando 0.1s para respeitar o rate limit...


 37%|███▋      | 1294/3458 [8:58:58<22:31:44, 37.48s/it]

Aguardando 0.1s para respeitar o rate limit...


 38%|███▊      | 1307/3458 [9:06:05<19:11:35, 32.12s/it]

Aguardando 0.1s para respeitar o rate limit...


 38%|███▊      | 1320/3458 [9:13:34<20:23:42, 34.34s/it]

Aguardando 0.1s para respeitar o rate limit...


 39%|███▊      | 1333/3458 [9:20:38<16:54:26, 28.64s/it]

Aguardando 0.1s para respeitar o rate limit...


 39%|███▉      | 1348/3458 [9:27:49<17:11:35, 29.33s/it]

Aguardando 0.1s para respeitar o rate limit...


 39%|███▉      | 1362/3458 [9:35:39<20:03:12, 34.44s/it]

Aguardando 0.1s para respeitar o rate limit...


 40%|███▉      | 1373/3458 [9:43:35<26:17:48, 45.40s/it]

Aguardando 0.1s para respeitar o rate limit...


 40%|████      | 1384/3458 [9:51:01<24:16:10, 42.13s/it]

Aguardando 0.1s para respeitar o rate limit...


 40%|████      | 1397/3458 [9:58:56<21:26:51, 37.46s/it]

Aguardando 0.1s para respeitar o rate limit...


 41%|████      | 1408/3458 [10:06:32<22:46:52, 40.01s/it]

Aguardando 0.1s para respeitar o rate limit...


 41%|████      | 1421/3458 [10:14:44<21:10:15, 37.42s/it]

Aguardando 0.1s para respeitar o rate limit...


 41%|████▏     | 1433/3458 [10:22:44<23:09:43, 41.18s/it]

Aguardando 0.1s para respeitar o rate limit...


 42%|████▏     | 1444/3458 [10:29:53<22:57:20, 41.03s/it]

Aguardando 0.1s para respeitar o rate limit...


 42%|████▏     | 1455/3458 [10:37:29<24:44:01, 44.45s/it]

Aguardando 0.1s para respeitar o rate limit...


 42%|████▏     | 1466/3458 [10:45:13<24:18:03, 43.92s/it]

Aguardando 0.1s para respeitar o rate limit...


 43%|████▎     | 1477/3458 [10:52:55<23:44:36, 43.15s/it]

Aguardando 0.1s para respeitar o rate limit...


 43%|████▎     | 1487/3458 [11:00:20<24:26:20, 44.64s/it]

Aguardando 0.1s para respeitar o rate limit...


 43%|████▎     | 1498/3458 [11:07:43<23:01:02, 42.28s/it]

Aguardando 0.1s para respeitar o rate limit...


 44%|████▎     | 1509/3458 [11:15:18<21:09:51, 39.09s/it]

Aguardando 0.1s para respeitar o rate limit...


 44%|████▍     | 1520/3458 [11:22:57<22:29:30, 41.78s/it]

Aguardando 0.1s para respeitar o rate limit...


 44%|████▍     | 1531/3458 [11:30:28<21:27:26, 40.09s/it]

Aguardando 0.1s para respeitar o rate limit...


 45%|████▍     | 1542/3458 [11:38:05<20:22:10, 38.27s/it]

Aguardando 0.1s para respeitar o rate limit...


 45%|████▍     | 1553/3458 [11:45:44<22:15:23, 42.06s/it]

Aguardando 0.1s para respeitar o rate limit...


 45%|████▌     | 1563/3458 [11:52:47<22:51:12, 43.42s/it]

Aguardando 0.1s para respeitar o rate limit...


 46%|████▌     | 1575/3458 [12:00:08<18:59:28, 36.31s/it]

Aguardando 0.1s para respeitar o rate limit...


 46%|████▌     | 1587/3458 [12:07:52<19:39:58, 37.84s/it]

Aguardando 0.1s para respeitar o rate limit...


 46%|████▌     | 1598/3458 [12:15:25<22:30:29, 43.56s/it]

Aguardando 0.1s para respeitar o rate limit...


 47%|████▋     | 1610/3458 [12:23:00<19:00:04, 37.02s/it]

Aguardando 0.1s para respeitar o rate limit...


 47%|████▋     | 1622/3458 [12:30:11<16:38:26, 32.63s/it]

Aguardando 0.1s para respeitar o rate limit...


 47%|████▋     | 1634/3458 [12:37:43<19:14:49, 37.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 48%|████▊     | 1645/3458 [12:44:36<19:25:36, 38.58s/it]

Aguardando 0.1s para respeitar o rate limit...


 48%|████▊     | 1657/3458 [12:52:06<19:54:52, 39.81s/it]

Aguardando 0.1s para respeitar o rate limit...


 48%|████▊     | 1670/3458 [12:58:56<14:13:25, 28.64s/it]

Aguardando 0.1s para respeitar o rate limit...


 49%|████▊     | 1682/3458 [13:05:18<15:02:26, 30.49s/it]

Aguardando 0.1s para respeitar o rate limit...


 49%|████▉     | 1694/3458 [13:12:28<18:43:19, 38.21s/it]

Aguardando 0.1s para respeitar o rate limit...


 49%|████▉     | 1707/3458 [13:19:29<16:13:21, 33.35s/it]

Aguardando 0.1s para respeitar o rate limit...


 50%|████▉     | 1718/3458 [13:26:23<16:24:20, 33.94s/it]

Aguardando 0.1s para respeitar o rate limit...


 50%|█████     | 1729/3458 [13:33:27<16:52:31, 35.14s/it]

Aguardando 0.1s para respeitar o rate limit...


 50%|█████     | 1740/3458 [13:40:33<19:36:33, 41.09s/it]

Aguardando 0.1s para respeitar o rate limit...


 51%|█████     | 1750/3458 [13:47:08<20:14:45, 42.67s/it]

Aguardando 0.1s para respeitar o rate limit...


 51%|█████     | 1761/3458 [13:54:14<20:07:43, 42.70s/it]

Aguardando 0.1s para respeitar o rate limit...


 51%|█████     | 1771/3458 [14:00:54<18:10:22, 38.78s/it]

Aguardando 0.1s para respeitar o rate limit...


 52%|█████▏    | 1783/3458 [14:07:55<18:03:10, 38.80s/it]

Aguardando 0.1s para respeitar o rate limit...


 52%|█████▏    | 1794/3458 [14:14:27<16:24:26, 35.50s/it]

Aguardando 0.1s para respeitar o rate limit...


 52%|█████▏    | 1805/3458 [14:21:07<14:57:13, 32.57s/it]

Aguardando 0.1s para respeitar o rate limit...


 53%|█████▎    | 1816/3458 [14:27:56<16:48:31, 36.85s/it]

Aguardando 0.1s para respeitar o rate limit...


 53%|█████▎    | 1827/3458 [14:34:48<18:13:16, 40.22s/it]

Aguardando 0.1s para respeitar o rate limit...


 53%|█████▎    | 1838/3458 [14:41:11<16:44:23, 37.20s/it]

Aguardando 0.1s para respeitar o rate limit...


 53%|█████▎    | 1849/3458 [14:47:12<15:08:41, 33.89s/it]

Aguardando 0.1s para respeitar o rate limit...


 54%|█████▍    | 1860/3458 [14:53:41<14:01:19, 31.59s/it]

Aguardando 0.1s para respeitar o rate limit...


 54%|█████▍    | 1871/3458 [15:00:48<16:38:16, 37.74s/it]

Aguardando 0.1s para respeitar o rate limit...


 54%|█████▍    | 1882/3458 [15:08:02<17:16:11, 39.45s/it]

Aguardando 0.1s para respeitar o rate limit...


 55%|█████▍    | 1893/3458 [15:15:13<18:16:07, 42.02s/it]

Aguardando 0.1s para respeitar o rate limit...


 55%|█████▌    | 1904/3458 [15:21:23<13:45:15, 31.86s/it]

Aguardando 0.1s para respeitar o rate limit...


 55%|█████▌    | 1915/3458 [15:26:37<12:11:17, 28.44s/it]

Aguardando 0.1s para respeitar o rate limit...


 56%|█████▌    | 1926/3458 [15:31:58<12:03:46, 28.35s/it]

Aguardando 0.1s para respeitar o rate limit...


 56%|█████▌    | 1937/3458 [15:37:10<12:13:43, 28.94s/it]

Aguardando 0.1s para respeitar o rate limit...


 56%|█████▋    | 1948/3458 [15:42:26<11:55:59, 28.45s/it]

Aguardando 0.1s para respeitar o rate limit...


 57%|█████▋    | 1960/3458 [15:48:17<11:30:59, 27.68s/it]

Aguardando 0.1s para respeitar o rate limit...


 57%|█████▋    | 1971/3458 [15:53:26<12:11:28, 29.51s/it]

Aguardando 0.1s para respeitar o rate limit...


 57%|█████▋    | 1982/3458 [15:58:27<10:43:53, 26.17s/it]

Aguardando 0.1s para respeitar o rate limit...


 58%|█████▊    | 1994/3458 [16:03:15<10:31:10, 25.87s/it]

Aguardando 0.1s para respeitar o rate limit...


 58%|█████▊    | 2005/3458 [16:07:58<9:46:19, 24.21s/it] 

Aguardando 0.1s para respeitar o rate limit...
Erro no item 2005: Connection error.


 58%|█████▊    | 2006/3458 [16:08:25<10:06:10, 25.05s/it]

Erro no item 2006: <html>
<head><title>502 Bad Gateway</title></head>
<body>
<center><h1>502 Bad Gateway</h1></center>
<hr><center>nginx/1.29.0</center>
</body>
</html>


 58%|█████▊    | 2007/3458 [16:08:28<7:28:41, 18.55s/it] 

Erro no item 2007: <html>
<head><title>502 Bad Gateway</title></head>
<body>
<center><h1>502 Bad Gateway</h1></center>
<hr><center>nginx/1.29.0</center>
</body>
</html>


 58%|█████▊    | 2008/3458 [16:08:31<5:34:57, 13.86s/it]

Erro no item 2008: <html>
<head><title>502 Bad Gateway</title></head>
<body>
<center><h1>502 Bad Gateway</h1></center>
<hr><center>nginx/1.29.0</center>
</body>
</html>


 58%|█████▊    | 2009/3458 [16:08:34<4:12:28, 10.45s/it]

Erro no item 2009: <html>
<head><title>502 Bad Gateway</title></head>
<body>
<center><h1>502 Bad Gateway</h1></center>
<hr><center>nginx/1.29.0</center>
</body>
</html>


 58%|█████▊    | 2010/3458 [16:08:37<3:17:17,  8.17s/it]

Erro no item 2010: <html>
<head><title>502 Bad Gateway</title></head>
<body>
<center><h1>502 Bad Gateway</h1></center>
<hr><center>nginx/1.29.0</center>
</body>
</html>


 58%|█████▊    | 2011/3458 [16:08:40<2:40:36,  6.66s/it]

Erro no item 2011: <html>
<head><title>502 Bad Gateway</title></head>
<body>
<center><h1>502 Bad Gateway</h1></center>
<hr><center>nginx/1.29.0</center>
</body>
</html>


 59%|█████▊    | 2023/3458 [16:14:03<11:09:25, 27.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 59%|█████▉    | 2034/3458 [16:19:13<10:55:42, 27.63s/it]

Aguardando 0.1s para respeitar o rate limit...


 59%|█████▉    | 2045/3458 [16:24:11<10:36:03, 27.01s/it]

Aguardando 0.1s para respeitar o rate limit...


 59%|█████▉    | 2056/3458 [16:29:14<11:14:42, 28.87s/it]

Aguardando 0.1s para respeitar o rate limit...


 60%|█████▉    | 2067/3458 [16:34:10<10:32:05, 27.27s/it]

Aguardando 0.1s para respeitar o rate limit...


 60%|██████    | 2079/3458 [16:39:23<10:03:22, 26.25s/it]

Aguardando 0.1s para respeitar o rate limit...


 60%|██████    | 2090/3458 [16:44:21<10:45:03, 28.29s/it]

Aguardando 0.1s para respeitar o rate limit...


 61%|██████    | 2102/3458 [16:49:39<10:18:21, 27.36s/it]

Aguardando 0.1s para respeitar o rate limit...


 61%|██████    | 2114/3458 [16:54:48<9:49:28, 26.32s/it] 

Aguardando 0.1s para respeitar o rate limit...


 61%|██████▏   | 2126/3458 [16:59:58<9:40:31, 26.15s/it]

Aguardando 0.1s para respeitar o rate limit...


 62%|██████▏   | 2137/3458 [17:05:01<10:45:20, 29.31s/it]

Aguardando 0.1s para respeitar o rate limit...


 62%|██████▏   | 2148/3458 [17:10:04<10:11:29, 28.01s/it]

Aguardando 0.1s para respeitar o rate limit...


 62%|██████▏   | 2160/3458 [17:15:35<9:48:00, 27.18s/it] 

Aguardando 0.1s para respeitar o rate limit...


 63%|██████▎   | 2172/3458 [17:20:25<9:07:19, 25.54s/it]

Aguardando 0.1s para respeitar o rate limit...


 63%|██████▎   | 2183/3458 [17:25:36<9:48:41, 27.70s/it] 

Aguardando 0.1s para respeitar o rate limit...


 63%|██████▎   | 2194/3458 [17:30:41<9:00:45, 25.67s/it] 

Aguardando 0.1s para respeitar o rate limit...


 64%|██████▍   | 2206/3458 [17:36:13<9:19:32, 26.82s/it] 

Aguardando 0.1s para respeitar o rate limit...


 64%|██████▍   | 2217/3458 [17:41:14<9:32:45, 27.69s/it]

Aguardando 0.1s para respeitar o rate limit...


 64%|██████▍   | 2228/3458 [17:45:44<8:35:08, 25.13s/it]

Aguardando 0.1s para respeitar o rate limit...


 65%|██████▍   | 2239/3458 [17:50:20<8:57:08, 26.44s/it]

Aguardando 0.1s para respeitar o rate limit...


 65%|██████▌   | 2250/3458 [17:55:19<8:55:40, 26.61s/it]

Aguardando 0.1s para respeitar o rate limit...


 65%|██████▌   | 2261/3458 [17:59:56<7:50:25, 23.58s/it]

Aguardando 0.1s para respeitar o rate limit...


 66%|██████▌   | 2272/3458 [18:04:49<9:01:53, 27.41s/it]

Aguardando 0.1s para respeitar o rate limit...


 66%|██████▌   | 2283/3458 [18:09:46<8:53:40, 27.25s/it]

Aguardando 0.1s para respeitar o rate limit...


 66%|██████▋   | 2294/3458 [18:14:34<8:59:51, 27.83s/it]

Aguardando 0.1s para respeitar o rate limit...


 67%|██████▋   | 2305/3458 [18:19:30<8:29:50, 26.53s/it]

Aguardando 0.1s para respeitar o rate limit...


 67%|██████▋   | 2317/3458 [18:24:40<8:24:47, 26.54s/it]

Aguardando 0.1s para respeitar o rate limit...


 67%|██████▋   | 2328/3458 [18:29:45<8:15:22, 26.30s/it]

Aguardando 0.1s para respeitar o rate limit...


 68%|██████▊   | 2340/3458 [18:35:11<9:03:11, 29.15s/it]

Aguardando 0.1s para respeitar o rate limit...


 68%|██████▊   | 2351/3458 [18:40:19<9:06:02, 29.60s/it]

Aguardando 0.1s para respeitar o rate limit...


 68%|██████▊   | 2362/3458 [18:46:01<10:00:17, 32.86s/it]

Aguardando 0.1s para respeitar o rate limit...


 69%|██████▊   | 2373/3458 [18:51:39<9:02:16, 29.99s/it] 

Aguardando 0.1s para respeitar o rate limit...


 69%|██████▉   | 2385/3458 [18:57:05<7:53:16, 26.46s/it]

Aguardando 0.1s para respeitar o rate limit...


 69%|██████▉   | 2396/3458 [19:01:48<7:22:19, 24.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 70%|██████▉   | 2407/3458 [19:06:28<7:00:56, 24.03s/it]

Aguardando 0.1s para respeitar o rate limit...


 70%|██████▉   | 2419/3458 [19:11:47<7:34:26, 26.24s/it]

Aguardando 0.1s para respeitar o rate limit...


 70%|███████   | 2431/3458 [19:16:50<6:35:08, 23.09s/it]

Aguardando 0.1s para respeitar o rate limit...


 71%|███████   | 2446/3458 [19:21:50<5:42:31, 20.31s/it]

Aguardando 0.1s para respeitar o rate limit...


 71%|███████   | 2460/3458 [19:26:43<5:24:51, 19.53s/it]

Aguardando 0.1s para respeitar o rate limit...


 72%|███████▏  | 2478/3458 [19:32:37<5:05:01, 18.67s/it]

Aguardando 0.1s para respeitar o rate limit...


 72%|███████▏  | 2494/3458 [19:38:42<6:32:01, 24.40s/it]

Aguardando 0.1s para respeitar o rate limit...


 72%|███████▏  | 2506/3458 [19:44:35<7:58:56, 30.19s/it]

Aguardando 0.1s para respeitar o rate limit...


 73%|███████▎  | 2521/3458 [19:50:34<6:46:17, 26.02s/it]

Aguardando 0.1s para respeitar o rate limit...


 73%|███████▎  | 2537/3458 [19:56:35<5:23:40, 21.09s/it]

Aguardando 0.1s para respeitar o rate limit...


 74%|███████▍  | 2553/3458 [20:02:55<6:08:53, 24.46s/it]

Aguardando 0.1s para respeitar o rate limit...


 74%|███████▍  | 2568/3458 [20:09:27<7:28:17, 30.22s/it]

Aguardando 0.1s para respeitar o rate limit...


 75%|███████▍  | 2583/3458 [20:15:30<5:18:06, 21.81s/it]

Aguardando 0.1s para respeitar o rate limit...


 75%|███████▌  | 2595/3458 [20:21:07<6:13:46, 25.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 75%|███████▌  | 2608/3458 [20:26:32<6:06:15, 25.85s/it]

Aguardando 0.1s para respeitar o rate limit...


 76%|███████▌  | 2621/3458 [20:32:08<6:08:50, 26.44s/it]

Aguardando 0.1s para respeitar o rate limit...


 76%|███████▌  | 2636/3458 [20:38:02<4:40:49, 20.50s/it]

Aguardando 0.1s para respeitar o rate limit...


 77%|███████▋  | 2651/3458 [20:43:56<5:47:22, 25.83s/it]

Aguardando 0.1s para respeitar o rate limit...


 77%|███████▋  | 2665/3458 [20:49:38<6:02:04, 27.40s/it]

Aguardando 0.1s para respeitar o rate limit...


 77%|███████▋  | 2679/3458 [20:55:35<4:39:33, 21.53s/it]

Aguardando 0.1s para respeitar o rate limit...


 78%|███████▊  | 2695/3458 [21:01:43<4:19:53, 20.44s/it]

Aguardando 0.1s para respeitar o rate limit...


 78%|███████▊  | 2709/3458 [21:07:22<4:56:35, 23.76s/it]

Aguardando 0.1s para respeitar o rate limit...


 79%|███████▊  | 2723/3458 [21:13:03<4:39:32, 22.82s/it]

Aguardando 0.1s para respeitar o rate limit...


 79%|███████▉  | 2738/3458 [21:18:54<4:22:25, 21.87s/it]

Aguardando 0.1s para respeitar o rate limit...


 80%|███████▉  | 2753/3458 [21:25:57<6:18:06, 32.18s/it]

Aguardando 0.1s para respeitar o rate limit...


 80%|███████▉  | 2766/3458 [21:31:36<5:18:09, 27.59s/it]

Aguardando 0.1s para respeitar o rate limit...


 80%|████████  | 2781/3458 [21:37:13<4:31:01, 24.02s/it]

Aguardando 0.1s para respeitar o rate limit...


 81%|████████  | 2797/3458 [21:43:42<4:27:05, 24.24s/it]

Aguardando 0.1s para respeitar o rate limit...


 81%|████████▏ | 2813/3458 [21:49:53<4:07:10, 22.99s/it]

Aguardando 0.1s para respeitar o rate limit...


 82%|████████▏ | 2827/3458 [21:55:43<4:54:41, 28.02s/it]

Aguardando 0.1s para respeitar o rate limit...


 82%|████████▏ | 2842/3458 [22:01:36<4:06:23, 24.00s/it]

Aguardando 0.1s para respeitar o rate limit...


 83%|████████▎ | 2857/3458 [22:07:31<4:17:23, 25.70s/it]

Aguardando 0.1s para respeitar o rate limit...


 83%|████████▎ | 2871/3458 [22:13:08<4:41:35, 28.78s/it]

Aguardando 0.1s para respeitar o rate limit...


 83%|████████▎ | 2883/3458 [22:18:55<4:12:58, 26.40s/it]

Aguardando 0.1s para respeitar o rate limit...


 84%|████████▍ | 2897/3458 [22:24:25<3:12:22, 20.57s/it]

Aguardando 0.1s para respeitar o rate limit...


 84%|████████▍ | 2914/3458 [22:30:45<3:44:12, 24.73s/it]

Aguardando 0.1s para respeitar o rate limit...


 85%|████████▍ | 2930/3458 [22:36:54<3:37:39, 24.73s/it]

Aguardando 0.1s para respeitar o rate limit...


 85%|████████▌ | 2946/3458 [22:43:04<3:37:17, 25.46s/it]

Aguardando 0.1s para respeitar o rate limit...


 86%|████████▌ | 2959/3458 [22:49:06<4:08:51, 29.92s/it]

Aguardando 0.1s para respeitar o rate limit...


 86%|████████▌ | 2971/3458 [22:55:09<4:00:39, 29.65s/it]

Aguardando 0.1s para respeitar o rate limit...


 86%|████████▋ | 2986/3458 [23:01:06<3:30:45, 26.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 87%|████████▋ | 2998/3458 [23:06:58<3:55:05, 30.66s/it]

Aguardando 0.1s para respeitar o rate limit...


 87%|████████▋ | 3010/3458 [23:12:46<3:36:04, 28.94s/it]

Aguardando 0.1s para respeitar o rate limit...


 87%|████████▋ | 3021/3458 [23:18:17<3:59:23, 32.87s/it]

Aguardando 0.1s para respeitar o rate limit...


 88%|████████▊ | 3034/3458 [23:24:01<3:11:43, 27.13s/it]

Aguardando 0.1s para respeitar o rate limit...


 88%|████████▊ | 3046/3458 [23:30:05<3:42:41, 32.43s/it]

Aguardando 0.1s para respeitar o rate limit...


 88%|████████▊ | 3058/3458 [23:36:06<3:20:10, 30.03s/it]

Aguardando 0.1s para respeitar o rate limit...


 89%|████████▉ | 3075/3458 [23:43:07<2:18:31, 21.70s/it]

Aguardando 0.1s para respeitar o rate limit...


 89%|████████▉ | 3092/3458 [23:49:08<2:03:29, 20.24s/it]

Aguardando 0.1s para respeitar o rate limit...


 90%|████████▉ | 3107/3458 [23:54:52<2:09:57, 22.21s/it]

Aguardando 0.1s para respeitar o rate limit...


 90%|█████████ | 3122/3458 [24:00:53<2:00:48, 21.57s/it]

Aguardando 0.1s para respeitar o rate limit...


 91%|█████████ | 3136/3458 [24:06:28<2:19:08, 25.93s/it]

Aguardando 0.1s para respeitar o rate limit...


 91%|█████████ | 3148/3458 [24:12:11<2:32:37, 29.54s/it]

Aguardando 0.1s para respeitar o rate limit...


 91%|█████████▏| 3160/3458 [24:18:15<2:18:30, 27.89s/it]

Aguardando 0.1s para respeitar o rate limit...


 92%|█████████▏| 3172/3458 [24:24:11<2:24:04, 30.22s/it]

Aguardando 0.1s para respeitar o rate limit...


 92%|█████████▏| 3186/3458 [24:30:13<2:12:40, 29.27s/it]

Aguardando 0.1s para respeitar o rate limit...


 92%|█████████▏| 3198/3458 [24:36:08<2:14:33, 31.05s/it]

Aguardando 0.1s para respeitar o rate limit...


 93%|█████████▎| 3209/3458 [24:41:49<2:11:05, 31.59s/it]

Aguardando 0.1s para respeitar o rate limit...


 93%|█████████▎| 3221/3458 [24:47:34<1:55:53, 29.34s/it]

Aguardando 0.1s para respeitar o rate limit...


 93%|█████████▎| 3232/3458 [24:53:12<1:57:42, 31.25s/it]

Aguardando 0.1s para respeitar o rate limit...


 94%|█████████▍| 3245/3458 [24:59:32<1:51:49, 31.50s/it]

Aguardando 0.1s para respeitar o rate limit...


 94%|█████████▍| 3264/3458 [25:06:00<1:01:58, 19.17s/it]

Aguardando 0.1s para respeitar o rate limit...


 95%|█████████▍| 3282/3458 [25:12:05<1:00:08, 20.51s/it]

Aguardando 0.1s para respeitar o rate limit...


 96%|█████████▌| 3305/3458 [25:18:55<50:44, 19.90s/it]  

Aguardando 0.1s para respeitar o rate limit...


 96%|█████████▌| 3324/3458 [25:25:05<42:06, 18.85s/it]

Aguardando 0.1s para respeitar o rate limit...


 97%|█████████▋| 3342/3458 [25:31:02<36:33, 18.91s/it]

Aguardando 0.1s para respeitar o rate limit...


 97%|█████████▋| 3364/3458 [25:36:50<26:18, 16.79s/it]

Aguardando 0.1s para respeitar o rate limit...


 98%|█████████▊| 3380/3458 [25:42:04<30:28, 23.44s/it]

Aguardando 0.1s para respeitar o rate limit...


 98%|█████████▊| 3396/3458 [25:47:17<18:41, 18.09s/it]

Aguardando 0.1s para respeitar o rate limit...


 99%|█████████▊| 3412/3458 [25:53:10<15:48, 20.62s/it]

Aguardando 0.1s para respeitar o rate limit...


 99%|█████████▉| 3429/3458 [25:58:58<09:34, 19.81s/it]

Aguardando 0.1s para respeitar o rate limit...


100%|█████████▉| 3446/3458 [26:05:05<04:10, 20.88s/it]

Aguardando 0.1s para respeitar o rate limit...


100%|██████████| 3458/3458 [26:09:29<00:00, 27.23s/it]


Arquivo final salvo em: C:\Users\Willgnner\Documents\Dados-Sinteticos\Saida_Sinteticos\dataset_peticoes_sintetico_formatado.csv


In [None]:
import pandas as pd

# Caminho do arquivo (pode ser CSV ou XLSX)
arquivo = r'C:\Users\Documents\Dados-Sinteticos\Saida_Sinteticos\dataset_peticoes_sintetico_formatado.csv' 

# Leitura do arquivo
df = pd.read_csv(arquivo) # para CSV
# df = pd.read_excel(arquivo) # para Excel

# Função para limpar e alinhar texto
def limpar_texto(texto):
    if pd.isnull(texto):
        return ''
    texto = str(texto)
    texto = texto.strip()  # remove espaços no início/fim
    texto = ' '.join(texto.split())  # remove espaços duplicados dentro do texto
    return texto

# Aplicar a função em todas as células do dataframe
df_limpo = df.applymap(limpar_texto)

# Salvar o dataframe limpo
df_limpo.to_csv(r'C:\Users\Documents\Dados-Sinteticos\Saida_Sinteticos\arquivo_formatado.csv', index=False)  # salvar CSV
# df_limpo.to_excel('arquivo_formatado.xlsx', index=False)  # salvar Excel

print('Arquivo formatado e salvo com sucesso!')

  df_limpo = df.applymap(limpar_texto)


Arquivo formatado e salvo com sucesso!
