In [1]:
import json
import os
import sys
from tqdm import tqdm
from src.evaluation.gpt_judge.GPTPrompts import evaluate_with_g_eval, set_client

In [2]:
INPUT_JSON = r"F:\Usuario\Desktop\Final\resultado_unificado.json"
OUTPUT_JSON = r"F:\Usuario\Desktop\Final\g_eval_resultados_unificado.json"
SAVE_STATE = 10

In [3]:
API_KEY = "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"
if not API_KEY or API_KEY.startswith("tu_api_key"):
    print("❌ ERROR: No has proporcionado una API Key válida.")
    exit(1)

set_client(API_KEY)

In [4]:
# === CARGA DE DATOS DE ENTRADA
with open(INPUT_JSON, "r", encoding="utf-8") as f:
    dataset = json.load(f)

In [5]:
# === COMPROBAR SI YA EXISTEN RESULTADOS PARCIALES
if os.path.exists(OUTPUT_JSON):
    with open(OUTPUT_JSON, "r", encoding="utf-8") as f:
        resultados = json.load(f)
    procesadas = set([r["image"] for r in resultados])
    print(f"🔄 Se han encontrado {len(resultados)} muestras ya evaluadas. Retomando desde ahí.")
else:
    resultados = []
    procesadas = set()

🔄 Se han encontrado 10 muestras ya evaluadas. Retomando desde ahí.


In [6]:
# === INICIO DE EVALUACIÓN
for i, sample in enumerate(tqdm(dataset)):
    #if sample["image"] in procesadas:
    #    continue

    pregunta = sample["input_text"].replace("<image>", "[imagen]")
    contexto = sample.get("output_text", "")

    try:
        eval_base = evaluate_with_g_eval(pregunta, contexto, sample["base_output"])
        eval_fine = evaluate_with_g_eval(pregunta, contexto, sample["finetuned_output"])
        print(f"[DEBUG] Resultado muestra {i+1} - base:", eval_base)
        print(f"[DEBUG] Resultado muestra {i+1} - fine:", eval_fine)

    except Exception as e:
        print(f"⚠️ Error en muestra {sample['image']}: {e}")
        continue

    resultados.append({
        "image": sample["image"],
        **{f"{k}_base": v for k, v in eval_base.items()},
        **{f"{k}_finetuned": v for k, v in eval_fine.items()}
    })

    # ✅ Guardar automáticamente cada X muestras
    if len(resultados) % SAVE_STATE == 0:
        with open(OUTPUT_JSON, "w", encoding="utf-8") as f:
            json.dump(resultados, f, indent=2, ensure_ascii=False)
        print(f"💾 Guardado automático tras {len(resultados)} muestras.")

  1%|          | 1/102 [00:04<08:20,  4.96s/it]

[DEBUG] Resultado muestra 1 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 1 - fine: {'coherence': 4.0, 'consistency': 5.0, 'fluency': 3.0, 'relevance': 4.0}


  2%|▏         | 2/102 [00:09<07:34,  4.54s/it]

[DEBUG] Resultado muestra 2 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 2 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


  3%|▎         | 3/102 [00:13<07:12,  4.37s/it]

[DEBUG] Resultado muestra 3 - base: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 3 - fine: {'coherence': 3.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 2.0}


  4%|▍         | 4/102 [00:17<07:03,  4.32s/it]

[DEBUG] Resultado muestra 4 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 4 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


  5%|▍         | 5/102 [00:22<07:03,  4.36s/it]

[DEBUG] Resultado muestra 5 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 5 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


  6%|▌         | 6/102 [00:26<06:52,  4.30s/it]

[DEBUG] Resultado muestra 6 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 6 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}


  7%|▋         | 7/102 [00:30<06:58,  4.41s/it]

[DEBUG] Resultado muestra 7 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 7 - fine: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


  8%|▊         | 8/102 [00:34<06:40,  4.26s/it]

[DEBUG] Resultado muestra 8 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 8 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


  9%|▉         | 9/102 [00:38<06:32,  4.22s/it]

[DEBUG] Resultado muestra 9 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 9 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


 10%|▉         | 10/102 [00:42<06:23,  4.17s/it]

[DEBUG] Resultado muestra 10 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 10 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
💾 Guardado automático tras 20 muestras.


 11%|█         | 11/102 [00:46<06:04,  4.01s/it]

[DEBUG] Resultado muestra 11 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 11 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 12%|█▏        | 12/102 [00:51<06:20,  4.23s/it]

[DEBUG] Resultado muestra 12 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 12 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 13%|█▎        | 13/102 [00:55<06:12,  4.19s/it]

[DEBUG] Resultado muestra 13 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 13 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


 14%|█▎        | 14/102 [01:00<06:41,  4.56s/it]

[DEBUG] Resultado muestra 14 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 14 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 15%|█▍        | 15/102 [01:05<06:25,  4.43s/it]

[DEBUG] Resultado muestra 15 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 15 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 16%|█▌        | 16/102 [01:09<06:22,  4.45s/it]

[DEBUG] Resultado muestra 16 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 16 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 17%|█▋        | 17/102 [01:13<06:19,  4.46s/it]

[DEBUG] Resultado muestra 17 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 17 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 18%|█▊        | 18/102 [01:18<06:21,  4.54s/it]

[DEBUG] Resultado muestra 18 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 18 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


 19%|█▊        | 19/102 [01:23<06:24,  4.64s/it]

[DEBUG] Resultado muestra 19 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 19 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 20%|█▉        | 20/102 [01:28<06:29,  4.75s/it]

[DEBUG] Resultado muestra 20 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 20 - fine: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}
💾 Guardado automático tras 30 muestras.


 21%|██        | 21/102 [01:33<06:25,  4.76s/it]

[DEBUG] Resultado muestra 21 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 21 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


 22%|██▏       | 22/102 [01:37<06:15,  4.70s/it]

[DEBUG] Resultado muestra 22 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 22 - fine: {'coherence': 4.0, 'consistency': 3.0, 'fluency': 3.0, 'relevance': 4.0}


 23%|██▎       | 23/102 [01:41<05:53,  4.48s/it]

[DEBUG] Resultado muestra 23 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 23 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 24%|██▎       | 24/102 [01:46<05:41,  4.38s/it]

[DEBUG] Resultado muestra 24 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 24 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 25%|██▍       | 25/102 [01:56<08:02,  6.26s/it]

[DEBUG] Resultado muestra 25 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 25 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 25%|██▌       | 26/102 [02:01<07:31,  5.95s/it]

[DEBUG] Resultado muestra 26 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 26 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}


 26%|██▋       | 27/102 [02:05<06:39,  5.33s/it]

[DEBUG] Resultado muestra 27 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 27 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}


 27%|██▋       | 28/102 [02:09<06:05,  4.95s/it]

[DEBUG] Resultado muestra 28 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 28 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


 28%|██▊       | 29/102 [02:14<05:50,  4.80s/it]

[DEBUG] Resultado muestra 29 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 29 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 29%|██▉       | 30/102 [02:19<05:50,  4.87s/it]

[DEBUG] Resultado muestra 30 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 30 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
💾 Guardado automático tras 40 muestras.


 30%|███       | 31/102 [02:23<05:32,  4.68s/it]

[DEBUG] Resultado muestra 31 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 31 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 31%|███▏      | 32/102 [02:27<05:15,  4.50s/it]

[DEBUG] Resultado muestra 32 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 32 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 32%|███▏      | 33/102 [02:31<05:05,  4.42s/it]

[DEBUG] Resultado muestra 33 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 33 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 33%|███▎      | 34/102 [02:36<05:04,  4.48s/it]

[DEBUG] Resultado muestra 34 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 34 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 34%|███▍      | 35/102 [02:40<04:59,  4.47s/it]

[DEBUG] Resultado muestra 35 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 35 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 35%|███▌      | 36/102 [02:44<04:37,  4.21s/it]

[DEBUG] Resultado muestra 36 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 36 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 36%|███▋      | 37/102 [02:48<04:31,  4.18s/it]

[DEBUG] Resultado muestra 37 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 37 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 37%|███▋      | 38/102 [02:52<04:21,  4.09s/it]

[DEBUG] Resultado muestra 38 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 38 - fine: {'coherence': 4.0, 'consistency': 3.0, 'fluency': 3.0, 'relevance': 4.0}


 38%|███▊      | 39/102 [02:56<04:22,  4.16s/it]

[DEBUG] Resultado muestra 39 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 39 - fine: {'coherence': 3.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 4.0}


 39%|███▉      | 40/102 [03:00<04:16,  4.14s/it]

[DEBUG] Resultado muestra 40 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 40 - fine: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}
💾 Guardado automático tras 50 muestras.


 40%|████      | 41/102 [03:05<04:13,  4.15s/it]

[DEBUG] Resultado muestra 41 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 41 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 41%|████      | 42/102 [03:09<04:19,  4.32s/it]

[DEBUG] Resultado muestra 42 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 42 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 42%|████▏     | 43/102 [03:14<04:18,  4.37s/it]

[DEBUG] Resultado muestra 43 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 43 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


 43%|████▎     | 44/102 [03:18<04:16,  4.42s/it]

[DEBUG] Resultado muestra 44 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 44 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 44%|████▍     | 45/102 [03:22<04:01,  4.24s/it]

[DEBUG] Resultado muestra 45 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 45 - fine: {'coherence': 3.0, 'consistency': 3.0, 'fluency': 3.0, 'relevance': 4.0}


 45%|████▌     | 46/102 [03:27<04:02,  4.34s/it]

[DEBUG] Resultado muestra 46 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 46 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 46%|████▌     | 47/102 [03:32<04:08,  4.52s/it]

[DEBUG] Resultado muestra 47 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 47 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 47%|████▋     | 48/102 [03:36<04:03,  4.50s/it]

[DEBUG] Resultado muestra 48 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 48 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 48%|████▊     | 49/102 [03:41<04:04,  4.61s/it]

[DEBUG] Resultado muestra 49 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 49 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 49%|████▉     | 50/102 [03:46<04:03,  4.69s/it]

[DEBUG] Resultado muestra 50 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 50 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
💾 Guardado automático tras 60 muestras.


 50%|█████     | 51/102 [03:50<03:49,  4.51s/it]

[DEBUG] Resultado muestra 51 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 51 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 51%|█████     | 52/102 [03:55<03:49,  4.59s/it]

[DEBUG] Resultado muestra 52 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 52 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


 52%|█████▏    | 53/102 [03:59<03:37,  4.44s/it]

[DEBUG] Resultado muestra 53 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 53 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 53%|█████▎    | 54/102 [04:03<03:24,  4.27s/it]

[DEBUG] Resultado muestra 54 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 54 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 54%|█████▍    | 55/102 [04:07<03:23,  4.32s/it]

[DEBUG] Resultado muestra 55 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 55 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 55%|█████▍    | 56/102 [04:12<03:19,  4.34s/it]

[DEBUG] Resultado muestra 56 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 56 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 3.0, 'relevance': 1.0}


 56%|█████▌    | 57/102 [04:17<03:29,  4.65s/it]

[DEBUG] Resultado muestra 57 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 57 - fine: {'coherence': 4.0, 'consistency': 4.0, 'fluency': 3.0, 'relevance': 4.0}


 57%|█████▋    | 58/102 [04:21<03:20,  4.55s/it]

[DEBUG] Resultado muestra 58 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 58 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 58%|█████▊    | 59/102 [04:25<03:07,  4.36s/it]

[DEBUG] Resultado muestra 59 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 59 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


 59%|█████▉    | 60/102 [04:30<03:05,  4.42s/it]

[DEBUG] Resultado muestra 60 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 60 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
💾 Guardado automático tras 70 muestras.


 60%|█████▉    | 61/102 [04:35<03:11,  4.67s/it]

[DEBUG] Resultado muestra 61 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 61 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 61%|██████    | 62/102 [04:39<02:59,  4.49s/it]

[DEBUG] Resultado muestra 62 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 62 - fine: {'coherence': 5.0, 'consistency': 5.0, 'fluency': 3.0, 'relevance': 5.0}


 62%|██████▏   | 63/102 [04:44<03:01,  4.65s/it]

[DEBUG] Resultado muestra 63 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 63 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 63%|██████▎   | 64/102 [04:49<02:58,  4.69s/it]

[DEBUG] Resultado muestra 64 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 64 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


 64%|██████▎   | 65/102 [04:54<02:58,  4.83s/it]

[DEBUG] Resultado muestra 65 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 65 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 65%|██████▍   | 66/102 [04:59<02:57,  4.93s/it]

[DEBUG] Resultado muestra 66 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 66 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 66%|██████▌   | 67/102 [05:04<02:50,  4.88s/it]

[DEBUG] Resultado muestra 67 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 67 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 67%|██████▋   | 68/102 [05:09<02:44,  4.85s/it]

[DEBUG] Resultado muestra 68 - base: {'coherence': 2.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 3.0}
[DEBUG] Resultado muestra 68 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 68%|██████▊   | 69/102 [05:13<02:35,  4.72s/it]

[DEBUG] Resultado muestra 69 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 69 - fine: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 69%|██████▊   | 70/102 [05:17<02:24,  4.52s/it]

[DEBUG] Resultado muestra 70 - base: {'coherence': 3.0, 'consistency': 4.0, 'fluency': 2.0, 'relevance': 3.0}
[DEBUG] Resultado muestra 70 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
💾 Guardado automático tras 80 muestras.


 70%|██████▉   | 71/102 [05:21<02:15,  4.36s/it]

[DEBUG] Resultado muestra 71 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 71 - fine: {'coherence': 5.0, 'consistency': 4.0, 'fluency': 2.0, 'relevance': 4.0}


 71%|███████   | 72/102 [05:26<02:10,  4.36s/it]

[DEBUG] Resultado muestra 72 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 72 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 72%|███████▏  | 73/102 [05:30<02:06,  4.38s/it]

[DEBUG] Resultado muestra 73 - base: {'coherence': 3.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 3.0}
[DEBUG] Resultado muestra 73 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 73%|███████▎  | 74/102 [05:35<02:06,  4.51s/it]

[DEBUG] Resultado muestra 74 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 74 - fine: {'coherence': 3.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 3.0}


 74%|███████▎  | 75/102 [05:39<01:57,  4.33s/it]

[DEBUG] Resultado muestra 75 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 75 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 75%|███████▍  | 76/102 [05:43<01:50,  4.24s/it]

[DEBUG] Resultado muestra 76 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 76 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 75%|███████▌  | 77/102 [05:47<01:49,  4.37s/it]

[DEBUG] Resultado muestra 77 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 77 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 76%|███████▋  | 78/102 [05:52<01:48,  4.53s/it]

[DEBUG] Resultado muestra 78 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 78 - fine: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 77%|███████▋  | 79/102 [05:57<01:42,  4.44s/it]

[DEBUG] Resultado muestra 79 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 79 - fine: {'coherence': 4.0, 'consistency': 5.0, 'fluency': 2.0, 'relevance': 4.0}


 78%|███████▊  | 80/102 [06:00<01:34,  4.28s/it]

[DEBUG] Resultado muestra 80 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}
[DEBUG] Resultado muestra 80 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
💾 Guardado automático tras 90 muestras.


 79%|███████▉  | 81/102 [06:04<01:27,  4.16s/it]

[DEBUG] Resultado muestra 81 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 81 - fine: {'coherence': 2.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 3.0}


 80%|████████  | 82/102 [06:10<01:29,  4.49s/it]

[DEBUG] Resultado muestra 82 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 82 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 81%|████████▏ | 83/102 [06:15<01:27,  4.63s/it]

[DEBUG] Resultado muestra 83 - base: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 83 - fine: {'coherence': 3.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 3.0}


 82%|████████▏ | 84/102 [06:19<01:20,  4.45s/it]

[DEBUG] Resultado muestra 84 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 84 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


 83%|████████▎ | 85/102 [06:23<01:15,  4.45s/it]

[DEBUG] Resultado muestra 85 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 85 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 1.0, 'relevance': 2.0}


 84%|████████▍ | 86/102 [06:45<02:35,  9.75s/it]

[DEBUG] Resultado muestra 86 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 86 - fine: {'coherence': 2.0, 'consistency': 3.0, 'fluency': 2.0, 'relevance': 3.0}


 85%|████████▌ | 87/102 [06:50<02:05,  8.36s/it]

[DEBUG] Resultado muestra 87 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 1.0, 'relevance': 2.0}
[DEBUG] Resultado muestra 87 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 2.0}


 86%|████████▋ | 88/102 [06:54<01:37,  6.96s/it]

[DEBUG] Resultado muestra 88 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 88 - fine: {'coherence': 3.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}


 87%|████████▋ | 89/102 [06:58<01:19,  6.11s/it]

[DEBUG] Resultado muestra 89 - base: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 89 - fine: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 2.0}


 88%|████████▊ | 90/102 [07:02<01:06,  5.55s/it]

[DEBUG] Resultado muestra 90 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 90 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
💾 Guardado automático tras 100 muestras.


 89%|████████▉ | 91/102 [07:07<00:56,  5.16s/it]

[DEBUG] Resultado muestra 91 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 91 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 90%|█████████ | 92/102 [07:12<00:53,  5.39s/it]

[DEBUG] Resultado muestra 92 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 92 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}


 91%|█████████ | 93/102 [07:17<00:45,  5.10s/it]

[DEBUG] Resultado muestra 93 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 93 - fine: {'coherence': 2.0, 'consistency': 1.0, 'fluency': 3.0, 'relevance': 2.0}


 92%|█████████▏| 94/102 [07:22<00:40,  5.03s/it]

[DEBUG] Resultado muestra 94 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 94 - fine: {'coherence': 3.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 3.0}


 93%|█████████▎| 95/102 [07:26<00:34,  4.93s/it]

[DEBUG] Resultado muestra 95 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 95 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}


 94%|█████████▍| 96/102 [07:31<00:28,  4.76s/it]

[DEBUG] Resultado muestra 96 - base: {'coherence': 3.0, 'consistency': 4.0, 'fluency': 2.0, 'relevance': 4.0}
[DEBUG] Resultado muestra 96 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}


 95%|█████████▌| 97/102 [07:35<00:22,  4.58s/it]

[DEBUG] Resultado muestra 97 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 97 - fine: {'coherence': 4.0, 'consistency': 5.0, 'fluency': 2.0, 'relevance': 5.0}


 96%|█████████▌| 98/102 [07:39<00:17,  4.43s/it]

[DEBUG] Resultado muestra 98 - base: {'coherence': 2.0, 'consistency': 2.0, 'fluency': 2.0, 'relevance': 3.0}
[DEBUG] Resultado muestra 98 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 2.0}


 97%|█████████▋| 99/102 [07:43<00:12,  4.25s/it]

[DEBUG] Resultado muestra 99 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 99 - fine: {'coherence': 4.0, 'consistency': 4.0, 'fluency': 2.0, 'relevance': 4.0}


 98%|█████████▊| 100/102 [07:47<00:08,  4.26s/it]

[DEBUG] Resultado muestra 100 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 100 - fine: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 2.0, 'relevance': 1.0}
💾 Guardado automático tras 110 muestras.


 99%|█████████▉| 101/102 [07:52<00:04,  4.40s/it]

[DEBUG] Resultado muestra 101 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 101 - fine: {'coherence': 3.0, 'consistency': 4.0, 'fluency': 2.0, 'relevance': 3.0}


100%|██████████| 102/102 [07:56<00:00,  4.68s/it]

[DEBUG] Resultado muestra 102 - base: {'coherence': 1.0, 'consistency': 1.0, 'fluency': 1.0, 'relevance': 1.0}
[DEBUG] Resultado muestra 102 - fine: {'coherence': 3.0, 'consistency': 4.0, 'fluency': 2.0, 'relevance': 3.0}





In [7]:
# === GUARDADO FINAL
with open(OUTPUT_JSON, "w", encoding="utf-8") as f:
    json.dump(resultados, f, indent=2, ensure_ascii=False)

print("✅ Evaluaciones completadas y guardadas en", OUTPUT_JSON)

✅ Evaluaciones completadas y guardadas en F:\Usuario\Desktop\Final\g_eval_resultados_unificado.json
