Skip to content

docs(baton): Sentinel adopter calibration (E1+E2+E3) + declared-verb proposal (#328)#331

Merged
montfort merged 1 commit into
mainfrom
docs/baton-adopter-calibration-sentinel
Jun 27, 2026
Merged

docs(baton): Sentinel adopter calibration (E1+E2+E3) + declared-verb proposal (#328)#331
montfort merged 1 commit into
mainfrom
docs/baton-adopter-calibration-sentinel

Conversation

@montfort

Copy link
Copy Markdown
Contributor

Feedback de adoptante desde el repo Sentinel: corrida de los experimentos del adopter-test-plan §2–§4 contra el corpus de gobernanza real de Sentinel (762 unidades). Todo en experiment-baton/adopter-calibration-sentinel/.

Naturaleza: read-only / recommend-only — nada ejecutó un modelo, abrió red ni mutó el repo de Sentinel.

Qué trae

  • E1 (corrección, ground truth ciego): signals::scan_cues clasifica por substring del título → falsos positivos de keyword (audit.go→auditor, (commit hash)→operator, "coverage" de fechas→operator, "Audit remediation"→auditor). Tras adjudicar la política de tiers del operador: high+medium 0.57, 4 errores hacia abajo residuales.
  • E2 (piloto work_verb): un verbo declarado en autoría (costo ≈0 tokens) sube la confianza 6→32 high y cierra los 4 errores; design_provenance provablemente necesario. El 1.00 de exactitud es POR CONSTRUCCIÓN — el valor es que la baja confianza de Baton era artefacto de inferencia, no incertidumbre real.
  • E3 (costo real): el clasificador roto rutea con 39% de ahorro vs 54% del ground-truth correcto → ~15 puntos sobre la mesa + riesgo de calidad en 3/32 (trabajo frontier ruteado barato por falsos positivos de keyword).

La propuesta

proposal-declared-verb.md: promover el verbo del trabajo de inferido a declarado en autoría (tercera vía entre determinista-por-título y score-IA-por-unidad; costo ≈0 tokens; title-scan como fallback para legacy). La fix de mayor palanca: que el clasificador consuma la provenance del diseño que Baton ya construye (B2) en vez de rutear por substring del título. Confirma #328 ("la granularidad NO es la palanca; la señal estructurada sí").

Procedencia del ground truth (declarada por honestidad)

Agente etiquetando contra el código/artefacto real, ciego a la predicción de Baton, supervisado por el operador — NO "humano que hizo el trabajo". Cada etiqueta cita evidencia. Reproducible: python3 score.py / python3 verb_pilot.py.

baton-classify.json (volcado de las 762 unidades) se omitió a propósito — las cifras se reproducen desde las 32 muestreadas; regenerable con straymark-baton classify.

La validación forward (¿declaran bien los autores en el mundo real?) es de StrayMark post-adopción sobre corpus variado, no de un adoptante — se deja anotada, no ejecutada.

Closes #328 (parcial — aporta la evidencia empírica + la propuesta de fix).

🤖 Generated with Claude Code

…posal (#328)

Feedback de adoptante desde el repo Sentinel: corrida de los experimentos E1/E2/E3
del adopter-test-plan contra el corpus de gobernanza real de Sentinel (762 unidades).

- E1 (corrección, ground truth ciego): el clasificador rutea por substring del título
  → falsos positivos de keyword (audit.go→auditor, (commit hash)→operator, "coverage"
  de fechas→operator, "Audit remediation"→auditor). Tras adjudicar la política de tiers
  del operador: high+medium 0.57, 4 errores hacia abajo residuales.
- E2 (piloto work_verb): un verbo declarado en autoría (costo ≈0) sube la confianza
  6→32 high y cierra los 4 errores; design_provenance provablemente necesario.
- E3 (costo real): el clasificador roto rutea con 39% de ahorro vs 54% del ground-truth
  correcto → ~15 puntos en la mesa + riesgo de calidad en 3/32.

Propuesta (proposal-declared-verb.md): promover el verbo de inferido a declarado en
autoría (costo ≈0 tokens; title-scan como fallback), consumiendo la provenance del
diseño que Baton ya construye (B2). Confirma #328.

Procedencia del ground truth: agente etiquetando contra el código real, ciego a la
predicción de Baton, supervisado por el operador (NO humano-puro). Read-only.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

La granularidad NO es la palanca

1 participant