docs(baton): Sentinel adopter calibration (E1+E2+E3) + declared-verb proposal (#328) by montfort · Pull Request #331 · StrangeDaysTech/straymark

montfort · 2026-06-27T05:53:23Z

Feedback de adoptante desde el repo Sentinel: corrida de los experimentos del adopter-test-plan §2–§4 contra el corpus de gobernanza real de Sentinel (762 unidades). Todo en experiment-baton/adopter-calibration-sentinel/.

Naturaleza: read-only / recommend-only — nada ejecutó un modelo, abrió red ni mutó el repo de Sentinel.

Qué trae

E1 (corrección, ground truth ciego): signals::scan_cues clasifica por substring del título → falsos positivos de keyword (audit.go→auditor, (commit hash)→operator, "coverage" de fechas→operator, "Audit remediation"→auditor). Tras adjudicar la política de tiers del operador: high+medium 0.57, 4 errores hacia abajo residuales.
E2 (piloto work_verb): un verbo declarado en autoría (costo ≈0 tokens) sube la confianza 6→32 high y cierra los 4 errores; design_provenance provablemente necesario. El 1.00 de exactitud es POR CONSTRUCCIÓN — el valor es que la baja confianza de Baton era artefacto de inferencia, no incertidumbre real.
E3 (costo real): el clasificador roto rutea con 39% de ahorro vs 54% del ground-truth correcto → ~15 puntos sobre la mesa + riesgo de calidad en 3/32 (trabajo frontier ruteado barato por falsos positivos de keyword).

La propuesta

proposal-declared-verb.md: promover el verbo del trabajo de inferido a declarado en autoría (tercera vía entre determinista-por-título y score-IA-por-unidad; costo ≈0 tokens; title-scan como fallback para legacy). La fix de mayor palanca: que el clasificador consuma la provenance del diseño que Baton ya construye (B2) en vez de rutear por substring del título. Confirma #328 ("la granularidad NO es la palanca; la señal estructurada sí").

Procedencia del ground truth (declarada por honestidad)

Agente etiquetando contra el código/artefacto real, ciego a la predicción de Baton, supervisado por el operador — NO "humano que hizo el trabajo". Cada etiqueta cita evidencia. Reproducible: python3 score.py / python3 verb_pilot.py.

baton-classify.json (volcado de las 762 unidades) se omitió a propósito — las cifras se reproducen desde las 32 muestreadas; regenerable con straymark-baton classify.

La validación forward (¿declaran bien los autores en el mundo real?) es de StrayMark post-adopción sobre corpus variado, no de un adoptante — se deja anotada, no ejecutada.

Closes #328 (parcial — aporta la evidencia empírica + la propuesta de fix).

🤖 Generated with Claude Code

…posal (#328) Feedback de adoptante desde el repo Sentinel: corrida de los experimentos E1/E2/E3 del adopter-test-plan contra el corpus de gobernanza real de Sentinel (762 unidades). - E1 (corrección, ground truth ciego): el clasificador rutea por substring del título → falsos positivos de keyword (audit.go→auditor, (commit hash)→operator, "coverage" de fechas→operator, "Audit remediation"→auditor). Tras adjudicar la política de tiers del operador: high+medium 0.57, 4 errores hacia abajo residuales. - E2 (piloto work_verb): un verbo declarado en autoría (costo ≈0) sube la confianza 6→32 high y cierra los 4 errores; design_provenance provablemente necesario. - E3 (costo real): el clasificador roto rutea con 39% de ahorro vs 54% del ground-truth correcto → ~15 puntos en la mesa + riesgo de calidad en 3/32. Propuesta (proposal-declared-verb.md): promover el verbo de inferido a declarado en autoría (costo ≈0 tokens; title-scan como fallback), consumiendo la provenance del diseño que Baton ya construye (B2). Confirma #328. Procedencia del ground truth: agente etiquetando contra el código real, ciego a la predicción de Baton, supervisado por el operador (NO humano-puro). Read-only. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

montfort merged commit 0630ccf into main Jun 27, 2026
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

docs(baton): Sentinel adopter calibration (E1+E2+E3) + declared-verb proposal (#328)#331

docs(baton): Sentinel adopter calibration (E1+E2+E3) + declared-verb proposal (#328)#331
montfort merged 1 commit into
mainfrom
docs/baton-adopter-calibration-sentinel

montfort commented Jun 27, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Uh oh!

Conversation

montfort commented Jun 27, 2026

Qué trae

La propuesta

Procedencia del ground truth (declarada por honestidad)

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant