docs(baton): Sentinel adopter calibration (E1+E2+E3) + declared-verb proposal (#328)#331
Merged
Merged
Conversation
…posal (#328) Feedback de adoptante desde el repo Sentinel: corrida de los experimentos E1/E2/E3 del adopter-test-plan contra el corpus de gobernanza real de Sentinel (762 unidades). - E1 (corrección, ground truth ciego): el clasificador rutea por substring del título → falsos positivos de keyword (audit.go→auditor, (commit hash)→operator, "coverage" de fechas→operator, "Audit remediation"→auditor). Tras adjudicar la política de tiers del operador: high+medium 0.57, 4 errores hacia abajo residuales. - E2 (piloto work_verb): un verbo declarado en autoría (costo ≈0) sube la confianza 6→32 high y cierra los 4 errores; design_provenance provablemente necesario. - E3 (costo real): el clasificador roto rutea con 39% de ahorro vs 54% del ground-truth correcto → ~15 puntos en la mesa + riesgo de calidad en 3/32. Propuesta (proposal-declared-verb.md): promover el verbo de inferido a declarado en autoría (costo ≈0 tokens; title-scan como fallback), consumiendo la provenance del diseño que Baton ya construye (B2). Confirma #328. Procedencia del ground truth: agente etiquetando contra el código real, ciego a la predicción de Baton, supervisado por el operador (NO humano-puro). Read-only. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This was referenced Jun 27, 2026
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
Feedback de adoptante desde el repo Sentinel: corrida de los experimentos del
adopter-test-plan§2–§4 contra el corpus de gobernanza real de Sentinel (762 unidades). Todo enexperiment-baton/adopter-calibration-sentinel/.Naturaleza: read-only / recommend-only — nada ejecutó un modelo, abrió red ni mutó el repo de Sentinel.
Qué trae
signals::scan_cuesclasifica por substring del título → falsos positivos de keyword (audit.go→auditor,(commit hash)→operator,"coverage"de fechas→operator,"Audit remediation"→auditor). Tras adjudicar la política de tiers del operador: high+medium 0.57, 4 errores hacia abajo residuales.work_verb): un verbo declarado en autoría (costo ≈0 tokens) sube la confianza 6→32 high y cierra los 4 errores;design_provenanceprovablemente necesario. El 1.00 de exactitud es POR CONSTRUCCIÓN — el valor es que la baja confianza de Baton era artefacto de inferencia, no incertidumbre real.La propuesta
proposal-declared-verb.md: promover el verbo del trabajo de inferido a declarado en autoría (tercera vía entre determinista-por-título y score-IA-por-unidad; costo ≈0 tokens; title-scan como fallback para legacy). La fix de mayor palanca: que el clasificador consuma la provenance del diseño que Baton ya construye (B2) en vez de rutear por substring del título. Confirma #328 ("la granularidad NO es la palanca; la señal estructurada sí").Procedencia del ground truth (declarada por honestidad)
Agente etiquetando contra el código/artefacto real, ciego a la predicción de Baton, supervisado por el operador — NO "humano que hizo el trabajo". Cada etiqueta cita evidencia. Reproducible:
python3 score.py/python3 verb_pilot.py.La validación forward (¿declaran bien los autores en el mundo real?) es de StrayMark post-adopción sobre corpus variado, no de un adoptante — se deja anotada, no ejecutada.
Closes #328 (parcial — aporta la evidencia empírica + la propuesta de fix).
🤖 Generated with Claude Code