ScanIt

Suite forense web para auditoria de integridad documental (.pdf y .docx) e imagen, con enfoque en evidencia tecnica reproducible y politica conservadora.

Vision

ScanIt responde una pregunta concreta: "¿hay señales tecnicas de manipulacion o generacion sintetica?"

No adivina. Aplica Zero Guessing Policy para priorizar trazabilidad y reducir falsos positivos agresivos.

Principios del proyecto:

Evidencia primero (timeline, metadatos, hashes, señales tecnicas).
Decisiones auditables (anomalias explicitas + cobertura de evidencia).
Salida conservadora (no_concluyente) cuando falta soporte suficiente.

Quick Start (2 minutos)

npm install
npm run dev

Abre http://127.0.0.1:5173, sube un .pdf o .docx y ejecuta la auditoria.

Si quieres evaluar el dataset completo:

npm run eval:dataset

Se generaran reportes en dataset/reports/.

Demo rapida (flujo recomendado)

Arrancar app en local (npm run dev).
Probar 1 documento real y 1 IA desde dataset/.
Revisar en UI:
- verdict
- anomalies
- evidenceCoverage
- confidence
Ejecutar npm run eval:dataset para validar comportamiento global.

Funcionalidades clave

1) Auditoria de documentos

Extraccion de texto, timeline y metadatos de docx y pdf.
Metricas forenses: entropia, uniformidad sintactica, diversidad lexical, ratio palabras/minuto.
Comprobaciones DOCX: autor/ultimo editor, coherencia temporal interna.
Comprobaciones PDF: firma estructural (ByteRange) y posible tampering post-firma.
Capa linguistica con Groq (si hay clave y muestra textual suficiente).
Veredicto final con politica conservadora y cobertura de evidencia.

2) Auditoria visual / imagen

ELA (Error Level Analysis), PRNU aproximado y ruido por zonas.
Clasificacion visual IA para validar que la evidencia es documental.

3) Telemetria y salida

Flujo con logs operativos ([AUDIT], [CHECK], [FAIL], [ALERTA]).
Informe tecnico PDF.
Reporte JSON de evaluaciones masivas del dataset.

Stack tecnico

Frontend: SvelteKit + Svelte 5
Backend API: endpoints +server.ts
Procesado docs: mammoth, jszip, pdfjs-dist, pdf-parse
OCR base: tesseract.js
IA: groq-sdk
Reportes PDF: jspdf

Licencia

Este proyecto se distribuye bajo licencia PolyForm Noncommercial 1.0.0 (ver LICENSE).

Para uso comercial, licencia comercial separada y acuerdo directo con el autor.

Estructura relevante

src/routes/+page.svelte: UI principal y flujo de auditoria.
src/routes/api/audit-document/+server.ts: pipeline forense documental.
src/routes/api/audit-image-ai/+server.ts: capa visual IA.
scripts/eval-dataset.mjs: evaluacion masiva del dataset.
scripts/eval-until-noon.ps1: bucle de reintentos hasta ventana horaria.
dataset/real y dataset/ia: corpus etiquetado para calibracion.
dataset/reports: resultados (eval-details-*, eval-metrics-*, parciales).

Estado actual de calibracion (dataset local)

Pasada completa mas reciente documentada:

Dataset: 153 documentos (63 real / 90 IA)
Failed HTTP: 0
Undecided: 50 (32.68%)
Decididos: 103
TP: 50 / TN: 53 / FP: 0 / FN: 0

Archivo de referencia:

dataset/reports/eval-metrics-2026-03-28T17-42-27.106Z.json

Nota: los valores cambian al recalibrar reglas o variar el estado de servicios IA.

Variables de entorno

Minimas

GROQ_API_KEY=tu_api_key
PUBLIC_SITE_URL=http://localhost:5173

Politicas del endpoint documental

# Opcional: pausa capa linguistica en PDF
SCANIT_SAFE_MODE=false

# Umbral para permitir "anomalias_detectadas" en PDF
# cuando solo existe LINGUISTIC_AI_VERY_HIGH
SCANIT_PDF_LINGUISTIC_DECISIVE_MIN=90

# Si Groq falla en PDF breve, no permitir "integro"
SCANIT_PDF_INTEGRO_MAX_WORDS_IF_LINGUISTIC_ERROR=600

Evaluacion de dataset (`scripts/eval-dataset.mjs`)

SCANIT_EVAL_URL=http://127.0.0.1:5173/api/audit-document
SCANIT_EVAL_FETCH_ATTEMPTS=6
SCANIT_EVAL_MAX_PER_CLASS=0
SCANIT_EVAL_PARTIAL_EVERY=10
SCANIT_EVAL_RUN_MS=0

Ejecutar en local

npm install
npm run dev

Servidor local fijado en:

http://127.0.0.1:5173 (strictPort: true en Vite)

Chequeos recomendados:

npm run check
npm run build

Evaluacion y calibracion

Pasada completa del dataset

npm run eval:dataset

Ejecucion explicita (recomendada en Windows)

set NODE_OPTIONS=--dns-result-order=ipv4first
set SCANIT_EVAL_URL=http://127.0.0.1:5173/api/audit-document
node scripts/eval-dataset.mjs

Bucle con reintentos por ventana horaria

powershell -ExecutionPolicy Bypass -File .\scripts\eval-until-noon.ps1

Politica de veredictos

integro: señales consistentes y cobertura suficiente.
anomalias_detectadas: presencia de señales tecnicas relevantes.
no_concluyente: evidencia insuficiente, conflictiva o no robusta.

Reglas destacadas:

En PDF, señal linguistica aislada no fuerza anomalia salvo umbral alto configurable.
En PDF breve con error linguistico, no se declara integro.
Se prioriza minimizar falsos positivos sin perder trazabilidad de decisiones.

Limitaciones conocidas

Firma PDF en modo estructural (no PKI completa end-to-end).
OCR es basico en PDFs sin capa textual.
Servicios IA externos pueden saturarse y afectar cobertura linguistica.
Ningun detector es infalible: siempre requiere criterio humano.

Despliegue (Vercel)

Subir repo a GitHub.
Importar en Vercel como SvelteKit.
Configurar variables (GROQ_API_KEY, PUBLIC_SITE_URL, opcionales SCANIT_*).
Desplegar.

Publicacion segura del repo

Antes de publicar el repositorio:

No subas documentos con datos personales (dataset/real privado).
No subas reportes generados localmente (dataset/reports).
No subas .env ni secretos (GROQ_API_KEY).
Si necesitas ejemplos, usa un corpus anonimo/sintetico.

Uso responsable

ScanIt es una herramienta de apoyo tecnico. No sustituye evaluacion humana ni asesoramiento legal/pericial formal.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.vscode		.vscode
sanity		sanity
scripts		scripts
src		src
static		static
.env.example		.env.example
.gitignore		.gitignore
.npmrc		.npmrc
LICENSE		LICENSE
README.md		README.md
package-lock.json		package-lock.json
package.json		package.json
sanity.cli.ts		sanity.cli.ts
sanity.config.ts		sanity.config.ts
svelte.config.js		svelte.config.js
tailwind.config.cjs		tailwind.config.cjs
tsconfig.json		tsconfig.json
vite.config.ts		vite.config.ts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ScanIt

Vision

Quick Start (2 minutos)

Demo rapida (flujo recomendado)

Funcionalidades clave

1) Auditoria de documentos

2) Auditoria visual / imagen

3) Telemetria y salida

Stack tecnico

Licencia

Estructura relevante

Estado actual de calibracion (dataset local)

Variables de entorno

Minimas

Politicas del endpoint documental

Evaluacion de dataset (`scripts/eval-dataset.mjs`)

Ejecutar en local

Evaluacion y calibracion

Pasada completa del dataset

Ejecucion explicita (recomendada en Windows)

Bucle con reintentos por ventana horaria

Politica de veredictos

Limitaciones conocidas

Despliegue (Vercel)

Publicacion segura del repo

Uso responsable

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

ScanIt

Vision

Quick Start (2 minutos)

Demo rapida (flujo recomendado)

Funcionalidades clave

1) Auditoria de documentos

2) Auditoria visual / imagen

3) Telemetria y salida

Stack tecnico

Licencia

Estructura relevante

Estado actual de calibracion (dataset local)

Variables de entorno

Minimas

Politicas del endpoint documental

Evaluacion de dataset (scripts/eval-dataset.mjs)

Ejecutar en local

Evaluacion y calibracion

Pasada completa del dataset

Ejecucion explicita (recomendada en Windows)

Bucle con reintentos por ventana horaria

Politica de veredictos

Limitaciones conocidas

Despliegue (Vercel)

Publicacion segura del repo

Uso responsable

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Evaluacion de dataset (`scripts/eval-dataset.mjs`)

Packages