@crag-pro/doc-parser

Multi-format document parser with OCR fallback. Extracts text from PDF, Word, Excel, PowerPoint, and plaintext files. Falls back to Tesseract OCR for scanned PDFs and an AI vision API for low-quality scans.

Originally built for CRAG (regulatory compliance intelligence) and extracted as a standalone library.

Install

npm install @crag-pro/doc-parser

Quick start

import { parse } from "@crag-pro/doc-parser";

const result = await parse("./contract.pdf");
console.log(result.text);
console.log(result.metadata);

Supported formats

Extension	Parser	Notes
`.pdf`	pdf-parse	OCR fallback (Tesseract) for scanned pages, AI vision API for low-confidence OCR
`.docx`	mammoth
`.xlsx`	exceljs
`.pptx`	XML extraction
`.txt`, `.csv`, `.md`, `.msg`	plaintext

CLI

npx @crag-pro/doc-parser ./input-dir ./output-dir

See doc-parser --help for full options.

OCR setup (optional)

Tesseract must be installed locally for OCR fallback:

# macOS
brew install tesseract

# Ubuntu
apt-get install tesseract-ocr

For AI vision fallback on low-quality scans, set ANTHROPIC_API_KEY in your environment.

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.changeset		.changeset
.github/workflows		.github/workflows
src		src
stress-test		stress-test
tests		tests
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
README.md		README.md
package-lock.json		package-lock.json
package.json		package.json
tsconfig.json		tsconfig.json
vitest.config.ts		vitest.config.ts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

@crag-pro/doc-parser

Install

Quick start

Supported formats

CLI

OCR setup (optional)

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

@crag-pro/doc-parser

Install

Quick start

Supported formats

CLI

OCR setup (optional)

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages