feat(convert): add structured metadata extraction from HTML pages by chaliy · Pull Request #77 · everruns/fetchkit

chaliy · 2026-03-27T02:17:56Z

What

Add PageMetadata struct and extraction from HTML pages during fetch. Returns structured metadata alongside converted content in FetchResponse.metadata.

Why

Agents currently have to re-parse markdown to get basic page info like title, description, and links. This is the single biggest improvement for agentic use — agents need this metadata universally.

How

New PageMetadata struct with: title, description, language, canonical_url, author, published_date, modified_date, links (Vec), headings outline
extract_metadata() — single-pass HTML parser for meta tags, title, links, language, canonical URL
extract_headings() — separate pass for heading outline extraction
Both integrated into DefaultFetcher — metadata populated when HTML content detected
OG tags override basic HTML tags (og:title > title, og:description > meta description)
DoS limits: max 500 links, max 200 headings per page

Risk

Low — additive change, existing behavior unchanged
New optional field on FetchResponse, backward-compatible

Checklist

Unit tests passed (16 tests covering all metadata fields)
Clippy clean
Docs build clean
Specs are up to date

Closes #71

Add PageMetadata struct with title, description, language, canonical_url, author, published/modified dates, links, and headings outline. Metadata is extracted during HTML processing in DefaultFetcher and returned in FetchResponse.metadata field. Closes #71

chaliy merged commit 26f1347 into main Mar 27, 2026
10 checks passed

chaliy deleted the claude/issue-71-metadata-extraction branch March 27, 2026 02:55

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(convert): add structured metadata extraction from HTML pages#77

feat(convert): add structured metadata extraction from HTML pages#77
chaliy merged 1 commit intomainfrom
claude/issue-71-metadata-extraction

chaliy commented Mar 27, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

chaliy commented Mar 27, 2026

What

Why

How

Risk

Checklist

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant