CVPR-2023-Papers

Application
New collections

Document Analysis and Understanding

Title	Repo	Paper	Video
Towards Flexible Multi-Modal Document Models
Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling	➖
Unifying Layout Generation with a Decoupled Diffusion Model	➖
Conditional Text Image Generation with Diffusion Models	➖
Turning a CLIP Model into a Scene Text Detector
Unifying Vision, Text, and Layout for Universal Document Processing
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild
GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction
Handwritten Text Generation from Visual Archetypes
Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution
M⁶Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis
Disentangling Writer and Character Styles for Handwriting Generation