# OCR + LayoutLM Pipeline

# 中英文发票OCR处理完整教学指南
## 教学目标
本教程将详细介绍如何构建一个完整的中英文发票信息提取系统，包括：

- PaddleOCR + LayoutLMv3 的完整pipeline
- 数据标注和预处理技巧
- 模型微调策略
- Label Studio集成
- 性能优化和问题诊断

## 系统架构概览

## 发票信息抽取流程

```mermaid
发票PDF → PDF转图像 → PaddleOCR文本提取 → LayoutLMv3结构化 → JSON输出  
    ↓           ↓              ↓               ↓  
  输入层      预处理层        OCR层          NER层
```

## 第一步：环境准备和依赖安装

### 1.1 创建项目结构

In [5]:
!cd /Users/xiaotingzhou/Documents/Lectures/AI_OCR/layoutlmv3_ner/Lec_5
!mkdir -p data/{raw,processed,training,validation} models/{checkpoints,final} src notebooks configs scripts

```mermaid
layoutlmv3_ner/Lec_5/
├── data/
│   ├── raw/                    # 原始PDF文件
│   ├── processed/              # 处理后的图像
│   ├── training/               # 训练数据
│   └── validation/             # 验证数据
├── models/
│   ├── checkpoints/            # 训练检查点
│   └── final/                  # 最终模型
├── src/
│   ├── data_processor.py       # 数据处理
│   ├── ocr_engine.py          # OCR引擎
│   ├── layoutlm_trainer.py    # LayoutLM训练
│   └── inference_pipeline.py  # 推理管道
├── notebooks/
│   └── Lec_5_OCR_LayoutLM_Pipeline.ipynb
├── configs/
│   ├── model_config.yaml      # 模型配置
│   └── training_config.yaml   # 训练配置
├── scripts/
│   ├── train.py               # 训练脚本
│   ├── inference.py           # 推理脚本
│   └── evaluate.py            # 评估脚本
└── requirements.txt
```

### 1.2 核心组件
- 1. 数据预处理器 ( InvoiceDataProcessor )
- 2. LayoutLMv3训练器 ( LayoutLMv3Trainer )
- 3. 推理管道 ( InvoiceInferencePipeline )
- 4. 评估模块 ( ModelEvaluator )

## 第二部分：环境配置与依赖安装
### 2.1 创建完整的requirements.txt

### 2.2 安装命令

In [None]:
# 创建虚拟环境
# python -m venv invoice_ocr_env
# source invoice_ocr_env/bin/activate  # macOS/Linux
# # 或 invoice_ocr_env\Scripts\activate  # Windows

# # 安装依赖
# # Update pip first
# !pip install --upgrade pip

# # Install the corrected requirements
# !pip install -r /Users/xiaotingzhou/Documents/Lectures/AI_OCR/layoutlmv3_ner/Lec_5/requirements.txt

# # Or install pdf2image specifically with the correct version
# !pip install pdf2image==1.17.0

# # 安装Label Studio
# !pip install label-studio

## 第三部分：数据准备与标注
### 3.1 数据收集策略 

#### 3.1.1 发票类型多样性

-  data_collection_strategy.py

### 3.2 Label Studio集成 
#### 3.2.1 Label Studio配置

- label_studio_config.xml

#### 3.2.2 Label Studio数据导出脚本

- label_studio_integration.py 

### 3.3 数据质量控制 
#### 3.3.1 标注质量检查

- label_studio_integration.py

-- 300笔  - OCR （text， bbox）json (invoice: bbox_invoice, date: bbox_date) 没有标注

-- # TODO: 500: 100 type_1, 150 type_2, 250 type_3
-- Rule, type--> （text， bbox）

- Unsupervised Learning, k-mean? k-cluster

- TODO: Dunt label: pdf_1 convert OCR output: pdf_1

## 第四部分：模型训练与微调
### 4.1 数据增强策略 
#### 4.1.1 图像增强

- advanced_data_augmentation.py

### 4.2 微调策略详解 
#### 4.2.1 渐进式训练


- progressive_training.py

#### 4.2.2 学习率调度策略

- learning_rate_scheduler.py

## 第五部分：性能监控与优化
### 5.1 训练监控系统

- training_monitor.py

### 5.2 性能问题诊断 
#### 5.2.1 常见问题及解决方案

- performance_diagnostics.py

## 第六部分：完整训练流程演示
### 6.1 演示脚本

In [None]:
# # 安装Label Studio
# pip install label-studio

# # 启动服务
# label-studio start --port 8080

In [None]:
# # 1. 确保环境配置正确
# python --version  # 应该是3.12

# # 2. 安装依赖
# pip install -r requirements.txt

# # 3. 运行训练流水线
# python train_pipeline.py

# # 4. 查看训练日志
# tail -f logs/training.log

In [None]:
# # 运行推理演示
# python inference_demo.py

# # 批量处理
# python batch_inference.py --input_dir data/test_invoices --output_dir results/

## 7. 核心代码实现
### 7.1 优化的数据处理器

- data_processor.py

### 7.2 增强的推理管道

- inference_pipeline.py

## 8. 微调技术和策略
### 8.1 中英文混合训练策略

- multilingual_trainer.py

## 9. 性能优化和评估
### 9.1 模型评估指标

- model_evaluator.py

## 10. 性能问题分析和解决方案
### 10.1 常见性能问题
- 1. OCR识别错误
   - 原因：图像质量差、字体特殊、倾斜等
   - 解决：提高PDF转换DPI、图像预处理、多OCR引擎融合

- 2. 实体边界识别错误
   - 原因：训练数据不足、标注不一致
   - 解决：增加训练数据、改进标注策略、使用CRF层

- 3. 多语言混合识别困难
   - 原因：中英文切换、字符编码问题
   - 解决：使用多语言预训练模型、字符级tokenization

### 10.2 优化建议

- optimization_strategies.py

## 11. 部署和监控
### 11.1 API服务部署

- api_server.py

### 11.2 性能监控

- monitoring.py