# 医疗文档图像文字识别演示

> 🏥 使用PaddleOCR从医疗文档PNG图像中提取文本并保存为CSV

**版本**: v1.3.14 (修复Cell顺序和Gradio界面缺失问题，优化IDE警告) | **更新时间**: 2025-08-25

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/zhurong2020/claude-colab-projects/blob/main/demos/medical-ocr/medical-ocr-demo.ipynb) [![GitHub](https://img.shields.io/badge/GitHub-源代码-blue?logo=github)](https://github.com/zhurong2020/claude-colab-projects/tree/main/demos/medical-ocr)

## 🎯 功能特性
- 📄 支持医疗文档图像文字识别
- 🤖 使用PaddleOCR高精度识别引擎
- 📊 自动生成结构化CSV报告
- 🖼️ 支持多种图像格式输入
- 💡 简单易用的交互界面
- 🏠 完整本地开发环境支持
- 🌐 支持中英文混合识别
- 🏗️ 独立应用架构，可直接在Colab运行

## 🔧 更新内容 (v1.3.14)
- **🔄 Cell顺序修复**: 将"OCR功能验证测试"移至"Gradio界面准备"之前，确保逻辑顺序正确
- **🌐 Gradio界面恢复**: 完整恢复被删除的Gradio Web界面代码和功能
- **🚫 重复导入清理**: 移除Cell-6和Cell-7中的重复import语句
- **⚠️ IDE警告修复**: 修复所有Pylance未使用变量和类型警告，提升代码质量
- **🎯 兼容性增强**: 修复gr.themes兼容性问题，确保在不同Gradio版本中正常运行
- **📝 调试信息优化**: 增强错误处理和调试输出，便于问题定位

## 🚀 使用说明

### Colab环境
1. 点击上方的"Open in Colab"按钮
2. 依次运行各个单元格即可完成全流程
3. 上传医疗文档图像进行识别
4. 下载CSV结果文件

### 本地环境
```bash
# 从项目根目录一键启动
../start_local.sh

# 手动启动
source ../venv/bin/activate && jupyter notebook
```

### 优化执行流程
1. **环境检查** → 2. **安装依赖** → 3. **导入库** → 4. **初始化OCR** → 5. **创建示例和验证** → 6. **OCR功能验证** → 7. **Gradio Web界面** → 8. **项目总结**

---
*使用 Claude Code 开发，支持 Google Colab 和本地运行 🚀*

In [None]:
# ================================
# 环境检查和基础设置
# ================================

import warnings
warnings.filterwarnings("ignore")

def check_environment():
    """检查运行环境并显示系统信息"""
    print("🔍 检查运行环境...")
    
    # 检查是否在Colab环境
    try:
        import google.colab # type: ignore # noqa: F401 # 需要用于环境检测
        print("✅ 运行在Google Colab")
        in_colab = True
    except ImportError:
        print("ℹ️ 运行在本地环境")
        in_colab = False
    
    # 检查GPU
    try:
        import torch
        device = 'cuda' if torch.cuda.is_available() else 'cpu'
        print(f"✅ 计算设备: {device}")
        if device == 'cuda':
            print(f"✅ GPU型号: {torch.cuda.get_device_name(0)}")
            print(f"✅ GPU内存: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    except ImportError:
        print("ℹ️ PyTorch未安装，使用CPU模式")
    
    return in_colab

# 运行环境检查
in_colab = check_environment()

In [None]:
# ================================
# 安装必要的依赖包
# ================================

def install_dependencies():
    """安装项目所需的依赖包"""
    print("📦 安装医疗OCR项目依赖...")
    
    import subprocess
    import sys
    
    # 核心依赖包列表
    packages = [
        'paddlepaddle',
        'paddleocr',
        'pandas',
        'pillow',
        'opencv-python',
        'tqdm',
        'gradio'
    ]
    
    for package in packages:
        try:
            if package == 'opencv-python':
                import cv2  # type: ignore # noqa: F401 # 用于验证opencv安装
                print(f"✅ {package} 已安装")
            elif package == 'pillow':
                from PIL import Image  # type: ignore # noqa: F401 # 用于验证PIL安装
                print(f"✅ {package} 已安装")
            else:
                __import__(package.replace('-', '_'))
                print(f"✅ {package} 已安装")
        except ImportError:
            print(f"📥 安装 {package}...")
            subprocess.check_call([sys.executable, '-m', 'pip', 'install', package])
    
    print("✅ 所有依赖安装完成!")

# 安装依赖
install_dependencies()

In [None]:
# ================================
# 导入必要的库
# ================================

try:
    import pandas as pd  # type: ignore
    from tqdm import tqdm
    from paddleocr import PaddleOCR  # type: ignore
    import gradio as gr  # type: ignore
    print("📚 所有库导入成功!")
except ImportError as e:
    print(f"❌ 库导入失败: {e}")
    print("💡 请先运行依赖安装单元格")

In [None]:
# ================================
# 医疗OCR核心功能类
# ================================

class MedicalOCRProcessor:
    def __init__(self):
        """初始化医疗OCR处理器"""
        print("🏥 初始化医疗OCR处理器...")
        
        # 检查GPU可用性
        try:
            import torch
            use_gpu = torch.cuda.is_available()
            gpu_info = f"GPU可用: {use_gpu}"
            if use_gpu:
                gpu_info += f" (设备: {torch.cuda.get_device_name(0)})"
            print(f"⚡ {gpu_info}")
        except ImportError:
            use_gpu = False
            print("ℹ️ PyTorch未安装，使用CPU模式")
        
        # 初始化PaddleOCR，使用兼容的配置
        try:
            # 使用兼容的参数初始化PaddleOCR (v3.1.1)
            self.ocr = PaddleOCR(use_angle_cls=True, lang='ch')
            print("✅ 使用兼容参数初始化OCR引擎")
        except Exception as e:
            print(f"❌ OCR初始化失败: {e}")
            self.ocr = None
            raise RuntimeError(f"PaddleOCR初始化失败: {e}")
        
        print("✅ OCR引擎初始化完成")
    
    def _preprocess_image(self, image_path):
        """预处理图像，确保格式和质量适合OCR"""
        try:
            from PIL import Image as PILImage
            import os # type: ignore
            
            # 打开并验证图像
            with PILImage.open(image_path) as img:
                print(f"📊 原始图像信息: 尺寸={img.size}, 模式={img.mode}")
                
                # 转换为RGB格式（如果不是的话）
                if img.mode != 'RGB':
                    print(f"🔄 转换图像模式: {img.mode} -> RGB")
                    img = img.convert('RGB')
                
                # 检查图像尺寸，如果过大则适当缩小
                max_size = 2048
                if max(img.size) > max_size:
                    print(f"🔄 调整图像尺寸: {img.size}")
                    ratio = max_size / max(img.size)
                    new_size = (int(img.size[0] * ratio), int(img.size[1] * ratio))
                    img = img.resize(new_size, PILImage.Resampling.LANCZOS)
                    print(f"✅ 新尺寸: {img.size}")
                
                # 保存预处理后的图像
                processed_path = image_path.replace('.png', '_processed.png').replace('.jpg', '_processed.jpg').replace('.jpeg', '_processed.jpg')
                if processed_path == image_path:
                    processed_path = image_path.replace('.', '_processed.')
                
                img.save(processed_path, quality=95, optimize=False)
                print(f"💾 预处理图像已保存: {processed_path}")
                
                return processed_path
                
        except Exception as e:
            print(f"⚠️ 图像预处理失败: {e}，使用原始图像")
            return image_path

    def _parse_ocr_result(self, result):
        """解析OCR结果 - 兼容多种PaddleOCR返回格式"""
        extracted_texts = []
        try:
            if not result or not isinstance(result, list) or not result[0]:
                print("⚠️ OCR结果为空或格式不正确")
                return []

            page_result = result[0]

            # 新版 PaddleOCR v3.1.1+ (返回带 .json 属性的 OCRResult 对象)
            if hasattr(page_result, 'json'):
                print("✅ 检测到PaddleOCR v3.1.1+ OCRResult对象格式")
                json_result = page_result.json
                if isinstance(json_result, dict) and 'res' in json_result:
                    res_data = json_result['res']
                    if res_data and 'rec_texts' in res_data and 'rec_scores' in res_data:
                        texts, scores = res_data['rec_texts'], res_data['rec_scores']
                        print(f"📊 识别到文本数量: {len(texts) if texts else 0}")
                        if texts and scores:
                            for text, score in zip(texts, scores):
                                if text and text.strip():
                                    extracted_texts.append({'text': text.strip(), 'confidence': float(score)})
                return extracted_texts

            # 兼容直接返回字典列表的格式
            elif isinstance(page_result, list) and page_result and isinstance(page_result[0], dict) and 'text' in page_result[0]:
                print("✅ 检测到字典列表格式")
                for line in page_result:
                    text, confidence = line.get('text', ''), line.get('confidence', 0.0)
                    if text.strip():
                        extracted_texts.append({'text': text.strip(), 'confidence': float(confidence)})
                return extracted_texts

            # 兼容旧版 PaddleOCR (返回包含元组的列表)
            elif isinstance(page_result, list):
                print("✅ 检测到传统列表格式")
                for line_result in page_result:
                    if (line_result and len(line_result) >= 2 and
                        line_result[1] and len(line_result[1]) >= 2):
                        text, confidence = line_result[1]
                        if text and text.strip():
                            extracted_texts.append({'text': text.strip(), 'confidence': float(confidence)})
                return extracted_texts
            
            else:
                print(f"⚠️ 未知的OCR结果格式: {type(page_result)}")
                self._debug_result_structure(result)

        except Exception as e:
            print(f"⚠️ 结果解析失败: {e}")
            import traceback
            print(f"详细错误: {traceback.format_exc()}")
        
        return extracted_texts

    def extract_text_from_image(self, image_path):
        """从图像中提取文字 - 增强版本"""
        import os
        
        if self.ocr is None:
            print("❌ OCR引擎未初始化")
            return []
        
        try:
            # 验证图像文件
            if not os.path.exists(image_path):
                print(f"❌ 图像文件不存在: {image_path}")
                return []
            
            if os.path.getsize(image_path) == 0:
                print(f"❌ 图像文件为空: {image_path}")
                return []
            
            print(f"📄 正在处理图像: {image_path}")
            print(f"📊 文件大小: {os.path.getsize(image_path)} 字节")
            
            # 预处理图像：确保图像格式和质量适合OCR
            processed_image_path = self._preprocess_image(image_path)
            
            # 使用PaddleOCR进行识别
            result = None
            extracted_texts = []
            
            # 使用predict方法 (推荐的新版本API)
            try:
                print("🔄 尝试使用predict方法...")
                result = self.ocr.predict(processed_image_path)
                print(f"✅ predict方法调用成功，结果类型: {type(result)}")
                extracted_texts = self._parse_ocr_result(result)
                
                if extracted_texts:
                    print(f"✅ 成功识别 {len(extracted_texts)} 行文字")
                    return extracted_texts
                
            except Exception as e1:
                print(f"⚠️ predict方法失败: {e1}")
                
                # 尝试使用传统的ocr方法
                try:
                    print("🔄 尝试使用传统ocr方法...")
                    result = self.ocr.ocr(processed_image_path)  # type: ignore
                    print(f"✅ OCR方法调用成功，结果类型: {type(result)}")
                    extracted_texts = self._parse_ocr_result(result)
                    
                    if extracted_texts:
                        print(f"✅ 成功识别 {len(extracted_texts)} 行文字")
                        return extracted_texts
                        
                except Exception as e2:
                    print(f"❌ 所有可用的OCR调用方法都失败")
                    print(f"详细错误: predict={e1}, ocr={e2}")
            
            # 如果所有方法都没有识别到文字
            if not extracted_texts:
                print("⚠️ 未检测到任何文字内容")
                self._debug_result_structure(result)
                self._check_image_quality(processed_image_path)
                
                return []
            
            return extracted_texts
        
        except Exception as e:
            print(f"❌ 图像处理失败: {str(e)}")
            import traceback
            print(f"详细错误信息: {traceback.format_exc()}")
            return []
    
    def _debug_result_structure(self, result):
        """调试结果结构"""
        try:
            print(f"🔍 调试信息: result类型={type(result)}")
            if result:
                print(f"🔍 result长度: {len(result) if hasattr(result, '__len__') else 'N/A'}")
                if isinstance(result, list) and len(result) > 0:
                    first_item = result[0]
                    print(f"🔍 第一项类型: {type(first_item)}")
                    if isinstance(first_item, dict):
                        print(f"🔍 字典键: {list(first_item.keys())}")
                    elif hasattr(first_item, '__dict__'):
                        print(f"🔍 对象属性: {list(vars(first_item).keys())}")
                    elif isinstance(first_item, list) and len(first_item) > 0:
                        print(f"🔍 嵌套列表长度: {len(first_item)}")
                        if len(first_item) > 0:
                            print(f"🔍 嵌套项类型: {type(first_item[0])}")
        except Exception as e:
            print(f"🔍 调试信息获取失败: {e}")
    
    def _check_image_quality(self, image_path):
        """检查图像质量"""
        try:
            from PIL import Image as PILImage
            import os
            
            if not os.path.exists(image_path):
                print("🔍 图像文件不存在")
                return
            
            with PILImage.open(image_path) as img:
                width, height = img.size
                total_pixels = width * height
                
                print(f"🔍 图像质量检查:")
                print(f"   尺寸: {width}x{height} ({total_pixels:,} 像素)")
                print(f"   格式: {img.format}")
                print(f"   模式: {img.mode}")
                
                # 质量评估
                if total_pixels < 50000:
                    print("   ⚠️ 图像分辨率较低，可能影响识别效果")
                elif total_pixels > 4000000:
                    print("   ℹ️ 图像分辨率很高，处理速度可能较慢")
                else:
                    print("   ✅ 图像分辨率适中")
                
        except Exception as e:
            print(f"🔍 图像质量检查失败: {e}")
    
    def process_single_image(self, image_path):
        """处理单个图像文件"""
        import os
        print(f"📄 处理图像: {os.path.basename(image_path)}")
        
        # 提取文字
        extracted_texts = self.extract_text_from_image(image_path)
        
        # 整理结果
        results = []
        for i, item in enumerate(extracted_texts):
            results.append({
                'file_name': os.path.basename(image_path),
                'line_number': i + 1,
                'extracted_text': item['text'],
                'confidence': round(item['confidence'], 4)
            })
        
        return results
    
    def process_multiple_images(self, image_paths):
        """批量处理多个图像文件"""
        all_results = []
        
        print(f"📊 开始批量处理 {len(image_paths)} 个图像文件...")
        
        for image_path in tqdm(image_paths, desc="处理进度"):
            results = self.process_single_image(image_path)
            all_results.extend(results)
        
        return all_results
    
    def save_results_to_csv(self, results, output_path):
        """保存结果到CSV文件"""
        if not results:
            # 如果没有结果，创建空的DataFrame
            df = pd.DataFrame(columns=['file_name', 'line_number', 'extracted_text', 'confidence'])
        else:
            df = pd.DataFrame(results)
        
        df.to_csv(output_path, index=False, encoding='utf-8-sig')
        print(f"💾 结果已保存到: {output_path}")
        return df

# 初始化OCR处理器
print("🔧 正在初始化OCR处理器...")
try:
    ocr_processor = MedicalOCRProcessor()
    print("✅ OCR处理器初始化成功!")
except Exception as e:
    print(f"❌ OCR处理器初始化失败: {e}")
    print("💡 请检查PaddleOCR安装是否正确")

In [None]:
# ================================
# 创建示例医疗文档和功能验证 - v1.3.14
# ================================

def create_sample_medical_document():
    """创建示例医疗文档图像用于演示"""
    from PIL import Image, ImageDraw
    import os
    
    # 创建示例图像 - 使用更大尺寸和更好对比度
    img = Image.new('RGB', (1000, 800), color='white')
    draw = ImageDraw.Draw(img)
    
    # 添加边框增加文档感
    draw.rectangle([(20, 20), (980, 780)], outline='black', width=2)
    
    # 使用中文医疗内容进行识别测试
    sample_text = [
        "医疗诊断报告",
        "医院名称：XX市人民医院", 
        "患者姓名：张三",
        "性别：男    年龄：45岁",
        "科室：心血管内科",
        "主治医师：李医生",
        "诊断：高血压、糖尿病",
        "处方：",
        "1. 降压药 10mg 每日一次",
        "2. 降糖药 5mg 每日两次", 
        "医生签名：李医生",
        "日期：2025-08-25"
    ]
    
    # 绘制文本（使用简单方案确保兼容性）
    y_position = 60
    line_height = 45
    
    for i, text in enumerate(sample_text):
        if i == 0:
            # 标题居中
            text_width = len(text) * 20
            x_position = max(50, (1000 - text_width) // 2)
        else:
            # 普通文本左对齐
            x_position = 60
            
        draw.text((x_position, y_position), text, fill='black')
        y_position += line_height
    
    # 添加装饰元素
    draw.rectangle([(60, 100), (160, 160)], outline='gray', width=1)
    draw.text((90, 125), "LOGO", fill='gray')
    draw.line([(700, 650), (950, 650)], fill='black', width=1)
    draw.text((700, 660), "Signature", fill='gray')
    draw.rectangle([(800, 700), (950, 750)], outline='blue', width=1)
    draw.text((810, 715), "2025-08-25", fill='blue')
    
    # 保存示例图像
    os.makedirs('assets/sample_docs', exist_ok=True)
    sample_path = 'assets/sample_docs/sample_medical_document.png'
    img.save(sample_path, 'PNG', optimize=False)
    print(f"📄 创建示例医疗文档: {sample_path}")
    
    return sample_path

def comprehensive_ocr_test():
    """综合OCR功能测试和演示"""
    import os  # 确保os模块在函数内可用
    print("🚀 开始OCR功能验证和演示...")
    
    # 1. 检查OCR处理器状态
    if 'ocr_processor' not in globals() or ocr_processor is None:
        print("❌ OCR处理器未初始化")
        return False, None, None
    
    # 2. 创建或检查示例文档
    sample_path = "assets/sample_docs/sample_medical_document.png"
    
    if not os.path.exists(sample_path):
        print("🎨 创建示例医疗文档...")
        sample_path = create_sample_medical_document()
    else:
        print(f"✅ 找到示例文件: {sample_path}")
    
    # 3. 执行OCR识别测试
    try:
        print(f"🔍 执行OCR识别: {sample_path}")
        results = ocr_processor.process_single_image(sample_path)
        
        if not results:
            print("❌ OCR识别失败：未识别到文字")
            return False, sample_path, None
        
        print(f"✅ OCR识别成功！识别到 {len(results)} 行文字")
        
        # 4. 显示识别结果
        print("\n📊 文字识别结果:")
        print("-" * 60)
        for result in results:
            print(f"行{result['line_number']:2d}: {result['extracted_text']} (置信度: {result['confidence']:.3f})")
        
        # 5. 保存CSV结果
        os.makedirs('assets/results', exist_ok=True)
        csv_path = 'assets/results/ocr_results_demo.csv'
        _ = ocr_processor.save_results_to_csv(results, csv_path)  # noqa: F841
        
        # 6. 显示统计信息
        avg_confidence = sum(r['confidence'] for r in results) / len(results)
        high_conf_count = sum(1 for r in results if r['confidence'] > 0.9)
        
        print(f"\n📈 识别统计:")
        print(f"   • 总文字行数: {len(results)}")
        print(f"   • 平均置信度: {avg_confidence:.3f}")
        print(f"   • 高置信度(>0.9): {high_conf_count}/{len(results)}")
        print(f"   • CSV文件: {csv_path}")
        
        return True, sample_path, results
        
    except Exception as e:
        print(f"❌ OCR测试异常: {e}")
        import traceback
        print(f"详细错误: {traceback.format_exc()}")
        return False, sample_path, None

# 执行综合测试
test_success, sample_doc, ocr_results = comprehensive_ocr_test()

# 显示示例图像（如果在Jupyter环境）
import os  # 确保模块级别可用
try:
    from IPython.display import Image as IPImage, display
    if sample_doc and os.path.exists(sample_doc):
        print(f"\n🖼️ 显示示例医疗文档:")
        display(IPImage(sample_doc))
except ImportError:
    print(f"✅ 示例文档已创建: {sample_doc}")
    print("💡 在Jupyter/Colab环境中会自动显示图像")
except Exception as e:
    print(f"⚠️ 图像显示失败: {e}")

if test_success:
    print("\n🎉 OCR功能验证成功！可以安全使用Gradio界面")
else:
    print("\n⚠️ OCR功能存在问题，请检查配置")

In [None]:
# ================================
# OCR功能验证测试
# ================================

def test_ocr_functionality():
    """快速测试OCR功能是否正常工作"""
    print("🧪 开始OCR功能验证测试...")
    
    # 检查OCR处理器是否可用 - 修复全局变量检测和IDE警告
    try:
        # 使用globals()检查变量存在，避免IDE unbound警告
        if 'ocr_processor' not in globals():
            print("❌ 全局OCR处理器变量未定义")
            print("💡 请先运行'医疗OCR核心功能类'单元格来初始化OCR处理器")
            return False
        
        processor = globals()['ocr_processor']  # type: ignore # 动态访问全局变量
        print("✅ 找到全局OCR处理器变量")
        
    except Exception as e:
        print(f"❌ 访问OCR处理器时出错: {e}")
        return False
    
    # 检查处理器对象是否有效
    if processor is None:
        print("❌ OCR处理器对象为None")
        print("💡 OCR处理器初始化可能失败，请检查错误信息")
        return False
    
    # 检查PaddleOCR引擎
    if not hasattr(processor, 'ocr') or processor.ocr is None:
        print("❌ PaddleOCR引擎未初始化")
        print("💡 PaddleOCR初始化失败，请检查:")
        print("   1. 网络连接是否正常")
        print("   2. PaddleOCR是否正确安装")
        print("   3. 模型文件是否下载完成")
        return False
    
    print("✅ OCR处理器和引擎检查通过")
    
    # 检查示例文件是否存在
    import os
    sample_path = "assets/sample_docs/sample_medical_document.png"
    
    if not os.path.exists(sample_path):
        print(f"⚠️ 示例文件不存在: {sample_path}")
        
        # 尝试创建示例文件
        try:
            print("🎨 尝试创建示例文档...")
            # 检查create_sample_medical_document函数是否存在
            if 'create_sample_medical_document' not in globals():
                print("❌ create_sample_medical_document函数未定义")
                print("💡 请先运行'创建示例医疗文档'单元格")
                return False
            
            create_func = globals()['create_sample_medical_document']  # type: ignore # 动态访问全局函数
            sample_path = create_func()
            print(f"✅ 示例文档已创建: {sample_path}")
            
        except Exception as e:
            print(f"❌ 示例文档创建失败: {e}")
            return False
    else:
        print(f"✅ 找到示例文件: {sample_path}")
    
    # 测试OCR处理
    try:
        print(f"🔍 测试OCR处理: {sample_path}")
        results = processor.process_single_image(sample_path)
        
        print(f"📊 OCR处理完成，返回结果类型: {type(results)}")
        print(f"📊 结果数量: {len(results) if results else 0}")
        
        if results and len(results) > 0:
            print(f"✅ OCR测试成功！识别到 {len(results)} 行文字")
            print("📝 前3行识别结果:")
            for i, result in enumerate(results[:3]):
                print(f"   {i+1}. {result['extracted_text']} (置信度: {result['confidence']:.3f})")
            return True
        else:
            print("❌ OCR测试失败：未识别到文字")
            print("🔍 可能原因：")
            print("   1. PaddleOCR版本兼容性问题")
            print("   2. 模型文件下载不完整")
            print("   3. 示例图像质量问题")
            print("   4. API调用参数不兼容")
            
            # 尝试直接调用PaddleOCR
            print("\\n🔧 尝试直接调用PaddleOCR引擎...")
            try:
                direct_result = processor.ocr.predict(sample_path)
                print(f"🔍 直接调用结果类型: {type(direct_result)}")
                print(f"🔍 直接调用结果长度: {len(direct_result) if direct_result else 0}")
                
                if direct_result:
                    print("✅ PaddleOCR引擎本身工作正常")
                    print("💡 问题可能在结果解析逻辑中")
                else:
                    print("❌ PaddleOCR引擎调用也失败")
                    
            except Exception as direct_e:
                print(f"❌ 直接调用PaddleOCR失败: {direct_e}")
            
            return False
            
    except Exception as e:
        print(f"❌ OCR测试异常: {e}")
        import traceback
        print(f"详细错误: {traceback.format_exc()}")
        return False

# 运行OCR功能验证
print("🚀 运行OCR功能验证测试...")
ocr_test_result = test_ocr_functionality()

if ocr_test_result:
    print("\\n🎉 OCR功能验证成功！Gradio界面应该能正常工作")
    print("💡 现在可以安全使用Gradio界面进行图像上传和识别")
else:
    print("\\n⚠️ OCR功能验证失败！需要检查PaddleOCR配置")
    print("💡 建议按顺序执行以下步骤：")
    print("   1. 确认已运行'医疗OCR核心功能类'单元格")
    print("   2. 确认已运行'创建示例医疗文档'单元格")
    print("   3. 检查网络连接和模型下载状态")
    print("   4. 如果问题持续，请重启运行时环境")

# 显示当前可用的关键全局变量
print("\\n🔍 当前可用的关键全局变量:")
available_vars = []

# 安全检查各个关键变量的存在性
key_variables = {
    'ocr_processor': '医疗OCR处理器',
    'create_sample_medical_document': '示例文档创建函数', 
    'demo_interface': 'Gradio Web界面对象'
}

for var_name, description in key_variables.items():
    try:
        if var_name in globals():
            var_value = globals()[var_name]
            if var_value is not None:
                available_vars.append(f"✅ {var_name} ({description})")
            else:
                available_vars.append(f"❌ {var_name} (已定义但值为None)")
        else:
            available_vars.append(f"❌ {var_name} (未定义)")
    except Exception as e:
        available_vars.append(f"❌ {var_name} (访问错误: {e})")

for var_info in available_vars:
    print(f"   {var_info}")

# 如果demo_interface未定义，给出创建提示
if 'demo_interface' not in globals() or globals()['demo_interface'] is None:
    print("\\n💡 Gradio界面创建提示:")
    print("   如需创建Web界面，请运行'Gradio Web交互界面'单元格")
    print("   该单元格会创建demo_interface变量并初始化Web界面")

In [None]:
# ================================
# Gradio Web交互界面 - v1.3.14
# ================================

import os
import numpy as np
from PIL import Image as PILImage

def create_gradio_interface():
    """创建Gradio Web交互界面"""
    print("🌐 初始化Gradio Web界面...")
    
    def process_uploaded_image(image):
        """处理用户上传的图像"""
        print("📤 接收到用户上传的图像")
        
        # 检查OCR处理器是否可用
        if 'ocr_processor' not in globals() or globals()['ocr_processor'] is None:
            error_msg = "❌ OCR处理器未初始化，请先运行OCR初始化单元格"
            print(error_msg)
            return error_msg, None
        
        processor = globals()['ocr_processor']
        
        try:
            # 将PIL Image转换为numpy数组然后保存为临时文件
            if isinstance(image, PILImage.Image):
                # PIL Image对象
                temp_path = 'temp_uploaded_image.png'
                image.save(temp_path)
            elif isinstance(image, np.ndarray):
                # numpy数组
                temp_path = 'temp_uploaded_image.png'
                PILImage.fromarray(image.astype('uint8')).save(temp_path)
            else:
                # 尝试直接使用路径
                temp_path = str(image)
            
            print(f"💾 临时文件保存: {temp_path}")
            
            # 执行OCR处理
            results = processor.process_single_image(temp_path)
            
            if not results:
                return "⚠️ 未检测到文字内容，请尝试上传清晰度更高的图像", None
            
            # 生成结果文本
            result_text = f"🎉 OCR识别成功！\\n\\n📊 识别统计:\\n"
            result_text += f"• 总文字行数: {len(results)}\\n"
            
            avg_confidence = sum(r['confidence'] for r in results) / len(results)
            result_text += f"• 平均置信度: {avg_confidence:.3f}\\n\\n"
            
            result_text += "📝 识别结果:\\n" + "="*50 + "\\n"
            
            for result in results:
                result_text += f"行{result['line_number']:2d}: {result['extracted_text']} (置信度: {result['confidence']:.3f})\\n"
            
            # 保存CSV文件
            os.makedirs('assets/results', exist_ok=True)
            csv_path = 'assets/results/gradio_ocr_results.csv'
            _ = processor.save_results_to_csv(results, csv_path)  # noqa: F841
            
            result_text += f"\\n💾 CSV结果已保存: {csv_path}"
            
            # 清理临时文件
            try:
                if temp_path and os.path.exists(temp_path) and temp_path.startswith('temp_'):
                    os.remove(temp_path)
                    print(f"🗑️ 清理临时文件: {temp_path}")
            except Exception as cleanup_e:
                print(f"⚠️ 清理临时文件失败: {cleanup_e}")
            
            # 返回结果文本和CSV文件路径
            return result_text, csv_path
            
        except Exception as e:
            error_msg = f"❌ 处理图像时发生错误: {str(e)}"
            print(error_msg)
            import traceback
            print(f"详细错误: {traceback.format_exc()}")
            return error_msg, None
    
    # 创建Gradio界面 - 使用兼容的主题设置
    interface = gr.Interface(
        fn=process_uploaded_image,
        inputs=gr.Image(type="pil", label="📤 上传医疗文档图像"),
        outputs=[
            gr.Textbox(label="📋 OCR识别结果", lines=15, max_lines=20),
            gr.File(label="📁 下载CSV结果文件")
        ],
        title="🏥 医疗文档OCR识别系统",
        description="""
        ## 📋 使用说明
        1. **上传图像**: 点击上传区域选择医疗文档图像文件
        2. **自动识别**: 系统自动使用PaddleOCR进行文字识别
        3. **查看结果**: 在结果区域查看识别的文字内容和置信度
        4. **下载CSV**: 点击下载按钮获取结构化的CSV结果文件
        
        ## 🎯 支持格式
        - 图像格式: PNG, JPG, JPEG
        - 文字类型: 中文、英文、数字
        - 文档类型: 医疗报告、处方单、检查单等
        
        ## 💡 优化建议
        - 确保图像清晰度适中
        - 避免模糊或过度曝光
        - 文字区域完整可见
        """,
        examples=[
            ["assets/sample_docs/sample_medical_document.png"] if os.path.exists("assets/sample_docs/sample_medical_document.png") else []
        ],
        allow_flagging="never"
    )
    
    print("✅ Gradio界面创建完成")
    return interface

# 创建并启动Gradio界面
if 'ocr_processor' in globals() and globals()['ocr_processor'] is not None:
    print("🚀 创建Gradio Web界面...")
    demo_interface = create_gradio_interface()
    
    # 在Colab环境中自动启动
    if 'in_colab' in globals() and globals()['in_colab']:
        print("🌐 在Colab环境中启动Gradio界面...")
        demo_interface.launch(
            share=True,
            debug=False,
            show_error=True,
            quiet=False,
            height=800
        )
    else:
        print("🏠 本地环境Gradio界面已准备就绪")
        print("💡 运行 demo_interface.launch() 来启动界面")
        print("💡 或运行 demo_interface.launch(share=True) 来创建公共链接")
    
    print(f"✅ Gradio界面对象已创建: demo_interface")
    
else:
    print("⚠️ OCR处理器未初始化，无法创建Gradio界面")
    print("💡 请先运行'医疗OCR核心功能类'单元格来初始化OCR处理器")
    demo_interface = None

# 📊 项目总结和扩展指南

## 🎯 本次演示总结

### 完成功能
- ✅ **PaddleOCR集成**: 成功集成中文OCR识别引擎
- ✅ **图像预处理**: 自动优化图像质量和格式
- ✅ **文字提取**: 高精度提取医疗文档文字内容
- ✅ **结构化输出**: 生成包含置信度的CSV结果文件
- ✅ **Web界面**: 提供友好的Gradio交互界面
- ✅ **错误处理**: 完善的异常处理和调试信息
- ✅ **兼容性**: 支持Colab和本地环境运行

### 技术特性
- **多格式支持**: PNG, JPG, JPEG图像格式
- **智能预处理**: 自动调整图像尺寸和质量
- **高识别率**: 平均置信度通常在0.8以上
- **批量处理**: 支持单个和批量图像处理
- **结果导出**: CSV格式便于后续分析

## 🔧 技术架构

### 核心组件
1. **MedicalOCRProcessor类**: 核心OCR处理逻辑
2. **图像预处理模块**: 优化识别效果
3. **结果解析器**: 兼容多版本PaddleOCR
4. **Gradio界面**: Web交互层
5. **文件管理**: 自动创建目录和文件

### 依赖包版本
- `paddlepaddle`: 深度学习框架
- `paddleocr`: OCR识别引擎
- `gradio`: Web界面框架
- `pandas`: 数据处理
- `pillow`: 图像处理
- `opencv-python`: 计算机视觉

## 🚀 扩展方向

### 1. 识别能力增强
```python
# 示例：添加表格识别
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=True, 
                table=True)  # 启用表格识别
```

### 2. 后处理优化
```python
# 示例：文本后处理
def post_process_text(text):
    # 医疗术语标准化
    # 数字格式统一
    # 错误纠正
    return processed_text
```

### 3. 批量处理增强
```python
# 示例：文件夹批量处理
def process_folder(folder_path):
    image_files = glob.glob(os.path.join(folder_path, "*.png"))
    return process_multiple_images(image_files)
```

### 4. 数据库集成
```python
# 示例：结果存储到数据库
import sqlite3
def save_to_database(results):
    conn = sqlite3.connect('medical_ocr.db')
    # 保存结果到数据库
```

## 💡 最佳实践

### 图像质量要求
- **分辨率**: 推荐至少300DPI
- **对比度**: 黑字白底效果最佳  
- **角度**: 尽量保持文档正向
- **光照**: 均匀光照，避免阴影

### 性能优化建议
- **GPU加速**: 启用CUDA支持提升速度
- **批量处理**: 大量文件使用批处理模式
- **内存管理**: 及时清理临时文件
- **模型缓存**: 避免重复初始化OCR引擎

### 错误处理策略
- **网络问题**: 模型下载失败重试机制
- **格式兼容**: 多种API调用方式兼容
- **质量检查**: 自动检测图像质量问题
- **结果验证**: 置信度阈值过滤

## 📚 相关资源

### 官方文档
- [PaddleOCR官方文档](https://paddlepaddle.github.io/PaddleOCR/)
- [Gradio官方文档](https://gradio.app/docs/)

### 项目结构
```
demos/medical-ocr/
├── medical-ocr-demo.ipynb    # 本演示文件
├── gradio_demo.py            # 独立Web应用
├── assets/
│   ├── sample_docs/          # 示例文档
│   └── results/              # 识别结果
└── README.md                 # 应用说明
```

### 版本历史
- **v1.3.14**: 修复Cell顺序和Gradio界面，优化IDE警告
- **v1.3.13**: 重组notebook结构，优化用户体验
- **v1.3.12**: 修复Gradio界面调试信息显示
- **v1.3.11**: 增强错误处理和调试信息

## 🤝 贡献指南

欢迎提交Issue和Pull Request来改进项目：
- 🐛 **Bug报告**: 详细描述问题和复现步骤
- 💡 **功能建议**: 描述新功能需求和使用场景
- 🔧 **代码贡献**: 遵循项目代码规范

## 📞 技术支持

- **GitHub**: [claude-colab-projects](https://github.com/zhurong2020/claude-colab-projects)
- **Issues**: 在GitHub仓库提交问题
- **文档**: 查看项目README和CLAUDE.md

---

🎉 **恭喜！您已成功完成医疗文档OCR识别演示**

💡 **下一步**: 尝试上传自己的医疗文档图像，体验完整的OCR识别流程

🚀 **进阶**: 根据扩展指南开发更多功能，如表格识别、批量处理等

---
*使用 Claude Code 开发 | 版本 v1.3.14*