# 医疗文档图像文字识别演示

> 🏥 使用PaddleOCR从医疗文档PNG图像中提取文本并保存为CSV

**版本**: v1.3.7 (修复Colab和本地OCR兼容性问题 - 关键修复版本) | **更新时间**: 2025-08-24

## 🎯 功能特性
- 📄 支持医疗文档图像文字识别
- 🤖 使用PaddleOCR高精度识别引擎
- 📊 自动生成结构化CSV报告
- 🖼️ 支持多种图像格式输入
- 💡 简单易用的交互界面
- 🏠 完整本地开发环境支持
- 🌐 支持中英文混合识别
- 🏗️ 独立应用架构，可直接在Colab运行

## 🔧 更新内容 (v1.3.7)
- **🚑 修复关键Bug**: 解决了Colab和本地环境的OCR初始化和预测失败问题
- **🔄 API兼容性**: 完善了新版PaddleOCR的OCRResult对象解析支持
- **🛡️ 错误处理**: 增强了图像预处理和错误处理机制
- **📊 调试信息**: 添加了详细的调试和诊断信息
- **🔧 初始化优化**: 支持多种PaddleOCR初始化参数组合
- **📝 结果解析**: 完全兼容新旧版本的OCR结果格式

## 🚀 使用说明

### Colab环境
1. 运行环境检查和依赖安装
2. 上传医疗文档图像
3. 执行OCR文字识别
4. 下载CSV结果文件

### 本地环境
```bash
# 从项目根目录一键启动
../start_local.sh

# 手动启动
source ../venv/bin/activate && jupyter notebook
```

### 目录结构
```
medical-ocr/
├── medical-ocr-demo.ipynb    # 本演示文件
├── gradio_demo.py           # Web界面版本
├── test_chinese_encoding_fix.py  # 中文编码测试
└── assets/                  # 资源文件
    ├── sample_docs/         # 示例文档
    └── results/            # OCR结果
```

---
*使用 Claude Code 开发，支持 Google Colab 和本地运行 🚀*

In [None]:
# ================================
# 环境检查和基础设置
# ================================

import warnings
warnings.filterwarnings("ignore")

def check_environment():
    """检查运行环境并显示系统信息"""
    print("🔍 检查运行环境...")
    
    # 检查是否在Colab环境
    try:
        import google.colab # type: ignore # noqa: F401 # 需要用于环境检测
        print("✅ 运行在Google Colab")
        in_colab = True
    except ImportError:
        print("ℹ️ 运行在本地环境")
        in_colab = False
    
    # 检查GPU
    try:
        import torch
        device = 'cuda' if torch.cuda.is_available() else 'cpu'
        print(f"✅ 计算设备: {device}")
        if device == 'cuda':
            print(f"✅ GPU型号: {torch.cuda.get_device_name(0)}")
            print(f"✅ GPU内存: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    except ImportError:
        print("ℹ️ PyTorch未安装，使用CPU模式")
    
    return in_colab

# 运行环境检查
in_colab = check_environment()

In [None]:
# ================================
# 安装必要的依赖包
# ================================

def install_dependencies():
    """安装项目所需的依赖包"""
    print("📦 安装医疗OCR项目依赖...")
    
    import subprocess
    import sys
    
    # 核心依赖包列表
    packages = [
        'paddlepaddle',
        'paddleocr',
        'pandas',
        'pillow',
        'opencv-python',
        'tqdm',
        'gradio'
    ]
    
    for package in packages:
        try:
            if package == 'opencv-python':
                import cv2  # type: ignore # noqa: F401 # 用于验证opencv安装
                print(f"✅ {package} 已安装")
            elif package == 'pillow':
                from PIL import Image  # type: ignore # noqa: F401 # 用于验证PIL安装
                print(f"✅ {package} 已安装")
            else:
                __import__(package.replace('-', '_'))
                print(f"✅ {package} 已安装")
        except ImportError:
            print(f"📥 安装 {package}...")
            subprocess.check_call([sys.executable, '-m', 'pip', 'install', package])
    
    print("✅ 所有依赖安装完成!")

# 安装依赖
install_dependencies()

In [None]:
# ================================
# 导入必要的库
# ================================

try:
    import pandas as pd  # type: ignore
    from PIL import Image
    from tqdm import tqdm
    from paddleocr import PaddleOCR  # type: ignore
    import gradio as gr  # type: ignore
    print("📚 所有库导入成功!")
except ImportError as e:
    print(f"❌ 库导入失败: {e}")
    print("💡 请先运行依赖安装单元格")

In [None]:
    def _parse_ocr_result(self, result):
        """解析OCR结果 - 兼容多种返回格式"""
        extracted_texts = []
        
        try:
            if result and isinstance(result, list):
                # 处理列表格式结果
                for page_result in result:
                    # 处理新版本OCRResult对象
                    if hasattr(page_result, 'rec_texts') and hasattr(page_result, 'rec_scores'):
                        print("✅ 检测到OCRResult对象格式")
                        texts = page_result.rec_texts
                        scores = page_result.rec_scores
                        
                        print(f"📊 识别到文本数量: {len(texts) if texts else 0}")
                        
                        if texts and scores:
                            for text, score in zip(texts, scores):
                                if text and text.strip():
                                    extracted_texts.append({
                                        'text': text.strip(),
                                        'confidence': float(score)
                                    })
                                    print(f"📝 提取文本: {text.strip()[:50]}... (置信度: {score:.3f})")
                    
                    # 处理传统列表格式 (旧版PaddleOCR格式)
                    elif isinstance(page_result, list):
                        print("✅ 检测到传统列表格式")
                        for line_result in page_result:
                            if (line_result and len(line_result) >= 2 and
                                line_result[1] and len(line_result[1]) >= 2):
                                
                                text = line_result[1][0]
                                confidence = line_result[1][1]
                                
                                if text and text.strip():
                                    extracted_texts.append({
                                        'text': text.strip(),
                                        'confidence': float(confidence)
                                    })
                                    print(f"📝 提取文本: {text.strip()[:50]}... (置信度: {confidence:.3f})")
                    
                    # 处理字典格式
                    elif isinstance(page_result, dict) and 'rec_texts' in page_result and 'rec_scores' in page_result:
                        print("✅ 检测到字典格式")
                        texts = page_result['rec_texts']
                        scores = page_result['rec_scores']
                        
                        if texts and scores:
                            for text, score in zip(texts, scores):
                                if text and text.strip():
                                    extracted_texts.append({
                                        'text': text.strip(),
                                        'confidence': float(score)
                                    })
                                    print(f"📝 提取文本: {text.strip()[:50]}... (置信度: {score:.3f})")
            
            # 处理直接字典格式
            elif result and isinstance(result, dict):
                if 'rec_texts' in result and 'rec_scores' in result:
                    print("✅ 检测到直接字典格式")
                    texts = result['rec_texts']
                    scores = result['rec_scores']
                    
                    if texts and scores:
                        for text, score in zip(texts, scores):
                            if text and text.strip():
                                extracted_texts.append({
                                    'text': text.strip(),
                                    'confidence': float(score)
                                })
                                print(f"📝 提取文本: {text.strip()[:50]}... (置信度: {score:.3f})")
                                
        except Exception as e:
            print(f"⚠️ 结果解析失败: {e}")
            import traceback
            print(f"详细错误: {traceback.format_exc()}")
        
        return extracted_texts

In [None]:
# ================================
# 创建示例医疗文档（用于演示）- 修复字体和中文显示问题
# ================================

def create_sample_medical_document():
    """创建示例医疗文档图像用于演示"""
    from PIL import Image, ImageDraw, ImageFont
    import os
    
    # 创建示例图像 - 使用更大尺寸和更好对比度
    img = Image.new('RGB', (1000, 800), color='white')
    draw = ImageDraw.Draw(img)
    
    # 添加边框增加文档感
    draw.rectangle([(20, 20), (980, 780)], outline='black', width=2)
    
    # 使用中文医疗内容进行识别测试
    sample_text = [
        "医疗诊断报告",
        "医院名称：XX市人民医院",
        "患者姓名：张三",
        "性别：男    年龄：45岁",
        "科室：心血管内科",
        "主治医师：李医生",
        "诊断：高血压、糖尿病",
        "处方：",
        "1. 降压药 10mg 每日一次",
        "2. 降糖药 5mg 每日两次",
        "医生签名：李医生",
        "日期：2025-08-24"
    ]
    
    # 获取中文字体 - 优先查找系统中的中文字体
    font = None
    title_font = None
    font_size = 28  # 适中的字体大小
    title_font_size = 36
    
    # 中文字体路径列表（按优先级排序）
    chinese_font_paths = [
        # 用户字体目录中的中文字体
        '/home/wuxia/.fonts/simhei.ttf',  # 黑体
        '/home/wuxia/.fonts/simsun.ttf',  # 宋体
        '/home/wuxia/.fonts/simsun.ttc',  # 宋体TTC格式
        '/home/wuxia/.fonts/simkai.ttf',  # 楷体
        # 系统可能安装的中文字体
        '/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc',  # 文泉驿正黑
        '/usr/share/fonts/truetype/wqy/wqy-microhei.ttc',  # 文泉驿微米黑
        '/usr/share/fonts/truetype/droid/DroidSansFallbackFull.ttf',  # Droid字体
        '/usr/share/fonts/opentype/noto/NotoSansCJK-Regular.ttc',  # Noto CJK
        '/usr/share/fonts/truetype/liberation/LiberationSans-Regular.ttf',  # Liberation (支持部分中文)
        '/System/Library/Fonts/PingFang.ttc',  # macOS苹果苹方
        'C:\\\\Windows\\\\Fonts\\\\simhei.ttf',  # Windows黑体
        'C:\\\\Windows\\\\Fonts\\\\simsun.ttc',  # Windows宋体
    ]
    
    print("🔍 搜索中文字体...")
    
    # 尝试加载中文字体
    for font_path in chinese_font_paths:
        if os.path.exists(font_path):
            try:
                font = ImageFont.truetype(font_path, font_size)
                title_font = ImageFont.truetype(font_path, title_font_size)
                print(f"✅ 成功加载中文字体: {font_path}")
                break
            except Exception as e:
                print(f"⚠️ 字体加载失败: {font_path} - {e}")
                continue
    
    # 如果没有找到中文字体，尝试系统默认字体
    if font is None:
        print("⚠️ 未找到中文字体，尝试系统默认字体...")
        
        # 尝试一些可能支持中文的系统字体
        fallback_fonts = [
            '/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf',
            '/usr/share/fonts/truetype/liberation/LiberationSans-Regular.ttf',
        ]
        
        for font_path in fallback_fonts:
            if os.path.exists(font_path):
                try:
                    font = ImageFont.truetype(font_path, font_size)
                    title_font = ImageFont.truetype(font_path, title_font_size)
                    print(f"✅ 使用备用字体: {font_path}")
                    print("⚠️ 注意: 此字体可能无法完全支持中文显示")
                    break
                except Exception:
                    continue
    
    # 最后的备用方案：使用PIL默认字体
    if font is None:
        try:
            font = ImageFont.load_default()
            title_font = font
            print("⚠️ 使用PIL默认字体 - 中文显示可能异常")
        except Exception as e:
            font = None
            title_font = None
            print(f"❌ 字体加载完全失败: {e}")
    
    # 绘制文本内容
    y_position = 60
    line_height = 45  # 稍微紧凑一些
    
    for i, text in enumerate(sample_text):
        try:
            # 第一行标题居中加粗
            if i == 0:
                # 计算居中位置
                if title_font:
                    try:
                        bbox = draw.textbbox((0, 0), text, font=title_font)
                        text_width = bbox[2] - bbox[0]
                    except Exception:
                        # 如果textbbox不可用，估算宽度
                        text_width = int(len(text) * title_font_size * 0.6)
                else:
                    text_width = len(text) * 20  # 估算宽度
                
                x_position = max(50, (1000 - text_width) // 2)  # 确保不会太靠左
                
                # 绘制标题
                if title_font:
                    draw.text((x_position, y_position), text, fill='black', font=title_font)
                else:
                    draw.text((x_position, y_position), text, fill='black')
                
                print(f"✅ 绘制标题: {text}")
                
                # 添加下划线
                draw.line([(x_position, y_position + title_font_size + 5), 
                          (x_position + text_width, y_position + title_font_size + 5)], 
                         fill='black', width=2)
                y_position += 20  # 标题后额外间距
                
            else:
                # 普通文本左对齐
                x_position = 60
                if font:
                    draw.text((x_position, y_position), text, fill='black', font=font)
                else:
                    draw.text((x_position, y_position), text, fill='black')
                
                print(f"✅ 绘制文本: {text}")
            
        except Exception as e:
            print(f"⚠️ 文字绘制失败: {e} - 文本: {text}")
            # 简单备用绘制（不使用字体）
            try:
                x_pos = 60 if i > 0 else 300
                draw.text((x_pos, y_position), text, fill='black')
                print(f"✅ 备用方式绘制: {text}")
            except Exception as e2:
                print(f"❌ 备用绘制也失败: {e2}")
                # 如果中文绘制完全失败，使用英文替代
                english_text = translate_to_english(text)
                try:
                    x_pos = 60 if i > 0 else 300
                    draw.text((x_pos, y_position), english_text, fill='red')
                    print(f"🔄 使用英文替代: {english_text}")
                except Exception:
                    print(f"❌ 所有绘制方式都失败了: {text}")
        
        y_position += line_height
    
    # 添加一些装饰元素增加真实感
    try:
        # 添加医院LOGO占位符
        draw.rectangle([(60, 100), (160, 160)], outline='gray', width=1)
        draw.text((90, 125), "LOGO", fill='gray')
        
        # 添加签名线
        draw.line([(700, 650), (950, 650)], fill='black', width=1)
        draw.text((700, 660), "Signature", fill='gray')
        
        # 添加日期戳
        draw.rectangle([(800, 700), (950, 750)], outline='blue', width=1)
        draw.text((810, 715), "2025-08-24", fill='blue')
        
        print("✅ 装饰元素添加完成")
    except Exception as e:
        print(f"⚠️ 装饰元素添加失败: {e}")
    
    # 保存示例图像到assets目录
    os.makedirs('assets/sample_docs', exist_ok=True)
    sample_path = 'assets/sample_docs/sample_medical_document.png'
    
    # 使用更高的质量设置保存
    img.save(sample_path, 'PNG', optimize=False)
    print(f"📄 创建示例医疗文档: {sample_path}")
    
    # 验证文件创建
    if os.path.exists(sample_path):
        file_size = os.path.getsize(sample_path)
        print(f"✅ 文件创建成功，大小: {file_size} 字节")
        
        # 显示字体使用情况
        if font:
            print("📝 字体状态: 已加载字体，中文应该可以正常显示")
        else:
            print("⚠️ 字体状态: 未加载字体，中文显示可能异常")
            
        # 给出中文字体安装建议
        if font is None:
            print("\\n💡 中文字体安装建议:")
            print("1. Ubuntu/Debian: sudo apt install fonts-wqy-zenhei fonts-wqy-microhei")
            print("2. 手动安装: 下载SimHei.ttf到 ~/.fonts/ 目录")
            print("3. 在Colab中: !apt install fonts-wqy-zenhei -y")
            
    else:
        print("❌ 文件创建失败")
    
    return sample_path

def translate_to_english(chinese_text: str) -> str:
    """将中文文本转换为英文（备用方案）"""
    translations = {
        "医疗诊断报告": "Medical Report",
        "医院名称：XX市人民医院": "Hospital: XX City People's Hospital",
        "患者姓名：张三": "Patient: Zhang San",
        "性别：男    年龄：45岁": "Gender: Male    Age: 45",
        "科室：心血管内科": "Dept: Cardiology",
        "主治医师：李医生": "Doctor: Dr. Li",
        "诊断：高血压、糖尿病": "Diagnosis: Hypertension, Diabetes",
        "处方：": "Prescription:",
        "1. 降压药 10mg 每日一次": "1. Antihypertensive 10mg daily",
        "2. 降糖药 5mg 每日两次": "2. Antidiabetic 5mg twice daily",
        "医生签名：李医生": "Doctor Signature: Dr. Li",
        "日期：2025-08-24": "Date: 2025-08-24"
    }
    return translations.get(chinese_text, chinese_text)

def install_chinese_fonts_in_colab() -> bool:
    """在Google Colab中安装中文字体"""
    try:
        import google.colab  # type: ignore # noqa: F401 # 用于Colab环境检测
        print("📦 检测到Colab环境，安装中文字体...")
        
        import subprocess
        # 安装中文字体包
        font_packages = [
            'fonts-wqy-zenhei',      # 文泉驿正黑
            'fonts-wqy-microhei',    # 文泉驿微米黑  
            'fonts-arphic-ukai',     # AR PL UKai CN
            'fonts-arphic-uming'     # AR PL UMing CN
        ]
        
        for package in font_packages:
            try:
                subprocess.run(['apt', 'install', '-y', package], 
                             capture_output=True, text=True, check=True)
                print(f"✅ 安装字体包: {package}")
            except subprocess.CalledProcessError as e:
                print(f"⚠️ 字体包安装失败: {package} - {e}")
        
        # 刷新字体缓存
        try:
            subprocess.run(['fc-cache', '-fv'], check=True)
            print("✅ 字体缓存已刷新")
        except Exception:
            print("⚠️ 字体缓存刷新失败")
            
        return True
        
    except ImportError:
        # 不在Colab环境中
        return False
    except Exception as e:
        print(f"❌ Colab字体安装失败: {e}")
        return False

# 如果在Colab环境中，尝试安装中文字体
print("🔍 检查运行环境并准备字体...")
if install_chinese_fonts_in_colab():
    print("🔄 重新加载字体后创建文档...")

# 创建示例文档
print("🎨 创建示例医疗文档...")
sample_doc = create_sample_medical_document()

# 显示示例图像
try:
    from IPython.display import Image as IPImage, display  # type: ignore # noqa: F401
    print("🖼️ 显示生成的医疗文档图像:")
    display(IPImage(sample_doc))
except ImportError:
    # 在非Jupyter环境中的备用方案
    print(f"✅ 示例文档已创建: {sample_doc}")
    print("💡 在Jupyter/Colab环境中会自动显示图像")
except Exception as e:
    print(f"⚠️ 图像显示失败: {e}")
    print(f"✅ 示例文档已创建: {sample_doc}")

In [None]:
# ================================
# 演示OCR功能
# ================================

def demo_ocr_functionality():
    """演示OCR功能"""
    print("🚀 开始演示医疗OCR功能...")
    
    # 确保使用正确的图像路径
    import os
    sample_image_path = sample_doc
    if not os.path.exists(sample_image_path):
        # 尝试assets目录中的示例文档
        assets_path = 'assets/sample_docs/sample_medical_document.png'
        if os.path.exists(assets_path):
            sample_image_path = assets_path
        else:
            sample_image_path = 'sample_medical_document.png'
    
    print(f"📄 使用图像文件: {sample_image_path}")
    
    # 处理示例文档
    results = ocr_processor.process_single_image(sample_image_path)
    
    # 显示识别结果
    print("\n📊 文字识别结果:")
    print("-" * 60)
    
    for result in results:
        print(f"行{result['line_number']:2d}: {result['extracted_text']} (置信度: {result['confidence']:.3f})")
    
    # 保存结果到CSV (assets/results目录)
    os.makedirs('assets/results', exist_ok=True)
    csv_path = 'assets/results/ocr_results_demo.csv'
    df = ocr_processor.save_results_to_csv(results, csv_path)
    
    print(f"\n📈 共识别出 {len(results)} 行文字")
    print(f"📄 结果已保存到 CSV 文件: {csv_path}")
    
    # 显示CSV内容预览
    if len(results) > 0:
        print("\n📋 CSV文件预览:")
        print(df.to_string(index=False))
    else:
        print("\n⚠️ 没有识别到文字内容，请检查图像文件")
    
    return df, csv_path

# 运行演示
demo_df, demo_csv = demo_ocr_functionality()

In [None]:
# ================================
# 创建交互式界面 - 修复版本
# ================================

def create_gradio_interface():
    """创建Gradio交互界面"""
    
    def process_uploaded_image(image):
        """处理上传的图像 - 增强版本"""
        if image is None:
            return "请上传图像文件", None
        
        try:
            import os
            import numpy as np
            from PIL import Image as PILImage
            import tempfile
            
            print("🔍 开始处理上传的图像...")
            
            # 确保assets目录存在
            os.makedirs('assets/sample_docs', exist_ok=True)
            
            # 创建临时文件名
            temp_filename = "temp_uploaded_image.png"
            temp_path = os.path.join('assets/sample_docs', temp_filename)
            
            # 处理不同类型的输入图像
            processed_successfully = False
            
            try:
                if isinstance(image, np.ndarray):
                    # Gradio上传的numpy数组格式
                    print("📥 处理numpy数组格式图像...")
                    
                    # 确保数组是正确的形状和数据类型
                    if len(image.shape) != 3:
                        return "❌ 不支持的图像维度，请上传标准图像文件", None
                    
                    # 数据类型转换
                    if image.dtype != np.uint8:
                        if image.max() <= 1.0:
                            # 浮点数格式 (0-1)
                            image = (image * 255).astype(np.uint8)
                        else:
                            # 其他格式
                            image = image.astype(np.uint8)
                    
                    # 转换为PIL图像
                    if image.shape[2] == 3:
                        # RGB格式
                        pil_image = PILImage.fromarray(image, mode='RGB')
                    elif image.shape[2] == 4:
                        # RGBA格式，转换为RGB
                        pil_image = PILImage.fromarray(image, mode='RGBA').convert('RGB')
                    else:
                        return f"❌ 不支持的颜色通道数: {image.shape[2]}", None
                    
                    print(f"✅ 成功转换图像，尺寸: {pil_image.size}")
                    processed_successfully = True
                    
                elif isinstance(image, str):
                    # 文件路径
                    print(f"📥 处理文件路径: {image}")
                    if not os.path.exists(image):
                        return "❌ 文件路径不存在", None
                    pil_image = PILImage.open(image).convert('RGB')
                    processed_successfully = True
                    
                elif isinstance(image, PILImage.Image):
                    # PIL图像对象
                    print("📥 处理PIL图像对象...")
                    pil_image = image.convert('RGB')
                    processed_successfully = True
                    
                elif hasattr(image, 'save'):
                    # 可能是PIL图像或类似对象
                    print("📥 处理可保存图像对象...")
                    pil_image = image.convert('RGB')
                    processed_successfully = True
                    
                else:
                    return f"❌ 无法处理的图像类型: {type(image)}", None
                
                if not processed_successfully:
                    return "❌ 图像处理失败", None
                
                # 图像质量检查和优化
                width, height = pil_image.size
                print(f"📊 图像尺寸: {width}x{height}")
                
                # 如果图像太小，可能影响识别效果
                if width < 100 or height < 50:
                    return "❌ 图像尺寸过小，可能影响识别效果。请上传分辨率更高的图像。", None
                
                # 如果图像过大，进行适当缩放
                max_dimension = 2048
                if max(width, height) > max_dimension:
                    print("🔄 图像过大，进行缩放...")
                    ratio = max_dimension / max(width, height)
                    new_width = int(width * ratio)
                    new_height = int(height * ratio)
                    pil_image = pil_image.resize((new_width, new_height), PILImage.Resampling.LANCZOS)
                    print(f"✅ 缩放后尺寸: {pil_image.size}")
                
                # 保存处理后的图像
                try:
                    pil_image.save(temp_path, format='PNG', quality=95, optimize=True)
                    print(f"💾 图像已保存到: {temp_path}")
                except Exception as save_error:
                    print(f"⚠️ PNG保存失败: {save_error}，尝试JPEG格式")
                    temp_path = temp_path.replace('.png', '.jpg')
                    pil_image.save(temp_path, format='JPEG', quality=95)
                    print(f"💾 图像已保存到: {temp_path}")
                
                # 验证保存的文件
                if not os.path.exists(temp_path) or os.path.getsize(temp_path) == 0:
                    return "❌ 图像保存失败，请重试", None
                
                print(f"✅ 文件验证成功，大小: {os.path.getsize(temp_path)} 字节")
                
            except Exception as img_error:
                print(f"❌ 图像处理错误: {img_error}")
                return f"❌ 图像处理失败: {str(img_error)}", None
            
            # 检查OCR处理器是否可用
            if 'ocr_processor' not in globals() or ocr_processor is None:
                return "❌ OCR处理器未初始化，请重新运行初始化代码", None
            
            # 使用OCR处理图像
            print("🔍 开始OCR识别...")
            try:
                results = ocr_processor.process_single_image(temp_path)
                
                if not results:
                    # 详细的失败分析
                    analysis_result = "⚠️ 未识别到文字内容\\n\\n"
                    analysis_result += "🔍 可能的原因分析:\\n"
                    analysis_result += "1. 图像中没有清晰的文字\\n"
                    analysis_result += "2. 文字过小、模糊或倾斜角度过大\\n"
                    analysis_result += "3. 图像背景复杂，干扰了文字识别\\n"
                    analysis_result += "4. 图像对比度不足\\n"
                    analysis_result += "5. 字体过于特殊或手写体难以识别\\n\\n"
                    analysis_result += "💡 改进建议:\\n"
                    analysis_result += "• 确保图像清晰，文字大小适中\\n"
                    analysis_result += "• 调整图像亮度和对比度\\n"
                    analysis_result += "• 尽量保持文档平整，减少倾斜\\n"
                    analysis_result += "• 避免复杂背景，使用纯色背景\\n"
                    analysis_result += "• 尝试不同的拍摄角度和光线条件\\n"
                    analysis_result += f"\\n📊 图像信息: 尺寸={pil_image.size}, 文件大小={os.path.getsize(temp_path)}字节"
                    
                    return analysis_result, None
                
                # 生成结果文本
                result_text = "📊 OCR识别结果:\\n" + "="*50 + "\\n\\n"
                
                high_confidence_count = 0
                medium_confidence_count = 0
                low_confidence_count = 0
                
                for i, result in enumerate(results, 1):
                    confidence = result['confidence']
                    
                    # 分类置信度
                    if confidence > 0.8:
                        confidence_indicator = "🟢"
                        high_confidence_count += 1
                    elif confidence > 0.6:
                        confidence_indicator = "🟡"
                        medium_confidence_count += 1
                    else:
                        confidence_indicator = "🔴"
                        low_confidence_count += 1
                    
                    result_text += f"{i:2d}. {confidence_indicator} {result['extracted_text']}\\n"
                    result_text += f"     (置信度: {confidence:.3f})\\n\\n"
                
                # 保存CSV文件
                os.makedirs('assets/results', exist_ok=True)
                csv_path = "assets/results/ocr_results_uploaded.csv"
                ocr_processor.save_results_to_csv(results, csv_path)
                
                # 添加统计信息
                avg_confidence = sum(r['confidence'] for r in results) / len(results)
                result_text += f"\\n📈 识别统计:\\n"
                result_text += f"• 总计识别文字行数: {len(results)}\\n"
                result_text += f"• 平均置信度: {avg_confidence:.3f}\\n"
                result_text += f"• 高置信度(>0.8): {high_confidence_count}行\\n"
                result_text += f"• 中等置信度(0.6-0.8): {medium_confidence_count}行\\n"
                result_text += f"• 低置信度(<0.6): {low_confidence_count}行\\n"
                result_text += f"\\n💾 CSV结果文件: {csv_path}\\n"
                result_text += f"📄 可下载CSV文件查看详细数据"
                
                # 添加质量评估
                if avg_confidence > 0.8:
                    result_text += "\\n\\n🌟 识别质量: 优秀"
                elif avg_confidence > 0.6:
                    result_text += "\\n\\n👍 识别质量: 良好"
                else:
                    result_text += "\\n\\n⚠️ 识别质量: 一般，建议改进图像质量"
                
                print(f"✅ OCR识别完成，共识别{len(results)}行文字，平均置信度:{avg_confidence:.3f}")
                return result_text, csv_path
                
            except Exception as ocr_error:
                import traceback
                error_trace = traceback.format_exc()
                print(f"❌ OCR识别错误: {ocr_error}")
                print(f"详细错误: {error_trace}")
                
                error_message = f"❌ OCR识别失败: {str(ocr_error)}\\n\\n"
                error_message += "🔧 可能的解决方案:\\n"
                error_message += "1. 重新运行notebook的初始化代码\\n"
                error_message += "2. 检查PaddleOCR是否正确安装\\n"
                error_message += "3. 尝试重启notebook内核\\n"
                error_message += "4. 确认图像格式是否支持\\n\\n"
                error_message += "📋 技术信息:\\n"
                error_message += f"错误类型: {type(ocr_error).__name__}\\n"
                error_message += f"错误详情: {str(ocr_error)}"
                
                return error_message, None
                
        except Exception as e:
            import traceback
            error_trace = traceback.format_exc()
            print(f"❌ 处理过程中发生未预期错误: {e}")
            print(f"详细错误: {error_trace}")
            
            error_message = f"❌ 处理失败: {str(e)}\\n\\n"
            error_message += "🔧 通用解决方案:\\n"
            error_message += "1. 检查图像文件是否完整\\n"
            error_message += "2. 尝试上传不同格式的图像\\n"
            error_message += "3. 确认图像文件大小合理(<10MB)\\n"
            error_message += "4. 重新运行notebook并重试\\n"
            error_message += f"\\n📋 错误详情: {str(e)}"
            
            return error_message, None
    
    # 创建界面
    print("🎨 构建Gradio界面组件...")
    
    interface = gr.Interface(
        fn=process_uploaded_image,
        inputs=[
            gr.Image(
                label="📤 上传医疗文档图像", 
                type="numpy",  # 使用numpy格式便于处理
                sources=["upload", "clipboard"],  # 支持上传和剪贴板
                format="png"  # 统一使用PNG格式
            )
        ],
        outputs=[
            gr.Textbox(
                label="📊 OCR识别结果", 
                lines=20,
                max_lines=30,
                show_copy_button=True
            ),
            gr.File(
                label="📥 下载CSV结果文件",
                file_types=[".csv"]
            )
        ],
        title="🏥 医疗文档OCR识别系统 v1.3.7",
        description="""
        **🎯 功能说明**: 上传医疗文档图像，自动识别其中的文字内容并生成CSV报告
        
        **📋 支持格式**: PNG、JPG、JPEG等常见图像格式
        
        **🌟 特色功能**: 
        • 支持中英文混合识别  
        • 自动置信度评估  
        • 结构化CSV输出  
        • 高精度OCR引擎
        • 图像质量自动优化
        
        **💡 使用提示**: 
        • 确保图像清晰，文字大小适中
        • 避免图像过暗或过亮
        • 建议文档平整，避免严重倾斜
        • 推荐使用高分辨率图像以获得更好效果
        
        **🔧 更新内容 (v1.3.7)**:
        • 修复了Colab和本地环境的OCR兼容性问题
        • 增强图像预处理和错误处理机制
        • 改进了识别结果的展示和分析
        • 优化了多种PaddleOCR API调用方式
        """,
        examples=[],  # 示例在运行时动态添加
        theme="soft",
        css="""
        .gradio-container {
            font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
        }
        .output-text {
            font-family: 'Courier New', monospace;
        }
        """,
        analytics_enabled=False  # 禁用分析以保护隐私
    )
    
    return interface

# 创建并启动界面
print("🌐 准备启动交互界面...")
try:
    interface = create_gradio_interface()
    
    if interface:
        print("✅ Gradio界面创建成功!")
        print("🚀 启动Web服务...")
        print("⏰ 请稍候，正在初始化界面组件...")
        
        # 启动界面，增加错误处理
        interface.launch(
            share=True,      # 生成公开链接
            debug=False,     # 关闭debug模式避免过多日志
            show_error=True, # 显示错误信息
            server_port=7860, # 指定端口
            inbrowser=True,  # 自动打开浏览器
            quiet=False,     # 显示启动信息
            auth=None,       # 无需认证
            max_threads=4    # 限制线程数
        )
        
        print("🎉 界面已成功启动!")
        print("📱 可以开始上传图像进行OCR识别了")
        print("💡 使用Ctrl+C停止服务")
        
    else:
        print("❌ 界面创建失败")
        
except Exception as e:
    import traceback
    print(f"❌ 启动界面时出现错误: {str(e)}")
    print(f"详细错误: {traceback.format_exc()}")
    print("🔧 请尝试以下解决方案:")
    print("1. 重新运行此代码块")
    print("2. 重启notebook内核")
    print("3. 检查网络连接")
    print("4. 确认端口7860未被占用")

In [None]:
# ================================
# 项目总结和使用指南
# ================================

def show_project_summary():
    """显示项目总结和使用指南"""
    
    summary = """ # type: ignore
🎉 医疗文档OCR识别演示项目运行完成!

📋 项目功能总结:
✅ 医疗文档图像文字识别
✅ 中英文混合文字识别
✅ 批量图像处理支持
✅ CSV格式结果导出
✅ 置信度评估
✅ 用户友好的交互界面

🛠️ 技术特性:
• 基于PaddleOCR高精度识别引擎
• 支持GPU加速处理
• 自动角度检测和矫正
• 结构化数据输出

📖 使用场景:
• 医疗处方识别
• 病历文档数字化
• 检查报告提取
• 医疗档案管理

🔗 项目地址:
GitHub: https://github.com/zhurong2020/mcr
Colab: 当前notebook链接

👨‍⚕️ 适用用户:
• 医疗工作者
• 数据分析师
• 研究人员
• 开发者

⚠️ 使用说明:
1. 确保图像清晰可读
2. 支持PNG、JPG等常见格式
3. 批量处理时注意文件大小
4. 结果仅供参考，重要信息请人工核验

💡 技术支持:
如有问题或建议，欢迎反馈交流！
    """
    
    print(summary)

# 显示项目总结
show_project_summary()