MonkeyOCR用于文档解析OCR的项目

开源作者：云秘书 2025-07-07 00:40:01 阅读：349

MonkeyOCR 是一个用于文档解析OCR的项目，采用结构 - 识别 - 关系三元组范式。它支持英文和中文文档解析。能处理 PDF 和图像文件，输出多种格式结果。还可通过特定方式更新配置文件以使用不同模型。

DEMO

支持中英文

公式

表格

报纸

财务报告

技术特点

创新的 SRR 三元组范式：将文档解析抽象为 “在哪里”（结构）、“是什么”（识别）和 “如何组织”（关系）三个基本问题，对应布局分析、内容识别和逻辑排序，平衡了准确性和速度，实现高效、可扩展的处理而不牺牲精度。

三阶段处理流程：

结构检测：使用基于 YOLO 的文档布局检测器，准确分割文本块、表格、公式、图像等语义区域。
块级内容识别：对每个检测到的区域并行进行内容识别，利用统一的大型多模态模型（LMM），避免传统管道的错误传播。
关系预测：通过专用的块级阅读顺序模型，推断检测元素之间的逻辑阅读顺序，重建其逻辑和语义连接。

大规模多样化数据集：开发了 MonkeyDoc 数据集，包含 390 万个块级实例，覆盖 5 个核心文档解析任务和 10 多种文档类型，全面支持中英文。

性能表现：

与 MinerU 相比，在中英文文档上平均提升 5.1%，公式识别提升 15.0%，表格识别提升 8.6%。
3B 参数模型在英文文档解析任务上超越更大的模型，如 Qwen2.5-VL（72B）和 Gemini 2.5 Pro。
多页文档处理速度达 0.84 页 / 秒，优于 MinerU（0.65）和 Qwen2.5-VL-7B（0.12）。

项目链接

https://github.com/Yuliang-Liu/MonkeyOCR

延伸阅读

MonkeyOCR：最快1秒狂扫1000页

MonkeyOCR 是一个基于深度学习的开源文档解析神器。它能够将PDF、图片等文件中的文字、表格、公式，甚至文档的结构解析成清晰的Markdown格式，就像“原文再造”一样，还保留了原有的内容层次和

*文章为作者独立观点，不代表 5xCloud 立场

本文由云秘书发表，转载此文章须经作者同意，并请附上出处(5xCloud )及本页链接。

原文链接 https://www.5xcloud.com/column/opensource/555.html

MonkeyOCR OCR

猜你喜欢

赞助链接

电话：188-8877-1003

邮箱：Sales@knowsafe.com

地址：四川省成都市高新南区天府大道北段1700号

时间：周一到周日: 早9点 – 晚21点

数字证书产品: 单域名证书; 多域名证书; 代码签名; 通配符

数字证书品牌: TrustAsia; Digicert; GeoTrust; GlobalSign; CFCA

24/7帮助中心: 常见问题; 产品文档; 使用帮助

关于我们: 关于我们; 联系我们

蜀ICP备20006130号

Copyright © 2024 5xcloud.com All rights reserved.

蜀ICP备20006130号