
opendatalab/MinerU:简单高效地从各种格式提取数据(PDF、网页解析提取)
2024-07-23 10:32
项目简介 MinerU 是由 OpenDataLab 开发的一款开源数据提取工具,支持从 PDF、网页及电子书中高质量地提取数据。这款工具特别适合需要处理大量文档数据的用户,能够将 PDF 文件转换为 Markdown 格式,同时保留原文档的结构和格式。MinerU 支持在多种操作系统上运行,包括