让大模型“看懂”专业文档,OpenDataLab将与钉钉打造企业级解析工具DLU

高质量数据是AI大模型训练与应用的基础,更是企业向AI转型升级的 “燃料”。然而,众多企业在开发AI应用过程中,却因大模型难以读懂非结构化数据而面临困境。

能否让更多企业级用户用上一款更趁手的数据工具,从而实现AI-Ready数据自由?

近日,OpenDataLab和钉钉正基于MinerU,推出一款面向企业用户的文档解析工具——DLU(Document Language Understanding),共同助力企业破解AI-Ready数据难题,从而降低行业大模型训练及AI应用开发门槛,加速AI技术在各行业的规模化落地。

MinerU是上海人工智能实验室(上海AI实验室)OpenDataLab推出的智能文档解析引擎,因精准解析能力及广泛兼容性深受用户青睐,在GitHub上已累计获得超4万星标。

上海AI实验室作为国际级人工智能新型科研机构,在大模型、数据智能等方向具备深厚的技术积累。其自主研发的OpenDataLab平台为国内领先的人工智能大模型数据平台,拥有7700余个开源精标数据集,迄今已为超10万用户提供了200余万次数据获取服务。近期更新的MinerU2.0实现了解析速度和精度双提升,甚至以0.98B的参数达成性能比肩72B的主流大模型。

作为阿里巴巴集团旗下的企业级智能移动办公平台,钉钉拥有丰富的文档产品和广阔的企业用户基础。钉钉文档、AI表格等产品此前已深度集成MinerU能力,并通过开放平台向生态开发者开放文档解析功能,为DLU的联合研发提供了扎实的技术与场景基础。

基于MinerU打造的DLU将于近期开源,其具备良好的文件格式兼容性,深层次的内容理解与精准的结构化输出能力。DLU不仅支持主流的Office文档、PDF、Markdown及代码文件,还涵盖钉钉自有的文档、表格与AI表格格式;并支持提取纯文本内容,精准解析图表、公式、插图乃至专业领域的化学分子式等复杂视觉元素,将其有效转换为适合大模型训练的高质量语料。

接下来,DLU还将借助钉钉在企业服务场景上优势,深度融入办公协同生态,支持用户在同一平台内完成从文档创建、解析提取、知识库管理、数据标注到定制化模型训练的全流程闭环,提升AI应用开发与日常办公效率。

上海人工智能实验室青年科学家、OpenDataLab/MinerU开源项目创始人何聪辉表示:“MinerU拥有广泛的用户基础,我们希望进一步拓展其在企业场景中的应用,并充分发挥OpenDataLab平台的作用,与合作伙伴共同打造‘数据工具中的PyTorch’,助力更多企业级用户实现AI-Ready数据的自由。”

钉钉CTO朱鸿表示:“开源DLU,能有效解决企业在AI时代面临的数据准备难题,筑牢智能化转型根基。钉钉正积极构建AI新生态,期待携手更多技术伙伴与行业力量,共同为千行百业的数字化转型与智能化升级提供强劲支撑”。

上一篇

絮凝净水守健康 科研创新护民生

下一篇

AI数据驱动 | Nint任拓连获金梧奖、未来营销大奖、胖鲸TOP50三大奖项

你也可能喜欢

评论已经被关闭。

插入图片
返回顶部