分享
Doc2X 常见问题 - FAQ
输入“/”快速插入内容
Doc2X 常见问题 - FAQ
7月20日修改
•
编辑时间 202
5-6-9
•
网站
:
doc2x.noedgeai.com
•
API接入(和网页额度不互通):
open.noedgeai.com
•
API v2文档:
Doc2x API v2 接口文档
•
Zotero 插件使用教程
Doc2X Zotero插件使用指南
•
功能介绍:
https://noedgeai.com
•
联系 q 群: 813489188
网页客户端翻译新的积分规则
Doc2X 积分规则
目前支持的功能
•
支持 文字/
公式
/
表格
/图像 的识别, 支持
多栏
的识别
,
还原阅读顺序
•
只支持
中文(简体/繁体), 英文与西欧国家,日语,韩语
等语言的解析, 更多语言正在支持中
•
跨页表格合并(API)
/
手写识别
/
竖排文字
/
多级标题
支持
, 但效果不一定很好, 还在不断迭代
◦
使用 LLM 进行多级标题层级增强的例子参考
•
不支持
超长图/超宽图
/空白边框区域过大文档
的识别
◦
对于空白边框过大的PDF,需要手动裁剪空白边框
◦
对于超长图,超宽图,需要手动分成若干个正常文档页面大小的图片
•
不支持
旋转的PDF,请手动转正PDF后再识别
处理速度与并发
•
网页和API
单个PDF
平均速度是
10页/s
左右(具体速度取决于文档复杂程度), API需要
更快处理
速度请联系我们
•
API默认并发是
5
(个PDF同时), 需要
更大并发
请联系我们
大批量数据处理
•
有大量PDF需要处理的可以联系我们, 获取更多
折扣价格
•
目前已有多家
知名大模型厂商,金融和教育机构
等在使用我们 API 进行文档解析
•
Doc2X 有自建
数百卡
算力池和
多机房冗余
,
稳定性
和短期交付有保障
•
Doc2X
每天
能处理
几千万页
的文档, 累计处理
数亿页
文档
为什么选择 Doc2X
•
市面上类似的文档解析产品, 绝大部分
公式识别
做的不好(尤其是行内和复杂公式), 而 Doc2X 则处于领先水平
•
Doc2X 对
表格识别
适配优秀, 甚至支持识别
表格里面的图片
和
合并跨页表格
等
•
Doc2X 对于
多栏识别
的
阅读顺序还原效果优异
•
Doc2X
适配范围广
相当通用, 涵盖 财研报, 论文, 教辅, 专利 等等
•
更具体的效果对比可以参考:
Doc2x-v1 竞品分析(mathpix,庖丁PDFlux,pix2text, 合合信息TextIn, 腾讯云大模型知识引擎文档解析)
数据安全
•
Doc2X 网页端存储有效期为
30天
(包括图床), API的存储过期时间是
24h
, 过期自动删除, 请放心使用
解析部分
识别效果出现问题
•
通过网站联系方式添加管理员
私聊发送PDF
进行反馈, 我们会优化
导出Word文件公式转MathType
导出WPS中公式转MathType
翻译失败为什么会扣解析页数
•
翻译需要解析作为前置任务,解析本身消耗解析页数,翻译消耗积分,翻译失败后不会额外扣除积分
•
可以在翻译失败的模型上新建翻译,该过程只会消耗积分,不会再消耗解析页数
图片识别如何复制到word