Skip to content

场景:读

海慧智擎的「读」,是把任何纸面/屏幕上的字变成它能继续干活的素材:百页 PDF 通读提炼关键条款,扫描合同、发票、截图本机 OCR 成结构化文本与表格——读进来之后,接着就能审、能提、能汇总。

本页讲两件事:通读电子 PDF识别扫描件/图片(OCR)

两种「读」,自动分流

你给它的它怎么读典型问法
电子版 PDF / Word(有文本层)直接抽取文字,快、零损"通读这份 52 页分包合同,提炼关键条款"
扫描件 / 拍照 / 截图(只有图像)本机 OCR 识别成文字,可还原表格"识别这张发票,整理成表格"
混合 PDF(部分页扫描、部分有文本层)逐页智能路由:文本页直抽,扫描页才走 OCR"读 ~/桌面/合同扫描件.pdf,把付款条款列出来"

不用你判断是不是扫描件

直接把文件丢给它就行。混合 PDF 里哪些页有文本层、哪些是扫描图,它逐页自动判断,不会拿整份文件去跑 OCR(慢),也不会漏掉扫描页(丢内容)。

怎么把文件交给它

处理大 PDF、高清扫描件时,告诉它文件路径,让它自己读——比把内容粘进对话框更稳、更省(不会把大图反复重发撑大请求)。

text
通读 ~/桌面/分包合同.pdf,提炼工期、付款节点、违约责任三块
text
@桌面/分包合同.pdf 这份里的质保金比例是多少?引原文

@ 可以在输入时补全本机文件/目录路径(详见快速上手)。

百页 PDF 通读提炼

电子版长文档(合同、标书、制度、年报)直接读全文,让它提炼而不只是"翻一遍":

text
你:通读这份 78 页招标文件 ~/下载/RFP.pdf,整理成一页纪要:
    投标截止时间、保证金金额与缴纳方式、资质要求、评分办法、废标条款。

它:(拆解 → 通读全文 → 核验 → 交付)
    一、关键时间节点
      - 投标截止:2026-07-10 09:30,开标同日同地
    二、投标保证金
      - 金额 ¥80,000,电汇至指定账户,到账截止 07-09 17:00
    三、资质要求
      - 建筑工程施工总承包二级及以上;近 3 年类似业绩 ≥2 项
    ……
    (第 5.3 条"近 3 年"起算口径文件未明确,已标注请你向招标方确认)

存疑必标,不替你拍板

读到文件里说不清、相互矛盾的地方,它会明确标出来请你复核,而不是凭空给个看着齐整的答案——这正是「可信交付」。

读完的内容它会留在上下文里,可以接着追问:"刚那份里有没有要求联合体投标?""把评分办法做成一张表。"

识别扫描件 / 图片(OCR)

扫描合同、拍照发票、对账单截图、纸质评分表——这些只有图像没有文字的文件,靠本机 OCR 读进来。

文件不出本机

OCR 识别用的是本机的 RapidOCR(PP-OCRv4 中文模型,CPU 即可跑),不调用任何模型 API、不读模型配置、内容零字节上传。扫描的合同、发票就在你电脑上完成识别。

例:识别一份扫描合同

text
你:识别这份扫描合同 ~/桌面/采购合同扫描.pdf,把全文转成可编辑文本。

它:首次使用需要装一次本地识别组件(约 80MB,约 1 分钟),稍候……
    (逐页 OCR → 输出 markdown)
    已识别 6 页,保存到 ~/桌面/采购合同扫描.ocr.md。
    ⚠️ 第 3 页金额大写"叁拾万元整"为同形字易错项,请你核对原件。

识别结果落成一个 markdown 文件,接着就能让它干下一步——"按公司红线审一遍"(见场景:查)、"导成 Word"(见场景:写)。

例:识别发票,还原成表格

发票、报价单、评分表这类有行列结构的图片,它会还原表格而不是把字拍扁成一行:

text
你:识别这张发票 ~/桌面/增值税发票.png,整理成表格。

它:(OCR + 表格结构还原)
货物或应税劳务规格型号数量单价金额税率税额
办公用纸 A470g5024.001200.0013%156.00
签字笔0.5mm2001.50300.0013%39.00
text
    价税合计(小写)¥1,695.00。
    ⚠️ 价税合计大写"壹仟陆佰玖拾伍元整"为大写金额,请你核对。

合并单元格、跨列表头也能识别出对应结构。

一次识别多页 / 部分页

整本标书太厚,只要某几页?直接说范围即可:

text
只识别这份标书 ~/下载/投标文件.pdf 的第 1 到 5 页和第 12 页

首次使用:自动装识别组件

第一次用到 OCR 时,海慧智擎会自动安装本地识别组件

  • 体积约 80MB,自带 Python 已配国内源,通常 1 分钟内装完;
  • 它会打印进度,期间不要中断,装好后立刻开始识别,以后再用不必重装;
  • 全程本机安装,不需要你做任何配置。

离线机器

完全没有网络的机器装不上依赖时,它会给出 wheel 离线安装指引(在有网机器 pip download 后拷贝过来安装),照提示操作即可。

识别得准不准?(如实告知)

OCR 不是万能,海慧智擎会老实标注没把握的地方,不硬撑:

范围
✅ 可靠打印体中文/英文,常见合同、标书、发票版面,表格行列还原(含合并单元格)
⚠️ 易错(会标注请你核对)大写金额同形字(如 参/叁)、手写体、印章压字、希腊字母与上下标、严重歪斜或低分辨率扫描
❌ 不支持倒置/旋转 90° 的扫描件(请转正后重试)、看图理解语义(架构图/界面看懂不是 OCR 的活)

大写金额务必复核

合同、发票里的大写金额是同形字高发区(参/叁、陆/六),凡涉及金额,它都会提醒你比对原件——这一步请不要省。

识别中没把握的整行,它会以 [低置信 0.43] …… 标出而不是悄悄丢掉,方便你定位复核。

接下来

数据全程不出域 · 本地部署