场景：读

海慧智擎的「读」，是把任何纸面/屏幕上的字变成它能继续干活的素材：百页 PDF 通读提炼关键条款，扫描合同、发票、截图本机 OCR 成结构化文本与表格——读进来之后，接着就能审、能提、能汇总。

本页讲两件事：通读电子 PDF 和 识别扫描件/图片（OCR）。

两种「读」，自动分流

你给它的	它怎么读	典型问法
电子版 PDF / Word（有文本层）	直接抽取文字，快、零损	"通读这份 52 页分包合同，提炼关键条款"
扫描件 / 拍照 / 截图（只有图像）	本机 OCR 识别成文字，可还原表格	"识别这张发票，整理成表格"
混合 PDF（部分页扫描、部分有文本层）	逐页智能路由：文本页直抽，扫描页才走 OCR	"读 ~/桌面/合同扫描件.pdf，把付款条款列出来"

不用你判断是不是扫描件

直接把文件丢给它就行。混合 PDF 里哪些页有文本层、哪些是扫描图，它逐页自动判断，不会拿整份文件去跑 OCR（慢），也不会漏掉扫描页（丢内容）。

怎么把文件交给它

处理大 PDF、高清扫描件时，告诉它文件路径，让它自己读——比把内容粘进对话框更稳、更省（不会把大图反复重发撑大请求）。

自然语言@ 引用

text

通读 ~/桌面/分包合同.pdf，提炼工期、付款节点、违约责任三块

text

@桌面/分包合同.pdf 这份里的质保金比例是多少？引原文

用 @ 可以在输入时补全本机文件/目录路径（详见快速上手）。

百页 PDF 通读提炼

电子版长文档（合同、标书、制度、年报）直接读全文，让它提炼而不只是"翻一遍"：

text

你：通读这份 78 页招标文件 ~/下载/RFP.pdf，整理成一页纪要：
    投标截止时间、保证金金额与缴纳方式、资质要求、评分办法、废标条款。

它：（拆解 → 通读全文 → 核验 → 交付）
    一、关键时间节点
      - 投标截止：2026-07-10 09:30，开标同日同地
    二、投标保证金
      - 金额 ¥80,000，电汇至指定账户，到账截止 07-09 17:00
    三、资质要求
      - 建筑工程施工总承包二级及以上；近 3 年类似业绩 ≥2 项
    ……
    （第 5.3 条"近 3 年"起算口径文件未明确，已标注请你向招标方确认）

存疑必标，不替你拍板

读到文件里说不清、相互矛盾的地方，它会明确标出来请你复核，而不是凭空给个看着齐整的答案——这正是「可信交付」。

读完的内容它会留在上下文里，可以接着追问："刚那份里有没有要求联合体投标？""把评分办法做成一张表。"

识别扫描件 / 图片（OCR）

扫描合同、拍照发票、对账单截图、纸质评分表——这些只有图像没有文字的文件，靠本机 OCR 读进来。

文件不出本机

OCR 识别用的是本机的 RapidOCR（PP-OCRv4 中文模型，CPU 即可跑），不调用任何模型 API、不读模型配置、内容零字节上传。扫描的合同、发票就在你电脑上完成识别。

例：识别一份扫描合同

text

你：识别这份扫描合同 ~/桌面/采购合同扫描.pdf，把全文转成可编辑文本。

它：首次使用需要装一次本地识别组件（约 80MB，约 1 分钟），稍候……
    （逐页 OCR → 输出 markdown）
    已识别 6 页，保存到 ~/桌面/采购合同扫描.ocr.md。
    ⚠️ 第 3 页金额大写"叁拾万元整"为同形字易错项，请你核对原件。

识别结果落成一个 markdown 文件，接着就能让它干下一步——"按公司红线审一遍"（见场景：查）、"导成 Word"（见场景：写）。

例：识别发票，还原成表格

发票、报价单、评分表这类有行列结构的图片，它会还原表格而不是把字拍扁成一行：

text

你：识别这张发票 ~/桌面/增值税发票.png，整理成表格。

它：（OCR + 表格结构还原）

货物或应税劳务	规格型号	数量	单价	金额	税率	税额
办公用纸 A4	70g	50	24.00	1200.00	13%	156.00
签字笔	0.5mm	200	1.50	300.00	13%	39.00

text

    价税合计（小写）¥1,695.00。
    ⚠️ 价税合计大写"壹仟陆佰玖拾伍元整"为大写金额，请你核对。

合并单元格、跨列表头也能识别出对应结构。

一次识别多页 / 部分页

整本标书太厚，只要某几页？直接说范围即可：

text

只识别这份标书 ~/下载/投标文件.pdf 的第 1 到 5 页和第 12 页

首次使用：自动装识别组件

第一次用到 OCR 时，海慧智擎会自动安装本地识别组件：

体积约 80MB，自带 Python 已配国内源，通常 1 分钟内装完；
它会打印进度，期间不要中断，装好后立刻开始识别，以后再用不必重装；
全程本机安装，不需要你做任何配置。

离线机器

完全没有网络的机器装不上依赖时，它会给出 wheel 离线安装指引（在有网机器 pip download 后拷贝过来安装），照提示操作即可。

识别得准不准？（如实告知）

OCR 不是万能，海慧智擎会老实标注没把握的地方，不硬撑：

	范围
✅ 可靠	打印体中文/英文，常见合同、标书、发票版面，表格行列还原（含合并单元格）
⚠️ 易错（会标注请你核对）	大写金额同形字（如参/叁）、手写体、印章压字、希腊字母与上下标、严重歪斜或低分辨率扫描
❌ 不支持	倒置/旋转 90° 的扫描件（请转正后重试）、看图理解语义（架构图/界面看懂不是 OCR 的活）

大写金额务必复核

合同、发票里的大写金额是同形字高发区（参/叁、陆/六），凡涉及金额，它都会提醒你比对原件——这一步请不要省。

识别中没把握的整行，它会以 [低置信 0.43] …… 标出而不是悄悄丢掉，方便你定位复核。

接下来

读进来之后审一遍 → 场景：查
把识别结果导成 Word/Excel → 场景：写
不熟悉 @ 引用、文件路径？→ 快速上手

场景：读 ​

两种「读」，自动分流 ​

怎么把文件交给它 ​

百页 PDF 通读提炼 ​

识别扫描件 / 图片（OCR） ​

例：识别一份扫描合同 ​

例：识别发票，还原成表格 ​

一次识别多页 / 部分页 ​

首次使用：自动装识别组件 ​

识别得准不准？（如实告知） ​

接下来 ​

场景：读

两种「读」，自动分流

怎么把文件交给它

百页 PDF 通读提炼

识别扫描件 / 图片（OCR）

例：识别一份扫描合同

例：识别发票，还原成表格

一次识别多页 / 部分页

首次使用：自动装识别组件

识别得准不准？（如实告知）

接下来