主题
场景:读
海慧智擎的「读」,是把任何纸面/屏幕上的字变成它能继续干活的素材:百页 PDF 通读提炼关键条款,扫描合同、发票、截图本机 OCR 成结构化文本与表格——读进来之后,接着就能审、能提、能汇总。
本页讲两件事:通读电子 PDF 和 识别扫描件/图片(OCR)。
两种「读」,自动分流
| 你给它的 | 它怎么读 | 典型问法 |
|---|---|---|
| 电子版 PDF / Word(有文本层) | 直接抽取文字,快、零损 | "通读这份 52 页分包合同,提炼关键条款" |
| 扫描件 / 拍照 / 截图(只有图像) | 本机 OCR 识别成文字,可还原表格 | "识别这张发票,整理成表格" |
| 混合 PDF(部分页扫描、部分有文本层) | 逐页智能路由:文本页直抽,扫描页才走 OCR | "读 ~/桌面/合同扫描件.pdf,把付款条款列出来" |
不用你判断是不是扫描件
直接把文件丢给它就行。混合 PDF 里哪些页有文本层、哪些是扫描图,它逐页自动判断,不会拿整份文件去跑 OCR(慢),也不会漏掉扫描页(丢内容)。
怎么把文件交给它
处理大 PDF、高清扫描件时,告诉它文件路径,让它自己读——比把内容粘进对话框更稳、更省(不会把大图反复重发撑大请求)。
text
通读 ~/桌面/分包合同.pdf,提炼工期、付款节点、违约责任三块text
@桌面/分包合同.pdf 这份里的质保金比例是多少?引原文用 @ 可以在输入时补全本机文件/目录路径(详见快速上手)。
百页 PDF 通读提炼
电子版长文档(合同、标书、制度、年报)直接读全文,让它提炼而不只是"翻一遍":
text
你:通读这份 78 页招标文件 ~/下载/RFP.pdf,整理成一页纪要:
投标截止时间、保证金金额与缴纳方式、资质要求、评分办法、废标条款。
它:(拆解 → 通读全文 → 核验 → 交付)
一、关键时间节点
- 投标截止:2026-07-10 09:30,开标同日同地
二、投标保证金
- 金额 ¥80,000,电汇至指定账户,到账截止 07-09 17:00
三、资质要求
- 建筑工程施工总承包二级及以上;近 3 年类似业绩 ≥2 项
……
(第 5.3 条"近 3 年"起算口径文件未明确,已标注请你向招标方确认)存疑必标,不替你拍板
读到文件里说不清、相互矛盾的地方,它会明确标出来请你复核,而不是凭空给个看着齐整的答案——这正是「可信交付」。
读完的内容它会留在上下文里,可以接着追问:"刚那份里有没有要求联合体投标?""把评分办法做成一张表。"
识别扫描件 / 图片(OCR)
扫描合同、拍照发票、对账单截图、纸质评分表——这些只有图像没有文字的文件,靠本机 OCR 读进来。
文件不出本机
OCR 识别用的是本机的 RapidOCR(PP-OCRv4 中文模型,CPU 即可跑),不调用任何模型 API、不读模型配置、内容零字节上传。扫描的合同、发票就在你电脑上完成识别。
例:识别一份扫描合同
text
你:识别这份扫描合同 ~/桌面/采购合同扫描.pdf,把全文转成可编辑文本。
它:首次使用需要装一次本地识别组件(约 80MB,约 1 分钟),稍候……
(逐页 OCR → 输出 markdown)
已识别 6 页,保存到 ~/桌面/采购合同扫描.ocr.md。
⚠️ 第 3 页金额大写"叁拾万元整"为同形字易错项,请你核对原件。识别结果落成一个 markdown 文件,接着就能让它干下一步——"按公司红线审一遍"(见场景:查)、"导成 Word"(见场景:写)。
例:识别发票,还原成表格
发票、报价单、评分表这类有行列结构的图片,它会还原表格而不是把字拍扁成一行:
text
你:识别这张发票 ~/桌面/增值税发票.png,整理成表格。
它:(OCR + 表格结构还原)| 货物或应税劳务 | 规格型号 | 数量 | 单价 | 金额 | 税率 | 税额 |
|---|---|---|---|---|---|---|
| 办公用纸 A4 | 70g | 50 | 24.00 | 1200.00 | 13% | 156.00 |
| 签字笔 | 0.5mm | 200 | 1.50 | 300.00 | 13% | 39.00 |
text
价税合计(小写)¥1,695.00。
⚠️ 价税合计大写"壹仟陆佰玖拾伍元整"为大写金额,请你核对。合并单元格、跨列表头也能识别出对应结构。
一次识别多页 / 部分页
整本标书太厚,只要某几页?直接说范围即可:
text
只识别这份标书 ~/下载/投标文件.pdf 的第 1 到 5 页和第 12 页首次使用:自动装识别组件
第一次用到 OCR 时,海慧智擎会自动安装本地识别组件:
- 体积约 80MB,自带 Python 已配国内源,通常 1 分钟内装完;
- 它会打印进度,期间不要中断,装好后立刻开始识别,以后再用不必重装;
- 全程本机安装,不需要你做任何配置。
离线机器
完全没有网络的机器装不上依赖时,它会给出 wheel 离线安装指引(在有网机器 pip download 后拷贝过来安装),照提示操作即可。
识别得准不准?(如实告知)
OCR 不是万能,海慧智擎会老实标注没把握的地方,不硬撑:
| 范围 | |
|---|---|
| ✅ 可靠 | 打印体中文/英文,常见合同、标书、发票版面,表格行列还原(含合并单元格) |
| ⚠️ 易错(会标注请你核对) | 大写金额同形字(如 参/叁)、手写体、印章压字、希腊字母与上下标、严重歪斜或低分辨率扫描 |
| ❌ 不支持 | 倒置/旋转 90° 的扫描件(请转正后重试)、看图理解语义(架构图/界面看懂不是 OCR 的活) |
大写金额务必复核
合同、发票里的大写金额是同形字高发区(参/叁、陆/六),凡涉及金额,它都会提醒你比对原件——这一步请不要省。
识别中没把握的整行,它会以 [低置信 0.43] …… 标出而不是悄悄丢掉,方便你定位复核。