先理解:迁移完成不等于知识库可用
文件搬完、脚本跑完,只能说明迁移动作完成。知识库是否可用,要看质量报告、验收问题和持续治理机制。
本篇会补质量报告和验收标准。它的目标是让团队能回答:迁了多少、缺了什么、哪些知识过期、哪些问题答不上来、后续谁维护。
质量报告看什么
不要只看文档数量。更重要的是负责人缺失率、权限缺失率、过期内容数量、重复内容数量、验收问题通过率。这些指标更接近知识库健康度。
持续治理
知识库会自然变脏。产品更新、人员变动、流程调整都会让旧知识失效。上线后需要固定节奏复查,而不是等用户投诉再修。
本篇完成迁移项目收尾:验收标准、质量报告、问题闭环。
质量报告脚本
tools/quality_report.py:
python
import json
from pathlib import Path
chunks = [
json.loads(line)
for line in Path("processed/chunks.jsonl").read_text(encoding="utf-8").splitlines()
]
required = ["owner", "permission", "domain", "topic", "version"]
missing = []
for c in chunks:
absent = [k for k in required if not c.get(k)]
if absent:
missing.append((c["id"], absent))
Path("reports").mkdir(exist_ok=True)
Path("reports/quality-report.md").write_text(
"# 知识质量报告\n\n"
f"- chunk 数量:{len(chunks)}\n"
f"- 缺字段数量:{len(missing)}\n\n"
+ "\n".join(f"- {cid}: {fields}" for cid, fields in missing),
encoding="utf-8"
)执行:
bash
mkdir -p reports
python tools/quality_report.pyRAG 验收问题
迁移后的知识库要用问答验证:
json
{"question":"七天无理由退货条件是什么","expected_topic":"after_sales","must_include":["7 天","未拆封","配件齐全"]}
{"question":"进水能免费保修吗","expected_topic":"after_sales","must_include":["液体","不属于免费保修"]}如果问答经常引用错误主题,说明分类、分块或过滤需要返工。
治理配置
inventory/governance.yml:
yaml
review_cycle_days: 30
roles:
knowledge_owner: 判断内容是否准确
kb_admin: 维护分类和权限
tech_owner: 维护同步和索引
quality_rules:
- missing_owner_block_publish
- restricted_doc_requires_allowed_users
- deprecated_doc_not_used_by_default上线标准
- 第一批知识源全部通过质量报告。
- 权限测试无越权。
- RAG 验收问题通过率达到目标。
- 同步失败会告警。
- 每个主题有 owner。
- 每月有固定 review 机制。
知识库迁移的最终成品不是一批文件,而是一套能保持知识准确、授权、可追溯的机制。

