实战知识库迁移 04:验收、质量报告和持续治理

先理解:迁移完成不等于知识库可用

文件搬完、脚本跑完,只能说明迁移动作完成。知识库是否可用,要看质量报告、验收问题和持续治理机制。

本篇会补质量报告和验收标准。它的目标是让团队能回答:迁了多少、缺了什么、哪些知识过期、哪些问题答不上来、后续谁维护。

质量报告看什么

不要只看文档数量。更重要的是负责人缺失率、权限缺失率、过期内容数量、重复内容数量、验收问题通过率。这些指标更接近知识库健康度。

持续治理

知识库会自然变脏。产品更新、人员变动、流程调整都会让旧知识失效。上线后需要固定节奏复查,而不是等用户投诉再修。

本篇完成迁移项目收尾:验收标准、质量报告、问题闭环。

质量报告脚本

tools/quality_report.py

python
import json
from pathlib import Path

chunks = [
    json.loads(line)
    for line in Path("processed/chunks.jsonl").read_text(encoding="utf-8").splitlines()
]

required = ["owner", "permission", "domain", "topic", "version"]
missing = []
for c in chunks:
    absent = [k for k in required if not c.get(k)]
    if absent:
        missing.append((c["id"], absent))

Path("reports").mkdir(exist_ok=True)
Path("reports/quality-report.md").write_text(
    "# 知识质量报告\n\n"
    f"- chunk 数量:{len(chunks)}\n"
    f"- 缺字段数量:{len(missing)}\n\n"
    + "\n".join(f"- {cid}: {fields}" for cid, fields in missing),
    encoding="utf-8"
)

执行:

bash
mkdir -p reports
python tools/quality_report.py

RAG 验收问题

迁移后的知识库要用问答验证:

json
{"question":"七天无理由退货条件是什么","expected_topic":"after_sales","must_include":["7 天","未拆封","配件齐全"]}
{"question":"进水能免费保修吗","expected_topic":"after_sales","must_include":["液体","不属于免费保修"]}

如果问答经常引用错误主题,说明分类、分块或过滤需要返工。

治理配置

inventory/governance.yml

yaml
review_cycle_days: 30
roles:
  knowledge_owner: 判断内容是否准确
  kb_admin: 维护分类和权限
  tech_owner: 维护同步和索引
quality_rules:
  - missing_owner_block_publish
  - restricted_doc_requires_allowed_users
  - deprecated_doc_not_used_by_default

上线标准

  • 第一批知识源全部通过质量报告。
  • 权限测试无越权。
  • RAG 验收问题通过率达到目标。
  • 同步失败会告警。
  • 每个主题有 owner。
  • 每月有固定 review 机制。

知识库迁移的最终成品不是一批文件,而是一套能保持知识准确、授权、可追溯的机制。

实战工单 Agent 01:定义工单 Schema 和处理流程
实战知识库迁移 03:权限、版本和同步,不要让 AI 读错知识