Safety 2026-02-25 • 9 min read

多模态安全护栏：PetChat 如何在陪伴场景里控制风险

陪伴类 AI 的风险治理与工具型 AI 不同。用户会在同一会话里混合输入文本、语音、甚至图像片段，且情绪状态高度波动。PetChat 的目标不是“只要有风险就拒绝”，而是在安全与可用之间找到稳定平衡，让干预可解释、可追踪、不过度打断。

统一风险评分层

我们在输入层把文本、语音转写结果和图像描述映射到统一的风险特征空间，再由同一套评分器输出风险等级。这样做的价值是：策略触发逻辑不再依赖输入模态，避免出现“文字触发但语音漏检”的不一致行为。

策略路由与分级干预

当风险分数进入不同区间，系统会走不同策略：低风险进入常规响应；中风险触发“温和重导向”；高风险进入受限回复并附带求助建议。关键是干预文案必须上下文一致，不能突然切换成机械化警告，否则会进一步放大用户情绪。

审计与持续迭代

我们为每次策略触发保留审计记录：触发特征、命中规则、干预级别、用户后续反馈。通过这些数据反向优化阈值和策略文本，减少误拦截与漏拦截的双重成本，让安全系统从“静态规则”升级为“可学习治理回路”。

对陪伴类产品而言，安全不是单点模型，而是一条连续工程链路。PetChat 的实践证明，真正可落地的安全能力，必须与产品体验共同设计、共同评估、共同演化。

延伸阅读

共情系统：AI 如何理解并慰藉人类情感多轮智能体记忆模式：Echo 如何避免偏题漂移查看内容编辑规范与更正机制