陪伴类 AI 的风险治理与工具型 AI 不同。用户会在同一会话里混合输入文本、语音、甚至图像片段,且情绪状态高度波动。PetChat 的目标不是“只要有风险就拒绝”, 而是在安全与可用之间找到稳定平衡,让干预可解释、可追踪、不过度打断。
统一风险评分层
我们在输入层把文本、语音转写结果和图像描述映射到统一的风险特征空间,再由同一套评分器输出风险等级。这样做的价值是:策略触发逻辑不再依赖输入模态, 避免出现“文字触发但语音漏检”的不一致行为。
策略路由与分级干预
当风险分数进入不同区间,系统会走不同策略:低风险进入常规响应;中风险触发“温和重导向”;高风险进入受限回复并附带求助建议。关键是干预文案必须上下文一致, 不能突然切换成机械化警告,否则会进一步放大用户情绪。
审计与持续迭代
我们为每次策略触发保留审计记录:触发特征、命中规则、干预级别、用户后续反馈。通过这些数据反向优化阈值和策略文本,减少误拦截与漏拦截的双重成本, 让安全系统从“静态规则”升级为“可学习治理回路”。
对陪伴类产品而言,安全不是单点模型,而是一条连续工程链路。PetChat 的实践证明,真正可落地的安全能力,必须与产品体验共同设计、共同评估、共同演化。