近日,一项旨在解决基于 Transformer 架构的预训练语言模型存在问题的研究取得重要进展。由广东理工学院学生余夏萌担任项目负责人,团队针对大模型 “语义偏离” 问题创新性地引入多模型验证反馈机制,构建多级验证框架,显著降低模型内容失真率,为产业级应用提供了安全可控的技术方案。

广东理工学院科创AI团队基于 Transformer 架构的预训练语言模型在自然语言处理领域成绩斐然,其多任务适应性在诸多传统及跨模态场景实现突破。然而,深度神经网络固有的概率生成机制,使模型输出存在非确定性失真风险,“语义偏离” 现象频现,在医疗诊断、司法咨询等高可靠性要求场景应用时,可能引发数据隐私泄露与决策偏差传导等系统性风险。

针对这一难题,科创AI团队从模型输出验证、动态反馈优化及行业专属注意力机制设计三方面着手,构建多级验证框架。在模型输出验证上,团队采用小模型检查大模型机制。大模型输出后,利用专门训练的检查小模型作为校正器,并结合多个模型结果验证,一旦触及敏感关键词即转人工审核。此基于后处理输出的验证机制,如同人类编辑初稿,通过删除、重写等手段修正事实错误,在维持信息量的同时有效缓解大模型幻觉。

在模型动态反馈优化机制设计中,团队提出自我优化(self – refine)反馈机制。该机制由输出、反馈和优化三个关键模块组成,智能体先输出规划结果,接着利用预训练的 LLM 对结果评价反馈并指导优化,经多轮迭代直至输出满意结果。同时,内部自我检测(self – check)方法可对智能体各阶段规划结果检查评估,纠正错误;在反应和互动环节引入模型反馈机制,用不同语言模型对规划结果检查排序,避免主要语言模型错误和低效操作。此外,Reflexion 框架将传统梯度更新中的参数信号转变为语言提示,使智能体参考失败经验,提高规划效率。在用户实际应用中,模型依据环境奖惩信号,动态调整微调模型的参数和输出策略,适应变化环境和需求。

在行业专属注意力机制设计方面,模型处理信息时聚焦关键部分,生成文本时根据当前生成词及行业属性抓取重要信息,减少 “幻觉”。以电商平台搜索功能为例,Query 为输入参数,系统返回的店铺、商品等是 Key,点击详情看到的商品信息为 Value。通过对 Q、K、V 三个重要参数乘以 W 系数再进行运算,获取输入数据不同权重,产生多种注意力。

经实验验证,该多级验证框架成效显著,在维持模型生成效率的前提下,将内容失真率降低 67%。这一创新成果为解决深度神经网络模型固有缺陷提供了有效途径,有望推动预训练语言模型在更多高可靠性场景的广泛应用,为产业发展注入新动力。