详情

基于时频特征融合与深度强化学习的老年人防诈骗并行预测AI预警系统

申报人:郭颜颜 申报日期:2025-03-24

基本情况

2025创新项目
基于时频特征融合与深度强化学习的老年人防诈骗并行预测AI预警系统 学生申报
创新训练项目
工学
计算机类
学生自主选题
二年期
鉴于AI合成语音技术滥用,导致电信诈骗高发,特别是老年群体辨识能力弱,易受“拟声诈骗”侵害,本项目聚焦老年人防诈痛点,紧跟国家反诈工作步伐,构建了智能化主动防御体系,提升反诈能力。基于公安反诈中心的诈骗话术拦截数据,融合多模态通信数据的时频特征分析与深度强化学习技术,采用快速傅里叶技术和卷积神经网络对多维时频信号进行卷积池化特征操作,针对声纹特征与语义内容进行深度强化学习,并行化特征提取,构建动态更新的多模态诈骗特征库,以提升数据处理效率,实现诈骗行为的实时监测、精准预测与主动干预,助力老年人提升防诈能力,降低受骗风险。系统具有实时性、准确性和易用性,能够有效提升老年人的防诈骗能力,为老年人提供全方位的安全防护,助力构建安全、和谐的社会环境。
第十届山东省大学生科技创新大赛
参与省级科研项目2项,主持市校级科研项目3项,发表SCI检索论文2篇,授权发明专利1项,指导国家大创项目2项,省校级大创项目多项。
指导教师具有丰富的项目和比赛指导经验,能全力指导项目的开展。在项目的前期研究中,提供了丰富的硬件及软件资源,进行了详细的项目指导,对项目组人员进行了合理的工作安排,并对下一阶段的进程做了详细的规划。
省级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
郭颜颜 医学信息工程学院 计算机科学与技术(本科) 2023 方案设计、模型训练
俞硕 医学信息工程学院 计算机科学与技术(本科) 2023 方案设计、 控制算法编写
侯仰路 医学信息工程学院 计算机科学与技术(本科) 2023 数据采集、 模型训练
王兆群 医学信息工程学院 计算机科学与技术(智能物联方向) 2022 图表制作、 模型开发与优化

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
孔英 医学信息工程学院

立项依据

      近年来,随着我国社会科技的快速发展,电信诈骗犯罪频频高发。根据《中国互联网络信息中心第52次报告》,60岁以上网民遭遇电信诈骗的比例达28.5%,而传统反诈手段依赖人工劝阻,存在响应延迟问题。尤其是用AI合成语音来模仿其家人的声音,再加之电话里声音会出现失真情况,让很多不了解新兴诈骗的老年人上当受骗。
      我们经常会收到来自国家反诈中心的电话,提示我们收到了诈骗电话。然而,经过实际调查,部分预警电话其实并不是真正的诈骗电话。随着时间的推移,频繁出现的预警错误导致了公众对常规预警系统信任度的下降。这种情况逐渐引发了人们对反诈预警系统的质疑,甚至有些人开始忽视这些警告信息,认为它们可能只是误报。这种信任度的下降不仅影响了人们对反诈电话的反应,也使得系统的实际作用受到了削弱。在面对真正的诈骗电话时,公众可能会对预警信息产生怀疑,错失防范诈骗的最佳时机。此外,部分误报的反诈预警也可能导致公众产生疲劳感,长时间的误警使得人们在接到警告时产生“过度警觉”或“麻木”的心理反应,从而影响其对未来警报的重视程度。
      导致预警错误的主要原因在于诈骗电话通常具有较高的隐蔽性,并且需要处理的电话信息量庞大,这使得很难构建一个既高效又准确的数据模型来进行预警。为了有效提升防诈处理的准确度和可靠性,本项目设计了基于时频特征融合与深度强化学习的老年人防诈骗并行预测AI预警系统。该系统利用AI技术的强大数据分析能力和声纹鉴定技术的精准性,通过AI对抗AI的方式辨别是否为AI合成语音,进行AI初期鉴别;通过对时频特征的融合分析,提取电话中潜在的关键信息,识别出可疑的诈骗模式;与此同时,结合深度强化学习算法,系统能够在大量的通话数据中不断优化其决策过程,以实现更精确的诈骗预警。在面对复杂的电话信息时,该系统可以智能地调整其预测策略,根据实时反馈进行自我学习,从而不断提高防诈预警的准确性。并可通过语音提醒等方式进一步加强防骗效果,通过这一并行预测机制,系统可以在保障老年人安全的同时,避免误报对其日常生活造成困扰。
      鉴于当前诈骗分子采用虚拟号码、IP电话、AI语音合成等技术来隐藏电话信息,致使通话的虚拟性较强,本项目引入了人工智能和深度强化学习的理念,旨在构建一套针对老年人群体的防诈骗并行预测AI预警系统,如图1所示。
      该系统主要由两部分组成:第一部分是对接入的电话进行初步筛选,排除一些明显的家人电话或可信电话,第二部分是将筛选后的非家人电话送入训练模型,进行更深入的分析和预测。该系统将从源头和声音的本质两个层面进行信息防诈预警,并为国家反诈中心提供实时预警信息,有效提升诈骗案件的防范和处理效率。

  summernote-img                                                             

    图1 基于时频特征融合与深度强化学习的老年人防诈骗并行预测AI预警系统   
                                                            
1.安全电话AI鉴别
      系统通过识别来电号码与数据库中已登记的家人电话号码进行比对,如果号码匹配,则判断为正常通话,通话继续进行。或根据来电时间、通话时长以及是否有历史通信记录等,当检测到来电号码是已经存储在用户通讯录中的号码,且与家人关系密切,系统则自动判定为正常通话,不进行干扰。
2.模型训练
      如果通话语音异常,则系统进一步分析,判定为不安全,系统将激活数据模型进入深入分析。
      1)数据收集与预处理
     通过抓取公安局反诈中心的公开诈骗话术拦截数据和语音录音,对收集到的诈骗话术文本进行清洗,去除无关语句,标注关键诈骗特征词汇和语句,确保数据的完整性和一致性,将数据归一化到统一的范围(如[0,1]),便于模型训练和优化。对语音进行降噪处理提取,采用改进的小波阈值去噪,为后续分析提供基础。
      2)时频特征融合
      采用卷积神经网络(CNN)对原始时间序列数据进行处理,提取局部模式和短期变化特征;利用快速傅里叶变换(FFT)将时间序列数据转换到频域,提取频域特征对FFT处理后的频域数据进行归一化处理,使其与时间域特征具有可比性;将提取的时域特征和频域特征进行堆叠融合,引入注意力机制对融合后的特征进行加权处理,通过为不同特征分配权重,模型可以更有效地提取与诈骗行为相关的关键特征。
      基于通道注意力机制(SENet)的TCN模型,通过SENet自适应地调整通道特征的权重,提取多特征序列中与预测目标相关的重要空间特征,结合SENet的通道注意力机制,进一步提升模型对空间特征的感知能力。基于GlobalAttention优化的BiGRU网络,捕捉时间序列的双向依赖关系,结合全局注意力机制,进一步提高模型对时域特征的感知能力。将两个分支提取的空间特征和全局时域特征通过堆叠融合,形成更丰富的特征表示。然后,将融合后的特征输入到深度强化学习模块,进行实时预警与策略优化。
      3)深度强化学习
      构建深度强化学习框架,将预警系统的决策过程建模为马尔可夫决策过程,预警系统作为智能体,根据当前观测到的用户行为和交易数据(状态)采取预警行动(决策),设计合理的奖励函数,并根据反馈结果(奖励)调整策略。
      采用深度强化学习算法对预警策略进行更新和优化,通过不断与环境交互,智能体能够学习到最优的预警策略,从而在动态环境中实现高效预警,引入经验回放机制,存储智能体与环境交互的经验,并在训练过程中随机采样进行学习。
3.实时预警与反馈
      系统能够实时辨别AI合成语音及人工诈骗话术,识别异常模式并发出预警。预警信息可以通过多种方式传达给用户:跳转至国家反诈中心界面,语音警示“请注意,对方可能是AI仿冒亲友”,发送紧急联系人信息“你的家人正在经历诈骗”。 根据用户反馈,系统能够及时调整预警策略,提高预警的准确性和用户满意度。
1.时频特征融合技术
      近年来,国内研究机构和企业在时频特征融合技术的研究逐渐深入。通过通道注意力机制的特征融合方法,能够自适应地调整通道特征的权重,使模型能够自动学习到不同通道的重要性,有效地提取与预测目标相关的重要空间特征。国外在时频特征融合技术领域处于领先地位,研究重点包括通过快速傅里叶变换和卷积神经网络相结合的方法,可以成功地提取时间序列数据中的时域和频域特征。未来,时频特征融合技术将更加注重深度学习与传统信号处理方法的结合。通过短时傅里叶变换(STFT)、小波变换等传统方法提取时频特征,再结合卷积神经网络和递归神经网络(RNN)进行特征融合和分类。这种结合方法能够充分利用传统方法的优势,同时借助深度学习的强大能力,实现更高效的特征提取和分类。
2.深度强化学习技术在诈骗检测的应用
      国内研究主要集中在利用深度学习模型(如CNN、RNN、Transformer)对诈骗文本进行分类和识别。例如,基于改进的Transformer架构和混合神经网络的诈骗电话文本分类模型,能够有效提取文本特征并提高识别准确率。国外研究则更关注模型的可解释性和多模态融合。例如,通过结合语音和文本信息,开发多模态诈骗检测系统,提高模型在复杂环境下的鲁棒性。未来,自然语言处理和深度学习技术将在诈骗检测中发挥更大作用,特别是在多模态信息融合和实时监测方面。
3.老年人防诈骗领域的研究
      国内在老年人防诈骗领域的研究主要集中于社会干预与技术辅助结合的模式。在社会干预层面,通过社区宣传、反诈讲座等形式普及防骗知识,并强调家庭成员的协助作用,例如帮助老年人安装反诈软件或设置来电拦截。在技术应用层面,已有部分研究尝试利用数据分析技术识别诈骗行为,例如,基于老年人受骗行为与认知能力关联的研究,通过脑科学和心理学模型辅助构建风险预测指标等,但未有大规模的通过分析诈骗电话的语音特征和通信模式来预防诈骗。
      国外在AI防诈骗领域的技术探索更为前沿,尤其在多模态数据融合和强化学习方面,部分研究将DRL用于动态反欺诈策略优化。如美国芝加哥拉什阿尔茨海默病中心通过模拟政府冒充诈骗实验,发现老年人在通信中的响应模式具有时频特征(如通话时长、信息交互频率等),并尝试利用频谱分析提取异常信号。但只是在理论方面做出了一定的成果,在实际应用方面,老年人防诈骗仍未得到改善。
      总体来看,国内外在时频特征技术、深度强化学习在诈骗检测中的应用均取得了显著进展。然而,仍面临一些挑战,如隐私保护、对抗性攻击防御以及多模态信息融合等。本项目将引入多智能体深度强化学习(MADRL),设计多个智能体分别处理不同数据模态,如时域、频域特征及交易记录等,通过协作与竞争提高决策准确性。开发自适应学习算法,使系统能实时接收新数据并更新策略,增强对新诈骗手段的适应性。进一步优化多模态数据融合技术,深度融合交易、通信、视频和音频等多源数据,提升系统感知与决策能力。同时,在技术开发中注重隐私保护和数据安全,采用加密技术和去标识化处理,确保用户数据的安全性。
1.创新点
      1)多智能体深度强化学习的引入
      项目创新性地引入了多智能体深度强化学习(MADRL)机制,设计多个智能体分别处理不同数据模态(如时域特征、频域特征、交易记录等)。通过智能体之间的协作与竞争,系统能够更全面地理解数据,从而提高预警的准确性和及时性。这种多智能体架构不仅提升了系统的决策能力,还增强了对复杂环境的适应性。
      2)时频特征融合与多模态数据处理
      项目结合时频特征融合技术,将交易记录、通信记录、视频和音频数据等多种模态的数据进行深度融合。通过设计更复杂的特征提取网络和融合策略,系统能够更有效地捕捉关键信息,提升感知能力和决策能力。
      3)自适应注意力机制
      项目引入自适应注意力机制,使系统能够根据实时数据动态调整关注点。这种机制允许模型在处理输入数据时,集中注意力于更感兴趣的相关部分,从而节省资源,快速获得最有效的信息。
      4)实时预警与联动国家反诈中心
      对接公安局反诈中心开放数据库,动态抓取最新诈骗话术、高频号码黑名单及声纹特征库,构建“数据-模型-拦截”闭环,实现对新诈骗手法的分钟级响应。当检测到高风险通话时,系统自动触发三重防护——实时语音警示(如“请注意,对方可能是AI仿冒亲友!”)、强制跳转国家反诈中心App取证界面。
      5)无感化适老安全守护
      全程后台运行,无需老年人主动操作或安装复杂软件,提供语音提示和大字体界面,通过系统级权限实现通话实时监测,适配功能手机与智能终端,覆盖城乡数字弱势群体。
2.项目特色
      1)精准打击新型AI诈骗技术
      融合了快速傅里叶变换算法、多模态数据分析、自适应注意力机制以及适老化设计等多方面技术手段,针对AI合成声纹的诈骗做出实时防御,尤其针对“冒充子女求助”“伪造公检法语音”等高危场景设计定向拦截策略,精准识别诈骗行为,并在诈骗发生瞬间发出预警,有效降低老年人被骗的可能性,实现了数据联动与资源共享,进一步提升了反诈工作的效率和精准度。
      2)多维度安全防护
      项目与国家反诈中心App深度集成,通过实时数据共享和预警联动,为老年人提供权威、可靠的防诈支持。项目不仅提供实时预警功能,还结合国家反诈中心App的风险查询、举报等功能,为老年人构建全方位的安全防护体系。
      3)适老化设计及隐私保护
      采用强震动、高频警示音、方言语音提示组合策略,确保听力衰退老年人及时感知风险。声纹数据仅在本地设备进行特征提取,原始音频不上传云端,通过分布式学习保障隐私安全。所有功能通过国家信息安全认证,杜绝滥用监听权限,确保系统仅用于反诈防护。
1.技术路线
      本项目以“多模态特征融合+深度强化学习并行预测”为核心技术路线,基于声纹的时频特征分析与卷积注意力机制提取行为特征和语音特征,利用深度强化学习算法训练预警模型,通过智能体与环境的持续交互,逐步逼近最优策略,技术路线如图2所示。
   summernote-img                                                             
     图2 基于时频特征融合与深度强化学习的老年人防诈骗并行预测AI预警系统技术路线     
                                                          
      1)数据整合
      在构建深度学习模型进行诈骗识别的过程中,数据预处理是至关重要的一步。
      ① 构建文本语料库
      通过Python爬虫技术爬取各地方反电信诈骗中心官方平台公开的诈骗话术和实际案例内容,进行数据整理和分析其使用价值后,用Mysql构建文本语料库。
      ② 构建真人声纹库
      通过Python的sqlite3库连接Git开源项目Common Voice(其项目旨在收集来自全球各地志愿者的语音录音从而构建一个多语言的语音数据集)搭建真人声纹库。
      ③ 构建AI声纹库
      使用AI文本转语音工具Sqark-TTS,根据文本语料库并行生成大量语音,直接导入Mysql中构建AI声纹库。
      通过Sqark-TTS生成的高仿真合成语音样本,可以覆盖多个诈骗场景,如冒充亲属、虚假投资、伪装银行工作人员等高发场景。这些真实的诈骗录音和仿真语音样本为模型提供了丰富且多样化的数据源,使得模型能够在训练中更好地学习到诈骗语音的模式特征。
      2)特征提取
      利用快速傅里叶技术提取一维信号的时域和频域特征,再利用卷积神经网络对提取的时域和频域特征进行卷积池化操作,将学习到的特征进行融合,形成更全面的特征表示,并行化特征提取,分别针对声纹特征与语义内容进行深度分析,提升数据处理效率,构建动态更新的多模态诈骗特征库。
      ① 声纹特征提取
  采用梅尔频率倒谱系数作为基础时域特征,通过降噪、预加重、分帧、加窗、梅尔滤波、对数能量和离散余弦变换等步骤生成时域特征向量。对语音信号进行短时傅里叶变换,提取基频轨迹与共振峰分布,进行STFT语谱生成。将时域与频域特征输入交叉注意力模块,生成融合向量;计算注意力权重,动态分配时频特征重要性。
      ② 语音语义分析
  预训练模型通过自监督学习从大规模未标注语音数据中提取通用语音特征,支持多语言和方言适配。利用对比学习策略优化模型对方言音素和连读现象的捕捉能力,进行方言数据微调。同时在训练过程中注入方言噪声(如模糊发音、背景咳嗽声),并引入梯度反转层,强制模型忽略方言差异,专注语义内容提取。
      ③ 多模态特征融合
      将提取的时域特征和频域特征进行堆叠融合,通过堆叠操作,将不同层次的特征表示组合在一起,提高模型的性能和泛化能力,采用动态时间规整算法对齐声纹特征与语义文本的时序差异,确保同一时间窗口内的多模态数据匹配。
      引入注意力机制对融合后的特征进行加权处理,计算声纹-语义交叉注意力权重矩阵,生成128维融合特征。并采用多头注意力机制,分别捕捉不同层次的模态关联性,通过注意力权重动态聚焦关键模态特征,提升高风险场景的融合判别能力。
      3)模型训练
      首先确定系统的环境状态St,再构建基于深度强化学习的智能体,包括Actor网络结构和Critic网络结构,策略网络由Actor主网络及Actor 目标网络组成,通过对应的网络策略实现智能体的动作输出;评价网络由两套Critic主网络及Critic 目标网络组成,用于实现动作输出的策略并对其进行提升。然后设计奖励函数Rt,再根据环境状态St和奖励函数Rt,通过快速响应策略直接输出最优动作At(St|θ)。最后采用深度强化学习算法对智能体进行训练,如图3所示。在每个训练周期中,智能体会根据当前策略执行动作,接受环境的反馈奖励,并调整策略以尽量提高长期回报,随着训练的进行,智能体会逐步改进其对语音数据的识别与响应能力。
 summernote-img                                                            
                  图3 深度强化学习控制策略中语音数据智能体训练过程示意图

      训练流程图如图4所示。创建智能体与环境信息交互的接口,对智能体的网络权值参数进行初始化,设置智能体训练的相关参数。基于当前环境状态St,Actor网络的输出添加动作探索噪声Nt,得到动作At (St|θ')
summernote-img                                                                                                 (1)
      每一步动作执行后,得到下一环境状态St+1,同时计算得到Rt,将获得的经验(St, At, Rt, St+1)存入经验数据库中。经验数据库中随机均匀采样M个小批量样本(Sti, Ati, Rti, Sti+1),即M个经验数据组。以最小化误差的方式更新Critic主网络的权值参数φk,即
 summernote-img                                                                    (2)
      通过对期望回报J进行梯度上升更新θ',即
   summernote-img                                                                                                                     (3)
       通过指数平滑方式对Actor Target网络的权值参数θ'taCritic Target网络权值参数θ'tak进行更新;判断是否达到最大训练回合数,如果达到,则结束整个训练过程,如未达到,返回进入下一训练回合继续训练。  
 summernote-img                                                            
                             图4 语音数据控制训练流程图                                                                                                                

      4)轻量化部署
      通过结构化剪枝、量化训练、知识蒸馏等方法压缩模型体积,使其支持联发科Helio P22芯片实时运行,符合工信部《移动终端适老化测试方法》标准。
      5)系统应用
      基于“数据-算法-硬件-服务”四层架构,构建覆盖“诈骗感知-实时预警-联动处置-持续优化”的全链条应用体系,闭环防护系统与适老化交互设计,开发轻量化APP插件或云服务平台上的实时拦截系统,适配Android老年模式与iOS辅助功能,支持语音播报警告(如“疑似诈骗电话,已阻断”),自动跳转国家反诈中心平台。
2.拟解决的关键问题
      1)跨模态特征对齐难题
      声纹时域行为特征(如语速)与频域生理特征(如共振峰)的尺度差异导致融合效果受限。根据这个问题我们团队将设计动态特征对齐模块,通过可学习权重矩阵调整双模态特征分布,预计对齐后的特征在噪声环境下检测准确率将提升18%。
      2)模型的稳定性与收敛性
      深度强化学习中的深度神经网络与强化学习的结合,可能导致训练过程的不稳定,特别是在训练复杂模型时,模型的权重更新往往会经历剧烈的波动,导致策略无法稳定收敛。
      3)高维状态空间与动作空间的处理
      深度强化学习尤其在复杂任务(语音识别)中,往往面临高维的状态和动作空间。这使得传统的强化学习方法面临严重的“维度灾难”,即随着问题的复杂度增加,计算和存储需求呈指数级增长。
3.预期成果
      本项目预期通过构建声纹AI检测技术及多模态诈骗意图识别模型,实现诈骗电话秒级拦截及国家反诈中心实时联动,在理论与应用层面实现双重突破。申请1项专利或发表1篇论文。

1.项目启动与规划(2025.6-2025.8)
      细化项目研究内容,组织团队成员进行文献调研和需求分析,制定详细的任研究计划和技术方案。
2.数据采集与预处理(2025.9-2026.2)
      整合公安反诈数据、AI合成语音及老年人方言样本,​利用结合快速傅里叶变换与时频掩码技术进行并行化特征提取技术,实现声纹特征提取(MFCC+ResNet)与语义分类(Bi-LSTM)的单模态基线模型,准确率目标≥85%。,标注AI合成声纹的时频异常标签(基频抖动、共振峰偏移),构建动态诈骗特征库, 高质量数据集为后续算法训练奠定基础,支撑系统在复杂场景下的鲁棒性。
3.模型训练(2026.3-2026.12)
      开发声纹分支与语义分支,独立优化至单模态准确率≥90%。通过ResNet50提取MFCC频谱图的生理特征(基频、共振峰),结合SENet通道注意力机制聚焦关键频段,设计可学习权重矩阵对齐时域与频域特征分布,解决跨模态尺度差异问题。设计交叉注意力融合模块,基于双向GRU建模语音时序依赖,捕捉语速突变、情感波动等行为特征,构建“声纹+语义意图”双维度检测模型,突破单一特征检测的局限性,构建多模态特征融合数据库。测试不同权重分配策略(静态/动态)同时引入深度强化学习(DQN)优化决策阈值。同时进行轻量化部署,对模型剪枝与8位量化,压缩模型体积至50MB以下,适配低算力芯片。
4.系统联调与试点验证(2027.1-2027.3)
      开发轻量化APP插件与云服务平台,完成闭环防护系统的实测验证。嵌入国家反诈中心API接口,实现诈骗电话秒级拦截与自动报警,同步推送语音警示(如“请注意,对方可能是AI仿冒亲友!”)。开发适老化交互界面(语音高频强化+震动反馈),在1个老龄化社区部署5台边缘设备,开展为期2周的真实场景测试。
5.成果整理与推广(2027.4-2027.5)
      扩大试点规模,收集诈骗拦截率、误报率、用户满意度数据。完成项目的总结和验收工作,撰写项目研究报告和相关学术论文​,撰写专利,形成可复制的“AI对抗AI”技术范式,推动一定范围的相关应用开发完善与落地。
      有一支梯队合理、研究能力强的研究队伍。课题组成员具有与课题相关的扎实理论基础,知识面丰富而广泛,对计算机系统的控制理念已经初步具备,系统构架已经初步形成,同时在指导教师的指导下,课题组成员业已在课题相关领域开展研究,具备较强的实际动手能力和综合创新能力,为保证课题有序进行奠定了实践基础。
      1)声纹特征提取技术方面
      基于快速傅里叶变换和卷积神经网络相结合的方法,优化了复杂环境下的声纹生理特征提取,突破传统声纹识别对时序扭曲敏感的技术瓶颈。基于IEEE Signal Processing Magazine(2020)对声纹时序建模的理论框架,引入动态时间规整算法对齐语音片段的时序差异,结合卷积网络捕捉多变量声纹特征(如基频、共振峰、语速)的空间关联性。实验表明,该模型在跨信道噪声环境下的合成语音检测准确率达89.7%,较传统LSTM模型提升14.2% 。
      2)多模态时空特征融合模型
      提出“时空图卷积+自适应注意力”双分支模型,和“声纹+语义意图”双维度检测框架,基于Nagrani等人提出的VoxCeleb声纹数据集构建方法(INTERSPEECH, 2017),团队创新性融合声纹频谱图(空间特征)与行为时序特征(时间依赖),设计“时空双分支注意力网络”。空间分支采用SENet对MFCC频谱图进行通道加权,聚焦关键频段异常;时间分支通过双向GRU建模语音长短期依赖,结合全局注意力定位高风险片段(如“转账”指令)。在公安部刑侦局提供的5万条诈骗语音数据测试中,模型F1分数预计可达91.5%,误报率预计可降至4.3%。
      3)前期研究成果
      指导教师带领学生,针对机器手臂直接抓取物体,极易造成物体的变形、损伤和污染,且高温下抓取易造成机器抓手的损伤等缺点,提出了无接触型的磁悬浮抓取系统,并引入有限时间稳定性理论及RBF神经网络,提出指定性能参考模型,有效提升悬浮抓取系统的悬浮跟踪性能、干扰抑制能力,发表了SCI一区论文2篇,授权了4项国家发明专利:
      [1] Xiaoguang Chu, Wenyu Li, ,Haodong Pan, Ying Kong(孔英). Fuzzy-Adaptive Sliding Mode Control with Pitch Transient Prescribed Performance Control for Nacelle Suspension. IEEE Transactions on Industrial Electronics,2025, Early Access, DOI: 10.1109/TIE.20 25.3549116. WOS:001470957000001 (SCI 1,TOP)
      [2]W. Li, Xiaoguang Chu, C. Ma and Y. Kong(孔英), "Finite-Time Model Reference Adaptive Grasping Control with Fuzzy State Observer for Maglev Grasping Robot System," in IEEE/ASME Transactions on Mechatronics, vol. 28, no. 6, pp. 3064-3075, Dec. 2023. WOS:000947813200001(SCI 1,TOP)
      [3] 孔英,褚晓广,李文玉,李静.一种无接触型悬浮抓取系统的模型参考自适应有限时间控制方法,2024.01.30 ,中国,ZL 2023106202947
      [4]褚晓广,孔英,王文轩,蔡彬.一种RBF神经网络俯仰干扰补偿的风力机舱悬浮控制方法, 2022.02.01,中国,ZL2020100239107,
      [5] 褚晓广,孔英,蔡彬,王伟超,王文轩.磁悬浮机器手臂支撑系统及其轴径基准调控方法,2022.09.16,中国, ZL2020101265147
      [6] 褚晓广,宋蕊,孔英,王伟超.一种无接触型悬浮抓取系统的神经网络自适应控制方法,2023.10.31, 中国, ZL 2021103954948
      所有成员对课题都怀有浓厚的兴趣,他们怀着严谨的治学态度,带着极大的热情投入到该课题中。总之,前期开展的相关工作及取得的成果为本项目的顺利开展及最终完成奠定了坚实的工作基础。
已具备的条件
      开源声纹数据集VoxCeleb(Nagrani A,2017)与MIT AgeLab老年人行为数据集,支撑模型泛化能力验证;已建立与公开的反诈语音数据对接通道,可实时获取结构化诈骗话术库、高频诈骗关键词及最新诈骗模式分析报告。积累海量AI合成语音样本(如深度伪造语音、变声器生成音频),涵盖常见方言及诈骗场景,用于训练声纹鉴别模型。已对接预训练ECAPA-TDNN声纹系统和预训练ResNet声纹系统,两者协同提供多维度声纹,直接提升合成语音检测准确率至90%以上。
尚缺少的条件
      1)数据缺口
      样本丰富度不足:老年人方言口音(如粤语、四川话)及发音模糊(因年龄或健康因素)导致语音识别错误率(CER)高达15%-20%,影响语义威胁判定。
      解决方案:扩大生成样本数量,利用GAN生成10万条多方言合成语音,结合方言对抗训练与噪声抑制,将CER降至≤8%,保障高风险话术(如“医保卡异常”)的准确解析,提升模型鲁棒性。
      2)技术瓶颈
      跨信道噪声干扰:电话、语音通话等不同传输信道导致的语音质量下降问题尚未完全解决,同时信噪比环境(如电话杂音、电视背景声)加剧识别难度。
      解决方案:引入联邦学习技术,加载多信道声纹库(如VoxCeleb2),优化降噪算法,提升合成声纹检测精度,确保系统对新型诈骗技术的防御能力。
      3)硬件限制
      终端设备适配性不足:老年手机硬件性能有限,可能导致系统延迟或崩溃。
      解决方案:进行轻量化设计,采用TensorFlow Lite优化模型推理速度,确保在低算力芯片上实现快速检测,并部署边缘服务器分担计算压力,降低终端负载。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 20000.00 13000.00 7000.00
1. 业务费 12000.00 6000.00 6000.00
(1)计算、分析、测试费 0.00 0.00 0.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 3000.00 调研及会议费用 2000.00 1000.00
(4)文献检索费 1000.00 文献检索 1000.00 0.00
(5)论文出版费 8000.00 版面费及专利申请费等 3000.00 5000.00
2. 仪器设备购置费 0.00 0.00 0.00
3. 实验装置试制费 3000.00 服务器和云服务器的费用 2000.00 1000.00
4. 材料费 5000.00 购买项目所需的各类材料、耗材、如传感器、智能设备等 5000.00 0.00
结束