详情

基于机器学习的手语实时翻译播报系统的设计与实现

申报人:刘彦彤 申报日期:2025-03-17

基本情况

2025创新项目
基于机器学习的手语实时翻译播报系统的设计与实现 学生申报
创新训练项目
工学
计算机类
学生自主选题
二年期
据不完全统计,我国语言交流障碍人士约有3000万人,他们与外界交流存在巨大的阻碍。据此,我们开发出了手语翻译播报系统,帮助他们解决所需的沟通交流障碍问题。 在理论研究方面,相较于原来的YOLOv11,YOLOv12增设了对精小物体的识别,精度得到了明显的提升。在数据集上的测试结果显示,该模型的精度达到了98.9%,对部分手语孤立词识别精度可达到100%。同时我们还融入了注意力捕捉技术,增强了对重要语义的捕捉。后续,我们将会提高手语视频的检测帧率,提高识别出的文字的流畅和准确性,为整个项目提供更加可靠的技术内核。 在应用开发方面上,APP端围绕提升交互体验,用户能随时随地的进行使用;网页端打造了功能集成化的服务管理平台,能与其他终端数据同步,不断创新功能以方便用户系统化操作。后续将聚焦多终端生态构建,增添小程序端。小程序轻量化,更易覆盖各类场所。 我们团队会持续优化系统,以帮助语言交流障碍人群教育就业,提升其社会地位,推动共融社会建设。
       获得第十六届山东省大学生软件设计大赛省级三等奖
       孟凡彬,生物医学工程专业副教授,博士,主要研究方向为机器视觉与智能医学。
个人科研方面,曾主持或参与各类课题十余项,其中国家自然基金3项,项目总经费超100万元,且目前正与英国华威大学等国际知名高校课题组合作研究。发表SCI论文数十篇。
       大学生创新创业项目方面,作为唯一指导教师指导国家级3项、省级6项,并合作指导国家级2项、省级2项。
       大学生创新创业成果方面,以末位通讯作者指导学生发表本科生一作论文4篇(SCI论文平均影响因子超2.1);指导学生获得专利30余项、软件著作权30余项,并在创新创业比赛中获国家级奖励50余项、省级奖励160余项。
       指导老师负责对“基于机器学习的手语实时翻译播报系统的设计与实现”项目进行指导、监督和管理。在项目研发期间会定期与学生进行沟通交流,解决项目当前遇到的问题,并跟进问题改正进度,给出改进建议,推动项目落地。
       同时监督小组成员在规定时间内充分发挥自身能动性,高效的完成分配到的任务。
       在程序设计方面,指导学生更加深层次的了解和学习手语翻译算法的底层逻辑,熟练运用YOLO算法搭建模型,助力学生完成高质量且有效的代码,提高手语动作识别的精准性和手语翻译结果的准确性和流畅性,确保在项目在具有创新性特点的同时又能拥有可靠性和丰富性的特点。
       在项目的填报阶段,指导学生规范填写申报表格,审核填报信息,为完善和丰富申报内容打好基础。帮助学生制定和分配项目经费,为项目的申报提供支持。
       为项目的开发提供必要的优良环境,为学生营造良好的学术氛围,引导他们从不同角度思考问题,潜移默化地培养学生的创新型思维,增强他们解决问题的能力,为项目的成功打好思想的地基,助力项目最终实现服务语言交流障碍人群、推动社会无障碍沟通的宏伟目标。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
刘彦彤 医学信息工程学院 计算机科学与技术(健康大数据方向) 2023 网页端的开发
陶瑶瑶 医学信息工程学院 计算机科学与技术(健康大数据方向) 2023 软件端的开发
朱帅宇 医学信息工程学院 生物医学工程(本科) 2024 模型的部署 算法的升级
王晓琪 医学信息工程学院 信息管理与信息系统(本科) 2024 网页端和软件端的美化
潘伟雅 医学信息工程学院 生物医学工程(本科) 2024 论文的检索
张佳一 医学信息工程学院 计算机科学与技术(健康大数据方向) 2023 手语教学视频的录制 网页端和软件端素材的制作

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
孟凡彬 医学信息工程学院

立项依据

1. 研究目的
       沟通是社会生活中不可或缺的一部分,但对于语言交流障碍人士或者语言发育迟缓的人群来说,语言交流的障碍让他们难以融入社会。手语成为了他们重要的沟通方式,但问题在于,手语使用者和非手语使用者之间常常难以顺畅交流,这导致手语使用者在教育、医疗、社交等方面的交流面临着诸多挑战。为了帮助解决这个问题,我们团队开发了一款手语翻译系统,目标是搭建起语言交流障碍人士与非语言障碍人士之间的沟通桥梁。我们希望通过这款软件,为语言交流障碍人士提供实用帮助,同时也能让社会更加包容、和谐和温暖。
       在技术层面,我们研究并尝试了RNN,transformer等多种神经网络,为追求在保证快速识别的情况下,更精细的识别效果和更准确的翻译结果,我们选取最新的YOLOV12算法。这一算法的使用有望进一步优化系统性能,提供给用户更好的服务体验。本项目通过产品中的手语翻译播报系统实现两大核心功能,即手语实时识别并将其转化为语音播报、文字输入获取手语图片,这种手语实时识别功能可以帮助我们的快速便捷沟通。在此之前,语言交流障碍人群在与他人交流时,他们通常使用纸质写字或打字的方式将需求展示给对方。本产品的手语翻译功能则直接省去了中间文字展示的环节,让对方能直接听到手语表达的内容,极大地提高了沟通效率和流畅性。与此同时,非手语使用者通过语音或键盘输入文字,即可生成相应手语图片展示给语言交流障碍人群,使交流更加便捷。
       除了核心功能外,我们的产品还有一些拓展功能,比如手语学习模块。这个功能主要为语言交流障碍人士和想学习手语的人提供了一个方便的学习平台。我们还设计了手语学习检测功能,可以定期测试用户的学习效果,根据成绩评定等级并制定更适合他们的学习计划,让手语学习更科学高效。另外,我们还会及时推送与语言交流障碍人群相关的法律法规、新闻政策等信息,帮助他们第一时间了解自己的权益、社会福利和就业扶持等内容,增强他们的社会参与感和融入感,更好地维护自身权益。
       为了满足不同用户的需求,我们还开发了网页端和软件端两个版本。网页端适合在稳定的网络和电脑环境下使用,用户可以更系统地学习手语课程或查看详细的政策信息。而软件端则更适合户外场景,用户可以通过手语实时翻译功能快速沟通,确保交流的便捷性和及时性。
       我们的系统,不仅是给语言障碍人群提供了便利,还让健听人群能更好地理解他们,从而推动社会更加包容和公平。在开发过程中,我们用了人工智能、图像识别和自然语言处理这些技术。这些技术的应用不仅积累了宝贵的经验,也为相关领域的发展提供了支持。通过这些技术,我们为未来开发更多类似的跨语言交流工具打下了扎实的基础。这样,不仅能让更多有需要的人受益,还能进一步促进社会无障碍沟通。
       我们这个项目在设计上不仅有很多创新的地方,也有很多独特的功能。首先,产品集成了好几项实用功能,比如把手语转换成语音播报、把文字转化成手语图片、手语学习与检测,还有新闻政策推送等。这些功能都是为了解决语言交流障碍人群的实际问题。比如,手语转语音播报能让他们在日常生活中更好地与别人沟通,且更加便捷迅速;文字转手语图片则能帮助语言交流障碍人士更清楚地理解别人通过文字表达的意思。手语学习与检测功能为不同用户提供了多样化的服务,而新闻政策推送则让他们能及时了解社会动态。这些功能在同类产品里并不多见,算是我们的一大亮点。
       在技术上,我们也一直紧跟前沿科学技术。为了提高手语识别的精度和系统的性能,我们用了最新的YOLOV12算法进行项目的研发。此外,我们还根据用户在不同场景下的需求,研发了双向交流模式和多客户端开发,这些都让我们的产品更具优势。不过,在实际实施中,我们也面临不少挑战。虽然我们用了最先进的YOLOV12算法,但手语本身多样、复杂,加上不同地区的手语差异,这些都可能影响系统对手语动作的识别准确率。另外,把手语识别成文字后,如何准确理解语义并生成语音播报,以及根据用户输入的文字生成准确的手语图片,这些都需要更精准的自然语言处理技术,这方面我们还有提升空间。
       在用户角度上,一些语言交流障碍人群可能对新技术不太了解或不太信任,导致他们对使用我们的系统有抵触情绪。非语言交流障碍人群也可能不太习惯用新的沟通工具。同时,使用过程中还会涉及用户的个人数据和隐私,所以数据安全和隐私保护也是我们必须重视的问题。
       针对这些挑战,我们也有一些应对措施。为了提高手语识别的准确率,我们会收集更多的手语数据,建立更全面的手语数据集,对YOLOV12算法进行针对性训练和优化,同时结合深度学习的迁移学习、增强学习等技术。为了提高用户的接受度,我们会面向语言交流障碍人群开展广泛的培训和宣传活动,通过社区、学校、政府、康复机构等渠道详细介绍产品的功能和使用方法,提供清晰的操作演示和试用机会;对于非语言交流障碍人群,我们会在公共服务场所、学校、企业等地进行推广,并举办相关培训活动。同时在数据安全和隐私保护方面,我们将会建立严格的数据安全管理体系,采用加密技术对数据进行加密存储和传输,同时遵循相关法律法规,全力确保用户的隐私安全。
       总之,我们会不断优化产品和流程,争取为用户提供更好的服务,同时解决实际应用中可能遇到的问题。
2. 研究内容
       在推动社会公平,促进人与人之间无障碍交流的过程中,我们发现语言交流障碍人群往往面临着沟通上的重重困难,这些困难极大地限制了他们在教育、就业、社交等领域的生存空间和发展空间。为了解决语言交流障碍人群沟通阻碍这一现状,助力社会和谐发展,我们团队特别设计并开发了这套手语翻译播报系统。这套系统依托我们团队自主升级的YOLOv12技术,构建起了一个功能全面化、人性化的平台,为语言交流障碍人群与非语言交流障碍人群之间搭建起一座沟通的桥梁,让他们之间的交流变得更加顺畅和自然。
       2.1 目前研究内容
       (1)算法升级与优化以及模型的搭建
       项目起初基于YOLOv11算法研发,随着YOLO算法的更新迭代,本项目现已成功升级至YOLOv12算法,YOLOv12在目标检测和特征提取上性能更强,算法技术的提高为我们提供了更加智能的技术支持。另外,YOLOv12可以将特征图划分为纵向或横向的区域,让使用界面更加清晰明了,通过简单的reshape操作,同时大大降低了传统注意力计算的复杂度,提高了计算精度,解决了传统注意力机制计算量大的问题,大大提高了我们手语翻译的速度。最后,在多尺度特征融合时,我们能更精准捕捉手语动作细节。
       争取实现整体精度98.9%,部分孤立词精度突破99%,为软件功能的实现筑牢基础。借助YOLOv12强大的目标检测能力,构建专门的手语识别深度神经网络模型。通过卷积层、池化层提取手语动作静态特征,如手部形状、手指弯曲程度,模型在学了这些关键特征之后,将会能更加精确地确定表述者想要表示的语句具体含义。
       (2)手语翻译及语音播放功能实现
       当用户通过语音或键盘输入文字时,系统会先对这些文字进行处理和解析。首先,系统会把句子拆分成单独的词语,并标注出它们的词性。接着,系统会进一步分析句子的含义。比如,如果用户输入“今天的天气很好,我想和好朋友一起去公园散步”,系统会先识别每个词的词性,比如“天气”是名词,“散步”是动词等,这样可以有效提高手语精确度。在手语转换语音功能中,用户仅需上传手语视频,系统将自动识别手语动作并转换为语音播放,这样可以让语言交流障碍人群可以直接用手语表达,提高沟通效率,操作十分简单易用。而在文字转换成为手语的功能中,用户通过输入文字,系统将文字转换为手语图片,这样可以轻松地将文字信息转化为手语,让语言交流障碍人士群更直观地理解内容,实现无障碍的双向交流。当手语识别转换成文字后,播报系统会将这些文字通过朗读功能模块转换成自然流畅的语音,这一功能极大地提升了语言障碍人群与非语言障碍人群之间的沟通效率。
       (3)手语学习功能实现
       考虑到用户手语水平不同,我们设计了分初级、中级、高级和专用四个阶段的学习体系。
       初级手语学习:我们设计的软件会从最基础的内容开始,比如手语数字和字母这些简单但非常实用的部分。用户可以通过视频、图片等多种方式来学习,这些直观的教学方式非常容易理解。后续我们还会加入动画教学,让学习过程更加生动有趣,帮助大家更好地掌握手语。
       中级手语学习:我们会逐步引入更多日常生活中实用的词汇和短语,我们还会深入学习句子结构和语法规则。这样,用户不仅能应对简单的交流,真正把手语融入到日常生活中。
       高级手语学习:我们的课程会进一步深入到专业领域,比如医学、法律和教育这些特定场景中的手语词汇和表达方式。同时,我们还加入了对抽象概念类手语的教学,通过全面掌握更复杂的语句和表达技巧。此外,我们还设计了关于面部表情和肢体语言的内容。通过这些内容,学习者可以更准确地用手语进行交流。
       专用手语学习:我们会针对医疗、交通、等特定场景,为用户提供教学模块。
       我们的学习模块设计了丰富的资源来帮助用户更好地掌握手语。我们制作了教学视频,提供详细的讲解。此外,我们还根据不同的学习阶段,设置了初级、中级、高级和专业对应的练习板块,用户可以通过针对性的练习逐步提升自己的手语水平。
       (4)新闻政策推送功能实现
       为了保证信息真实、准确、有用,我们会从权威媒体和政府网站等渠道收集新闻和政策信息。然后通过关键词匹配、内容分类和人工筛选的方式,对这些信息进行整理,去掉谣言、虚假内容等。
       2.2 后续预期研究内容
       (1)数据库与算法升级
       为了提升系统的性能,我们将建立一个更大规模的手语数据库。通过对这些数据进行详细标注和分类,从而提高手语识别的准确性。此外,我们还会引入一种算法,避免系统在学习过程中遇到瓶颈,进一步增强它的适应能力,让它能够更准确、更流畅地处理各种手语问题。
       (2)信息推送功能
       为了确保用户能够在第一时间获取重要资讯,我们构建了一套全方位、多层次的信息推送体系。在软件内部,精心设置了消息提醒机制,无论是系统公告、课程更新,还是个性化的学习建议,用户都能在软件界面的显著位置接收到醒目的提醒弹窗,弹窗的设计遵循简洁直观的原则,能够迅速吸引用户的注意力。
       与此同时,考虑到用户使用场景的多样性,我们还打通了邮件与短信通知的渠道。能够在紧急或重要信息推送时,确保用户不会错过任何的重要资讯。
       (3)手语学习功能
       我们会在推送界面上按照内容的重要程度和发布时间进行分类展示,同时,我们还增加了搜索功能,帮助用户更精准地查找他们需要的内容。除此之外,系统还支持已读标记、收藏和分享等功能,不仅方便用户管理自己的信息,还能让有用的内容更高效地传播出去。
3. 国、内外研究现状和发展动态
       目前的手语翻译技术的研究,根据手语获取方式的不同,分为基于数据的手语手套和基于视觉的手语识别。前者虽可实时采集手势的三维运动信息和变化形式,但设备复杂,价格昂贵且佩戴不便。因此基于视觉的手语识别成为主流。但传统的手语实时翻译技术存在局限且目前已有的手语数据库在规模和覆盖范围上还存在不足,难以涵盖所有的手语词汇和表达方式。因此,进一步手语实时翻译技术的开发是必不可少的。进行手语实时翻译技术的研究需首先了解失语者的文化、背景和生活环境,在此基础上创建符合用户地区、年龄、 性别、教育程度、所使用手语语种的类别以及语言熟练程度等属性的手语应用系统。手语翻译技术面向的主要群体是语言交流障碍人士(包括失语者、失聪者等),在考虑技术创新的同时,不可忽略当今手语项目对语言交流障碍人士的适用性和实用性。
       3.1 国内研究现状
       在20世纪90年代初,就开始了视觉手势识别的研究。付永刚釆用两个摄像机实现了一个双手交互的VedioDesk系统,系统将釆集到的视频图像与预先定义好的捏取、指、点及拖拽等常用手势进行对比匹配来进行手势识别。
       2015年,曹翔研制了一种便携式可穿戴中国手语手势翻译装置。该装置由左右手两个独立的模块组成。两个模块均设计成腕带形式,可穿戴于双手前臂采集手语手势动作表面肌电、加速度和角速度信号。右手模块将采集到的数据通过蓝牙发送到左手模块,左手模块同时完成数据采集和手势识别功能【1】。该设计为实现更大词汇量的可穿戴手语翻译设备提供了可能。
       江西某公司在2015年申请的一项专利中公布了一种辅助听力言语障碍人士对话的智能眼镜,其工作原理是通过眼镜采集手语手势图像,经过手语识别转换成语音,也可以将语音通过处理变成手语手势投影到眼镜【1】。为正常人于听力障碍人士的对话提供了便利。
       在我国,哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CybleGlove型号数据手套的中国手语识别系统中,孤立词识别率为90%,简单语句级识别率为92%。接下来高文等又选取CbleGlove型号数据手套作为手语输入设备,并采用了DGMM(dynamicGaussianmixturemodle)作为系统的识别技术,即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号,可识别中国手语字典中的274个词条,识别率为98.2%【2】。与基于HMM的识别系统比较,虽然这种模型的识别精度与HMM模型相当,但其训练和识别速度相较于HMM有明显的改善。并且他们在识别模块中选取了多层识别器,可识别中国手语字典中的274个词条,识别率为97.4%。进一步提高了识别速度。
       这些研究与开发的装置虽各有优势,但都存在不足。VedioDesk系统依赖于预先定义好的常用手势,而手语复杂且多样,如若VedioDesk系统补充不及时,则相应的手语手势将无法被识别。且该系统在视频图像与预先定义好的手势对比匹配时速度较慢的。曹翔的可穿戴中国手语手势翻译装置和吴江琴、高文的项目仅限于中国手语手势,手语由一系列动作按照语义约束规则组合而成。例如,手势的移动方向具有指示主语和宾语的语法功能;同种手语动作可能表达名词、动词等多种词性或语义。头部、手形和体态的变化均是手语动作的主要表现方式。关于头部的语义约束关系也有头部运动、面部表情、口型 变化、耸肩和眼睛注视等微动作,这些都是手语表达的关键语 义元素。由于跨语种的语言习惯和语法规则不同,各国手语的语言约束规则也存在着差异而语言交流障碍人士存在于世界各地,因此该装置存在很大的局限性。并且曹翔的装置制作工艺受限,需要制造与开发,投入成本会较高;蓝牙之间会形成相互干扰,如若手势之间有阻挡即会导致蓝牙断开。且该设备对手势的准确性要求较高,若肌肉处于的状态不同将会导致手势无法被该装备识别,手势翻译不同步,识别不连续等问题。另外该设备的保存与清理方面也是潜在问题,如若处置不当也可对正常的识别造成影响。江西的智能眼镜也存在保存问题和成本较高问题。
       3.2 国外研究现状
       英国的ViSiCAST翻译器首先进行分词,将录入的英语文本句子通过卡内基梅隆大学(Carnegie Mellon university,CMU)现行词法句法分析器进行分词;然后分析语法规则并标注,根据英国手语本身的语法规则特征对文本进行分析并将分析结果按照分布式资源调度(distribute resourse scheduler,DRS)结构的方式进行表达,最终把分析结果合成以HamNoSys标注的方式呈现,此项目旨在支持聋人公民以他们选择的手语媒介更好地获取信息和服务。此手语合成系统在英国的应用效果显著【3】。 ViSiCAST 技术旨在适用于不断发展的广播标准。 这包括研究在电视机顶盒中部署虚拟手语翻译人员的策略,以及研究以SiGML 标记法表示的手语传输。该领域的相关标准包括DVB中的多媒体家庭平台(MHP)以及MPEG标准。例如,计划将项目中使用的基于捕捉的动画系统整合到MPEG-4定义的面部和身体动画系统中,并将SiGML标记法集成到MPEG-7的多媒体内容描述接口框架中【4】。
       印度Tirthankar等研发英文文本与印度手语的翻译系统。该系统以简单的英语句子作为输入,并生成手语词表,随后可将其转换为汉堡符号系统(HamNoSys)(Prillwitz等人,1989年)。HamNoSys表示形式将为手语合成模块提供手势指令,从而为用户生成ISL的动画表示。词汇功能语法(LFG)的f 结构用于表示ISL的句法【5】。其项目对印度手语翻译技术是质的飞跃,生成印度专门的符号系统,为印度语言交流障碍人士的表达建立方便。
       SignSynth项目(Grieve-Smith 1998年;GrieveSmith 1999年)采用 ASCII-Stokoe模型来表示手语。通过将ASCII-Stokoe转换为VRML(虚拟现实建模语言)生成动画输出【5】。他们提出了一种利用最先进的神经机器翻译(NMT)和图像生成技术实现自动手语生成的新方法。该系统能够从口语句子生成手语视频,且在训练时只需要最少的手语词汇和骨骼级标注。通过将任务分解为专门的子过程来实现这一目标【6】【7】。首先,他们使用编码器-解码器网络将口语句子翻译成手语词汇序列。然后,找到词汇与骨骼序列之间的数据驱动映射。利用所得的姿势信息来条件生成模型,从而生成手语视频序列。他们在文本到词表翻译方面的结果令人印象深刻,且该方法具有良好的可扩展性。
       这几个项目虽在手语识别上有许多优点,但仍存在一些缺点。英国的ViSiCAST项目依赖于ViSiCAST翻译器首先进行分词、卡内基梅隆大学(Carnegie Mellon university,CMU)现行词法句法分析器进行分词,分析语法规则并标注、动作捕捉数据和复杂的虚拟形象动画。而翻译器和分析器会产生多余的研发费用导致开发成本较高,且该项目仅限于英国手语不具有普遍性。且若要呈现可读的手语,虚拟人物必须清晰的展示动作、手势和表情。若使演示的画面与原作高度重合,渲染质量必须高。此外虚拟形象生成逼真的手语,此仅限于提前录制好的短语,如若短语库不能及时补充,供应不足,将导致无法识别。对于语言交流障碍人士的日常交流还不能提供较为便利的条件。而且前期进行动作捕捉数据的制作成本高昂,对于一些小型公司来说会导致较大的财务负担。印度Tirthankar的项目由于印度手语没有书面形式,导致没有标准的手语语料库来源且他们使用动画虚拟形象的手语合成模块尚未开发,因此他们使用预先录制的手语视频生成手语输出。而手语较为冗杂且繁多,预先录制手语视频生成手语输出会有漏录,错录等不确定因素的影响,这就导致该项目十分大的局限性。并且其项目对于进一步的形态学功能,如语篇、方向性和量词谓词等,处理得较为简略。而SignSynth项目虽然应用了自动手语生成的新方法,但其需要专门人员先对系统进行训练,而这会产生培养专门人员的额外费用。并且其需要编码器也会产生部分费用。并且,生成的视频质量欠佳,因为其分辨率仅为128×128像素。此外,使用查找表严重限制了这种方法,并在手势间的协同发音中引入了伪影和不连续性。我们充分借助当今技术发展迅速的背景,整合利用先进技术提升项目的性能,为特殊人群的沟通提供便利。正是基于这一理念,我们项目的优点便凸显出来。我们团队不断打磨,运用先进YOLO算法的同时进行自主研发,提升了翻译系统的准确性和语音播放的流畅性,大大提升了产品的优势。以下是我们产品的优势条件:
       (1)相较于老式的手语识别系统,本项目能够实现实时语音播报,及时传递信息,提升了沟通效率,降低了用户的用眼时间,营造了自然的交流环境。
       (2)采用先进的计算机视觉处理技术,对摄像头捕获到的实时视频进行逐帧分析。利用深度学习算法,识别出手语动作的关键特征点,如手部关节的位置、手指的伸展状态、手部的活动幅度等。通过对这些关键特征点解析,为后续翻译打下基础。
       (3)使用深度学习的不同模块和自主改进的YOLOv12目标检测算法,不仅优化了对目标的识别精准度和稳定性,还可以在复杂多变环的境中精准监测和区别多个目标,剔除掉无关因素,保留关键因素。
       (4)增添了多媒体教学资源,每个课程单元都配备丰富的多媒体教学资源,包括高清视频演示、详细的动作讲解文字说明以及语音指导。
       3.3 参考文献
       【1】王丹蕾,聂桂平.手语翻译设备的发展现状及未来趋势[J]. 设计, 2016 (19): 115-117.
       【2】高伟,郭瑾,曾碚凯.手语研究的方向与现状[J].电子技术应用,2002, 28(11): 6-8.
       【3】王兴辉, 孔雪龙,and蒋红星. "虚拟人智能手语合成软件发展现状."中国听力语言康复科学杂志4 (2015): 301-304.
       【4】Elliott R,Glauert JRW, Kennaway JR, etal. The development of language processing support for the ViSiCAST project[C]//Proceedings of the fourth international ACM conference on Assistive technologies. 2000: 101-108.
       【5】Dasgupta T, Basu A. Prototype machine translation system from text-to-Indian sign language[C]//Proceedings of the 13th international conference on Intelligent user interfaces. 2008: 313-316.
       【6】Stoll S, Hadfield S, Bowden R. Signsynth: Data-driven sign language video generation[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 353-370.
       【7】Stoll S, Camgöz N C, Hadfield S, et al. Sign language production using neural machine translation and generative adversarial networks[C]//Proceedings of the 29th British Machine Vision Conference (BMVC 2018). British Machine Vision Association, 2018.
4.创新点与项目特色
       4.1 产品创新点
       4.1.1 智能高效的手语-语音转换
       在当今数字化快速发展的时代,顺畅的沟通对于任何人来说都是至关重要的。而本项目主要服务于语言交流障碍人士(包括失语者、失聪者等)的交流沟通。我们的项目基于先进的图像识别和分析算法,可以快速捕捉手语动作细节,然后根据语义进行排列,从而转化为自然流畅的语音播报。在项目开发前期,本团队不断实验,不断提高算法的精度、识别的准确率以及转换的效率,致力于为语言交流障碍人士提供最贴近真实的交流场景,打破他们与健全人之间的交流壁垒。
       4.1.2 多端融合的便捷交互体验
       为了让用户能够在不同场景下都能便利轻松使用我们的服务,项目已完成APP端和网页端开发。APP端以提升交互体验为核心持续优化,从界面设计的简洁直观,到操作流程的便捷高效,都经过我们团队的精心研究,我们致力于让特殊人群随时随地都能享受高效的无障碍沟通服务。网页端打造功能集成化的服务管理平台,与其他终端数据同步,方便用户系统化操作。后续还将增添小程序端,利用其优势,降低使用门槛,覆盖人流量高的场所,构建多终端生态,满足各种用户需求,扩大服务的辐射范围,让更多有需要的人受益。
       4.2 项目特色
       我们的项目通过不断升级YOLO算法、融合多终端以及适配广泛的硬件,帮助语言交流障碍人群与他人在各个方面进行便利且高效的沟通。本项目具备精准高效的特点,分别体现在手语识别和语音转换两方面。在手语识别方面,对于手语识别有较高的准确性;在转换成语音方面,我们有较高的转换效率。并且融合多终端的特点,让用户可根据自身的不同需求和身处的场景灵活选择使用本项目的方式。全面覆盖的特点,则确保了产品能够在各种环境下发挥作用,如本项目可在聋哑教育、医疗服务、公共交通等地方发挥其相应的作用。在语言交流障碍人群教育中,本项目能辅助教学,帮助我们语言交流障碍人群更好、更快、更深刻地了解手语及其字词、短语等的意思,从而提高他们的学习效率,并且对于老师来说,为他们的教学提供更便利的条件;对于医疗服务,本项目可帮助医生在诊断、治疗等过程中与语言交流障碍人士顺畅交流,从而提升诊断和治疗的效率;在公共交通领域,本项目可为语言交流障碍人群提供更明确、方便获取出行信息的方法,帮助他们便利出行。
       4.2.1 自主修改的 YOLOv12框架
       将YOLOv12中的A2C2f模块、C3k2模块与GhostConv卷积模块创新性地结合。GhostConv卷积模块通过低成本线性变换生成更多特征图,降低计算负担,提高资源利用率,在保证轻量化的基础上,最大化地提取并利用特征。而A2C2f模块使用了Area Attention 技术,Area Attention是一种创新的注意力技术,通过将特征图分割成多个区域,利用简单的重塑操作实现区域划分,避免了复杂的窗口划分和反转操作,显著降低了计算复杂度。C3k2模块是YOLOv11中对传统CSP Bottleneck结构的优化版本,通过并行卷积设计和灵活参数配置提升特征提取效率,其核心改进包括采用C3k模块替代原有Bottleneck模块,支持动态卷积核大小以增强多尺度特征提取能力,并通过多个参数实现计算效率与性能的平衡。三种模块分别负责不同大小物体的特征提取,实现了在手相距摄像头不同距离时,都可以实现精准识别。
       4.2.2 数据增强
       为了提高模型的泛化性能,可以采用数据增强策略,如旋转、翻转、缩放等操作,这些方法能够有效增加训练数据的多样性,从而提升模型对输入变化的适应能力。例如,通过对图像进行随机旋转、水平或垂直翻转以及缩放,如放缩0.8到1.2倍,旋转30度,可以模拟不同视角和尺度的场景,使模型在训练过程中,能够学习到更关键的特征,提升对不同场景的特征提取能力。
                                                                                      部分数据增强后的示意图
                                                                                             图1 部分数据增强后的示意图
       4.2.3 多尺度检测
       在不同尺度下进行训练是提升目标检测精度的关键策略之一,其核心思想是通过在训练过程中引入多种尺度的输入图像,使模型能够更好地适应不同尺寸的目标物体,从而提高检测的鲁棒性和泛化能力,最终实现在手相距摄像头不同距离时,都能实现精确检测的目的。
       通过在训练时随机缩放手语图像到不同尺寸,模拟实际场景中手势可能出现的多种尺度变化。同时,本研究中自主改进的YOLOv12算法,在大中小物体的特征提取方面使用了不同的模块,结合双向特征金字塔网络(BiFPN)结构,融合不同层级的特征图,增强模型对多尺度手部特征的提取能力。多尺度训练与旋转等数据增强技术结合,进一步提升模型的泛化性能。这种策略不仅能够显著提高检测精度,还能使模型在实际应用中更好地适应不同分辨率的输入图像,提高模型对大中小物体的特征提取能力,实现不同距离下的手部特征提取。
       4.2.4 模块级创新GhostConv-C3k2-A2C2f协同架构
       (1)C3k2模块:C3k2模块是YOLOv12框架中针对多尺度目标检测优化的核心组件,通过集成动态卷积核选择与多分支特征融合技术,显著提升模型对不同尺寸目标的适应性。该模块采用并行化的1×1、3×3可变形卷积和5×5深度可分离卷积分支,结合通道注意力机制动态分配各分支权重,既能捕捉大尺度手势的整体形态,又能精确定位小尺度指尖细节;通过轻量化的跨阶段残差连接结构。
       (2)A2C2f区域注意力模块:A2C2f(Area-Attention Enhanced Cross-Feature Module)模块是最新的YOLOv12算法中,提出的一种改进型特征提取模块。A2C2f结合了区域注意力(Area-Attention)机制,通过将特征图划分为简单的垂直或水平区域,减少了注意力机制的计算复杂度,同时保持了较大的感受野。若直接使用传统的transformer架构,模型的参数量将会大大增加,将难以实现手语实时识别的要求,而A2C2f模块,能够在不显著增加计算负担的情况下,有着高效的特征提取能力,提升模型对多尺度目标的检测精度,可以实现复杂场景下手势特征提取。
       (3)GhostConv模块
       C3Ghost模块是一种轻量化的卷积模块,主要用于目标检测模型中以减少参数数量和计算复杂度,同时保持检测精度。它通过引入Ghost卷积技术,将传统卷积操作分解为两部分:一部分生成少量特征图,另一部分通过廉价操作(如线性变换)生成更多特征图,从而显著减少计算量。通过此模块与注意力机制结合协同,能够有效提取关键特征并抑制无关信息,进一步提升较大的物体和中等大小物体的特征提取。
       本研究中自主改进的YOLOv12模型,有着多种注意力机制,YOLOv12中最基础的A2C2f模块与C3k2模块在相互配合,保证了模型最基础的精度与速度。在这多种注意力机制当中,加入的CBAM注意力机制,牺牲了部分模型的速度,将原本参数量约6.7GFLOPs 的模型,参数量提升至了约10.1 GFLOPs,但经多次实验证,CBAM注意力机制将模型的平均mAP提升至0.980。Ghostconv类型的模块与注意力机制结合,在减少参数的同时,增强了特征的提取。在不使用Ghostconv类型模块的情况下,模型参数量约为10.1GFLOPs,经多次实验mAP平均为0.980,而在加入了Ghostconv类型模块之后,经多次实验,mAP平均为0.983,而参数量减少至8.0GFLOPs,参数量减少了约20%,与此同时,mAP有略微的提升。
                                                           summernote-img
                                                                              图2 加入ghostconv模块后的Precision-Recall Curve
       4.2.7 YOLOv12 框架模型部署
       在YOLOv12框架的模型部署阶段,针对手语识别任务的高实时性需求,本研究设计了完整的部署流程。首先,我们使用了与YOLO模型较为适配的YOLOv12项目中推理函数,可将模型完整地部署。之后我们使用Flask框架进行了后端的开发,在后端,使用了Flask制作了一个可以与网站和app端交互的API,前端在发出“POST”请求,并将视频传输至后端。后端服务器接受到视频,可将视频输入到模型之中进行推理。在通过推理之后,会获得一组json数据,这组数据集会通过API返回到前端。经过这一流程,可以实现前端与后端的实时交互,进而可达到手语的实时识别。
5. 技术路线、拟解决的问题及预期成果       
       5.1 技术路线
       5.1.1 整体架构
       我们的前端基于功能强大的uni-app框架进行设计与开发,充分利用它的跨平台特性以及自定义组件、插件等丰富功能,精心构造模型承载外壳,开发出了功能丰富的软件端以及可跨平台兼容使用的网页端。通过API接口进行搭建连接,巧妙地与手机端自带摄像头实现无缝对接,从而实现实时、精准的手势目标检测与翻译播报功能。用户可以通过软件便捷地使用该功能,打破沟通障碍,享受无障碍交流的便利。后端使用了Flask等框架,将模型部署至本地服务器,并使用onnx框架进行推理,通过API,WebSocket等技术将前端与后端连接,并能进行快速的数据交换,帮助用户的沟通更加便捷、高效。
       (1)CBAM注意力机制
       融合通道与空间双重注意力模块(Convolutional Block Attention Module),显著提升模型对关键特征的聚焦能力。在通道注意力模块部分,先会对输入特征图F进行全局平均池化(Global Average Pooling)和全局最大池化(Global Max Pooling),得到两个一维矢量,分别表示每个通道的平均值和最大值。之后会将上述两个矢量分别通过一个共享的多层感知机(MLP),该MLP由两个全连接层组成,先将通道数降低到原来的1/r(r为缩减比例),再恢复到原始通道数。这样可以学习到每个通道的重要性权重。通过共享多层感知机部分之后,会将两个MLP的输出相加,并通过Sigmoid函数得到通道注意力权重,具体如公式⑴所示,该权重表示每个通道的重要性。最后将通道注意力权重与原始输入特征图相乘,得到通道注意力模块的输出,具体如公式⑵所示,该输出保留了更重要的通道特征。
                            summernote-img
       在其中F为输入特征图,C 为通道。MLP 是共享的多层感知机(包含压缩和恢复通道维度的全连接层)Mc是通过两个池化路径的输出相加后经 Sigmoid 函数 σ 生成通道注意力权重 。⊗ 表示逐通道相乘。
       在空间注意力模块部分,会对通道注意力模块的输出进行最大池化和平均池化操作,得到两个新的张量,分别表示每个空间位置的最大值和平均值。将上述两个张量在通道维度上进行拼接,得到一个包含两个通道的张量。通过一个卷积操作将通道数变为1,同时保持空间维度不变,从而得到一个空间注意力权重,具体如公式⑶所示,该权重表示每个空间位置的重要性。将空间注意力权重与上一步的输出相乘,得到最终的空间注意力模块的输出,具体如公式⑷,该输出保留了更重要的空间位置特征。 
                             summernote-img
       其中,AvgPool 和 MaxPool 沿通道维度对每个空间位置进行平均和最大值池化。⊕表示通道拼接。Conv是单层卷积,将拼接后的特征压缩为空间注意力权重Ms。⊗ 表示逐空间位置相乘。
       通道注意力层通过全局平均池化和最大池化生成通道权重,强化手部形态与肤色等显著性特征;空间注意力层则通过卷积操作生成空间掩码,抑制背景噪声,能够减少冗余信息的干扰,提高模型对有效特征的利用率并突出手势区域,例如,可以减少在复杂人多的环境下,对当前摄像头下需要识别的手部特征进行强化提取,抑制无关人员其他人的干扰。 
                                                 summernote-img
                                                                                          图3 CBAM注意力机制流程示意图
       (2)C3Ghost卷积模块
       基于GhostNet轻量化思想改进的C3Ghost模块。首先进入的是GhostBottleneck模块,在其中会先通过一个GhostConv操作,生成基础特征图。之后会对基础特征图进行深度卷积操作,扩展感受野,增强特征表达能力。在以经过深度卷积后的基础特征图为基础的前提下,将GhostConv和深度卷积的结果拼接,并通过另一个GhostConv操作进行融合,得到更丰富的特征表示最后将处理后的特征图与原始输入特征图通过残差连接相加,保留原始特征信息,加速模型收敛,GhostConv模块具体如公式⑸所示。在上述过程中,会根据设定的重复次数n,多次执行上述操作,逐步增强特征表示,GhostBottleneck模块具体如公式⑺所示,在本次设计中,n为1,即GhostBottleneck模块会进行1次重复。在最后,会进行融合操作和一个卷积操作,n次重复的GhostBottleneck模块如公式⑹所示。融合操作是将n次得到的结果进行融合,卷积操作进行进一步的特征提取,具体如公式⑻所示。
       GhostConv流程示意图如下: 

                                               summernote-img
                                                                                              图4 ghostconv模块流程示意图
       C3Ghost模块,将标准卷积分解为廉价线性变换与特征图拼接操作,降低了计算负担,提高资源利用率。该模块在YOLOv5骨干网络中替换传统C3结构,参数量减少的同时保持特征表达能力,特别适用于移动端部署场景。而在本研究改进的YOLOv12中,也起着减少参数量,并增加模型性能的作用。配合多尺度特征融合策略,该模块可有效捕捉手势的局部细节与全局空间关系,在动态手语识别任务中加快推理速度。
       C3Ghost流程示意图如下: 
                                                    summernote-img
                                                                                                       图5 C3Ghost公式
                             summernote-img
       其中,F0为输入特征图,GhostBottleneckn代表重复n次GhostBottleneck模块, DWConv为深度可分离卷积
       (3)Wise-IoU损失函数
       针对手语检测框的尺度敏感性,采用动态聚焦机制的Wise-IoU损失函数。通过引入IoU阈值自适应加权策略,降低低质量样本,如模糊手部区域的梯度贡献,同时采用Focal-EIoU惩罚项优化宽高比回归精度。最终达到了有效强化了边界框损失的拟合能力,同时减小了数据集中低质量示例对模型负面影响的效果。
       (4)A2C2f模块
       A2C2f模块是YOLOv12中的一种创新性注意力模块,对于输入的特征图,先会使用一个卷积模块对输入特征图进行通道数减少,将其通道数转换为隐藏通道数,得到初始特征图,如公式⒂所示。在此之后,会将初始特征图依次输入到堆叠的ABlock模块中进行处理。每个ABlock模块内部,先对特征图应用区域注意力机制,通过将特征图划分为多个区域,并在每个注意力区块中通过卷积操作生成Q,K,V三元组,然后计算不同区域之间的注意力权重,计算公式如公式⑽,通过此增强特征图的全局感受野和特征交互能力。然后通过前馈网络对特征图进行非线性变换,进一步提取和增强特征,过程如公式⑿和公式⒀所示。最后将所有ABlock模块的输出特征图进行拼接,得到融合后的特征图,如公式⒃和公式⒄所示。并再使用一次卷积操作对融合后的特征图进行通道数的恢复,将其通道数转换为输出通道数,如公式⒂所示,得到最终的输出特征图。在此流程中,如果在初始化时设置了使用残差连接,则将原始输入特征图与最终输出特征图进行加权残差连接,连接公式如公式⒅所示,若不开启,则流程只会进行到公式⒄处。此处残差连接使用了可学习的参数调整权重,进一步增强特征表达能力和模型的稳定性。本研究中,在backbone部分,启用了残差连接,在可在训练时,有效避免梯度消失,加速模型收敛,提高模型的准确性和稳定性。
       A2C2f模块通过将特征图分割成多个区域,利用简单的重塑操作实现区域划分,避免了复杂的窗口划分和反转操作,显著降低了计算复杂度。每个区域独立进行多头注意力计算,结合 FlashAttention 技术优化内存访问效率,减少显存占用并提高计算速度。Area Attention 注意力机制显著降低了传统自注意力机制的计算量,从 O(n²) 降低至 O(n),同时保持了较大的感受野,确保模型在检测任务中保持高精度。 
                                  summernote-img
                                                                                                 图6 A2C2f模块流程示意图
        AAttn模块:
            summernote-img
       ABlock模块:
           summernote-img
       R-ELAN架构:
           summernote-img
       其中γ为可学习缩放因子,DWConv为深度可分离卷积。
       (5)BiFPN结构
       BiFPN(Bidirectional Feature Pyramid Network)是一种高效的特征融合网络结构,它分为自上而下和自下而上两个路径,其中自上而下的路径,会先从分辨率最低的最高层特征图开始,通过上采样操作将其分辨率提高,使其与下一层特征图的分辨率匹配,在此之后,会将上采样后的特征图与来自下一层的特征图进行以加权求和的方式融合,其中权重是可学习的参数,用于调整不同特征图的贡献程度。最后依次对每一层特征图进行上述操作,直到处理完所有层,得到一系列自顶向下的融合特征图。而自下而上的路径,与自上而下的路径恰好相反,自下而上的路径会从分辨率最高的最低层特征图开始,通过下采样操作将其分辨率降低,使其与上一层特征图的分辨率匹配。将下采样后的特征图与来自上一层的特征图进行融合。同样采用加权求和的方式,并通过可学习的权重调整不同特征图的贡献。最后也是依次对每一层特征图进行上述操作,直到处理完所有层,得到一系列自底向上的融合特征图。如公式⒇所示,此为第l层的特征融合节点,实现对上下两层的融合。在本研究当中,是使用最近邻插值方法进行的上采样,使用的卷积操作进行的下采样。
       BiFPN结构通过自上而下和自下而上的双向路径融合不同尺度的特征图。它采用加权特征融合和跨尺度连接,优化特征传播并提升特征表达能力。BiFPN可以将由不同尺度提取出来的手部特征进行融合,能够显著提升了模型性能。示意图如下:
                                                   summernote-img 
                                                                                               图7 BiFPN流程示意图         
            summernote-img
       其中,wi为对应特征的可学习权重,ϵ 为极小常数
       5.2 拟解决的问题
       (1)在后续开发过程中,提升模型的推理速度和推理精度
       (2)手语翻译时,要确保翻译的准确度,要持续训练系统,降低出错频率。
       (3)语音播报板块要顺畅,自然,让用户感到亲和。
       5.3 预期成果
       能够参加相关方向的省级及以上比赛,并期望发表理论研究相关论文或者申请软件著作权。 
6.项目研究进度安排
       第一阶段(2025.6-2025.8)我们的主要任务是打好技术基础,我们将查阅大量的文献资料,尤其是关于目标检测算法的内容,重点学习YOLO算法,观察它们在目标检测领域的应用效果。通过对YOLO算法的深入研究,我们会进行一些简单的模型训练和尝试,寻找最满足我们需求的方式。
       第二阶段(2025.9-2025.11)在第二阶段,我们会针对手语识别的特殊需求,对YOLO算法进行优化。我们会从网络结构、数据处理等多个方面入手,目标是提高手语手势识别的准确性和效率,同时让模型能够适应不同的环境条件。最终,让模型在这些不同的环境下都能保持高准确率和高效率识别多种手势,为后续的功能开发打下坚实的基础。
       第三阶段(2025.12-2026.6)这阶段的主要任务是对“基于机器学习的手语实时翻译播报系统的设计与实现”进行二次研究,增加更多的功能,让系统能够应用于更多的场景。比如说,我们会优化手语转语音播报的流畅度,提升文字转手语图片的生成速度,同时进一步完善手语学习与检测功能,让用户体验更加顺畅。功能开发完成后,我们会进行小范围测试,主要目的是验证系统的稳定性和实用性。与此同时,我们还会开展市场调研,深入了解用户的使用感受,看看他们在使用过程中遇到了哪些问题,有哪些建议。我们会广泛收集用户的反馈,并根据这些反馈对系统进行全面改进。这个阶段非常重要,我们会通过持续的优化和更新,让系统能够始终保持竞争力和创新性,真正满足用户的需求。
       第四阶段(2026.7-2027.6)在这个阶段,我们会积极寻找更多的合作伙伴,共同开拓手语播报市场。我们会把产品推广到企业,利用这些合作伙伴的资源和技术优势,进一步扩大“基于机器学习的手语实时翻译播报系统的设计与实现”的影响力。我们希望通过这些合作,能够让产品在市场上占据一席之地。更重要的是,我们希望能为语言交流障碍人士和非语言交流障碍人士搭建一座无障碍沟通的桥梁,让他们能够更顺畅地交流。这不仅是为了满足用户的需求,也是为了推动人工智能和无障碍技术等相关领域的发展,让科技真正服务于社会。最后,我们会对整个项目进行全面的整理和总结。回顾一下我们做了哪些工作、取得了哪些成果、还有哪些地方可以改进。这些总结不仅是为了项目结题,也是为未来的优化和扩展提供方向。
7.已有基础
       7.1 与本项目有关的研究积累和已取得的成绩
       本团队通过学习、探索、实践,进行技术研发,完成初步的功能开发与完善。
       7.1.1 研究方法
       在前期,我们进行了简单的社会调查并查阅了大量文献,了解到了语言交流障碍人士与健听人士之间交流的困难以及交流的需求。之后我们调研了现有的手语识别项目与大量文献,了解到手语识别方面主要有三类方法:传统机器学习方法,基于手部特征提取的深度学习方法,基于端到端的深度学习方法。结合调研的结果,我们确定了使用基于端到端的深度学习方法,并确定了使用YOLO算法。
       确定了YOLO算法之后,我们根据实际需求与调研分析结果,对YOLO算法不断改进,改进了网络结构,损失函数等方面,并将改进后的模型,使用收集到的公开数据集或自行采集的数据集进行实际验证,然后评估改进后的模型性能,包括准确率、召回率、F1得分、mAP50等指标。经过不断调试之后,基本完成了模型的训练。
       模型训练基本完成之后,我们使用uni-app框架进行了网站的开发和手机app的开发,借助uni-app强大的跨平台能力、自定义组件以及插件等多元功能,精心打造一个功能强大的模型承载框架。通过API接口实现高效连接,与手机端自带摄像头进行无缝对接,从而实现精准、实时的手势目标检测与翻译功能。最后让用户能够通过该APP轻松使用这一功能。
       7.1.2 企业合作
       目前我们的项目已经与莱阳市祥永通信工程有限公司达成了战略合作关系,该公司凭借着多年的深耕,对项目的发展趋势及发展前景有着深刻的经验与见解,并且他们还拥有强大的科技团队,能够为后续的项目功能的升级提供强大的技术支撑和坚实的物质保障。
       我们的手语实时语音翻译播报系统以自主改进的YOLOv12算法为核心,搭建由uni-app框架开发的软件端和网页端,能快速精准地将识别到的手语翻译成文字,并通过语音播放出来,也可将键盘或语音输入的文字转化手语图片,实现双向的手语翻译,使语言交流障碍人士与非语言交流障碍人士之间的沟通更加流畅、便捷。同时还设有手语学习与检测以及手语相关的新闻资讯推送功能,来辅助手语翻译的进行。这不仅能打破语言交流障碍人士与非语言交流障碍人士之前的沟通障碍壁垒,提高沟通效率,还能为他们带来更多便利和关怀。
                                                 summernote-img
                                                                        a                                      b                                        c
                                                                                 图8 投资意向书,采购意向书,合作意向书
       ①图8中的a图为投资意向书。
       ②图8中的b图为采购意向书。
       ③图8中的c图为合作意向书。
       图8是莱阳市祥永通信工程有限公司向我们投递的投资意向书、采购意向书以及合作意向书。这些文件充分彰显了莱阳市祥永通信工程有限公司对语言交流障碍人士需求的关注以及对科技助力无障碍沟通领域的重视。通过此次合作,我们的系统将会得到更全面化、系统化的优化与升级,为语言交流障碍人士的沟通提供帮助,提升语言交流障碍人士的社会地位,帮助他们更好的实现人生价值,增强他们的社会融入感和生活幸福感,促进社会的和谐与温暖。
       7.1.3 YOLO 目标检测算法
       YOLO(You Only Look Once)是一种单阶段目标检测算法,以实时性和高精度著称,YOLO将目标检测任务转化为回归问题,通过单次前向传播直接预测图像中所有目标的边界框和类别概率。
       而本次使用的YOLOv12模型为YOLO算法的最新版本,提出区域注意力模块(Area Attention)和残差高效层聚合网络(R-ELAN),区域注意力模块在保持自主意力高性能的基础上,将注意力机制的计算复杂度大大降低。后者引入缩放因子为0.01的残差连接,类似层缩放技术但针对注意力优化,缓解梯度消失问题,并通过过渡层调整通道维度后,采用瓶颈结构拼接特征,相比传统ELAN减少了内存占用。同时,针对注意力计算方面,引入了FlashAttention 3.0,优化显存访问,减少显存读写延迟。
       7.2 客户端
       7.2.1 软件端
       7.2.1.1 用户模块
       (1)登录注册
       该产品的登录注册界面设计简单,用户可以通过输入手机号和密码进行登录。登录成功后,系统会自动跳转到首页,用户便可以开始使用软件的各项功能。如果用户是首次使用,则需通过点击“去注册”按钮进行注册。注册界面包括手机号输入、密码设置以及验证码获取等模块。用户需要输入有效的手机号并设置密码,同时通过获取验证码进行身份验证。注册成功后,用户便可使用刚刚注册的账号和密码进行登录。整个流程设计流畅,确保用户能够快速完成账号注册和登录操作,提升用户体验。通过这种设计,产品不仅降低了用户的使用门槛,还增强了账号的安全性。
                                                        summernote-img
                                                                                a                                                            b
                                                                                                      图9 登录注册
       ① 图9中的a图为登录界面图,用户可以输入账号和密码进行登录,若没有账号可以点击“去注册”跳转到注册界面。
       ② 图9中的b图为注册界面图,用户完成注册后可跳转到登录界面进行账号登录。 
      (2)个人中心
       我们的个人中心界面功能丰富,旨在为用户提供极致的体验。界面清晰展示了用户的使用数据,包括APP的识别使用次数、学习时长以及学习天数,帮助用户随时掌握自己的学习进度。此外,用户还可以查看和管理识别记录、学习内容以及收藏的条目,方便快速回顾和复习。在设置模块中,用户可以通过基本资料功能修改个人信息,如昵称、性别、年龄、地区及个性签名等,确保个人资料的准确性和个性化。如果在使用过程中出现问题,还可以点击联系客服描述自己的诉求,我们会第一时间为你解决。整个界面设计简洁直观,操作流畅,充分满足用户对数据管理和个性化设置的需求,为用户提供高效便捷的使用体验。
                                                        summernote-img
                                                                                  a                                                           b
                                                                                                      图10 个人中心
       ① 图10中的a图是个人中心界面图。
       ② 图10中的b图是用户基本信息界面图,可修改个人信息。 
       (3)账号切换与退出
       当用户完成APP的使用后,可依照自身实际需求,在个人中心界面右上角的设置板块里开展高效的账号管理。进入设置界面,会存在切换账号这一选项,这项功能尤为便利,它不仅有利于职场人士的工作账号分离,还有助于企业运营人员进行多个账号的管理。借助此功能,可实现多个账号之间的快速切换,以满足不同场景下的应用需求表。此外,设置界面还提供了退出登录选项。可有效预防用户在当用户在公用设备上使用APP而造成的账号信息盗用或泄露的问题,全方位确保账号的安全性与隐私保护。这一设计既提升了用户操作灵活性,又增强了账号管理便捷性,为用户打造更贴心的使用体验。
                                                         summernote-img
                                                                                   a                                                         b
                                                                                                       图11 账号管理
       ① 图11中的a图为切换账户界面。
       ② 图11中的b图为退出登录界面。
       2.1.2 手语翻译
       手语翻译界面集成了两大核心功能:手语转换语音和文字转换手语,旨在为语言交流障碍人士与非语言交流障碍人士之间搭建无障碍沟通的桥梁。在手语转换语音功能中,用户可以通过实时拍摄到他们用于沟通交流的手语或上传手语视频,系统将自动识别手语动作并转换为文字并进行语音播放。这一功能特别适用于日常生活中的交流场景,例如倾听他们的意见或了解他们的需求。而在文字转换手语功能中,用户则可以通过输入文字,系统将文字转换为手语图片,方便非语言交流障碍人士向语言交流障碍人士传递信息。这一功能适用于彼此之间的双向对话,例如在公共场所、学校或工作场景中,促进彼此之间的顺畅沟通。通过这两大功能,我们的APP不仅提升了沟通效率,还增强了语言交流障碍人士的社会参与感,真正实现了无障碍交流的目标。
                                                        summernote-img
                                                                     a                            b                          c                         d
                                                                                                      图12 手语翻译
       ①图12中的a图为手语实时监测开始界面。
       ②图12中的b图为手语手势拍摄界面。
       ③图12中的c图为手语视频上传界面。
       ④图12中的d图为手语视频成功分析成功界面。
       2.1.3 手语学习
       我们的APP不仅提供了人性化的服务,还整合了丰富的学习资源,致力于为用户打造全方位的学习体验。在学习界面中,用户可以设置每日的目标学习时间,帮助养成良好的学习习惯。学习内容分为初级、中级、高级和专项四大模块,循序渐进地提升用户的手语知识储备。每个模块都经过精心设计,内容由浅入深,既适合语言障碍人群体的学习需求,也适合非语言交流障碍人群体掌握手语技能。通过系统化的学习,用户能够逐步提升手语水平,促进与聋哑人群体的沟通交流,让沟通更加便利顺畅。无论是日常交流还是专业场景,我们的APP都能为用户提供实用且高效的学习支持,助力无障碍沟通的实现。
       当用户学习到一定程度时,可以通过初级、中级、高级和专项四种不同难度的考试来检测自己的学习成果,若用户回答错误,系统会直接显示出正确答案并进行文字显示,帮助用户查漏补缺,巩固所学知识。此外,我们还特别设置了名师讲堂环节,用户可以根据视频内容进行系统化学习。这些视频涵盖了手语的基础知识、实用技巧以及高级表达,满足不同层次用户的学习需求,喜欢的话还可以点赞、收藏及转发。通过考试检测和视频指导相结合的方式,使用户能够更高效地提升手语水平,实现无障碍沟通的目标。 
                                                 summernote-img
                                                                 a                              b                            c                              d
                                                                                                     图13 手语学习
       ① 图13中的a图是知识学习的主界面。
       ② 图13中的b图是知识学习界面,可进行知识的学习。
       ③ 图13中的c图是考试界面,用户若是答错可显示出正确答案。
       ④ 图13中的d图是手语视频学习界面,可进行点赞、分享、收藏。 
       2.1.4 首页界面
       首页界面设计简洁明了,功能布局清晰,旨在为用户提供便捷的操作体验。界面顶部设有轮播图,展示最新的活动、资讯或推荐内容。下方设置了四个快捷键,分别对应手语播放、文转手语、手语学习和新闻推送四大核心功能。用户只需点击相应图标,即可快速进入相关功能模块,无需繁琐的操作步骤,极大提升了使用效率。手语播放功能支持手语视频的播放与学习;文转手语功能可将文字实时转换为手语动画;手语学习模块提供系统化的课程资源;新闻推送则实时更新与聋哑人相关的资讯。通过这种直观的设计,用户可以轻松找到所需功能,享受流畅的使用体验。 
                                                        summernote-img
                                                                                a                                                            b
                                                                                                          图14 首页
       ① 图14中的a图是系统的主界面。
       ② 图14中的b图是新闻的详情界面。
       2.2 网页端
       为了方便用户多端使用和跨平台兼容,我们团队还开发了网页端。不同于APP端的是,由于网页端的界面容量较大,所以不仅能够为用户呈现更加丰富的视觉效果,还能将多种功能条理化,方便用户查找。我们在网页的顶部设有“手语播放”、“文转手语”、“手语翻译”和“新闻推送”四个板块,与移动端的功能相呼应。
       在登录账号后,用户首先就可以看到自己的翻译记录和学习进度。其中,学习进度会以进度条的形式直观的呈现出来,帮助用户了解到自己的学习情况。如果用户希望继续上一次翻译,只需要点击翻译记录右侧的继续使用,就会跳转到翻译界面,用户便可以继续进行操作。如图15中的a图。
       考虑到用户对手语学习的多样化需求,网页端同样也配有手语学习功能,而且无需登陆就可以使用。手语学习板块共分为初级手语学习、中级手语学习、高级手语学习以及专用手语学习四个部分。初级手语学习中主要是学习考察一些简单的手语词汇,这一板块主要用于新手的入门学习,中级则在初级手语词汇的基础上进行提升,更倾向于句子结构与语法,而高级手语学习板块则侧重于复杂的手语语句与表达技巧,以便用户日常生活中的表达与交流。手语专用板块则针对特殊场景、特定领域,提供专业的手语表达。用户可根据自身需求进行有针对的系统化学习。如图15中的b图。
                                                        summernote-img
                                                                                  a                                                     b
                                                                                           图 15 引导页和手语学习模型
       ① 图15中的a图是网页端的引导页。
       ② 图15中的b图是网页端的学习界面。
       网页端中的新闻资讯推送实现了与移动端同步,这确保了用户及时了解到有关手语的新闻资讯。采用这种网页端与移动端同步的形式进行推送,使得手语新闻的覆盖面更广、传播效率大大提高。不仅能够让使用不同终端的用户了解到最新的法律法规,保障自己的合法权益,还能够让非语言障碍人士注意到语言障碍这个群体,增加社会对语言障碍人士的关注,加深语言障碍人士与非语言障碍人士的相互了解,使社会交流和谐。如图16。
                                                 summernote-img 
                                                                                                    图16 新闻推送模块
       7.3 已具备的条件,尚缺少的条件及解决方法
       7.3.1 已具备的条件
       (1)APP端
       我们使用了功能卓越的软件HBuilder X进行产品的研究与开发,将uni-app多种强大的特性进行深度挖掘并充分利用。这使得uni-app的跨平台开发能力得到充分利用,同时我们也能有充足的精力打造核心功能,而非重复编写不同平台代码。经过团队的不懈努力,这款实时手语翻译软件得以成功研发。软件能够随时安装,便捷地存储于手机、平板等移动设备中,方便用户携带,真正做到了“随时随地,翻译随行”。软件涵盖了许多常见手语词汇与复杂句式翻译,功能齐全,操作简单,降低用户学习门槛。这不仅大幅降低应用成本,还扩大使用范围,提高翻译速度,使语言交流障碍群体与非语言障碍人群之间的沟通障碍极大减少。同时,在设计时,我们充分考量不同用户的使用特点,采用通俗醒目的图标搭配设计,使界面清晰易懂,契合大部分人群使用习惯,让用户使用更加方便快捷。
       (2)手语识别播放系统
       将YOLOv11升级成YOLOv12,使识别系统的精度和稳定性提高。通过扩大数据集,进行对系统的训练,已经可以识别出大部分的手语。系统通过摄像头对手势进行实时捕捉,获得手部的关键节点,对采集到的数据进行整合解析,得到手部动作所代表的含义,最终将含义通过语言播放系统播报出来,准确无误地传达给用户。
       (3)手语翻译系统
       当在APP或者网页端输入任意文字或语句后,系统会在数据集中查找到相对应的手语图片,将查找到的结果进行组合后,在翻译界面中实时传达给用户。本团队通过对于算法的升级,大大提高了翻译的准确度和实时性。
       7.3.2 尚缺少的条件
       (1)缺少数据集
       手语数据的收集工作面临诸多挑战,数据量不足且分布不均。数据的多样性也有待提高,现有数据在不同背景、光照条件等方面的覆盖不够全面,这使得模型可能会因缺乏足够的训练样本而出现泛化能力不足的问题,影响模型对手语的准确理解和翻译。
       (2)模型存在对部分手语存在错检,漏检的问题
       经过测试发现,模型在识别某些手语动作时容易出现错误检测和漏检的情况。这些问题也会影响了手语翻译的准确性和完整性,降低了系统在实际应用中的可靠性和用户体验。
       (3)界面有待改进
       APP端的还需要进一步美化,学习界面、练习界面还需要进一步精进,其中的内容要趋于专业化,便于用户使用和学习。
       7.3.3 解决方法
       (1)在此之后,我们将收集更多数据,搜集更多的开源数据集,并加入一些高质量的自定义数据,力争将各种复杂的环境情况增加到数据集当中,例如增加在各种背景及不同光照环境的数据,增加更多动作微小的手势。同时,在保证数据集质量的情况下,使用更多的数据增强技术,生成更多的变体,扩大数据集,增强模型的鲁棒性和泛化能力。
       (2)采用更先进的深度学习架构,如Transformer、3D-CNN等模型架构,以更好地捕捉手语动作的时空特征和语义信息,提高模型的检测精度。在模型中加入更优的注意力机制,使模型能够更加关注手语动作的关键部位和重要特征,增强对复杂动作的识别能力。采用多模态融合技术,结合多个不同类型的模型进行融合,利用各模型的优势互补,降低单一模型的错误检测率,提高整体的检测效果。
       (3)相关团队成员将进一步深入学习 uni-app 知识,全面系统地钻研 uni-app 的各类组件、布局方式以及交互逻辑。
       在优化界面布局方面,团队成员将从用户体验的角度出发,对现有软件端和网页端的页面结构进行细致分析,重新规划学习界面、练习界面等核心板块的布局。例如,合理调整元素间距,让界面疏密得当,避免信息过于拥挤或空旷;优化页面跳转逻辑,确保用户在不同功能页面之间切换时流畅自然,减少操作步骤,提升使用便捷性。
       在图标设计环节,成员们将充分发挥创意,设计个性化且精致的图标。图标设计会紧密围绕手语的主题,融入手语动作、手语字母等特色元素,使图标既具有辨识度,又能与项目的整体风格相契合。从线条的粗细、形状的设计,到细节的雕琢,每个环节都力求做到尽善尽美,以提升客户端的视觉吸引力。
       同时,成员们还会高度重视颜色搭配的协调性。综合考虑色彩心理学选取既舒适护眼又能激发学习兴趣的色调。在主色调的基础上,搭配辅助色,用于区分不同功能模块、突出重要信息,营造出和谐统一又富有层次感的视觉效果,从而全方位提升 客户端界面的整体品质,为用户带来更优质的使用体验。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 20000.00 软件开发 10000.00 10000.00
1. 业务费 10000.00 业务综合 5000.00 5000.00
(1)计算、分析、测试费 2000.00 系统配置 1000.00 1000.00
(2)能源动力费 2000.00 数据传输与储存 1000.00 1000.00
(3)会议、差旅费 2000.00 参加校外比赛 1000.00 1000.00
(4)文献检索费 2000.00 文献检索 1000.00 1000.00
(5)论文出版费 2000.00 论文出版 1000.00 1000.00
2. 仪器设备购置费 4000.00 设备购买 2000.00 2000.00
3. 实验装置试制费 3000.00 实验装置 1500.00 1500.00
4. 材料费 3000.00 购买材料 1500.00 1500.00
结束