1.国外机器翻译研究进展
近年来,机器翻译(MT)研究取得了显著进展,主要集中在神经机器翻译(NMT)、大规模预训练模型、多语言翻译、少资源翻译、可解释性和语音翻译等方向。自Transformer架构提出以来,NMT已成为主流,并通过自监督学习、优化训练方法等进一步提升翻译质量。Google、Meta等科技公司推出了诸如T5、mBART、SeamlessM4T等大规模多语言模型,这些模型在多语言翻译、零样本翻译等方面表现出色,并逐渐取代传统的双语翻译系统。同时,AI大模型(如GPT-4、PaLM)展现出强大的通用翻译能力,特别是在低资源语言上取得突破。研究者们还关注NMT的可解释性和鲁棒性,探索如何提高翻译系统的透明度,同时增强其对输入扰动的耐受性。交互式翻译和AI辅助翻译在专业领域(如医疗、法律、金融)得到广泛应用,并且社交媒体、会议软件等也开始集成实时翻译功能。
2.国内古籍翻译研究进展
近年来,人工智能领域已经取得了显著进步,机器翻译技术已经开始应用在了较多领域,比如:中国现当代文学作品英文翻译,以及中国古籍英文翻译,翻译结果越来越准确、专业。
在基于实例的机器翻译(EBMT)方面,郭锐等(2008)设计了古今汉语自动句对齐及相似古文句子检索算法,基于人工对齐的所有20296对句对的实验结果,平均检索时间110ms,F值达到0.9911。王爽等(2009)构建英汉机器翻译系统,建立机器字典,使用 Visual Studio.NET2005 开发环境中 VB 语言进行软件的设计开发,对于选用的《论语》中50个句子进行翻译测试,结果表明:简单陈述句翻译效果的满意度可以达到 90%,简单疑问句和复杂句的满意度为82%左右,而反问句的处理效果不够理想。随着算法的升级,许乾坤等(2023)提出无监督词库构建的方法,在UniLM 模型的基础上,分别与BERT、RoBERTa、RoFormer 和 RoFormerV2 预训练模型相结合,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升了古现机器翻译的性能。宋熹玥等(2024)通过构建句子级别的平行语料数据集,建立建注意力机制Seq2Seq模型(Seq2Seq+Attention)并使用Seq2Seq预训练模型(Pre-Training+Seq2Seq)对80万首古诗词进行训练,结果构建的Pre-Training+Seq2Seq模型F1值达到65.72%,为中医古籍智能机器翻译提供了新思路。
综上所述,可以看出目前中医古籍机器翻译仍有很大研究空间,古籍涉及种类较少,识别精度待提高。本研究将借鉴上述国外机器翻译所运用的技术、使用的模型以及研究思路和方法,并结合国内古籍机器翻译的最新研究结果,从机器学习角度对《温病条辨》英文精准翻译模型进行设计研究。
3.Transformer与YOLO的发展现状
在如今的 NLP 领域,几乎每项任务中都能看见“基于 Transformer 的预训练语言模型(T-PTLM)”成功的身影。Transformer 的关键优势可以归结为以下几点:突破了RNN模型不能并行计算的限制;相比CNN,计算两个位置之间的关联所需的操作次数不随距离增长;自注意力可以产生更具可解释性的模型。可以从模型中检查注意力分布。各个注意头(attention head)可以学会执行不同的任务;在输出序列与输人序列“顺序”不同的情况下表现较好,如翻译、阅读理解;相比RNN可以编码更长的序列信息。
近年来,基于深度学习的目标检测算法是计算机视觉研究热点。YOLO系列是单阶段目标识别领域中的一种对象检测算法,由Redmon等2015于年提出。其核心思想是将对象检测任务转化为一个回归问题,通过思想上对YOLO模型进行改进优化,提升目标检测过一个卷积神经网络直接在图像上进行推理,实现的速度和精度 。 YOLOv9(2024)可编程梯度信息(PGI),用于在深层神经网络中保持数据的完整性和稳健的梯度,防止数据退化;广义高效层聚合网络(GELAN),有效地整合了多尺度特征。但同时,可能需要更多的计算资源来实现最佳效果;在非常复杂或遮挡严重的场景中,检测精度会下降;需要大量高质量的标注数据来训练,以保证准确性。YOLO 作为目标检测模型,能够快速检测并框选图片中的文字区域,为 OCR 识别提供更精准的文本区域。YOLO在文本识别方面有极大优势,文本区域检测。YOLO 训练时可以使用带有文本标注的数据集,使其能够识别图片中的文字区域,并在图像中生成一个或多个边界框(bounding boxes),框选出可能包含文本的区域。这比直接使用 OCR 进行全图扫描更加高效和精准。同时提高 OCR 的输入质量。YOLO 只提取文字区域,并将其作为 OCR 的输入,使 OCR 只需处理这些区域,而不需要遍历整个图像。这样做的好处是:减少 OCR 计算量,提高识别速度。减少噪声,提高文字识别准确率(OCR 仅对文本区域进行处理,减少背景干扰)。适应多种文本布局(如海报、漫画、UI 界面),确保 OCR 处理正确的内容。YOLO还可以适应复杂的文本排列。YOLO 还能检测不同方向的文本,如:水平文本、垂直文本、弯曲文本、倾斜文本。这使得 OCR 处理更加灵活,不再局限于固定排版的文档或直排文本。
参考文献
[1]郭锐,宋继华,廖敏.基于自动句对齐的相似古文句子检索[J].中文信息学报,2008,(02):87-91+105.
[2]王爽,熊德兰,王晓霞.古文翻译系统的设计与实现[J].电脑知识与技术,2009,5(04):855-856+867.
[3]许乾坤,王东波,刘禹彤,等.基于UniLM模型的古文到现代文机器翻译词汇共享研究[J].情报资料工作,2024,45(01):89-100.
[4]宋熹玥,周净,刘伟.中医古籍智能机器翻译模型构建研究[J].中国中医药图书情报杂志,2024,48(06):130-135.
[5]洪季芳. Transformer研究现状综述 [J]. 信息系统工程, 2022, (02): 125-128.
[6]杨子房,袁家政,徐成,等. 基于YOLO系列的目标检测研究进展综述[C]// 中国计算机用户协会网络应用分会. 中国计算机用户协会网络应用分会2024年第二十八届网络新技术与应用年会论文集. 北京联合大学北京市信息服务工程重点实验室;北京联合大学机器人学院脑与认知智能北京实验室;北京开放大学;, 2024: 263-267.
[7]徐彦威,李军,董元方,等. YOLO系列目标检测算法综述 [J]. 计算机科学与探索, 2024, 18 (09): 2221-2238.