传音AI翻译团队获WMT 2021国际机器翻译大赛非洲小语种方向冠军
来源:互联网近日,由国际计算语言学协会(The Association for Computational Linguistics,ACL)举办的WMT 2021国际机器翻译比赛结果揭晓。首次参加该项大赛的传音AI翻译团队在「科萨语-祖鲁语」双向翻译的赛道上斩获机器自动评测冠军,并在「孟加拉语-印地语」、「印地语-孟加拉语」翻译任务的机器自动评测中分别获得第二名、第三名的佳绩。
WMT大赛(Conference on Machine Translation)是全球顶级的机器翻译评测比赛,在全球学术界、工业界享有盛誉。自2006年起,WMT大赛已成功举办16届,每年都吸引了来自世界各地的顶级企业、高校和科研机构参赛,包括微软、Facebook、腾讯、字节跳动、百度、金山等。
WMT 2021大赛共有72支实力雄厚的队伍参赛,共计提交1308次译文数据,竞争异常激烈。组委会按照在国际上具有广泛认可度的BLEU自动评估指标对提交的机器译文和标准答案进行拟合计算,拟合程度高者排在前面。传音AI翻译团队经过多次角逐脱颖而出,成功占据「科萨语-祖鲁语」双向翻译机器自动评测指标的榜首。
深耕AI翻译领域,打造前沿研究、产品应用和用户反馈闭环
传音AI翻译团队在本次WMT 2021中主要面临低资源语料的挑战。为了更好能利用低资源语料,提升低资源机器翻译的效果,传音AI翻译团队采用自研的混合神经统计机器翻译和机器翻译(Hybrid-SNMT)。在模型上,Hybrid-SNMT首先应用N元语法得到向量,并统计对齐概率等方式得到各个词库和语言模型,再以此训练双向互译的对偶NMT模型。在数据上,Hybrid-SNMT通过迭代回译等方式,不断提炼和丰富各个词库,并增广数据。
在国际赛事中斩获佳绩与认可,得益于传音AI翻译团队在人工智能领域持续不断的技术研究和产品体验的打磨。传音AI翻译团队基于神经网络机器翻译技术,持续进行迭代,引⼊了前沿的机器翻译算法,不断创新算法和架构,提升翻译能力。
目前,传音翻译已成为一个日翻译数亿字符的多语种机器翻译引擎,支持多语种间的双向翻译,质量达到新兴市场业界领先水平。在技术和数据的协同之下,传音深度布局机器翻译生态,服务场景已涵盖社交对话翻译、阅读翻译、传音扫一扫等,同时还为传音语言大师、传音智能语音助手、Hi Translate、菲酷等提供翻译服务支持,后续将陆续拓展更多应用场景。同时,通过海量的传音智能终端用户使用反馈,不断提升、改进机器翻译算法,打造“前沿研究-产品应用-用户反馈”的完整闭环。
以洞察为基点,加速构建非洲智能翻译服务体系
长期以来,传音深耕以非洲为代表的新兴市场,为消费者提供适切需求的智能终端产品和移动互联服务。本次获奖,正是传音多维度市场洞察及本地化创新产品理念的最佳注脚。
在不断提升的机器翻译技术背后,是传音深厚的语言基因。非洲大陆幅员辽阔,国家众多,是世界上最复杂、多样化的地区之一,也是语言种类最多的大陆,许多当地民众习惯使用本民族语言。以科萨语(Xhosa)及祖鲁语(isiZulu)为例,两者分别是科萨族和祖鲁族的民族语言,同时也是南非共和国的官方语言。在南非,科萨语的使用人口分布最广,而祖鲁语的使用人数最多。传音手机产品不仅支持英语、法语、阿拉伯语、西班牙语、葡萄牙语等官方语言或通用语,更支持多种非洲本地语言,包括阿姆哈拉语、奥罗莫语、提格雷语、索马里语、斯瓦希里语、豪萨语等小语种,以满足本地用户的需求。
传音AI翻译团队以技术为核心,结合非洲语言种类和使用格局,不断延伸服务场景,创造性地进行非洲智能翻译服务体系构建,为本地用户带来更便捷的沟通体验。随着传音全球新兴市场业务的不断拓展,传音AI翻译团队也加大了针对南亚、东南亚等其他新市场本地小语种的研究探索,不断提升相应的翻译能力。
未来,传音将持续加大对人工智能领域的学习与投⼊,积极将技术升级运用在产品之中,并基于传音平台生态带来覆盖更广的应用场景,为新兴市场用户提供更优质的智能产品体验。