万物互联的时代浪潮下,智能语音以其直观、高效、自然的交互优势,已成为人机交互的关键入口和影响用户交互体验最直接的因素。然而,如何优化产品语音交互性能,减少“唤不醒、误唤醒、听不懂”等问题的发生率,持续提升用户交互体验,成为当前智能产品创新的重点之一。
为了持续优化产品的交互效果,企业通常会开展大量的测试工作。在此过程中,语音语料资源扮演着至关重要的角色。然而,现阶段对于大部分企业来说,获取高质量、高覆盖度的语音语料资源仍面临着成本高、质量参差不齐、场景语料泛化能力弱以及资源调用复杂等挑战。因此,行业亟需一个高效、灵活且可拓展的语音语料资源管理平台,以支撑智能语音技术发展,甚至推动行业整体技术创新。
面向行业发展迫切需求,国家智能语音创新中心针对性开展了语音语料资源技术攻关。从数据生成、存储到管理,平台整合了人工智能通用大模型的多种能力,通过声音复刻、文本生成泛化、语音合成、语料资源管理等核心技术加持,创新性地构建了一站式、全流程的大模型泛化语音语料资源平台,实现了高质量、高适应性场景语料资源批量生成,功能强大。
声音复刻:平台可以根据上传的音频或实时录制音频进行声音复刻,通过少量的音频文件,即可训练出个性化发音人,形成个性化发音人模板库。
文本泛化:平台接入通用大模型,在语料泛化技术与大模型生成技术的双重加持下,高效实现所需场景的文本语料的生成与泛化。根据语料逻辑、对话逻辑、使用场景等相关需求,平台可一次性输出至少25条联想泛化结果。
语音合成:平台支持文本语料与发音个性化组合,可以批量合成语音语料资源,还可以对合成后的音频文件进行音量、音调、语速等方面进行调节。
语音及语料资源管理:对于用户生成或上传的语音语料资源,平台可进行统一化、标签化管理,利用集成工具即可实现语料获取与分配,大幅节省语料获取时间。
同时,平台还可以进行用户管理、数据统计及分析,在帮助企业管理资源、优化业务流程以及提升测试效率等方面具有诸多优势。
更灵活:实时语料定制,可快速定制生成测试用数据,提升开发速度与灵活性。
更高效:集成化资源管理,简化资源获取与分配工作,大幅度节省时间成本。
更准确:通过先进的算法,丰富语料多样性,提升语料质量,进一步保障测试全面性与准确性。
更便捷:平台配置API接口,可支持跨系统功能集成,程序间资源调用更简单。
更兼容:支持跨行业应用,可覆盖家电、汽车、金融等多行业特定测试需求,覆盖率更广,延伸度更高,兼容性更强。
大模型泛化语音语料平台以其高效生成高质量、高覆盖度场景语音语料,以及其他综合功能优势,将进一步助力提升人工智能产品的语音识别准确度和交互效率,从而帮助企业提升核心竞争力。
当前,大模型泛化语料平台已在智能家电领域实现落地验证,为智能家电产品测试与调优提供定制化语音语料解决方案。未来,中心将持续优化平台性能,接入更多模型与能力,为更多领域、更多产品提供更优质、更全面的语料资源服务,为行业整体技术创新发展增添助益。