分享好友 最新动态首页 最新动态分类 切换频道
昆仑万维Mureka V7.5模型上线,AI音乐创作水平再迎新高度
2025-08-17 12:51

8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

截至目前,昆仑万维已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0、Skywork Deep Research Agent模型。8月15日,昆仑万维正式上线Mureka V7.5模型。至此,昆仑万维SkyWork AI技术发布周完美收官。

Mureka V7.5在中文歌曲上的演绎再上新台阶,不仅实现了中文歌曲音色、演奏技法的大幅提升,还完成了中文歌曲咬字与情感表现提升。

首先,基于对中文曲风和元素的强大理解,Mureka的理解模型对传统民歌、戏曲到经典华语流行金曲乃至当代民谣音乐拥有深刻认知。这种在中文音乐多样性与文化特性上的深度积累,使模型在理解和生成中文音乐时,能够更准确地传达其特有的艺术神韵和情感色彩。

其次,为了进一步提升生成音乐中人声表现的真实性与情感深度,我们针对歌曲特点优化了 ASR 技术,使之成为理解模块的有力延伸。这项技术深入到演唱的微观层面,不仅精准识别唱词,更能通过分析真实演唱中的气息运用、情感起伏和唱法细节,智能划分出符合演唱规律的乐句,并确定自然的换气与停顿位置。结合同样精准的乐段识别,显著提升了生成人声的段落清晰度与结构真实感。

这些捕捉到的细粒度演唱信息反馈给生成模型,极大地增强了人声的自然度、呼吸感以及情感表达的真实性,有效削弱了机械感,使 AI 演绎的歌曲在流畅性上更贴近真人演唱,这在处理中文歌曲特有的韵律和气息要求时效果尤为突出。

正是这种结合在文化特性上的独特积累和针对歌曲演唱优化的 ASR 技术所带来的细节洞察,共同构成了我们在中文音乐生成领域的核心竞争力。

Mureka V7.5不仅能「听懂」对音乐旋律与节奏的制作要求,更能深刻理解并再现不同文化语境下,特别是中文音乐中蕴含的细腻情感与艺术表达,从而为生成高度符合目标审美与文化语境、兼具艺术性与真实感的音乐作品,打下坚持技术基础。

同时,在语音模型方向上,昆仑万维语音团队推出MoE-TTS——首个基于MOE的角色描述语音合成框架。

作为面向开放描述(Out-of-domain Descriptions)场景的全新语音合成框架的研究性工作,该技术可让用户通过自然语言描述(例如“清澈的少年音带磁性尾韵”)精准控制声音特征与风格,在仅使用开源数据的条件下,对标甚至超越闭源商业产品的角色贴合度表现。

技术报告:https://teal-aquarius-c17.notion.site/MoE-TTS-Enhancing-Out-of-Domain-Text-Understanding-for-Description-based-TTS-via-Mixture-of-Experts-24e44360bf708040bff3dffe2eef805e

近年来,描述性语音合成虚拟助手、有声创作、数字人等领域展现出巨大潜力。然而,学术界长期受制于描述数据的局限性模型对开放语义的泛化能力不足,导致面对比喻、类比等复杂修辞时,生成的语音往往偏离用户预期。

MoE-TTS的推出有望助力解决这一核心难题。该框架创新性地结合预训练大语言模型(LLM)文本能力语音专家模块(Speech Expert Modules),为文本与语音分别配置专用专家模块,并在Transformer核心结构中引入模态路由,确保各模态独立优化、互不干扰。在冻结文本参数的同时高效对齐跨模态信息,实现“知识零损失”的泛化理解能力。

在涵盖域内与域外描述的双测试集上,MoE-TTS 与主流闭源 TTS 模型进行了六大维度对比评测:MoE-TTS 在风格表现力贴合度(SEA)和整体贴合度(OA)等声学控制上精准度领先,这正是其在复杂描述匹配度上胜出的关键。

MoE-TTS 的发布不仅为学术界提供了可复现的开放描述 TTS 解决方案,也证明了 模态解耦 + 知识冻结迁移 的技术路径在语音合成中的巨大潜力。这一突破有望推动行业从“封闭标签式控制”走向“自然语言自由控制”的新范式,加速数字人、虚拟助手和沉浸式内容创作的体验升级。

MoE-TTS目前仍在迭代中,后续规划将集成至旗下Mureka-Speech平台作为角色配音的基座模型,为全球开发者和创作者提供开放、高效、可定制的描述性语音合成能力。

欢迎全球用户体验全新V7.5模型

探索音乐创作的无限可能!

来源:北国网

免责声明:本文来源于网络,仅代表作者本人观点,与TechWeb无关。凡来源非TechWeb的新闻(作品)只代表本网传播该消息,并不代表赞同其观点。TechWeb对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

最新文章
CNNIC报告:生成式AI产品用户规模达2.49亿人
2024年是我国全功能接入国际互联网30周年。1月17日,中国互联网络信息中心(CNNIC)在京发布第55次《中国互联网络发展状况统计报告》(以下称《报告》),揭示了这一年互联网行业发展不断开创新局面,在网民规模、互联网应用等多个方面取得
女子社交账号内容被盗用数年遭仿冒网恋
央视近日报道,云南文山任女士遭遇身份盗用事件,其微信、抖音等社交平台发布的照片、视频及生活轨迹被安徽黄山女子李某玲持续盗用长达数年。今年8月,一名网友通过抖音联系任女士,称其丈夫与一个冒用任女士身份的账号网恋五年,导致婚姻
回顾Uniswap历代版本更迭:从V1到Unichain,是如何影响区块链的?
作者:YBB Capital Researcher Zeke对于Web3而言,我认为最重要的历史时刻有三个:比特币开创去中心化系统区块链,以太坊的智能合约给了区块链支付以外的想象,UNI将金融特权下放奏响区块链黄金时代的号角。从V1到V4,从UNI X到UNI Chain,
股市“杀猪盘”上演!女孩用山寨炒股软件被骗数十万
本文自南都·湾财社。采写 | 南都湾财社记者 刘兰兰编辑 | 子衿“勿信嘘寒问暖,勿信天上掉馅饼,勿下载别人发来的链接。”回忆起最近经历的炒股“杀猪盘”,王缘(化名)发出感慨。大概一个月前,她在社交平台认识了男子李某。李某每天
从展台逐步走向现实——重庆梁平区低空经济产业扫描
伴随着螺旋桨的轰鸣声,一架皮拉图斯PC—12飞机平稳降落在重庆梁平机场。短暂停留约50分钟后,飞机搭载乘客再次腾空,飞往数百公里之外的重庆黔江机场……“类似梁平往返黔江、武隆等地的短途通航航线已实现常态化运营,兼具旅行、观光等综
520·爱上贵州茶!跨界“破圈”对话赋能“干净黔茶·全球共享”
五月的北京春风未尽,夏意初临。在草木葱茏,百花飘香的美好时节里,贵州省茶叶协会联合贵州广播电视台共同举办的“干净黔茶・全球共享——520·爱上贵州茶创新传播恳谈会”在京举行。活动现场群贤毕至 共启黔茶新篇章贵州省茶叶协会会长慕
翁玉:遵循“自然法则” 茶叶“未制先订”
翁玉:遵循“自然法则” 茶叶“未制先订”在剑斗镇剑斗村,有一位与铁观音相伴半生的女茶人翁玉。从8岁开始接触茶叶,到如今成为当地知名的制茶师,她用四十余年的光阴诠释着对铁观音的执着与热爱。“开汤就能闻到扑鼻的兰花香,喝完更是唇
玩水/景区门票4折起!杭州7月21-25日特惠推荐!
美妙的周末终于来临休息天有什么想去的地方吗本周特惠门票来啦!玩水/宋城/景区……多处门票4折起小编带你一起来看看杭州森泊水乐园summer is coming森泊水乐园主要由室内和室外两大部分组成,室内水乐园占地9200平方米,是一座摆脱四季晴
比特币回升至8.2万美元上方,市场反弹还是反转?
全球的金融市场,都被一个人玩弄于鼓掌之间。随着特朗普掀起的全球关税之战愈演愈烈,市场对于美国经济衰退的预期也正在提升。当地时间3月10日,美股遭遇黑色星期一,美股三大指数集体重挫。道琼斯工业指数跌 2.08%,收跌近 900 点;纳斯达
工商联调研体检机构 共探企业健康管理新路径 —— 蒙自市工商联赴红河美年座谈
为落实 “健康中国” 战略、优化民企健康服务,6 月 30 日,蒙自市政协副主席、市工商联主席林琳,市委统战部副部长、市工商联党组书记杜映萱带队赴红河美年大健康体检中心调研,红河美年常务副总王桥率班子接待。双方围绕企业员工健康管理
相关文章
推荐文章
发表评论
0评