豆包音频生成模型1.0发布,支持多模态参考生成与长时音色一致性

发布时间:2026-06-24 11:34

  昨天火山引擎正式发布了豆包音频生成模型 1.0,首次支持参考生成:把文本、音频任一模态作为输入,可以端到端生成目标音频。并且,它能在长时生成场景中保持多角色音色的一致性,大幅减少后期修音工作。

  借由豆包音频生成模型 1.0,还可以在单条 Prompt 中编排角色对白、情绪语气、背景音乐、环境氛围等,直接产出具备叙事张力的完整音频作品,改变了过往人声、音效、音乐单独制作再合成剪辑的传统工作流。

  火山方舟已开启豆包音频生成模型 1.0 API 邀测,个人用户可以在火山方舟体验中心直接体验,享有 30 分钟的创作额度。面向音频创

  过去,一段成片级音频作品意味着对白、音效、配乐等逐条生成、手动对齐、多轨混音,流程繁琐且高度依赖后期技术能力。豆包音频生成模型 1.0 将这一切压缩进一条 Prompt,直接产出具备完整叙事感的成片级音频,省去多轨剪辑、对齐、混音的全部后期工作:

  多角色对白:在单条指令中同时定义多个角色的台词、语气和情绪节奏,并保持不同角色的声音一致性。

  非语言表达嵌入:笑声、叹息、停顿、方言口音等细节直接写入 Prompt,模型精准还原,让对话充满生命力。

  一位创

  长音频创作中,最令创

  对此,豆包音频生成模型 1.0 实现了文生音频与参考音频的深度联动在长音频中保持音色高度统一。创

  当前,豆包音频生成模型 1.0 一次支持 2 分钟的音频创作,以此作为参考输入延长音频,可以在多次音频延长中保持音色的高度一致,实现音色可控。

  豆包音频生成模型 1.0 支持文本描述、参考音频等多模态输入,无需额外训练,即可端到端生成高质量目标音频。创

  在 0 样本生成之外,豆包音频生成模型 1.0 还进一步实现了音色与风格的解耦控制。同一音色可以适配不同情绪、语境和表达场景,生成多样化的声音表现;同时,模型还支持“一声多角”的独特能力,让同一个声音在不同角色设定下呈现出差异化表达,显著提升了角色配音、剧情演绎和创意音频生产的灵活性。

  特别

  画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

  看不明白的迪亚兹啊!以前跟孙颖莎打,感觉还很有挑战力。没想到遇上张本美和,这水平就大打折扣啊!

  窒息、沉溺、挣扎——这不是恐怖片,是让你双腿发软的水中写线万人追更的火焰魔术师,重塑古老灯工玻璃

排行

精选