各位AI炼丹师们!想象一下,你手里有一杯混合了橙汁、牛奶和咖啡的黑暗饮料,就是那个神奇的漏斗,能瞬间把它们分离成三杯纯净的液体。在音频世界里,AudioSeparation能把混杂在一起的人声、鼓声、贝斯和背景音乐拆得干干净净!
这货到底是干啥的?
简单说,AudioSeparation就是个音频分轨器。它利用深度学习模型(比如Demucs或MDX-Net),像剥洋葱一样,把你的立体声音乐一层层剥开,提取出独立的音轨(Stems)。

核心逻辑:AI抽脂原理
- 加载音频:吃掉你的MP3或WAV文件。
- 频谱分析:把声音转换成频谱图,就像给音频做X光扫描。
- AI分离:利用训练好的神经网络,识别哪些频率属于人声,哪些属于鼓,哪些属于贝斯。
- 重建输出:把分离出来的频率重新合成成独立的音频文件。
适配场景:啥时候得用它?
- 卡拉OK制作:一键去除人声,提取纯伴奏。
- 采样制作:从老歌里提取干净的鼓点(Drums)或贝斯(Bass)用于新创作。
- 视频后期:想把视频里的背景音乐换掉?先用它把背景音乐和人声分开,再替换!
实操教程:手把手教你做手术
- 安装插件:推荐使用Demucs(轻量级,4G显存可用)或MDX-Net(功能全)。
- 添加节点:在ComfyUI空白处右键添加AudioSeparation节点。
- 加载音频:在audio参数中,上传你的MP3或WAV文件。
- 选择模型:MDX-Net:分离精度高,适合复杂音乐,但吃显存。Demucs:速度快,适合简单分离。
- 设置模式:Stems模式:标准模式,分出人声、鼓、贝斯、其他。Vocals模式:卡拉OK模式,专门优化人声去除。
- 输出连接:节点会输出多个音频接口(Vocals, Drums, Bass, Other),连到Save节点保存即可。搞定!
参数设置详解:别小看这些框框
参数说明model_name这是手术刀型号。MDX-Net是精密手术刀,Demucs是快速切片刀。segment这是手术范围。数值越大(如300),处理长音频越连贯,但越吃内存;数值小(如15)则速度快但可能有接缝。shifts这是多次采样。设为1-5,数值越高,分离效果越细腻,但处理时间翻倍。节点对比:DeepExtractV2 vs Audio-separation-nodes
节点说明DeepExtractV2主打开箱即用,无需手动下载模型,对低显存显卡(4GB)友好,适合新手。Audio-separation-nodes功能更丰富,支持节奏匹配、音频重组,适合高阶玩家。文件与项目地址
- 文件地址:模型通常自动下载,或放在ComfyUI模型目录。
- 项目地址:Demucs或Audio-separation-nodes的GitHub仓库。
避坑指南
- 显存爆炸:如果用的是MDX-Net模型且显存小于8G,记得把segment参数调小,否则会报错。
- 人声残留:去除人声后,如果伴奏里还有人声回音,尝试使用Vocals模式或调整shifts参数。
- 格式问题:输出建议选WAV格式,MP3会有压缩损耗,影响二次创作质量。
好了,关于AudioSeparation的抽脂之旅就到这里。有了它,你的音乐素材库瞬间就能扩充一倍!关于ComfyUI音频系列的最后一篇,咱们来聊聊音频世界里的美颜神器——AudioFace,看看它如何让你的虚拟形象更生动!

评论列表 (1条):
加载更多评论 Loading...