Echomimic V2免安装环境版

更新: 12/21/2024 字数: 0 字时长: 0 分钟

概述

EchoMimic是由阿里巴巴蚂蚁集团推出的一款开源AI数字人项目，它通过先进的深度学习技术，将静态图像转化为具有动态语音和表情的数字人像。这项技术的核心在于它能够根据音频输入，实时生成与语音同步的口型和面部表情，从而创造出逼真的动态肖像视频。

配置要求

对显卡配置较高，RTX4090在20步，生成10秒视频大约需要10分钟，低显存或低配置可能需要时间较长
12G显存以上英伟达显卡
推荐768x768尺寸

整体流程

EchoMimicV2 利用参考图像、音频片段和一系列手势来生成高质量的动画视频，确保音频内容和半身动作之间的连贯性。为了弥补半身数据的稀缺，利用头部部分注意力将头像数据无缝地容纳到训练框架中，这些数据可以在推理过程中被省略。

此外，还设计了阶段特定的去噪损失，分别来指导特定阶段动画的运动、细节和低级质量。此外还提出了一个用于评估半身人体动画效果的新基准。大量实验和分析表明，EchoMimicV2 在定量和定性评估方面均超越了现有方法。

V1版介绍

V1仅用图片和音频生成数字脸，V2就是真正的数字人了。一张半身照片，配上中文或英语音频，就能生成带手势的数字人视频

相关介绍
Echomimic V1免安装EXE版

功能

音频同步动画 EchoMimic的音频同步动画功能是其最引人注目的特点之一。通过深度分析音频波形，系统能够精确捕捉语音的节奏、音调、强度等关键特征，并实时生成与语音同步的口型和面部表情。这项功能使得静态图像能够展现出与真实人类几乎无异的动态表现。
面部特征融合 面部特征融合技术是EchoMimic的另一项核心优势。项目采用面部标志点技术，通过高精度的面部识别算法，捕捉眼睛、鼻子、嘴巴等关键部位的运动，并将这些特征融合到动画中，极大地增强了动画的真实感和表现力。
多模态学习 EchoMimic的多模态学习能力体现在它能够同时处理音频和视觉数据。系统通过深度学习模型，将这两种类型的数据进行有效整合，提升了动画的自然度和表现力，使得生成的动画在视觉上和语义上都能与音频内容高度一致。
跨语言能力 EchoMimic支持中文普通话和英语等多种语言，这使得不同语言区域的用户都能利用该技术制作动画。跨语言能力不仅拓宽了EchoMimic的应用范围，也为多语言环境下的数字人像生成提供了可能。
风格多样性 EchoMimic能够适应不同的表演风格，无论是日常对话、歌唱还是其他形式的表演，都能通过相应的参数调整来实现。这种风格多样性为用户提供了广泛的应用场景，满足了不同用户的需求。

使用说明

项目信息

项目主页：地址

模型下载

通过HuggingFace下载：地址

通过魔塔下载：地址

paper

arxiv: 点击访问

常见问题

正确使用方法

生成正确含手势模特图片

注意事项

图片背景尽量简单，
人物必须包含人手手势（截至2024-12-01，否则生成人物可能会变形）
以下是几种免费的生成模特图片的方式

参考图

方式1：使用即梦生成

参考提示词

美女新闻主持人，简单背景，高清，4k，短袖正装

使用即梦 –> AI作图 –> 图片生成，输入提示词，根据参考图，生成模特图片

方式2：使用通义生成

通义万相地址：https://tongyi.aliyun.com/wanxiang/creation

方式3：krea.ai生成

地址：https://krea.ai

参考提示词

halfbody of a anchorwoman with simple color background directly facing the camera

免安装环境241122-webui版 ✅

注意

解压后，路径不要含有中文，路径不要含有中文，路径不要含有中文

下载说明

软件已经过测试，测试平台为Windows10和Nvidia-4090显卡
不支持AMD显卡及核显，显存尽量大于12GB，cuda-12版本，低显存或低cuda版本不保证正常使用
点此查看自己的显卡相关信息
压缩包已包含依赖的环境模型等大文件，无需安装环境，点开即用；
大小：14GB

下载地址

百度网盘

夸克网盘

城通网盘

运行说明

图片尺寸必须为16的整数倍（例如：512×512，768×768），尽量半身照，姿势和表情参考如下测试图片
测试使用RTX4090，生成10s音频为演示用（便于用户根据自身配置比较）
低显存或普通配置用户，尽量每次音频不超过5s，并勾选int8选项
RTX4090生成10s音频需要10分钟左右

运行

10s左右音频，20步(可配置)，每步大约30秒，总共大约需10分钟(不同显卡配置，时间不同，仅供参考)

效果

秋叶ComfyUI便携版🔑

秋叶ComfyUI基础教程：查看
开启科学上网，注意，打开代理网络设置，然后重启comfyUI

安装教程

注意

下面两种安装说明和教程只为记录过程，
直接从下载地址的网盘下载启动包和模型文件，启动即可，无需再次安装

使用安装管理器方式

输入安装地址：https://github.com/smthemex/ComfyUI_EchoMimic

安装成功后，重启ComfyUI

使用git仓库手动方式

如果安装管理安装有问题，可以使用手动方式
克隆仓库

bash

# 进入comfyUI节点目录
cd custom_nodes

git clone https://github.com/smthemex/ComfyUI_EchoMimic

cd ComfyUI_EchoMimic

使用当前ComyUI环境的python进行安装(注意：不要直接使用python.exe)

bash

# 当前ComfyUI环境的python
..\..\python\python.exe -m pip install -r requirements.txt

..\..\python\python.exe -m pip install --no-deps facenet-pytorch

警告

如果安装facenet-pytorch后comfyUI奔溃，可以先卸载torch，然后再重新安装，以下版本只是示例

# 先卸载torch相关包
..\..\python\python.exe -m pip uninstall torchaudio torchvision torch xformers
# 重新安装torch相关包
..\..\python\python.exe -m pip install torch torchvision torchaudio --index-url  https://download.pytorch.org/whl/cu124
..\..\python\python.exe -m pip install xformers

安装成功后，重启ComfyUI

模型下载

v1和v2共用的模型

建议

默认会自动从huggingface下载，可以开启huggingface代理镜像或设置hf-mirror镜像

如果访问不了，可以将https://huggingface.co/改为https://hf-mirror.com/

unet模型下载地址：https://huggingface.co/lambdalabs/sd-image-variations-diffusers
audio_processor：https://huggingface.co/BadToBest/EchoMimic/tree/main/audio_processor
vae模型下载地址：https://huggingface.co/stabilityai/sd-vae-ft-mse

├── ComfyUI/models/echo_mimic
|         ├── unet
|             ├── diffusion_pytorch_model.bin
|             ├── config.json
|         ├── audio_processor
|             ├── whisper_tiny.pt
|         ├── vae
|             ├── diffusion_pytorch_model.safetensors
|             ├── config.json

V1模型

模型地址：https://huggingface.co/BadToBest/EchoMimic/tree/main
音频驱动

├── ComfyUI/models/echo_mimic
|         ├── denoising_unet.pth
|         ├── face_locator.pth
|         ├── motion_module.pth
|         ├── reference_unet.pth

音频驱动加速版

├── ComfyUI/models/echo_mimic
|         ├── denoising_unet_acc.pth
|         ├── face_locator.pth
|         ├── motion_module_acc.pth
|         ├── reference_unet.pth

姿态驱动

txt

├── ComfyUI/models/echo_mimic
|         ├── denoising_unet_pose.pth
|         ├── face_locator_pose.pth
|         ├── motion_module_pose.pth
|         ├── reference_unet_pose.pth

姿态驱动加速版

├── ComfyUI/models/echo_mimic
|         ├── denoising_unet_pose_acc.pth
|         ├── face_locator_pose.pth
|         ├── motion_module_pose_acc.pth
|         ├── reference_unet_pose.pth

V2模型

模型地址：https://huggingface.co/BadToBest/EchoMimicV2/tree/main

├── ComfyUI/models/echo_mimic/v2
|         ├── denoising_unet.pth
|         ├── motion_module.pth
|         ├── pose_encoder.pth
|         ├── reference_unet.pth

YOLOm8： https://huggingface.co/Ultralytics/YOLOv8/tree/main
sapiens pose：https://huggingface.co/facebook/sapiens-pose-1b-torchscript/tree/main

Sapiens自定义手势🖐🏼

说明

由于目前绝大部分AI，对生成手势图片或视频效果都不太好，可以使用一些现实主播、讲解视频的手势
infer_mode
- 第一种，infer_mode选择audio_drive,pose_dir 选择none，则使用默认的npy pose文件，
- 第二种，infer_mode选择audio_drive,pose_dir 选择已有的npy文件夹（位于ComfyUI/input/tensorrt_lite目录下），
- 第三种，infer_mode选择pose_normal,video_images连接视频入口，确认...ComfyUI/models/echo_mimic 下有yolov8m.pt 和sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2 模型

基于COCOfullbody编码，单独使用pose模型时，可选pose的5种分离模式，分别是躯干，下肢，手，上肢，头部
对应选择seg_select 的编号分别是（21.torso，4.Left_foot,5.Left_Hand,6.Left_lower_arm,3.Face_Neck），这5种也可以自由组合，全选默认输出所有pose；

克隆项目

# 进入comfyUI节点目录
cd custom_nodes

git clone https://github.com/smthemex/ComfyUI_Sapiens

cd ComfyUI_Sapiens

安装依赖

# 当前ComfyUI环境的python
..\..\python\python.exe -m pip install -r requirements.txt

重启comfyUI

模型下载

只支持torchscript的版本，但是有多种模型可选，最好质量的是1b或者2B，如果模型选择全是none，会自动下载一个1B的seg，下载后不要改模型名字
seg：https://huggingface.co/facebook/sapiens-seg-1b-torchscript/tree/main
pose：https://huggingface.co/facebook/sapiens-pose-1b-torchscript/tree/main
depth：https://huggingface.co/facebook/sapiens-depth-1b-torchscript/tree/main
normal：https://huggingface.co/facebook/sapiens-normal-1b-torchscript/tree/main

# 模型名称可能后续会更新变化，以上面模型地址里的名称为准
# sapiens目录如果不存在，则新建

├── ComfyUI/models/sapiens/
|     ├── seg/sapiens_1b_goliath_best_goliath_mIoU_7994_epoch_151_torchscript.pt2
|     ├── pose/sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2
|     ├── normal/sapiens_1b_normal_render_people_epoch_115_torchscript.pt2
|     ├── depth/sapiens_1b_render_people_epoch_88_torchscript.pt2

识别手势

将png文件拖到打开的Comfy UI界面中
说明：该png文件中包含了workflow工作流

使用自定义手势

说明

将上面识别出的npy文件移动到ComfyUI/input/tensorrt_lite
如果tensorrt_lite文件夹不存在，就新建一个

下载地址

建议

说明：

已安装相关依赖、工作流以及模型文件
为避免单个压缩包体积过大，几个大的模型分开单独文件夹上传到网盘

百度网盘

夸克网盘

使用💻

注意

图片输出尺寸尽量为768x768
图片输入和输出尺寸要保持一致，否则可能会变形等情况
使用自定义手势，原图片需要包含手部

V1和V2版可以共用一个工作流
将工作流拖到打开的web页面里

在工作流里切换version，实现v1和v2切换使用

自定义手势使用

更新历史

2024.11.21

🔥🔥🔥我们发布我们的EchoMimicV2代码和模型。

2024.08.02

🔥EchoMimic现在可以在带有A100 GPU的huggingface上使用。谢谢文萌Zhou@ModelScope。

2024.07.25

🔥🔥🔥Audio Driven上的加速模型和管道发布。推理速度可以提高10倍（在V100 GPU上从~7分钟/240帧到~50/240帧）

2024.07.23

🔥EchoMimic Gradio demo已准备就绪。
🔥Huggingface上的EchoMimic Gradio demo已准备就绪。谢谢你，西尔万Filoni@fffiloni。

2024.07.17

🔥🔥🔥音频+选定地标上的加速模型和管道发布。推理速度可以提高10倍（在V100 GPU上从~7分钟/240帧到~50/240帧）

2024.07.14

🔥ComfyUI现在可用。感谢@smthemex的贡献。

2024.07.13

🔥感谢NewGenAI的视频安装教程。
🔥我们发布姿势和音频驱动的代码和模型。

2024.07.12

🔥WebUI和GRadiUI版本发布，我们感谢@greengerong@Robin021和@O-O1024的贡献。
🔥我们的论文在arxiv上公开发表。

2024.07.09

🔥我们发布我们的音频驱动代码和模型。

Echomimic V2免安装环境版 ​

概述 ​

整体流程 ​

V1版介绍 ​

功能 ​

使用说明 ​

项目信息 ​

模型下载 ​

paper ​

常见问题 ​

正确使用方法 ​

生成正确含手势模特图片 ​

参考图 ​

方式1：使用即梦生成 ​

方式2：使用通义生成 ​

方式3：krea.ai生成 ​

免安装环境241122-webui版 ✅ ​

下载说明 ​

下载地址 ​

运行说明 ​

运行 ​

效果 ​

秋叶ComfyUI便携版🔑 ​

安装教程 ​

使用安装管理器方式 ​

使用git仓库手动方式 ​

模型下载 ​

v1和v2共用的模型 ​

V1模型 ​

V2模型 ​

Sapiens自定义手势🖐🏼 ​

说明 ​

克隆项目 ​

安装依赖 ​

模型下载 ​

识别手势 ​

使用自定义手势 ​

下载地址 ​

使用💻 ​

更新历史 ​

Echomimic V2免安装环境版

概述

整体流程

V1版介绍

功能

使用说明

项目信息

模型下载

paper

常见问题

正确使用方法

生成正确含手势模特图片

参考图

方式1：使用即梦生成

方式2：使用通义生成

方式3：krea.ai生成

免安装环境241122-webui版 ✅

下载说明

下载地址

运行说明

运行

效果

秋叶ComfyUI便携版🔑

安装教程

使用安装管理器方式

使用git仓库手动方式

模型下载

v1和v2共用的模型

V1模型

V2模型

Sapiens自定义手势🖐🏼

说明

克隆项目

安装依赖

模型下载

识别手势

使用自定义手势

下载地址

使用💻

更新历史