Skip to content

Echomimic V2免安装环境版

更新: 12/21/2024 字数: 0 字 时长: 0 分钟

概述

EchoMimic是由阿里巴巴蚂蚁集团推出的一款开源AI数字人项目,它通过先进的深度学习技术,将静态图像转化为具有动态语音和表情的数字人像。这项技术的核心在于它能够根据音频输入,实时生成与语音同步的口型和面部表情,从而创造出逼真的动态肖像视频。

配置要求

  • 对显卡配置较高,RTX409020步,生成10秒视频大约需要10分钟,低显存或低配置可能需要时间较长
  • 12G显存以上英伟达显卡
  • 推荐768x768尺寸

整体流程

EchoMimicV2 利用参考图像、音频片段和一系列手势来生成高质量的动画视频,确保音频内容和半身动作之间的连贯性。 为了弥补半身数据的稀缺,利用头部部分注意力将头像数据无缝地容纳到训练框架中,这些数据可以在推理过程中被省略。

此外,还设计了阶段特定的去噪损失,分别来指导特定阶段动画的运动、细节和低级质量。此外还提出了一个用于评估半身人体动画效果的新基准。大量实验和分析表明,EchoMimicV2 在定量和定性评估方面均超越了现有方法。

V1版介绍

  • V1仅用图片和音频生成数字脸,V2就是真正的数字人了。一张半身照片,配上中文或英语音频,就能生成带手势的数字人视频

功能

  1. 音频同步动画 EchoMimic的音频同步动画功能是其最引人注目的特点之一。通过深度分析音频波形,系统能够精确捕捉语音的节奏、音调、强度等关键特征,并实时生成与语音同步的口型和面部表情。这项功能使得静态图像能够展现出与真实人类几乎无异的动态表现。
  2. 面部特征融合 面部特征融合技术是EchoMimic的另一项核心优势。项目采用面部标志点技术,通过高精度的面部识别算法,捕捉眼睛、鼻子、嘴巴等关键部位的运动,并将这些特征融合到动画中,极大地增强了动画的真实感和表现力。
  3. 多模态学习 EchoMimic的多模态学习能力体现在它能够同时处理音频和视觉数据。系统通过深度学习模型,将这两种类型的数据进行有效整合,提升了动画的自然度和表现力,使得生成的动画在视觉上和语义上都能与音频内容高度一致。
  4. 跨语言能力 EchoMimic支持中文普通话和英语等多种语言,这使得不同语言区域的用户都能利用该技术制作动画。跨语言能力不仅拓宽了EchoMimic的应用范围,也为多语言环境下的数字人像生成提供了可能。
  5. 风格多样性 EchoMimic能够适应不同的表演风格,无论是日常对话、歌唱还是其他形式的表演,都能通过相应的参数调整来实现。这种风格多样性为用户提供了广泛的应用场景,满足了不同用户的需求。

使用说明

项目信息

项目主页:地址

模型下载

通过HuggingFace下载:地址

通过魔塔下载:地址

paper

arxiv: 点击访问

常见问题

正确使用方法

生成正确含手势模特图片

注意事项

  • 图片背景尽量简单
  • 人物必须包含人手手势(截至2024-12-01,否则生成人物可能会变形)
  • 以下是几种免费的生成模特图片的方式

参考图

图片

方式1:使用即梦生成

参考提示词

美女新闻主持人,简单背景,高清,4k,短袖正装

  • 使用即梦 –> AI作图 –> 图片生成,输入提示词,根据参考图,生成模特图片

image-20241201113614573

方式2:使用通义生成

image-20241201115617107

image-20241201115748161

image-20241201120554367

方式3:krea.ai生成

参考提示词

halfbody of a anchorwoman with simple color background directly facing the camera

image-20241201135351771

image-20241201135945456

免安装环境241122-webui版 ✅

注意

解压后,路径不要含有中文路径不要含有中文路径不要含有中文

下载说明

  • 软件已经过测试,测试平台为Windows10Nvidia-4090显卡
  • 不支持AMD显卡核显,显存尽量大于12GBcuda-12版本,低显存或低cuda版本不保证正常使用
  • 点此查看自己的显卡相关信息
  • 压缩包已包含依赖的环境模型等大文件,无需安装环境,点开即用;
  • 大小:14GB

下载地址

运行说明

  • 图片尺寸必须为16的整数倍(例如:512×512,768×768),尽量半身照,姿势和表情参考如下测试图片
  • 测试使用RTX4090,生成10s音频为演示用(便于用户根据自身配置比较)
  • 低显存或普通配置用户,尽量每次音频不超过5s,并勾选int8选项
  • RTX4090生成10s音频需要10分钟左右

运行

image-20241201121800636

image-20241201120952005

image-20241201123257755

  • 10s左右音频,20步(可配置),每步大约30秒,总共大约需10分钟(不同显卡配置,时间不同,仅供参考)

image-20241201122145625

效果

秋叶ComfyUI便携版🔑

  • 秋叶ComfyUI基础教程:查看
  • 开启科学上网,注意,打开代理网络设置,然后重启comfyUI

image-20241211084630986

安装教程

注意

  • 下面两种安装说明和教程只为记录过程,
  • 直接从下载地址的网盘下载启动包和模型文件,启动即可,无需再次安装

使用安装管理器方式

image-20241211035030638

  • 安装成功后,重启ComfyUI

使用git仓库手动方式

  • 如果安装管理安装有问题,可以使用手动方式
  • 克隆仓库
bash
# 进入comfyUI节点目录
cd custom_nodes

git clone https://github.com/smthemex/ComfyUI_EchoMimic

cd ComfyUI_EchoMimic
  • 使用当前ComyUI环境的python进行安装(注意:不要直接使用python.exe)
bash
# 当前ComfyUI环境的python
..\..\python\python.exe -m pip install -r requirements.txt

..\..\python\python.exe -m pip install --no-deps facenet-pytorch

警告

  • 如果安装facenet-pytorch后comfyUI奔溃,可以先卸载torch,然后再重新安装,以下版本只是示例
sh
# 先卸载torch相关包
..\..\python\python.exe -m pip uninstall torchaudio torchvision torch xformers
# 重新安装torch相关包
..\..\python\python.exe -m pip install torch torchvision torchaudio --index-url  https://download.pytorch.org/whl/cu124
..\..\python\python.exe -m pip install xformers

安装成功后,重启ComfyUI

模型下载

image-20241212102628301

v1和v2共用的模型

建议

默认会自动从huggingface下载,可以开启huggingface代理镜像或设置hf-mirror镜像

如果访问不了,可以将https://huggingface.co/改为https://hf-mirror.com/

├── ComfyUI/models/echo_mimic
|         ├── unet
|             ├── diffusion_pytorch_model.bin
|             ├── config.json
|         ├── audio_processor
|             ├── whisper_tiny.pt
|         ├── vae
|             ├── diffusion_pytorch_model.safetensors
|             ├── config.json

V1模型

sh
├── ComfyUI/models/echo_mimic
|         ├── denoising_unet.pth
|         ├── face_locator.pth
|         ├── motion_module.pth
|         ├── reference_unet.pth
  • 音频驱动加速版
├── ComfyUI/models/echo_mimic
|         ├── denoising_unet_acc.pth
|         ├── face_locator.pth
|         ├── motion_module_acc.pth
|         ├── reference_unet.pth
  • 姿态驱动
txt
├── ComfyUI/models/echo_mimic
|         ├── denoising_unet_pose.pth
|         ├── face_locator_pose.pth
|         ├── motion_module_pose.pth
|         ├── reference_unet_pose.pth
  • 姿态驱动加速版
├── ComfyUI/models/echo_mimic
|         ├── denoising_unet_pose_acc.pth
|         ├── face_locator_pose.pth
|         ├── motion_module_pose_acc.pth
|         ├── reference_unet_pose.pth

V2模型

├── ComfyUI/models/echo_mimic/v2
|         ├── denoising_unet.pth
|         ├── motion_module.pth
|         ├── pose_encoder.pth
|         ├── reference_unet.pth

Sapiens自定义手势🖐🏼

说明

  • 由于目前绝大部分AI,对生成手势图片或视频效果都不太好,可以使用一些现实主播、讲解视频的手势

  • infer_mode

    • 第一种,infer_mode选择audio_drive,pose_dir 选择none,则使用默认的npy pose文件,

    • 第二种,infer_mode选择audio_drive,pose_dir 选择已有的npy文件夹(位于ComfyUI/input/tensorrt_lite目录下),

    • 第三种,infer_mode选择pose_normal,video_images连接视频入口,确认...ComfyUI/models/echo_mimic 下有yolov8m.ptsapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2 模型

image-20241212061201577

  • 基于COCOfullbody编码 ,单独使用pose模型时,可选pose的5种分离模式,分别是躯干下肢上肢头部
  • 对应选择seg_select 的编号分别是(21.torso4.Left_foot,5.Left_Hand,6.Left_lower_arm,3.Face_Neck),这5种也可以自由组合,全选默认输出所有pose;

克隆项目

sh
# 进入comfyUI节点目录
cd custom_nodes

git clone https://github.com/smthemex/ComfyUI_Sapiens

cd ComfyUI_Sapiens

安装依赖

sh
# 当前ComfyUI环境的python
..\..\python\python.exe -m pip install -r requirements.txt
  • 重启comfyUI

模型下载

# 模型名称可能后续会更新变化,以上面模型地址里的名称为准
# sapiens目录如果不存在,则新建

├── ComfyUI/models/sapiens/
|     ├── seg/sapiens_1b_goliath_best_goliath_mIoU_7994_epoch_151_torchscript.pt2
|     ├── pose/sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2
|     ├── normal/sapiens_1b_normal_render_people_epoch_115_torchscript.pt2
|     ├── depth/sapiens_1b_render_people_epoch_88_torchscript.pt2

识别手势

  • png文件拖到打开的Comfy UI界面中
  • 说明:该png文件中包含了workflow工作流

image-20241212063921950

image-20241212062551783

image-20241212060254476

使用自定义手势

说明

  • 将上面识别出的npy文件移动到ComfyUI/input/tensorrt_lite
  • 如果tensorrt_lite文件夹不存在,就新建一个

image-20241212060541891

下载地址

建议

说明:

  • 已安装相关依赖工作流以及模型文件

  • 为避免单个压缩包体积过大,几个大的模型分开单独文件夹上传到网盘

使用💻

注意

  • 图片输出尺寸尽量为768x768
  • 图片输入和输出尺寸要保持一致,否则可能会变形等情况
  • 使用自定义手势,原图片需要包含手部
  • V1和V2版可以共用一个工作流
  • 工作流拖到打开的web页面

image-20241212091921462

  • 在工作流里切换version,实现v1和v2切换使用

image-20241212091323982

  • 自定义手势使用

image-20241212092706966

更新历史

2024.11.21
  • 🔥🔥🔥我们发布我们的EchoMimicV2代码和模型。
2024.08.02

🔥EchoMimic现在可以在带有A100 GPU的huggingface上使用。谢谢文萌Zhou@ModelScope。

2024.07.25

🔥🔥🔥Audio Driven上的加速模型和管道发布。推理速度可以提高10倍(在V100 GPU上从~7分钟/240帧到~50/240帧)

2024.07.23
  • 🔥EchoMimic Gradio demo已准备就绪。
  • 🔥Huggingface上的EchoMimic Gradio demo已准备就绪。谢谢你,西尔万Filoni@fffiloni。
2024.07.17

🔥🔥🔥音频+选定地标上的加速模型和管道发布。推理速度可以提高10倍(在V100 GPU上从~7分钟/240帧到~50/240帧)

2024.07.14

🔥ComfyUI现在可用。感谢@smthemex的贡献。

2024.07.13
  • 🔥感谢NewGenAI的视频安装教程。
  • 🔥我们发布姿势和音频驱动的代码和模型。
2024.07.12
  • 🔥WebUI和GRadiUI版本发布,我们感谢@greengerong@Robin021和@O-O1024的贡献。
  • 🔥我们的论文在arxiv上公开发表。
2024.07.09
  • 🔥我们发布我们的音频驱动代码和模型。

网站公告

说明

本站正在搭建并持续更新中,如果对您有帮助,不妨加入收藏

Last updated: