Skip to content

AI 作图原理和基础知识

更新: 12/21/2024 字数: 0 字 时长: 0 分钟

AI 作图中关键术语解释

说明

  • models文件夹下,主要几个模型目录的作用通俗解释
术语通俗解释作用与其他术语的关系重要性
Unet一个“魔法滤镜”,负责一步步去掉图像中的噪声从一堆乱七八糟的噪声中,慢慢“擦”出一张清晰的图片。是扩散模型的“大脑”,负责具体执行去噪任务。直接影响生成图片的质量,是核心中的核心。
Diffusion Model一种“魔法配方”,先给图片加噪声,再一步步去掉噪声正向扩散:把一张好图片变成噪声;反向扩散:从噪声中还原出好图片。Unet 是这个配方的“执行者”,负责反向扩散的去噪过程。提供生成图片的理论基础,是整个流程的框架。
Checkpoints模型的“记忆卡”,保存了训练好的参数。保存了模型的所有“参数”,加载后可以直接生成图片。包含 UnetVAEClip 等组件的参数,直接影响生成效果。决定生成图片的风格和质量,是模型的“灵魂”。
Diffusers一个“工具箱”,提供了加载和使用扩散模型的简单接口。封装了 UNetVAEClip 等组件,用户只需调用API即可生成图片。UNetDiffusion Model 的“包装器”,简化了使用流程。让用户使用模型更简单,是开发者的“好帮手”。
VAE一个“压缩解压器”,负责把图片压缩成小数据,再还原回来。压缩:把大图片变成小数据;解压:把小数据还原成大图片。Unet 协作,Unet 在小数据(latent space)中工作,VAE 负责图片与小数据的转换。影响生成图片的细节和色彩,是图片质量的“调节器”。
Clip一个“翻译官”,把文字提示变成机器能懂的数字。把用户输入的文字提示翻译成数字,供 UNet 使用。Unet 协作,帮助模型理解文字和图片之间的关系。影响模型对文字提示的理解能力,是文字与图片的“桥梁”。

总结

  • Unet :是核心的“魔法滤镜”,负责一步步去掉噪声,生成图片。
  • Diffusion Model :是生成图片的“魔法配方”,Unet 是执行者。
  • Checkpoints:是模型的“记忆卡”,包含 UnetVAEClip 等组件。
  • Diffusers :是“工具箱”,提供了调用和执行模型易用的API接口
  • VAE :是“压缩解压器”,影响图片的细节色彩
  • Clip :是“翻译官”,帮助模型理解文字提示。

Flux GGUF 版本解释

Flux GGUF 版本 是 Flux 模型的一种优化版本,专门为低显存设备设计,能够在显存有限的情况下运行高质量的 AI 图像生成任务。以下是对 Flux GGUF 版本的详细解释:


1. 什么是 GGUF?

GGUF 是 GPT-Generated Unified Format 的缩写,是一种高效的模型存储和交换格式。它通过量化技术(如 4 位6 位8 位等)压缩模型权重,从而减少显存占用,同时保持较高的生成质量。

  • 量化原理:量化通过减少模型权重的精度(如从 32 位浮点数压缩到 4 位),降低显存需求,但可能会略微影响生成质量。
  • 优势:GGUF 版本可以在低显存设备(如 6GB 显存)上运行,适合没有高端显卡的用户。

2. 为什么 Flux 需要 GGUF 版本?

Flux 模型的原始版本(如 Flux.1 Dev 和 Schnell)对显存要求较高,通常需要 16GB 或更多的显存才能流畅运行。这对于大多数普通用户来说是一个门槛。GGUF 版本的出现解决了这一问题,使得 Flux 可以在低显存设备上运行。

  • 原始版本显存需求:Flux.1 Dev 和 Schnell 的原始版本需要 16GB 以上的显存,文件大小通常为 23.8GB
  • GGUF 版本显存需求:GGUF 版本通过量化技术,显存需求大幅降低,最低仅需 6GB 显存即可运行。

3. GGUF 版本的量化级别

GGUF 版本有多种量化级别,用户可以根据自己的显存大小选择合适的版本:

量化级别显存需求适用显卡生成质量
Q2(2 位)6GB6GB 显存较低
Q4(4 位)8GB8GB 显存中等
Q5(5 位)10GB10GB 显存较高
Q8(8 位)16GB+16GB 显存接近原始版本
  • Q4 和 Q5:适合大多数用户,显存需求适中,生成质量较好。
  • Q8:适合高端显卡用户,生成质量接近原始版本。

4. 如何在 ComfyUI 中使用 Flux GGUF 版本?

使用 Flux GGUF 版本需要以下步骤:

步骤 1:安装 ComfyUI-GGUF 插件

  • 通过 ComfyUI 管理器搜索并安装 ComfyUI-GGUF 插件。

  • 或者通过 Git 克隆插件:

    sh
    git clone https://github.com/city96/ComfyUI-GGUF.git

步骤 2:下载 GGUF 模型

  • 从 Hugging Face 或哩布哩布下载 Flux GGUF 模型,并将其放置在 ComfyUI/models/unet 目录下。
  • 例如:

步骤 3:配置工作流

  • 在 ComfyUI 中,将原始的 Load Diffusion Model 节点替换为 Unet Loader (GGUF) 节点。
  • 设置 DualClip Loader GGUF 节点,选择 Flux 的 CLIP 和 T5-XXL 模型。

步骤 4:运行生成

  • 输入提示词,设置采样器(如 Euler)和 CFG(如 1.0),然后点击生成。

5. GGUF 版本的优势与局限

优势

  • 低显存需求:最低仅需 6GB 显存,适合老显卡或低端设备。
  • 快速生成:量化后的模型推理速度更快,适合需要快速出图的场景。
  • 高质量生成:尽管是量化版本,但 Flux GGUF 的生成质量仍然非常出色,尤其是在 8 步或更多步数的情况下。

局限

  • 生成质量略低:与原始版本相比,GGUF 版本的生成质量略有下降,尤其是在低量化级别(如 Q2 或 Q4)时。
  • 不支持负提示:Flux GGUF 版本不支持负提示功能1。

6. 总结

Flux GGUF 版本是 Flux 模型的一种优化形式,通过量化技术大幅降低了显存需求,使得更多用户能够在低显存设备上体验 Flux 的高质量图像生成能力。尽管生成质量略有下降,但 GGUF 版本仍然是一个非常实用的选择,尤其是在资源有限的情况下。

如果你对 Flux GGUF 版本的安装和使用有更多疑问,可以参考相关教程或社区资源。

网站公告

说明

本站正在搭建并持续更新中,如果对您有帮助,不妨加入收藏

Last updated: