Featured image of post 初识 Diffusion(概念)

初识 Diffusion(概念)

Diffusion(扩散模型)是一类生成式模型,在机器学习和人工智能领域应用广泛,特别是在图像生成、语音合成等领域发挥了重要作用。

Diffusion(扩散模型)是一类生成式模型,在机器学习和人工智能领域应用广泛,特别是在图像生成、语音合成等领域发挥了重要作用。

Model & Checkpoint

开源模型发布出来的文件一般都很大,里面包含了很多模型参数、快照等。Model 和 checkpoint 在开源这个层面上,两个概念可以认为大体上是等价的,只不过我们一般不叫 checkpoint,而是说某个 model 开源了。

  • Model 是一个比较抽象的概念,它包括模型的架构(例如神经网络中的层数、每层神经元数量、连接方式等)和训练目标(例如是进行分类任务、生成任务还是回归任务)
  • Checkpoint 是在模型训练过程中定期保存的模型参数快照,与 Model 密切相关。Checkpoint 包含了 Model 的架构定义、参数值、优化器状态以及训练过程的元数据等,是对 Model 在特定训练阶段状态的完整记录。

CLIP

概念

  • CLIP 模型:CLIP 是 Contrastive Language-Image Pre-training 的缩写,由 OpenAI 在 2021 年 1 月 5 日发布,是一种将计算机视觉与自然语言处理相结合的神经网络模型。
    • 它通过对 400,000,000 组(图像,文本)对数据进行预训练,从而能够在给定图像的情况下,根据自然语言指令预测出最相关的文本片段,展现出了类似 GPT-2 和 GPT-3 的 zero-shot 学习能力,即模型可以在未针对特定任务进行直接优化训练的情况下,对未曾见过的数据类别进行较好地预测
  • CLIP Vision:CLIP Vision 主要负责处理视觉信息,也就是对输入的图像数据进行特征提取和编码等操作,将图像转化为模型能够理解和处理的向量表示,以便与文本信息进行对比学习和关联。1
    • 例如,在图像生成领域,CLIP Vision 可以帮助模型理解图像的内容和特征,从而生成更符合语义描述的图像。
  • CLIP Text:我们常看到的这个 CLIP Text 概念,主要是指作为参考文本来对图像进行调整的文本描述。

应用

  • 图像生成:如在 Paints-Undo 项目中,CLIP Vision 作为模型架构的一部分,与其他组件共同作用,通过对输入图像的处理和分析,为生成模拟人类绘画过程的动画提供视觉信息基础,帮助模型理解图像的内容和结构,从而更准确地生成绘画过程中的各个中间状态。
  • 图像分类与标注:可以根据图像的视觉特征,结合预训练时学习到的图像与文本的关联,对未见过的图像进行分类或自动生成相应的文本标注,例如判断一张图片是风景照、人物照还是动物照,并给出相应的文字描述。
  • 图像检索:基于 CLIP Vision 对图像特征的提取和与文本的关联能力,可以实现根据文本描述来检索相关的图像,或者根据图像来查找与之语义相关的文本信息,提高图像检索的准确性和效率。
  • 视觉问答系统:帮助系统理解图像中的视觉内容,结合对自然语言问题的理解,生成准确的文本答案,例如回答关于图像中物体的位置、颜色、数量等问题 。

VAE

VAE 主要用于将图像数据压缩到一个潜在空间,然后再从这个潜在空间中生成新的图像,侧重于图像的生成和重建。

Latent Image

经过某种变换或编码后隐藏在数据中的图像信息。例如,在使用变分自编码器(VAE)进行图像生成或处理时,图像数据会被压缩到一个潜在空间(latent space),这个潜在空间中的向量可以被看作是潜像的一种表示形式。这些潜像向量包含了图像的关键特征,如形状、颜色、纹理等信息,通过解码器可以将这些潜像向量转换回可见的图像。

Lora

LoRA 是一种用于微调预训练模型的技术,通过在原始模型的基础上添加少量可训练的参数来实现对模型的微调。


Footnotes


  1. 简单说就是,主要用于处理和理解图像信息,能够提取图像的特征表示,进而与文本特征进行对比和匹配等操作,以实现如根据文本描述生成相应图像、图像分类、图像检索等多种与图像和文本相关的任务 ↩︎

Built with Hugo
Theme Stack designed by Jimmy