乐胡号 地主 人工智能图像生成器是如何工作的

人工智能图像生成器是如何工作的

人工智能(ai)生成的大量图像感觉像是一个彻底现代化的工具的产物。事实上,计算机已经在画架上呆了几十年。在20世纪70年代初,艺术家哈罗德·科恩(Harold Cohen)教一个人使用早期的人工智能系统画画。“亚伦”可以指示机器人在纸上画出黑白形状;不到十年,科恩就教会了亚伦画人物。

人工智能图像生成器是如何工作的

如今,“生成式人工智能”模型将画笔放在了虚拟纸上:Midjourney和OpenAI的DALL-E等公开可用的应用程序可以根据文本提示在几秒钟内创建图像。最终产品常常欺骗人类。今年3月,人工智能生成的唐纳德·特朗普被警察戴上手铐的照片在网上疯传。图像生成器也在快速改进。他们是如何工作的——他们是如何改进他们的手艺的?

生成人工智能模型是一种深度学习,是一种软件技术,它使用层层相互连接的节点,松散地模仿人类大脑的结构。图像生成器背后的模型是在庞大的数据集上训练的:LAION-5B是最大的公开数据集,包含58.5亿张标记图像。数据集通常是从互联网上抓取的,包括社交媒体平台、库存图片库和购物网站。

最先进的图像生成器通常使用一种称为扩散模型的生成式人工智能。他们给数据集中的图像添加扭曲的视觉“噪音”,使它们看起来像一台仍然被静电干扰的模拟电视,直到图像完全模糊。通过学习如何消除混乱,模型可以生成与原始图像相似的图像。随着它在识别与特定视觉概念相对应的像素组方面变得更好,它开始压缩、分类并将这些知识存储在称为“潜在空间”的数学代码口袋中。

人工智能图像生成器是如何工作的

假设你让一个生成器应用创建一张河马的图片。如果一个模型已经学会了与“河马”(见图左)这个词相关的像素排列类型,那么它应该能够从潜在空间中取样,从而创造出这种哺乳动物的真实图像。给提示添加更多的细节——例如,“一幅文艺复兴时期的油画,一只绿色河马,在尼罗河沿岸的某个地方”(见右图)——需要模型获取额外的视觉细节层,如图像风格、纹理、颜色和位置,并将它们正确地组合起来。

对复杂提示的响应可能是不稳定的,特别是如果提示没有明确的措辞,或者它所描述的场景在训练数据集中没有很好地表示。即使是看似简单的食物也会让模特们绊倒。人类的手经常被描绘成少了或多了手指,或者比例似乎扭曲了物理定律。因为在照片中,手通常没有脸那么突出,所以人工智能模型可以在较小的数据集上磨练他们的技术。面部的不对称——尤其是眼睛、牙齿和耳朵颜色和形状的不一致——是机器工作的另一个标志。图像生成器在处理文本时也很吃力,经常会产生不存在的字母或虚构的单词。

开发人员可以通过改进他们正在学习的数据集或调整算法来帮助模型从错误中学习。中途旅程最近更新了,以改善它产生手的方式。快速的进步意味着将人工智能生成的图像与真实的照片或绘画区分开来可能很快就不可能了。

本文来自网络,不代表大媒体立场,转载请注明出处:https://dayabc.cn/lehuhao/1880.html

作者: admin

擅长以细腻笔触描绘现代人情感困境/以独特视角解读科技人文交叉领域
下一篇
https://dayabc.cn/zb_users/upload/2025/09/20250915185447175793368770213.jpg

疫情最新江苏沭阳(江苏沭阳防疫情况)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们