Ai 生图原理，那些一眼心动的美女是如何骗你的？-要闻速递-每日贵州网

当前位置：首页 > 滚动

Ai 生图原理，那些一眼心动的美女是如何骗你的？-要闻速递

来源：ZAKER科技发布时间：2023-05-19 06:22:52

作为一名自诩 " 赛博写手 " 的无名小编，在完成每天的工作之余，就是在各类 Ai 绘画社群与某鸟上冲浪，最近一段时间 ChatGPT 的 "Meme 时刻 "（就是常说的高光时刻）明显已经过去了，与之伴随的 Ai 整体热度也开始下滑，没有 3 月初期那种一刷信息流就全是 Ai 内容的 " 拥挤感 "。

百度的 Ai 搜索指数谷歌的 Ai 关键词全球搜索指数（这越南有点东西啊）

其实这也是好事，任何独特新鲜技术的 " 诞生时刻 " 都是惹人关注的，但想要真正有所建树，还是需要时间的沉淀，哪怕是 Ai 技术的迭代是普通科技产品的指数级倍数。比如最近，谷歌的 2023 IO 开发者大会上，剑指微软系（ChatGPT/Bing/copliot）的 Palm2 模型发布，不仅拥有与 GPT4 相抗衡的语言能力，同时还打了一套 Ai 组合拳来维系谷歌科技龙头的地位。

图片源自互联网

PaLM 2 模型有四个版本，按照大小从小到大分别是 Gecko、Otter、Bison 和 Unicorn。其中，轻量级的 Gecko 模型可以快速的在移动设备上运行，无需网络连接。PaLM 2 在超过 100 种语言的语料库上进行训练，因此它在处理多语言任务上表现优异，能理解、生成和翻译更精细、多样化的文本。在一些基准评估中，PaLM 2 部分成绩甚至超过了 GPT-4。尽管 PaLM 2 的参数数量更少，但其性能却优于上一代 PaLM 模型。

(资料图片)

谷歌 bard 对话模型进步比较明显，应该已经使用了 PaLM 2 模型

可见在短短的几个月中，由算法、算力组织起来的 Ai 智慧树已经从一棵小树苗长成一棵硕果累累的巨树，至于这棵树会不会成为未来人类科技的 " 智慧之母 "，还是要等待与辩证地看待。

Midjourney 丨 Ai 绘画

回归到标题上，最近在 C 站发现了一个运行在 stable diffusion 上的新模型，名字叫做BRA ( Beautiful Realistic Asians ) V5直译为美丽逼真的亚洲人，点击查看其效果照片，非常惊艳，不少用户展示出的作品都能达到照片级别，于是我就下载尝试玩玩。

根据该模型的创作者介绍，该模型使用了大约 3 个月的训练失败以及训练合并的结果。该作者是一位在新加坡的华人，会说一点点中文与日文。使用 Discord 和该模型制作者交流一下使用心得

下面是我利用该模型配合一些特定的 prompt 产出的效果图片，部分图片由于原生精度与分辨率不足，我利用 NVIDIA 推荐的 ON1 Ai 放大软件进行了分辨率扩展，大家可以来看看这些 Ai 产出的图片是否很具有迷惑性。

stable diffusion 丨 BRA V5

部分 prompt：8k, best quality, masterpiece, ultra highres_1.2 ) Photo of Pretty Japanese woman in the style of paul rubens and rebecca guay

部分 prompt：A beautiful woman is setting up a stall in the street market,beautiful face,cinematic, Faint side light,fine details, 8k, 部分 prompt：A lovely girl typing in front of the office computer, beautiful, lovely face, shot with Nikon Z7 full frame camera, 50mm lens,部分 prompt：girl at the bus stop on a rainy day, no umbrella, getting wet, cute face, short haircinematic，Faint side light,fine details部分 prompt：Cute girl at the beach, short hair, smile, sunset, with a bow, half body, film style，cinematic，Faint side light,fine details, 8k

部分 prompt：girl in supermarket, young girl, bangs, cute face, 50mm, F1.2, shot by Nikon camera, faded film style,Faint side light,

部分 prompt：Snowy girl with a scarf covering her nose, big eyes, eyelashes, black pupils, F1.2, shot by Nikon camera, faded film style部分 prompt：Urban girl, city neon as background, city night view from high above, neon flashing, with love, short hair, wearing glasses

是不是感到很惊艳，不仅仅是屏幕前的大家，就算训练过千张 Ai 图片的我，当看到光线、五官、表情与神态与照片几乎无差别的 Ai 生图时也是激动得不行，要知道就在 20 天前我们在做《NVIDIA显卡Ai 算力大比拼，想画 Ai 女友该怎么选？》时画出的 Ai 女友也就仅仅长成这样：

虽然也是非常美丽动人，但一眼就能觉得这是 Ai 出图，在脸部与皮肤的生成上，Ai 非常倾向给出非常完美的 " 光线效果 "，让皮肤的颜色、光感都处于绝佳状态，眼睛与嘴唇的细节处理也偏向于极致，眼妆与口红的色号也都是使用了 " 婚礼级别 "，让图片中的女生虽然光彩动人，但是太过于 " 完美 "，少了真实感。但在 BRA V5 中，在生成人像时，Ai 模型甚至会刻意避开脸部的细节光线，让图像中的脸部处于阴暗面或者侧光面，同时在脸上加入了不少 " 瑕疵 "，比如明显的血管纹、痘痘、雀斑等来增加人像的真实感。图片中的女生甚至有抬头纹，肤色也相对更偏向真实，另外人脸的骨骼结构也更偏向真人在该张中，女生的眼袋与雀斑也是比较明显，同时不会出现 Ai 经典的假笑同样的，脸部会出现一些血管纹、印记等瑕疵来烘托真实感脸部会有明显的高光与阴影区域，符合在真实光线与摄影环境中的出图

这样的照片也成功骗到了我的朋友们，虽然他们已经给我打上了 " 我发的女生 99% 都是 Ai 画的 " 标签，但依然这几组成功唬到了不少人。

看来，在可预见的未来，喜欢好看妹妹的男生们不仅要防过度美颜大法还要警惕 Ai 美女的以假乱真，这也从侧面反映了，当前的 Ai 生图技术的强大，那么目前流行的 stable diffusion 和 midjourney 的 Ai 绘图软件到底是怎么理解文字，然后生成这样的图片的呢？接下来就来为大家揭开 Ai 画图的奥秘，但其中会涉及大量的技术类名词，为了更方便大家的理解，我会用大量的比喻来代替。

教学时刻

使用过 stable diffusion 和 midjourney 的小伙伴都应该清楚，Ai 绘图都一个从 " 模糊到清晰 " 的过程，不论是基于本地的 stable diffusion 还是基于线上高性能服务器的 midjourney。

这模糊到清晰的过程就是当前 Ai 绘画的主流手段 -Diffusion model（扩散模型），简单点说，Ai 绘画会先把图片进行 " 降维 " 然后训练，这个降维的过程很像是大家平时使用的榨汁机，将一个苹果放在榨汁机里去打碎了，变成苹果泥，然后吃一口，记住苹果泥的味道，从而知道这个味道的果泥就是苹果。而 Ai 则是将图片进行 " 嚼碎 "（加噪点）来变成一组组的马赛克图片，这样的用意是在有限的算力下尽可能地多学习几组图片，多生成几组图片。因为马赛克的数据值是精确图片的 1/100 甚至 1/1000.那现在知道了 Ai 是如何快速学习图片的，那如何生成呢？还是拿苹果泥举例，在我们吃过了许多的果泥，比如苹果的、西瓜的、哈密瓜的、香蕉的，我们即使蒙上眼睛，只需要通过一点点的果泥就能分辨这个水果，然后回答出来。Ai 也是重复类似的过程，通过大量的图片加噪点得到的马赛克图片，Ai 也总结出了这个马赛克是猫、那个马赛克是狗之类的规则（具体逻辑比较深，不做赘述）。那就可以通过马赛克来反向还原图像，这一步就叫做 Reverse diffusion 反向扩散。那么，Ai 是如何理解我们的语言，并根据我们的想法画出 " 我们想要的小姐姐 " 的呢？过程中需要将文本进行 " 分词器 Tokenizer" 然后进行 "clip" 再进行 " 嵌入 Embedding"，就可以让机器学习、认到了！谢谢大家！好了，不闹了。这些拗口且复杂的概念应该留给更加专业的小伙伴去学习，我们只需要知道，Ai（不管是绘图的，还是 GPT 类型的）都是通过将文字 " 降维 " 的方式来理解并学习，有点像是上述提到的 " 苹果泥 " 概念，Ai 会将用户输入的文本拆分为更小的单元（词或字符），然后将分词后的文本转换成数学向量，这样模型才能更好地理解和处理。Ai 理解就是将文本碎片化、数字化丨 Midjourney 丨 Ai 绘画

然后就要用到转换器模型（Transformer Model）：这是一个能够处理序列数据（如文本）的深度学习模型。它通过捕捉文本中的依赖关系和上下文信息，为生成图像提供丰富的信息。类似于专业的语言学家来帮计算机处理文本的关系，比如用户输出 " 可爱的猫 "，不至于出现 " 猫的爱可 " 这样的计算机识别错误。

转换器模型就是将成堆的拼图碎片转换成一张张完整的拼图丨 Midjourney 丨 Ai 绘画

理解完文本，就到了画画的过程了，就要用到噪声画画这个概念，如同吃水果泥来辨别水果，噪声预测器（Noise Predictor）：这一步利用转换器模型提供的信息，逐渐生成图像。通过迭代过程，噪声预测器会从粗糙的图像开始，逐步细化细节。这就是为啥我们看到的 Ai 画图都是从模糊到清晰的过程。也像是一个画家根据一段描述开始创作，先绘制大致轮廓，然后不断添加细节，直至完成一幅画作。

也可以理解为慢慢地去雕刻一块巨石丨 Midjourney 丨 Ai 绘画

接下来，我利用 stable diffusion 给大家展示一个小姐姐的生成过程，

给 Ai 输入小姐姐的关键词（prompt )

输入一定的特定咒语，比如什么高级渲染，8K 渲染，HDR 渲染之类的，还有一定的反面词，比如不要奇怪的手部，不要畸形之类的。开始绘图，得到结果如果在这过程中，我们中断一下模型的进度就可以得到类似于带有噪点的图片从绘图过程中，我们可以看到绘图一开始的过程中，Ai 就是先生成一个比较模糊的人物形象，一个大致的轮廓，然后逐渐地去填充，在绘图进度 46% 的时候就可以初见人物的雏形，后续都是把人物的细节进行纠正修改。这就是可以以假乱真的小姐姐的诞生过程了，感兴趣的小伙伴可以尝试用 SD 来画自己喜欢的小姐姐形象，但是请注意的是，目前国内的部分内容平台已经开始针对 Ai 生图进行了扫描识别并下架部分涉嫌违规的内容。目前 Ai 领域的规则还是处于空白阶段，所以针对版权保护等行为还没有彻底上线。希望各位在利用 Ai 工具的同时也要敬畏技术带来的冲击，我很喜欢老黄在 NVIDIA 2023 大会上提到的 " 我们处于 Ai 的 iPhone 时刻 "，正如 iPhone 彻底颠覆了手机市场一般，我们也需要辩证地看待 Ai 将会带来的改变。

技术没有黑白之分，是一把达摩克利斯之剑。

标签：

全球头条：新能源布局加速落子风电光伏建设正酣

每日速递：气体传感器的发展现状与未来展望

要闻

更多+

热点

更多+

Ai 生图原理，那些一眼心动的美女是如何骗你的？-要闻速递

Ai 生图原理，那些一眼心动的美女是如何骗你的？-要闻速递

【5·12护士节特辑】科普促健康，携手向未来：医院急诊科参加中华护理学会全国科普周活动

新软件精准快速识别和定位蛋白质

前4个月全国税收收入同比增长12.9% 国内增值税表现亮眼|全球热点评

今日快讯：春日秦观翻译及赏析春日秦观

1尺是多少米_一尺多长全球实时

热景生物：子公司2款测定试剂盒产品获医疗器械注册证

方华富：黄金杀多，关注1942/1950支撑！

今日讯！“最大的难处是找货”：近八成货车司机月入不过万

第五届西洽会｜荣昌成功签约川渝合作新能源产业园项目揽金200亿元！

全球看热讯：华晨宝马20周年活动宣布：第六代动力电池项目动工、2026年国产BMW新世代车型

阿里Q4财报：菜鸟外部营收同比增长18% 核心物流能力持续增强简讯

jasmine英文名_jasmin

摩托“骑士”双手离把耍酷还发抖音炫技被“顺网线”找到

激发从军报国志战斗英雄走进高职院校讲述参战经历天天时讯

世界速看：山东黄金：控股股东下属子公司探获巨型金矿

陈锐到保山产业园区调研-环球播报

9月13日更新消息韩国与西班牙国会首长会谈，商讨共同进军第三国环保数字建设业市场_每日速讯

联想ThinkPad与中国航天·太空创想启动2023合作-资讯推荐

全球热点！杭州女童电梯坠亡案一审宣判，保姆吴秀芳获刑！

深信服推出自研安全GPT大模型可分析攻击手法

excel空白行列太多怎么办_excel空白行空白列数太多

iQOO首款降噪无线耳机来了：将与Neo8系列同步推出_今日热议

万家基金尹诚庸离任6只基金

天天通讯！（国际观察·财经）日本经济复苏难言乐观

哈尔滨师范大学：让学子“作业变作品、作品变产品”_环球微速讯

世界即时看！伦敦金属交易所(LME)：铝库存减少2450吨，铜库存增加3900吨，镍库存减少24吨，铅库存增加325吨，锡库存持平

瑶瑶可止_关于瑶瑶可止介绍|每日关注

热消息：医保卡的余额和消费记录怎么查？余额每年都会清0吗？

阿里P9下岗再就业_全球看点

全球头条：新能源布局加速落子风电光伏建设正酣

每日速递：气体传感器的发展现状与未来展望

看点：广域网：通往可扩展物联网的网关

当前滚动:Kerk专利设计的静音轴套-让运动控制更安静

天天时讯：工信部：我国已建成60家智能制造示范工厂、数字化车间

每日看点！机器人一定要像人吗?实力或许比颜值更重要?

天天信息:移动终端市场遭遇低谷，纷纷布局新能源汽车?

【环球聚看点】共筑5G新生态全面赋能经济社会发展

快看点丨马斯克：未来十年，新车有一半是电动汽车!

Ai 生图原理，那些一眼心动的美女是如何骗你的？-要闻速递

Ai 生图原理，那些一眼心动的美女是如何骗你的？-要闻速递

【5·12护士节特辑】科普促健康，携手向未来：医院急诊科参加中华护理学会全国科普周活动

新软件精准快速识别和定位蛋白质

前4个月全国税收收入同比增长12.9% 国内增值税表现亮眼|全球热点评

今日快讯：春日秦观翻译及赏析 春日秦观

1尺是多少米_一尺多长 全球实时

热景生物：子公司2款测定试剂盒产品获医疗器械注册证

方华富：黄金杀多，关注1942/1950支撑！

今日讯！“最大的难处是找货”：近八成货车司机月入不过万

第五届西洽会｜荣昌成功签约川渝合作新能源产业园项目 揽金200亿元！

全球看热讯：华晨宝马20周年活动宣布：第六代动力电池项目动工、2026年国产BMW新世代车型

阿里Q4财报：菜鸟外部营收同比增长18% 核心物流能力持续增强 简讯

jasmine英文名_jasmin

摩托“骑士”双手离把耍酷还发抖音炫技 被“顺网线”找到

激发从军报国志 战斗英雄走进高职院校讲述参战经历 天天时讯

世界速看：山东黄金：控股股东下属子公司探获巨型金矿

陈锐到保山产业园区调研-环球播报

9月13日更新消息 韩国与西班牙国会首长会谈，商讨共同进军第三国环保 数字 建设业市场_每日速讯

联想ThinkPad与中国航天·太空创想启动2023合作-资讯推荐

全球热点！杭州女童电梯坠亡案一审宣判，保姆吴秀芳获刑！

深信服推出自研安全GPT大模型 可分析攻击手法

excel空白行列太多怎么办_excel空白行空白列数太多

iQOO首款降噪无线耳机来了：将与Neo8系列同步推出_今日热议

万家基金尹诚庸离任6只基金

天天通讯！（国际观察·财经）日本经济复苏难言乐观

哈尔滨师范大学：让学子“作业变作品、作品变产品”_环球微速讯

世界即时看！伦敦金属交易所(LME)：铝库存减少2450吨，铜库存增加3900吨，镍库存减少24吨，铅库存增加325吨，锡库存持平

瑶瑶可止_关于瑶瑶可止介绍|每日关注

热消息：医保卡的余额和消费记录怎么查？余额每年都会清0吗？

阿里P9下岗再就业_全球看点

全球头条：新能源布局加速落子 风电光伏建设正酣

每日速递：气体传感器的发展现状与未来展望

看点：广域网：通往可扩展物联网的网关

当前滚动:Kerk专利设计的静音轴套-让运动控制更安静

天天时讯：工信部：我国已建成60家智能制造示范工厂、数字化车间

每日看点！机器人一定要像人吗?实力或许比颜值更重要?

天天信息:移动终端市场遭遇低谷，纷纷布局新能源汽车?

【环球聚看点】共筑5G新生态 全面赋能经济社会发展

快看点丨马斯克：未来十年，新车有一半是电动汽车!

今日快讯：春日秦观翻译及赏析春日秦观

1尺是多少米_一尺多长全球实时

第五届西洽会｜荣昌成功签约川渝合作新能源产业园项目揽金200亿元！

阿里Q4财报：菜鸟外部营收同比增长18% 核心物流能力持续增强简讯

摩托“骑士”双手离把耍酷还发抖音炫技被“顺网线”找到

激发从军报国志战斗英雄走进高职院校讲述参战经历天天时讯

9月13日更新消息韩国与西班牙国会首长会谈，商讨共同进军第三国环保数字建设业市场_每日速讯

深信服推出自研安全GPT大模型可分析攻击手法

全球头条：新能源布局加速落子风电光伏建设正酣

【环球聚看点】共筑5G新生态全面赋能经济社会发展