让我们少写,不写提示词,轻松玩各种风格,妈妈不再担心我不会写
时间:2026-01-04 18:02:16 出处:时尚阅读(143)
AI 生图工具已经泛滥,让们但是少写松玩生图工具已经很多了,但是不写不再生图工具已经很多了。 Google 最新推出的提示 Whisk,还是词轻找到了一种非常新的玩法,让见过世面的各种网友也直呼好玩。
输入三张图片,风格subject(主题)、妈妈scene(场景)、担心style(风格),让们Whisk 可以生成一张博采众长的少写松玩图片。

图片来自:Google
比如主题是不写不再老人,场景是提示藤蔓,风格是词轻 90 时代复古动画,写上「角色骑着飞行自行车」等了一会儿,各种一张类似吉卜力画风的新图诞生了。

图片来自:Google
老人还是那个老人,戴着帽子,穿着西装,拿着书,但是他骑着提示词里的车,场景和风格都变成了参考图片。
Whisk 优点就在这里——让我们少写,不写提示词,轻松玩各种风格,妈妈不再担心我不会写提示词。
不要写复杂的提示词,直接把图片端上来
虽然只需要几张图片,Whisk 游戏玩法简单,但无穷无尽。
刷刷上传三张图片-主题图片,麦当劳薯条;场景图片,莫奈画《睡莲》;像素风游戏《星露谷物语》的风格图片。
不写提示词,直接生成,Whisk 给出的结果,一张比三张强。

除上传自己的照片外,我们还可以掷骰子,让他们 Whisk 主题、场景、风格的随机生成。

其实,Whisk 为我们提供的预设风格已经足够了,徽章、贴纸、刺绣、粘土、美满、马赛克拼贴等,特色鲜明,效果立竿见影。

只要我们有想象力和想象力,我们就不需要一个字。通过不同图片的排列和组合,我们可以不断完成形填空游戏-主题 场景 风格,不是每一个空都必须填满。

1.主题图片,熏鸡;2.场景图片,梵高《星月夜》画;3.风格图片,日本木版画

1.主题图片《戴珍珠耳环的女孩》;2.场景图片,电影《千与千寻》剧照;3.风格图片,蒙德里安抽象画

1.主题图片,微信「死亡笑脸」表情符号;2.场景图片,电影《星际穿越》剧照;3.风格图片,史努比漫画截图

1.主题图片,粉色恐龙,冲浪默认头像 momo;2.风格图片,Jellycat 玩偶
另外,Whisk 每次生成,场景和风格只能选择一张参考图片,但可以选择多个主题。这是什么意思?我们可以让多个角色在同一个框架内!
例如,让马斯克、奥特曼、扎克伯格都成为珐琅徽章。

三人的服装、装饰、表情都还原得很好,扎克伯格的麦克风和项链都没有漏掉,但是脸不能保持一致,都变成了大众脸。
虽然 Whisk 减少了写提示词的需要,但是如果你需要写,Whisk 也鼓励。
在对话框中加入一句话「角色们都拿着一个标志,上面写着 AGI」,徽章小人很容易遵循提示词。

若需要某一场景或某一风格,但暂时找不到参考图,Whisk 没有提供预设?
解决方案很简单,没有图片,然后写提示词,让 Whisk 现场玩一个。

就像我需要一个像素风格的底座,让角色站起来作为场景一样 Whisk 帮我生成。

然后,以猫的表情包为主题图片,以像素鸡为风格图片,你可以得到一只有底座的像素猫。

总之,Whisk 很自由,就像橡皮泥一样,怎么捏都可以。
既生图又识图,把复杂的工作流包装成有趣的「打蛋器」
Whisk,其实是 Google 一种展示肌肉的多模态模型方法。
为了让我们少写提示,Whisk 将视觉理解与图片生成能力相结合。
Gemini 模型识别图片,自动生成详细描述,然后输入这些描述 Google 图片生成模型 Imagen 3,由 Imagen 3 生图。
Whisk 是的,用户只需要上传和生成图片,但是有很多事情需要考虑。

Whisk 每张图片,无论是上传还是生成,都写了很长的底部提示,不隐藏,我们点击图片可以看到,也可以开始修改。
假如把一个人作为主题图片,Whisk 会详细描述他的外貌特征,场景图片也差不多。

Whisk 对奥特曼的描述:「一个肤色较浅的男人,短而深棕色的卷发,从胸部以上展示。他的眼睛很浅。他穿着一件浅米色的针织圆领毛衣。背景是斑驳的灰色混凝土墙。这个人的表情严肃而中性。光线有点暗,他的右脸有一个轻微的阴影。」
如果以动画截图作为风格参考,风格图片略有不同。Whisk 不会说画面中有三个人,而是描述了画面的颜色、光线和线条...

Whisk 对史努比画风的描述:「这张照片以卡通风格呈现,轮廓粗糙,平面着色粗糙。颜色调色板有限,主要使用原色和柔和的次要颜色。光线均匀,缺乏强烈的阴影或亮点,给人一种简单、几乎儿童的纹理。线条清晰一致,纹理轻微不均匀,暗示手绘效果。整体美学让人想起经典的连环漫画或儿童动画。」
所以,Whisk 它不是准确地复制图片,而是提取图片的特征和本质,自然地将主题、场景和风格结合在一起,履行自己的职责,不相互干扰。
同时,Whisk 还叠加了A-只从图片中提取少量关键特征,结果可能与预期不同。这也解释了为什么 Whisk 不能准确还原人脸。
因此,即使选择不那么抽象的复古胶片风格,三位老板的脸也不会靠近本尊,但其他细节都非常准确。

物体也是如此。特斯拉的赛博皮卡在特征提取和再生后变得非常普通。

但如果是麦当劳薯条,这种材料丰富的超级超级 IP,效果不错,可以当广告图。试试迪士尼的一些角色,Whisk 复刻得也原模原样,但图片没有放上。

另外,Whisk 还有一个问题——不能做非常详细的风格参考,也不能模仿特定的绘画风格。
当我让 Whisk 生成蒙娜丽莎的乐高小人,结果让我两眼一黑,但又加了一句提示词,「让角色更像乐高人物」,Whisk 它可以模仿70%或80%。

漫画家的绘画风格更难模仿,上传漫画截图让 Whisk 参考,它最终给出了一幅非常普通的漫画风格图片,即使通过提示词强调作品、人物、漫画家,也不起作用。
其实,Whisk 好玩就够了,更适合做一些不追求精准的创意探索,俗称整活。
Whisk 可以翻译为「搅拌」或者「打蛋器」,Google 这个名字有很强的视觉感,但不就是把食材混合在一起吗?
Whisk 它的不准确性也使其定位不同于传统的图片编辑器,更像是一种创造性的工具。它有什么想象力来实现粗略的视觉效果。

Whisk 生成,1.主题图片,火影忍者截图;2.风格图片,毛绒玩具
以前实现 Whisk 我们可能需要这种风格化的效果来运行整个图像生成过程 ComfyUI 搭建工作流。
但现在有了 Whisk,好像在玩抽卡游戏或者开盲盒,只要能登录(限美国),目前还是免费的。
体验指路
https://labs.google/fx/zh/tools/whisk
Google 当然,领先的模型能力是前提和基础,但设计产品仍然需要创造力和审美。
很喜欢 Whisk 的 slogan:「prompt less, play more.」(少写提示词,多玩。)

Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,它也来自这里,后来慢慢发展成为一个成熟的项目。这个实验室本身就是这句话 slogan 最好的注释。
强大的模型能力、创新的产品和开放的心态似乎曾经受到影响 OpenAI 威胁的 Google,风轻云淡地展现了王者归来的姿态。
本文来源:Appso