Midjourney 创始人 Holz:人工智能应该是思想的延伸

在近期的 WAIC 2023 产业发展论坛上,Midjourney 的创始人兼首席执行官 David Holz 以视频的方式发表演讲。David Holz 在演讲中表达了自己对于中国的喜爱,并透露 Midjourney 的名字就出自道家的《庄子》。Holz 还在演讲中透露了 Midjourney 下个版本的功能,以及他本人对于人工智能产品的开发。

src=以下为 David Holz 演讲实录:我是 Midjourney 的创始人兼首席执行官 David Holz。 感谢陈先生和上海市政府今天的邀请。 我很荣幸参与此次 WAIC,我期待有一天能亲自到场参与。

Q:请问 Midjourney 为AI行业做出了怎样的贡献,对艺术家、设计师和媒体制作人意味着什么?A:我认为世界上最重要的技术之一是引擎。 引擎是产生、传递和放大行动的机器。我们用引擎来建各种车辆、飞机和船只。重要的是,要把人工智能看作是一种新的引擎。 在 Midjourney,我们正试图用这种引擎来建造一种新的车辆,不是一种实体的交通工具,而是我们思想和想象力的交通工具,就像你用汽车在世界中行动一样。我希望我们可以创造一种交通工具,不是用来移动,而是想象。我认为在我们创造之前,首先必须想象,我们能成为什么?我们能去哪里?想想我们的一切可能。我认为正在制造的工具比任何东西都更注重放大想象力的原始力量。 我认为从广义上讲,这是一个机会,整个人类可以有效的想想。

Q:您提到在 Leap Motion 构建硬件时曾访问过中国,您能告诉我们跟读欧冠与您与中国和上海的联系吗?A:我过去曾多次带着 Leap Motion 访问中国。 Leap Motion 的第一个国际办公室在上海,我很喜欢上海的环境和风格,感觉古典与现代共存,像是各种城市。比如旧金山、纽约、欧洲一些古老城市和中国风格在一个地方可以同时享受。 它有那种古老历史的力量,有一种现实和未来的兴奋,那真的是非常,非常的酷。我最喜欢读的两本书是科幻小说和中国古代文学。 我认为中国古代文学有一些最美丽、对人类历史有深度的思考。 Midjourney 这个名字实际上来自我最喜欢的一个道家书籍一个译本,它来自《庄子》。我喜欢这个名字。 我之所以喜欢 中道 翻译的这个词,是因为我觉得有时候很容易忘记过去。 很容易产生这样的感觉,对未来感到迷失和不确定。但更多的是,我觉得我们实际上是在旅途中,我们来自这个丰富和美丽的过去。 而在我们面前的是这个疯狂和不可想象的宝贵未来。

Q:恭喜 Midjourney 推出了 V5.2!您能告诉我们更多关于 MidJourney 的最新功能以及未来版本的计划吗?A:因此,我们最近发布了 5.2 版本的 Midjourney,在主要版本发布之前开发 5.3. 我希望称之为第六版。 我们引入的最新功能是扩图,并能通过文本提示进行生成。所以当你放大时,你可以围绕中心主题创造不同的故事。本周我们发布了一个类似的功能,也就是 PAN,他允许用户平移镜头。然后当你横向移动相机时可以不断改变提示,然后讲故事。我们还发布了 /weird 这个智灵功能,这是一种结合起来,能对图像进行更多控制的方法。 你可以把它和 /style 功能结合起来。名字有点混乱,但想法是你要能够告诉人工智能做出多么漂亮的东西,以及你愿意冒多少风险,使这种美变得不传统、混乱的,怪异一点的。这让人们可以控制风险性和随机性之间的平衡,也可以控制对图像的传统美感的关注程度。我们还引入了我们称之为涡轮模式的东西。 涡轮模式是指我们尽可能多地使用 GPU,使图像生成变得非常快。 我想他快乐 4 或 5 倍。 我想你实际上是在同时使用 64 个 A100 显卡,这相当于超过一般的 100 我哪美元的计算机。这有点疯狂,但我们还在研究更疯狂的技术。虽然一些功能实现还需要很长时间,但我们认为随着时间推移,Midget 将发展到不仅创造 2D 图像,还可以创造 3D 图像、移动图像以及和像素直接交互。所有的一切都在不断的流动和改变, 完全根据画面风格试试相应。也许在未来,人们可以有一个巨大的人工智能处理器,所有这些不同的世界和梦境与我们的思想互动。

Q:由于生成模型和扩散模型的出现,人工智能的能力似乎有了显著的飞跃。您如何评价迄今为止这些领域的进展?其他人工智能领域呢?

A:关于 Diffusion 模型、transformer 模型和 GLIP 模型的发现发现让我真正进入了图像空间。 那是大约 2 年前,在任何服务出来之前,我们只是在旧金山讨论。我记得所有的研究人员都说,当时我觉得觉得这些,特别是 Diffusion 模型在出现时让我感到非常不同,尤其是与过去最先进的 GAN 模型相比,那是以前大家用来生成图像的东西。我只记得每个人都以一种不寻常的方式立即点头,说 Diffusion 模型真的很不一样。这感觉的真的很真切,感觉像是我必须参与的事情,并试图带来一个更人性化的用户界面。但就未来而言,很难确切地知道技术是什么样子的。 有时我们现在谈论语言模型将如何向 Diffusion 模型发展,也就是说,也许我们会使用 Diffusion 模型来制作文本。 或者图像模型会变得更像语言模型。或者蔚来可能会变成混合模型。 这真的很难说。 我认为我们在这个领域仅仅只是开始,但我百分之一百确定有很多进展要去的。 10 倍甚至 100 倍的进展是很有可能的。 在这个层面上的进步不仅仅是在原始性能上,而是在用户界面和产品上,这些产品允许我们使用这些原始技术,无论单独使用还是共同使用,制造真正的酷的东西,它们可以变得更好并解决问题。

Q:我们如何以更人性化的方式使用人工智能?Midjoyrney 对此有何看法?A:Douglas Engelbart 实际上是第一个创造文本编辑器的人。 那个时候用的是打孔卡,在卡上打孔来给计算机编程。但后来 Douglas 想了想说,如果我们用计算机编程会怎么样?这在当时听起来很疯狂。 这个想法是,通过在计算机上编程,可以加速循环,使我们更有效的操作,使计算机变得更好并放大一切。那个想法成功了,虽然我们有这些不同的文化,如人工智能,还有 hci(人机界面),智能应用文化,但我认为到目前为止,技术上的大部分进步都来自于努力让人变得更有效,并增强人们的能力。 其实我们还没有真正看到所谓的 AGI 时代真正到来。比如一些独立的 AI 自己独立的操作,无需用户交互。去解决一些问题,我认为如果我们在这方面想的太多,我们可能错过技术领域的很多机会。我想了很多,不仅仅是人工智能能做什么,而是如何在不同的事物之间创造流动和羁绊,因为一个工具不应该感觉像一个人。 它应该感觉是你自己、你的身体,你的思想的延伸。我想了很多关于如何建立这些技术,这种交织感觉应该不是你在和艺术家一起工作,而是你几乎只是在想象一些东西,然后它就出现在屏幕上。 很多人这样描述了 Midjounery 给他们的感觉,感觉这几乎是他们思想的一部分。 我认为这就是很多人工智能应该是这样的,他应该感觉像是我们的延伸。 所以我想再次感谢陈先生和所有的观众,很高兴参加这次活动,希望下次能到现场参加。。我期待能与中国有更多的合作,我记得我在中国的所有美好经历,希望大家也喜欢与中国的互动。 谢谢。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注