假如在某天你获得了可以穿越任何影视作品2.5小时的超能力。共有5次机会你会怎么样最大程度上为自己获利?

发布时间：2024-09-03 21:21:13

“I”:视频输入。GPT-4V对视频的理解还相当原始，因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系，但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。

2023年，我们看到了扩散模型推理速度方面的一些重大理论改进，例如Song等人的原始一致性模型论文，以及最近的LCM。（另外，对抗扩散蒸馏。）我们已经开始看到使用这些想法的项目，例如Dan Wood的Art Spew(每秒77512×512图像，在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。

9. 多模态AI将成为新常态。苹果公司的Ferret和特斯拉的FSD正在引领潮流。但挑战也会随之而来。视觉、听觉，甚至是感觉?

如果让我来打比方，我会觉得蛋仔就像是一个承载着这种认同感的「线上迪士尼」——不管什么身份，每个人只要进去，就是童话里的孩子、回家的公主/王子，而这个场景和里面的NPC，都会绝对无条件地守护你这份认同。

重新定义业务运营:

真心实意网

假如在某天你获得了可以穿越任何影视作品2.5小时的超能力。共有5次机会你会怎么样最大程度上为自己获利?