探索 AI 如何连接文本、视觉与音频,实现与真实世界的深度交互。
模型如何"看懂"图像并描述视觉世界。
类人语音生成与实时对话背后的技术。
利用一种媒介驱动另一种媒介(如文生视频)。
构建一个能根据你拍摄的照片自动生成故事的应用。
一个能将现实环境叙事化的交互式演示原型。