AI 多模态基础
基础 大师课

AI 多模态基础

探索 AI 如何连接文本、视觉与音频,实现与真实世界的深度交互。

总时长
90m
授课形式
混合
适合人群
10+
立即报名

详细课程大纲

阶段 01

视觉智能

模型如何"看懂"图像并描述视觉世界。

阶段 02

语音技术

类人语音生成与实时对话背后的技术。

阶段 03

跨模态创作

利用一种媒介驱动另一种媒介(如文生视频)。

实战项目示例

AI 视觉讲故事助手

项目使命

构建一个能根据你拍摄的照片自动生成故事的应用。

技术与工具
Gemini VisionStreamlit
最终成果

一个能将现实环境叙事化的交互式演示原型。