AI 多模态基础

基础大师课

AI 多模态基础

探索 AI 如何连接文本、视觉与音频，实现与真实世界的深度交互。

总时长

90m

授课形式

混合

适合人群

10+

详细课程大纲

阶段 01

视觉智能

模型如何"看懂"图像并描述视觉世界。

阶段 02

语音技术

类人语音生成与实时对话背后的技术。

阶段 03

跨模态创作

利用一种媒介驱动另一种媒介（如文生视频）。

实战项目示例

AI 视觉讲故事助手

项目使命

构建一个能根据你拍摄的照片自动生成故事的应用。

技术与工具

Gemini VisionStreamlit

最终成果

一个能将现实环境叙事化的交互式演示原型。