AI应用开发

一套从模型 API 闭环、结构化输出、工具调用、RAG、评测、观测、安全到上线治理的 AI 应用开发课程。新版完全重建内容，不沿用旧版章节正文。

14 个章节更新 2026年5月28日

AI应用开发LLMRAGAgent教程

开始阅读查看章节

Chapters

章节目录

先把 AI 应用当成系统，而不是聊天框

本课将带你跳出“单点 Prompt 调试”的思维误区，建立企业级 AI 应用的“对象地图”。我们将拆解模型层、应用层、数据层与工具层的边界，并引入 NIST 风险管理框架，帮助你设计一个可观测、控风险的系统架构。

打通第一个多 Provider 模型请求

掌握主流 AI API (OpenAI、Claude、Gemini) 的请求与响应结构差异，并通过手写适配层与引入 Vercel AI SDK 两种方式，实现多 Provider 的调用归一化，将平台差异隔离在业务逻辑之外。

把 Prompt 写成任务协议

本课程帮助开发者摆脱文案式的 Prompt 编写方法，将其重构为包含输入边界、Schema 级别输出、成功标准和黄金/失败样例的结构化任务协议，为后续的自动化评测打下基础。

结构化输出不是格式化，而是业务门禁

本指南将带你打破“JSON 格式正确等于数据合规”的误区。你将学习如何结合 JSON Schema、Zod 与大模型厂商的内置 Structured Outputs 机制，构建一个包含 Schema 校验、业务规则拦截和事实核验的三层门禁系统，并实现高可用的错误恢复与降级流程。

把等待时间拆成事件：流式响应实战

掌握 Server-Sent Events (SSE) 协议原理与 ReadableStream 标准，通过 Vercel AI SDK streamText 构建高感知的流式 AI 接口，掌握前端消费、流中断拦截与 OpenTelemetry 观测方法。

Tool Calling：模型提出动作，应用执行动作

掌握 Tool Calling 的底层逻辑与安全边界。本课将剖析 JSON Schema 的编写、各大模型厂商的工具调用通信循环、参数防御性校验以及应用层的安全执行权控制，并交付一个带完整可观测日志的任务创建闭环。

有副作用的工具要先设计刹车

本教程引导开发者在为大模型 Agent 接入写数据库、发邮件、支付等高风险“有副作用”的工具时，如何通过工具风险分级、幂等键设计、人工确认流（HITL）及 MCP 信任边界，构建可控的、带安全刹车机制的生产级系统。

RAG 的第一性问题：答案从哪里来

本指南从事实来源治理的视角，深入探讨 RAG 系统中知识切块、元数据设计、向量检索限制以及事实追踪的完整工程链路。通过 TypeScript 与 LlamaIndex 实例，帮助开发者摆脱“向量即真理”的误区。

让 RAG 回答经得起追问

本单元通过 LlamaIndex TypeScript 与评测框架，带你深入攻克 RAG 应用“答得像”却“答得错”的硬伤。我们将建立黄金测试集，量化检索命中、引用、拒答和可信度，并对照 OWASP 2025 与 NIST 风险规范建立防范间接注入的安全评测。最后你将输出一套失败分类表与改进实验记录，让 RAG 系统的优化有据可依。

长上下文、会话状态与记忆压缩

掌握长上下文模型下的会话管理技巧，学会在 Token 预算约束内设计高性价比、安全的记忆压缩与状态转移机制。

Agent 工作流要像状态机一样可恢复

本指南介绍如何将多步 Agent 拆解为具有确定性状态、Token 预算、人工审核拦截、失败恢复和详尽日志的可控状态机工作流。通过对比主流模型 API（OpenAI, Anthropic, Gemini）的工具调用规范与 Model Context Protocol (MCP) 边界，帮助开发者构建具备灾备能力、可暂停且可恢复的生产级 AI 代理应用。

评测工程：用样例集防止应用退化

本指南介绍如何将大模型应用评测融入日常开发流。通过建立黄金数据集、设计清晰的评审规则、编写自动化评测脚本、配置 CI/CD 门禁以及配置线上负反馈捕获，防止提示词或模型版本迭代时应用发生静默退化。

可观测性与安全：线上问题要能被看见

本指南介绍如何为生产级 AI 应用设计符合规范的 OpenTelemetry GenAI 追踪、度量指标、OWASP Top 10 安全映射以及敏感数据脱敏策略，解决线上黑盒故障排查难题。

上线不是结束：路由、灰度、回滚和治理复盘

本单元聚焦于 AI 应用生产上线的最后一步，围绕路由分发、灰度发布、异常降级、工具调用幂等性、安全防线以及基于 OpenTelemetry 的观测系统，提供一份完整的生产上线方案与大作业 Rubric 评测标准。