注意力机制通过权衡上下文词语的重要性来理解语义,核心逻辑是不断追问”什么上下文能帮助我理解这个词”。
人工智能在处理文本前将其分块的方式。
人工智能的”工作记忆”,即模型一次能处理的文本总量。
控制生成随机性,取值范围 0-1:
| 温度值 | 效果 | 适用场景 |
|---|---|---|
| 0 | 确定性输出,每次给出最有把握的答案 | 事实性查询、分析任务 |
| 1 | 创造性输出,承担风险生成多样化内容 | 创意写作、头脑风暴 |
建议:事实性任务使用低温,创意任务使用高温。
本质:AI 并不知道什么是真实,它基于文本模式预测下一个可能出现的词。由于事实和虚构都存在”听起来可靠”的文本模式,模型对两者的置信度相同。
应对策略:
幻觉是结构性问题,而非漏洞,无法通过简单修复彻底解决。
| 模型 | 核心优势 | 最佳适用场景 |
|---|---|---|
| Claude Opus 4.5 | 编码性能、营销写作、长文本处理、电子表格分析 | 代码开发、技术写作、商业分析 |
| Gemini 3 Pro | 实时数据访问、海量文档分析、超长上下文窗口 | 需要最新数据的研究、长文档分析 |
| Grok | 实时社交数据分析 | |
| 社交媒体趋势分析、实时舆情监测 | ||
| Nano Banana Pro | 图像生成 | 视觉内容创作 |
| VEO 3.1 / Kling 2.6 | 视频生成 | 视频内容创作 |
编码和技术写作 → Claude
需要最新信息的研究 → Gemini
长文档分析 → Gemini(上下文窗口优势)
营销文案和品牌声音 → Claude
电子表格工作 → Claude(与 Excel 集成)
社交媒体分析 → Grok
图像生成 → Nano Banana Pro
视频生成 → VEO 3.1 或 Kling 2.6
Claude(XML 标签格式)
Claude 经过 XML 标签训练,对结构化标签响应良好:
<context>
背景信息
</context>
<task>
具体任务指令
</task>
<format>
输出格式要求
</format>
GPT / Gemini(JSON 格式)
需要结构化数据时,使用 JSON 格式效果最佳。
通用格式
XML 标签的作用类似于文档章节标题,能减少歧义,模型根据清晰度给出更好的输出。
核心技巧:在复杂问题前加上”让我们一步一步地思考”。
适用场景:
有效的系统提示应包含四个核心要素:
| 要素 | 说明 | 示例 |
|---|---|---|
| 角色 | AI 应该扮演什么角色 | ”你是一位专门从事科技估值的高级财务分析师” |
| 行为 | 它应该如何互动 | ”在做出假设之前提出澄清问题,并在不确定时承认错误” |
| 限制条件 | 它应该避免什么 | ”不要提供具体的投资建议” |
| 输出结构 | 如何格式化回复 | ”先用两句话概括,然后提供支持性分析” |
真正的杠杆在于情境工程:给模型提供清晰的背景信息,它就能做出更好的决策;缺乏背景信息时,它只能靠猜测。
| 策略 | 定义 | 实现方式 |
|---|---|---|
| 写入 | 将上下文保存到活动窗口之外 | 使用临时文件和参考文件供 AI 访问 |
| 选择 | 筛选需要进入上下文的内容 | 通过 RAG 和动态检索选择相关内容 |
| 压缩 | 在包含冗长信息前进行概括 | 对长文本进行摘要处理,而非全部倾倒 |
| 隔离 | 针对不同上下文使用独立线程 | 使用单独的对话线程或子代理,避免上下文混淆 |
在回答问题之前,系统先搜索文档查找相关信息,并将其加入上下文。
自动化是指无需人工干预即可运行的系统,能够处理输入并产生输出。
MCP(Model Context Protocol)允许 AI 连接到外部工具和数据源,扩展能力边界。
第一阶段:基本功
↓ 培养对 AI 能力的直觉理解
第二阶段:提示与上下文工程
↓ 掌握提示词编写和上下文管理
第三阶段:创意和技术工具
↓ 学习各类专业工具的使用
第四阶段:高级集成
→ 将 AI 能力整合到复杂工作流中