LLM基础知识
名词解释
Multimodal(多模态)
简单来说,多模态就是让 AI 能够理解和处理 多种类型的信息,比如 文字、图片、声音、视频 等,而不是只处理单一类型的数据(比如只有文字)。
就像人类一样,我们不只是用“看”来理解世界,还会 听、说、触摸、闻,AI 也是这样,多模态让 AI 变得更聪明,能同时处理不同类型的信息。
TPS(tokens per second)
大模型的 Inference 速度(推理速度) 指的是 AI 模型在接受输入后,生成输出的速率,通常以 tokens/秒(tokens per second, TPS) 作为衡量单位。例如,“150 tokens/秒” 意味着该模型每秒可以生成 150 个 token。
Context Window / 上下文窗口
大模型的上下文窗口(Context Window)
上下文窗口(Context Window) 指的是 大模型在推理(Inference)时能够记住的 Token 数量,决定了模型一次能够处理的文本长度。
1. 上下文窗口的基本概念
- 定义:模型可以在一次推理中处理的 最大 Token 数,包括输入和输出。
- 单位:上下文窗口的大小通常以 token 计算,例如 2048 tokens、8192 tokens、1M tokens(100 万)。
- 影响:上下文窗口越大,模型能“记住”的信息就越多,适合处理长文档、代码分析等任务。
2. 上下文窗口的工作方式
(1) Token 计数方式
- 1 个 Token 可能是 1 个单词、1 个子词、1 个字符,具体取决于模型的 Tokenizer。
- 例如:
- “Artificial Intelligence” ≈ 2 tokens(拆分成 “Artificial” 和 “Intelligence”)。
- “我喜欢人工智能” ≈ 6 tokens(“我” “喜欢” “人工” “智能”)。
- 一般英文文本 1 词 ≈ 1.3 tokens,汉字 1 字 ≈ 1 token。
(2) 输入和输出共享上下文窗口
假设 模型上下文窗口 = 4096 tokens,那么:
- 如果输入 3000 tokens,模型最多还能输出 1096 tokens。
- 如果输入 4096 tokens,则无法再输出内容,必须删减输入。
4. 上下文窗口对推理速度和成本的影响
(1) 上下文窗口越大,推理速度越慢
- 计算复杂度:标准 Transformer 的 Attention 计算复杂度为 O(N²),N = token 数,上下文越长,推理越慢。
- 优化方案:
- KV Cache(Key-Value Cache)可以缓存历史信息,减少重复计算,加速推理。
- FlashAttention 通过减少显存占用提高推理速度。
(2) 上下文窗口越大,显存需求越高
- 大窗口模型需要更多显存,例如:
- 4096 tokens:约 16GB VRAM(Llama 7B)
- 32K tokens:可能需要 48GB VRAM(GPT-4-32K)
- 100K tokens 以上:通常只在 云端 TPU/GPU 运行
- 解决方案:部分模型使用**滑动窗口(Sliding Window Attention)或稀疏注意力(Sparse Attention)**来减少显存占用。
5. 长上下文窗口的应用场景
(1) 代码理解与分析
- 读取和分析 大型代码库(如 50K~100K tokens)。
- 例如 Claude 3、GPT-4-Turbo 适合代码审查。
(2) 长文档摘要与处理
- 法律、医学、技术文档,直接处理 100K+ tokens。
- 例如 Gemini 1.5 能一次读完 整本书。
(3) 多轮对话与长期记忆
- 过去模型在对话中会遗忘之前的内容,长上下文窗口能保持更连贯的对话。
6. 如何应对上下文窗口的限制?
如果模型的上下文窗口不足,可以采用以下方法:
(1) 摘要与分块
- 先让模型总结重要信息,再输入新的内容,减少 Token 占用。
- 例如:用 GPT 先压缩 10K tokens 的文本为 2K tokens,再传入 Llama 2(4096 tokens)。
(2) 知识检索(RAG, Retrieval-Augmented Generation)
- 外部数据库 + 向量搜索,让模型从外部知识库中查找相关内容,而不是硬塞到上下文窗口里。
- 例如:
- LlamaIndex, LangChain 结合 FAISS 向量搜索。
- ChatGPT 结合 企业级检索(如 Bing, Google)。
(3) 记忆机制(Long-Term Memory)
- 存储用户历史对话,在未来使用时动态插入,避免浪费上下文窗口。
- 例如 OpenAI 的 记忆功能(memory system)。