LLM基础知识

三月 19, 2025

名词解释

简单来说，多模态就是让 AI 能够理解和处理多种类型的信息，比如文字、图片、声音、视频等，而不是只处理单一类型的数据（比如只有文字）。

就像人类一样，我们不只是用“看”来理解世界，还会听、说、触摸、闻，AI 也是这样，多模态让 AI 变得更聪明，能同时处理不同类型的信息。

大模型的 Inference 速度（推理速度）指的是 AI 模型在接受输入后，生成输出的速率，通常以 tokens/秒（tokens per second, TPS）作为衡量单位。例如，“150 tokens/秒” 意味着该模型每秒可以生成 150 个 token。

上下文窗口（Context Window） 指的是 大模型在推理（Inference）时能够记住的 Token 数量，决定了模型一次能够处理的文本长度。

1 个 Token 可能是 1 个单词、1 个子词、1 个字符，具体取决于模型的 Tokenizer。
例如：
- “Artificial Intelligence” ≈ 2 tokens（拆分成 “Artificial” 和 “Intelligence”）。
- “我喜欢人工智能” ≈ 6 tokens（“我” “喜欢” “人工” “智能”）。
- 一般英文文本 1 词 ≈ 1.3 tokens，汉字 1 字 ≈ 1 token。

假设 模型上下文窗口 = 4096 tokens，那么：

计算复杂度：标准 Transformer 的 Attention 计算复杂度为 O(N²)，N = token 数，上下文越长，推理越慢。
优化方案：
- KV Cache（Key-Value Cache）可以缓存历史信息，减少重复计算，加速推理。
- FlashAttention 通过减少显存占用提高推理速度。

大窗口模型需要更多显存，例如：
- 4096 tokens：约 16GB VRAM（Llama 7B）
- 32K tokens：可能需要 48GB VRAM（GPT-4-32K）
- 100K tokens 以上：通常只在 云端 TPU/GPU 运行
解决方案：部分模型使用**滑动窗口（Sliding Window Attention）或稀疏注意力（Sparse Attention）**来减少显存占用。

如果模型的上下文窗口不足，可以采用以下方法：

外部数据库 + 向量搜索，让模型从外部知识库中查找相关内容，而不是硬塞到上下文窗口里。
例如：
- LlamaIndex, LangChain 结合 FAISS 向量搜索。
- ChatGPT 结合 企业级检索（如 Bing, Google）。