术语表

术语表(Glossary)

本术语表按字母顺序列出了 vLLM 文档中使用的关键术语及其解释。


A

Activation(激活值)

神经网络中间层的输出张量。在推理过程中,激活值存储在 GPU 显存中,占用一定的显存空间。

AllGather(全收集)

分布式通信原语,将所有进程的数据收集到每个进程。用于张量并行中收集分片的输出。

AllReduce(全归约)

分布式通信原语,将所有进程的数据进行归约(如求和)并将结果分发到每个进程。是张量并行中最常用的通信操作。

Attention(注意力)

Transformer 架构的核心机制,用于计算序列中不同位置之间的关联性。通过 Query、Key、Value 三个矩阵计算注意力权重。

AWQ (Activation-aware Weight Quantization)

一种激活感知的权重量化方法,通过保护对输出影响大的通道来减少量化误差。

Async(异步)

vLLM 中的异步编程模式,允许在等待 I/O 或计算完成时处理其他任务,提高整体效率。


B

Batch Size(批大小)

同时处理的请求数量。更大的批大小通常能提高 GPU 利用率和吞吐量。

Block(块)

PagedAttention 中 KV Cache 的基本分配单位。每个块包含固定数量的 token 的 K 和 V 值。

Block Pool(块池)

管理所有物理块的组件,负责块的分配、释放和 LRU 驱逐。

Block Table(块表)

记录逻辑块到物理块映射关系的数据结构。类似于操作系统的页表。

BF16 (Brain Floating Point 16)

Google 开发的 16 位浮点格式,指数位与 FP32 相同,精度略低于 FP16 但动态范围更大。


C

Causal Mask(因果掩码)

在自回归生成中使用的掩码,防止模型看到未来的 token。也称为 Attention Mask。

Chunked Prefill(分块预填充)

将长输入分成多个小块进行处理的技术,可以与 Decode 阶段交错执行,降低延迟。

Continuous Batching(连续批处理)

vLLM 的核心调度策略,允许在每个迭代动态添加或移除请求,提高 GPU 利用率。

Copy-on-Write(写时复制)

内存管理技术,多个请求可以共享相同的 KV Cache 块,只在需要修改时才创建副本。

CUDA

NVIDIA 的并行计算平台和编程模型,用于 GPU 加速计算。

CUDA Graph

NVIDIA 的优化技术,将一系列 CUDA 操作捕获为图形,减少 kernel launch 开销。


D

Data Parallelism(数据并行)

分布式策略,将数据分配到多个设备,每个设备持有完整的模型副本。

Decode(解码阶段)

LLM 生成过程的第二阶段,逐个生成输出 token。特点是计算量小但依赖 KV Cache 读取。

Draft Model(草稿模型)

投机解码中使用的小型模型,快速生成候选 token 供目标模型验证。


E

EAGLE

一种高效的投机解码方法,利用目标模型的隐藏状态来预测 draft token。

Embedding(嵌入)

将离散的 token 映射到连续的向量空间的过程,或指嵌入向量本身。

EngineCore

vLLM V1 中的核心引擎组件,负责调度、执行和状态管理。

Executor(执行器)

负责管理 Worker 进程并协调模型执行的组件。


F

FFN (Feed-Forward Network)

Transformer 中的前馈网络层,通常由两个线性层和一个激活函数组成。

Flash Attention

一种 IO 优化的注意力计算方法,通过减少 GPU 内存访问显著提高效率。

FP8 (8-bit Floating Point)

8 位浮点数格式,有 E4M3 和 E5M2 两种变体,用于高效量化。

FP16 (16-bit Floating Point)

16 位浮点数格式,是 LLM 推理中常用的精度。


G

GELU (Gaussian Error Linear Unit)

一种激活函数,比 ReLU 更平滑,在 Transformer 中广泛使用。

GPTQ

一种基于二阶信息的后训练量化方法,可以将模型量化到 INT4 精度。

GPU Utilization(GPU 利用率)

GPU 计算资源的使用程度。Continuous Batching 的目标之一就是提高 GPU 利用率。


H

Head(头)

多头注意力中的一个注意力头。每个头独立计算注意力,捕获不同类型的关系。

Hidden Size(隐藏层大小)

Transformer 中间表示的维度,也称为模型维度(d_model)。

Hidden States(隐藏状态)

模型中间层的输出,在 EAGLE 等方法中用于指导 draft token 生成。


I

INT4/INT8

4 位或 8 位整数量化格式,用于减少模型显存占用和加速计算。

Iteration-Level Scheduling(迭代级调度)

每个推理迭代重新进行调度决策的策略,是 Continuous Batching 的基础。


K

Key(键)

注意力机制中的 Key 矩阵,与 Query 矩阵相乘计算注意力分数。

KV Cache

存储已计算的 Key 和 Value 的缓存,避免重复计算,是 LLM 推理优化的关键。

KVCacheManager

vLLM 中管理 KV Cache 分配和释放的组件。


L

Latency(延迟)

从请求发送到收到响应的时间。包括 TTFT(首 token 延迟)和 TPOT(单 token 延迟)。

LayerNorm(层归一化)

一种归一化技术,用于稳定训练和提高模型性能。

Linear Layer(线性层)

执行矩阵乘法和可选偏置加法的神经网络层。

LLM (Large Language Model)

大语言模型,通常指参数量在数十亿以上的语言模型。

LRU (Least Recently Used)

最近最少使用的缓存驱逐策略,用于 Block Pool 管理。


M

Marlin

一套高度优化的 CUDA 内核,用于 INT4/INT8 矩阵乘法加速。

Memory Bandwidth(内存带宽)

GPU 内存的数据传输速率,是 Decode 阶段的主要瓶颈。

MLP (Multi-Layer Perceptron)

多层感知机,在 Transformer 中通常指 FFN 层。

Multi-Head Attention(多头注意力)

将注意力分成多个头并行计算,捕获不同类型的依赖关系。


N

NCCL

NVIDIA Collective Communications Library,用于多 GPU 间高效通信。

num_heads(头数)

多头注意力中的头数量,影响模型的表达能力和计算量。

num_layers(层数)

Transformer 中的解码器层数量。


O

Output Processing(输出处理)

将模型输出转换为用户可读格式的过程,包括采样、去分词等。


P

PagedAttention

vLLM 的核心创新,将 KV Cache 分成固定大小的块进行非连续存储,减少显存碎片。

Pipeline Parallelism(流水线并行)

将模型的层分配到不同设备的并行策略,适用于多节点部署。

Position Encoding(位置编码)

向输入添加位置信息的方法,使模型能够理解序列顺序。

Preemption(抢占)

当内存不足时,暂停低优先级请求,释放资源给高优先级请求的机制。

Prefill(预填充阶段)

LLM 生成过程的第一阶段,并行处理所有输入 token 并初始化 KV Cache。

Prefix Caching(前缀缓存)

缓存相同前缀的 KV Cache,供后续请求复用,提高效率。


Q

Quantization(量化)

将高精度数值转换为低精度的技术,用于减少模型大小和加速计算。

Query(查询)

注意力机制中的 Query 矩阵,用于查询与其他位置的相关性。


R

Ray

分布式计算框架,vLLM 使用它进行多节点分布式推理。

Rejection Sampling(拒绝采样)

投机解码中验证 draft token 的方法,确保输出分布与只用目标模型一致。

Request(请求)

用户发送的推理请求,包含输入 prompt 和采样参数。

RMSNorm (Root Mean Square Normalization)

一种简化的归一化方法,计算效率比 LayerNorm 更高。

RoPE (Rotary Position Embedding)

旋转位置编码,通过旋转操作编码位置信息,支持长度外推。


S

Sampler(采样器)

根据模型输出的 logits 选择下一个 token 的组件。

Sampling Parameters(采样参数)

控制文本生成的参数,如 temperature、top_k、top_p 等。

Scale(缩放因子)

量化中用于映射浮点值和整数值的比例因子。

Scheduler(调度器)

决定哪些请求被执行、分配多少资源的核心组件。

Self-Attention(自注意力)

序列对自身进行注意力计算,捕获序列内部的依赖关系。

Sequence Length(序列长度)

输入或输出的 token 数量。

Slot Mapping(槽位映射)

将 token 位置映射到 KV Cache 存储位置的机制。

Softmax

将任意数值转换为概率分布的函数,在注意力计算中用于归一化。

Speculative Decoding(投机解码)

使用小模型预测、大模型验证的加速技术。

Streaming(流式输出)

边生成边返回结果的输出方式,降低用户感知延迟。


T

Temperature(温度)

采样参数,控制输出分布的平滑度。较高温度使输出更随机。

Tensor Parallelism(张量并行)

将模型的权重矩阵切分到多个设备的并行策略。

Throughput(吞吐量)

单位时间内处理的 token 数量,通常以 tokens/s 表示。

Token(词元)

文本的基本单位,由分词器生成。

Tokenization(分词)

将文本转换为 token 序列的过程。

Top-K Sampling

只从概率最高的 K 个 token 中采样的策略。

Top-P Sampling(Nucleus Sampling)

从累积概率达到 P 的 token 集合中采样的策略。

Transformer

基于注意力机制的神经网络架构,是现代 LLM 的基础。

TTFT (Time To First Token)

首 token 延迟,从请求发送到收到第一个输出 token 的时间。


V

Value(值)

注意力机制中的 Value 矩阵,根据注意力权重聚合信息。

vLLM

高效的大语言模型推理引擎,核心创新是 PagedAttention。

Vocab Size(词表大小)

模型支持的不同 token 数量。


W

Weight(权重)

模型的可学习参数,存储在模型文件中。

Worker

执行模型计算的工作进程,在分布式设置中运行在各个 GPU 上。


Z

Zero-Point(零点)

量化中的偏移值,用于非对称量化。


导航

January 28, 2026: vllm cook book (efdcc55)