参考资料

参考资料(References)

本文档汇总了学习 vLLM 和 LLM 推理优化所需的关键参考资料。


官方资源

vLLM 官方


核心论文

PagedAttention

  • Efficient Memory Management for Large Language Model Serving with PagedAttention

Transformer 架构

Flash Attention

  • FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

  • FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

投机解码

  • Fast Inference from Transformers via Speculative Decoding

  • EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

  • Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

量化技术

  • AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

  • GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

  • FP8 Formats for Deep Learning

分布式并行

  • Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

  • GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism


深度学习基础

书籍

  • Deep Learning (花书)

  • Dive into Deep Learning (动手学深度学习)

    • 作者: Aston Zhang, Zachary C. Lipton, et al.
    • 链接: https://d2l.ai/
    • 要点: 实践导向的深度学习教程

在线课程


GPU 和 CUDA

NVIDIA 官方

性能优化


相关项目

推理引擎

量化工具

模型库


技术博客

LLM 推理

vLLM 相关


社区资源

讨论论坛

GitHub Issues


学习路径建议

入门阶段

  1. 阅读《动手学深度学习》Transformer 章节
  2. 阅读 “The Illustrated Transformer”
  3. 了解 vLLM 基本使用

进阶阶段

  1. 阅读 PagedAttention 论文
  2. 阅读 Flash Attention 论文
  3. 学习 vLLM 源码中的核心模块

深入阶段

  1. 阅读量化相关论文(AWQ、GPTQ)
  2. 阅读投机解码论文(Speculative Decoding、EAGLE)
  3. 了解分布式并行(Megatron-LM)

导航

January 28, 2026: vllm cook book (efdcc55)