
vllm-project/vllm:为大型语言模型提供高吞吐量和内存高效的推理及服务引擎
2024-07-22 15:54
项目简介 vLLM 是一个开源的推理和服务引擎,专为大型语言模型(LLM)设计,以其高吞吐量和内存效率而闻名。它支持快速模型执行,采用 CUDA/HIP 图形优化,并通过 PagedAttention 技术有效管理注意力键值内存。vLLM 支持多种解码算法,如并行采样、波束搜索等,并可通过流输出和开