LMDeploy 大模型量化部署实践

主讲人 长琴 HuggingLLM 开源项目负责人

收获:本节课学习了大模型部署背景LMDeploy简介,并在InternStudio平台实现了demo,并体验。

1.1 大模型部署背景

大模型的部署需要根据其特点做相应的优化 。

Screen Shot 2024-01-17 at 9.46.29 AM.png

Screen Shot 2024-01-17 at 9.53.02 AM.png

1.2 LMDeploy简介

LMDeploy是LLM在英伟达设备上部署的全流程解决方案,包括模型轻量化、推理和服务。

Screen Shot 2024-01-17 at 10.02.40 AM.png

LMDeploy在静态推理性能和动态推理性能都很强

Screen Shot 2024-01-17 at 10.23.05 AM.png

LMDeploy的核心功能是量化、推理引擎、服务

首先是量化

Screen Shot 2024-01-17 at 11.01.59 AM.png

Screen Shot 2024-01-17 at 11.03.15 AM.png

Screen Shot 2024-01-17 at 11.21.43 AM.png

然后是推理引擎TurboMind

Screen Shot 2024-01-17 at 11.22.32 AM.png

Screen Shot 2024-01-17 at 11.23.35 AM.png