06 书生·浦语大模型实战营

OpenCompass 大模型评测

主讲人曹茂松 OpenCompass 核心开发者

收获：本节课学习了大模型评测背景、OpenCompass简介，并在InternStudio平台实现了demo，并体验。

模型评测的三个关键问题如下：

Screen Shot 2024-01-23 at 9.21.56 AM.png

为什么需要做评测？

场景模型很多，需要做评测来建立一个公平的评价，也需要评测来知道模型的边界，从而进一步指导模型变得更强

Screen Shot 2024-01-23 at 9.22.59 AM.png

需要评测什么？

Screen Shot 2024-01-23 at 9.24.35 AM.png

大模型时代，需要评测维度很多，比如知识语言推理、长文本生成、Agent使用工具能力、以及多轮对话能力、情感、认知，以及各个垂直领域如法律、医疗等。

如何去评测大语言模型？

Screen Shot 2024-01-23 at 9.27.40 AM.png

Screen Shot 2024-01-23 at 9.28.05 AM.png

模型评价模型（主观能力）

Screen Shot 2024-01-23 at 9.28.56 AM.png

通过prompt engerniering来测试模型对prompt的鲁棒性，对所有prompt都能回答正确，才是具有鲁棒性的。

Screen Shot 2024-01-23 at 9.29.43 AM.png