OpenCompass 大模型评测

主讲人 曹茂松 OpenCompass 核心开发者

收获:本节课学习了大模型评测背景OpenCompass简介,并在InternStudio平台实现了demo,并体验。

1.1 大模型评测背景

模型评测的三个关键问题如下:

Screen Shot 2024-01-23 at 9.21.56 AM.png

为什么需要做评测?

场景模型很多,需要做评测来建立一个公平的评价,也需要评测来知道模型的边界,从而进一步指导模型变得更强

Screen Shot 2024-01-23 at 9.22.59 AM.png

需要评测什么?

Screen Shot 2024-01-23 at 9.24.35 AM.png

大模型时代,需要评测维度很多,比如知识语言推理、长文本生成、Agent使用工具能力、以及多轮对话能力、情感、认知,以及各个垂直领域如法律、医疗等。

如何去评测大语言模型?

Screen Shot 2024-01-23 at 9.27.40 AM.png

Screen Shot 2024-01-23 at 9.28.05 AM.png

模型评价模型(主观能力)

Screen Shot 2024-01-23 at 9.28.56 AM.png

通过prompt engerniering来测试模型对prompt的鲁棒性,对所有prompt都能回答正确,才是具有鲁棒性的。

Screen Shot 2024-01-23 at 9.29.43 AM.png

1.2 主流大模型评测框架