智谱AI推出中文大模型对齐评测基准AlignBench

智谱AI发布了针对中文大模型的首个评测基准AlignBench,可以在多个维度上对模型与人类意图的对齐水平进行细致评估。AlignBench建立了一个综合全面的分类体系,分为8个大类。为了实现自动化和可复现性,AlignBench采用评分模型(GPT-4、CritiqueLLM)为每个模型的回答打分,分数范围为1-10,代表回答的质量。

智谱AI推出中文大模型对齐评测基准AlignBench

智谱AI使用gpt-4-0613和CritiqueLLM作为评分模型,对17个中文大模型进行了评估。结果显示,相较于GPT-4,在逻辑推理能力上,中文大模型存在较大差距,但在中文相关能力(尤其是中文理解类)方面,表现相近甚至更好。顶尖的开源模型在对齐性方面接近闭源模型,已经处于同一水平。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索

亲爱的同学, AISCK不支持网页右键喔!

你可以鼠标左键选择内容后,按Ctrl+C复制

嗨! 我是AI助手Ceres