智谱AI推出新一代基座模型 GLM-4

2024年01月16日,我们在「智谱AI技术开放日(Zhipu DevDay)」推出新一代基座大模型 GLM-4。

我们推出 GLM-4 All Tools、GLMs 智能体、大模型科研基金、大模型开源基金以及「Z计划」创业基金等内容。欢迎前往智谱清言体验 All Tools 以及无代码开发 GLMs 智能体。开发者可通过智谱 MaaS 开放平台体验 GLM-4 128K API、GLM-4V 图片理解和 CogView3 文生图 API。

GLM-4
新一代基座大模型 GLM-4 的整体性能相比上一代大幅提升,十余项指标逼近或达到 GPT-4;支持更长上下文;更强的多模态;支持更快推理速度,更多并发,大大降低推理成本;同时 GLM-4 增强了智能体能力。
基础能力(英文):GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等数据集上,分别达到 GPT-4 94%、95%、91%、99%、90%、100%的水平。
基础能力(英文)
MMLU (5-shot)
GSM8K (5-shot)
MATH (4-shot)
BBH (3-shot)
HellaSwag (10-shot)
HumanEval (0-shot)
GPT-4 86.4 92.0 52.9 83.1 95.3 67.0
Gemini-Ultra 83.7 94.4 53.2 83.6 87.8 74.4
GLM-4 81.5 87.6 47.9 82.3 85.4 72.0
GLM-4 / GPT-4 94% 95% 91% 99% 90% 100%
指令跟随能力:GLM-4 在 IFEval 的 prompt 级别上中、英分别达到 GPT-4 的88%、85%的水平,在 Instruction 级别上中、英分别达到 GPT-4 的90%、89%的水平。
指令跟随能力(中英)
IFEval

Prompt级别、中文

IFEval

Instruction级别、中文

IFEval

Prompt级别、英文

IFEval

Instruction级别、英文

GPT-4 72.4 80.0 79.5 85.4
GLM-4 63.4 71.9 67.7 76.4
GLM-4 / GPT-4 88% 90% 85% 89%
对齐能力:GLM-4 在中文对齐能力上整体超过 GPT-4。
对齐能力(中文)
专业能力
中文理解
基本任务
数学计算
文本写作
综合问答
角色扮演
逻辑推理
中文推理
中文语言
总分
GPT-4 7.94 6.93 7.81 7.65 7.93 7.42 7.51 7.37 7.47 7.59 7.53
GPT-4 Turbo 8.65 7.33 7.99 7.80 8.67 8.61 8.47 7.66 7.73 8.29 8.01
GLM-4 8.91 8.07 7.87 7.75 8.44 8.42 8.58 7.01 7.38 8.38 7.88
GLM-4 / GPT-4 112% 116% 101% 101% 106% 113% 114% 95% 99% 110% 105%
长文本能力:我们在 LongBench(128K)测试集上对多个模型进行评测,GLM-4 性能超过 Claude 2.1;在「大海捞针」(128K)实验中,GLM-4 的测试结果为 128K 以内全绿,做到100%精准召回。

数据统计

相关导航