智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

admin · 发表于 2025-1-18 15:50:03

金磊发自凹非寺

量子位 | 公众号 QbitAI

终于，在2024年的最后一天，智谱版o1也来了！

名字叫做GLM-Zero-Preview，Zero推理模型（下文简称Zero模型），自称是擅长通过逻辑推理来解决数理问题。

既然如此，那么我们就直接一套2024年考研数学真题来伺候一下吧~

规则也很简单，就是把真题的题目以截图的方式“喂”给Zero模型，这样也可以顺便考验一下它的视觉理解能力。

例如我们小试牛刀地截取第一道函数选择题：

这道题怎么解？

从Zero模型生成的结果来看，主要分为四大部分：

读题审题深度思考解题步骤最终答案

有意思的是，Zero模型在深度思考过程中，它的思维方式像极了人类，而且每一步思考也描述的非常详细，最终给出了正确答案：C。

但同样的问题给到了ChatGPT o1……Emmm，先败在了“识图”这一步。

再来第二道测试题——线性代数：

还是同样的“配方”，来看下Zero的解题过程：

Zero模型按照逻辑顺序一步步拆解了这个问题，从基本定义、条件推导到最终结果，展示了较为清晰的解题思路。

在过程中，Zero模型对关键条件还进行了分步分析，同时对结果的数学意义进行了验证。

最终，依旧是给出了正确答案：D。

在函数、线性代数之后，我们再来一道概率统计：

我们来看下Zero模型的解析过程：

回答依然正确：D。

在尝试不同类型的选择题之后，我们不妨再来测一波大题。

直接上压轴题！

值得注意的一点是，这道题需要同时解答两个问题，我们来看下结果：

Zero模型统统答对了！

看来智谱版o1敢把“擅长数理问题”直接打出来，确实是有点东西在身上的。

据官方介绍，同基座模型相比，GLM-Zero-Preview 在不显著降低通用任务能力的情况下，在专家任务能力方面表现大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench评测中，已经取得了与OpenAI o1-preview相当的效果。

而且有一说一，抛出解析过程和结果，相比其它类o1大模型来说，单是整体的布局这块，不论是文字和公式，似乎更加符合数学之美。

但毕竟数学还是只是评测大模型推理能力的维度之一，因此，我们继续开启更多维度的“极限挑战”。

一句话让马斯克跳舞变字符画

代码编程能力，同样也是类o1推理模型重要的一面。

我接下来就实测一下Zero模型能否用一句话生成小游戏：

用HTML做一个贪吃蛇。

Zero模型根据要求，一步一步推理过后生成了一段完整的代码（上下滑动查看所有内容）：

然后我们只需复制粘贴到了IDE里，并在浏览器中运行，一个可玩的简单版贪吃蛇游戏就做好了。

再来一个有意思的：

HTML实现动态黑客帝国雨，全屏幕，竖着下，错落有致，敏感交错。

我们同样先来看下生成出来的代码（上下滑动查看所有内容）：

还是一个复制粘贴的动作，来看下效果：

嗯，确实是有点那个味道了。

或许你会说，这些代码功能过于简单了，别急，我们这就来上点难度——

把马斯克跳舞名场面视频，一句话变成字符画版本！

我们的Prompt是这样的：

在Mac中，用Python把输入视频内容变成字符画，然后再输出一个新的视频。

然后Zero模型就给出了代码（上下滑动查看所有内容）：

同样仅需复制粘贴，然后设置一些输入、输出文件的路径，运行代码后我们就可以得到这样的视频啦：

（PS：背景音乐为后期所配）

视频地址：

如果想再来点颜色，也是一句话的是：

在上面的代码基础上，进行彩色化处理。

视频地址：

由此可见，Zero模型在代码生成方面可以说是过关的。

		自动登录	找回密码
密码			立即注册