admin 发表于 2025-1-18 15:50:03

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

终于,在2024年的最后一天,智谱版o1也来了!

名字叫做GLM-Zero-Preview,Zero推理模型(下文简称Zero模型),自称是擅长通过逻辑推理来解决数理问题。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2Ff66d6522j00spc5gv003kd000hs00b2m.jpg&thumbnail=660x2147483647&quality=80&type=jpg

既然如此,那么我们就直接一套2024年考研数学真题来伺候一下吧~

规则也很简单,就是把真题的题目以截图的方式“喂”给Zero模型,这样也可以顺便考验一下它的视觉理解能力。

例如我们小试牛刀地截取第一道函数选择题:

这道题怎么解?

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2Fb9928b7ej00spc5gv0035d000hs006vm.jpg&thumbnail=660x2147483647&quality=80&type=jpg

从Zero模型生成的结果来看,主要分为四大部分:

读题审题深度思考解题步骤最终答案

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F80841fa9j00spc5gv0032d000hs01wfm.jpg&thumbnail=660x2147483647&quality=80&type=jpg

有意思的是,Zero模型在深度思考过程中,它的思维方式像极了人类,而且每一步思考也描述的非常详细,最终给出了正确答案:C。

但同样的问题给到了ChatGPT o1……Emmm,先败在了“识图”这一步。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F74e0954bj00spc5gv0022d000hs00c4m.jpg&thumbnail=660x2147483647&quality=80&type=jpg

再来第二道测试题——线性代数:

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F3908c7d0j00spc5gu000fd000hs007im.jpg&thumbnail=660x2147483647&quality=80&type=jpg

还是同样的“配方”,来看下Zero的解题过程:

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F98e422a3j00spc5gz00qsd000hs04lam.jpg&thumbnail=660x2147483647&quality=80&type=jpg

Zero模型按照逻辑顺序一步步拆解了这个问题,从基本定义、条件推导到最终结果,展示了较为清晰的解题思路。

在过程中,Zero模型对关键条件还进行了分步分析,同时对结果的数学意义进行了验证。

最终,依旧是给出了正确答案:D。

在函数、线性代数之后,我们再来一道概率统计:

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2Fba8fb0a2j00spc5gv0023d000hs005jm.jpg&thumbnail=660x2147483647&quality=80&type=jpg

我们来看下Zero模型的解析过程:

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F3cda08baj00spc5gv003kd000hs02oym.jpg&thumbnail=660x2147483647&quality=80&type=jpg

回答依然正确:D。

在尝试不同类型的选择题之后,我们不妨再来测一波大题。

直接上压轴题!

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F5995ee57j00spc5gv0034d000hs005nm.jpg&thumbnail=660x2147483647&quality=80&type=jpg

值得注意的一点是,这道题需要同时解答两个问题,我们来看下结果:

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2Fa5d1cd45j00spc5gv001sd000hs01ajm.jpg&thumbnail=660x2147483647&quality=80&type=jpg

Zero模型统统答对了!

看来智谱版o1敢把“擅长数理问题”直接打出来,确实是有点东西在身上的。

据官方介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench评测中,已经取得了与OpenAI o1-preview相当的效果。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2Fd0bcc241j00spc5gu000id000hs008fm.jpg&thumbnail=660x2147483647&quality=80&type=jpg

而且有一说一,抛出解析过程和结果,相比其它类o1大模型来说,单是整体的布局这块,不论是文字和公式,似乎更加符合数学之美。

但毕竟数学还是只是评测大模型推理能力的维度之一,因此,我们继续开启更多维度的“极限挑战”。

一句话让马斯克跳舞变字符画

代码编程能力,同样也是类o1推理模型重要的一面。

我接下来就实测一下Zero模型能否用一句话生成小游戏:

用HTML做一个贪吃蛇。

Zero模型根据要求,一步一步推理过后生成了一段完整的代码(上下滑动查看所有内容):

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F439c7b58j00spc5gv003sd000hs0259m.jpg&thumbnail=660x2147483647&quality=80&type=jpg

然后我们只需复制粘贴到了IDE里,并在浏览器中运行,一个可玩的简单版贪吃蛇游戏就做好了。

http://dingyue.ws.126.net/2024/1231/2d454013g00spc5gw0bygd000hs009tm.gif

再来一个有意思的:

HTML实现动态黑客帝国雨,全屏幕,竖着下,错落有致,敏感交错。

我们同样先来看下生成出来的代码(上下滑动查看所有内容):

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F813a37e2j00spc5gv002kd000hs01bom.jpg&thumbnail=660x2147483647&quality=80&type=jpg

还是一个复制粘贴的动作,来看下效果:

http://dingyue.ws.126.net/2024/1231/79149031g00spc5gw0a63d000hs009um.gif

嗯,确实是有点那个味道了。

或许你会说,这些代码功能过于简单了,别急,我们这就来上点难度——

把马斯克跳舞名场面视频,一句话变成字符画版本!

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F1fe8f98dj00spc5gw007kd000hs009am.jpg&thumbnail=660x2147483647&quality=80&type=jpg

我们的Prompt是这样的:

在Mac中,用Python把输入视频内容变成字符画,然后再输出一个新的视频。

然后Zero模型就给出了代码(上下滑动查看所有内容):

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F856e53dbj00spc5gv0036d000hs01o8m.jpg&thumbnail=660x2147483647&quality=80&type=jpg

同样仅需复制粘贴,然后设置一些输入、输出文件的路径,运行代码后我们就可以得到这样的视频啦:

(PS:背景音乐为后期所配)

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2Fce9ccf2dj00spc5ie004ld000v900nap.jpg&thumbnail=660x2147483647&quality=80&type=jpg

视频地址:

如果想再来点颜色,也是一句话的是:

在上面的代码基础上,进行彩色化处理。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1231%2F35b3b578j00spc5j4007kd000v900n9p.jpg&thumbnail=660x2147483647&quality=80&type=jpg

视频地址:

由此可见,Zero模型在代码生成方面可以说是过关的。
页: [1]
查看完整版本: 智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!