不仅能达 IMO 金牌水准,更能解决普特南数学竞赛难题炒股配资交流,甚至超越顶尖模型 o4-mini!
字节发布全新复杂数学解决模型——Seed-Prover。
该模型全面超越了谷歌的 AlphaGeometry2,并在 MiniF2F 数据集上实现了惊人的 100% 正确率。
不仅如此,Seed-Prover 还展现了其卓越的泛化能力:
成功解决了 78.1% 的历年 IMO 难题;
在普特南数学竞赛中的成绩达到其他主流模型的 4 倍;
在 MiniCTX-2 数据集上,以 81.8% 的高正确率远超基准模型 o4-mini。
对此,前谷歌成员 Deedy Das 惊叹道:字节真不愧是唯一一家专为 IMO 发表完整论文的 AI 实验室!
Seed-Prover 模型框架
Seed-Prover 是一个专注于使用 Lean 4 进行形式化推理的大型语言模型。
Lean 4 允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。
相较于先前的研究,Seed-Prover 最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。
简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 " lemma " 关键字引入 ,然后再使用 " theorem " 通过应用生成的引理来生成主要证明。
这种方法具有几个关键优势:
1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。
2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。
3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。
为了实现 Seed-Prover 的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。
根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。
由于 Lean 在几何支持方面存在不足,Seed-Prover 集成了一个专用的几何推理引擎Seed-Geometry。
它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。
此外,Seed-Geometry 还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。
基于上述工作,Seed-Geometry 建立了一个包含 2.3 亿个需要辅助构造的独特几何问题的库。
这是通过利用过去 20 多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。
基于这一专属几何数据训练得到的 Seed 模型,成为了一个高效的神经 - 符号混合几何证明器。
它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。
达 IMO 金牌水准
研究团队使用 Seed-Prover 与 Seed-Geometry 参加了 IMO 2025,成功证明了 6 道题中的 5 道,达到了 IMO 金牌水准。
根据 IMO-AG-50 的统计方法,在 2000 年至 2024 年 IMO 几何问题中,Seed-Geometry ( SG ) 解决了 43 道题,比 AlphaGeometry 2 ( AG2 ) 多解决 1 道。
对于 2000 年至 2022 年难度大的多的 IMO 候选题中的几何题,AlphaGeometry 2 解决了 19 道,而 Seed-Geometry 解决了 22 道。
此外,值得注意的是,Seed-Geometry 还在 2 秒内解出了 IMO 2025 第 2 题—— IMO 中表现最差的两道题中的一道。
除此之外,对于 MiniF2F 测试集,Seed-Prover 达到了几乎百分百的正确率。
参考链接:
[ 1 ] https://x.com/deedydas/status/1951829325839499753
[ 2 ] https://www.alphaxiv.org/pdf/2507.23726
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考� �
� � 点亮星标 � �
科技前沿进展每日见炒股配资交流
公牛配资提示:文章来自网络,不代表本站观点。