日前,由学而思牵头,联合谷歌、暨南大学等多家科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,共同举办AAAI2024 全球大模型数学推理竞赛。该比赛邀请全球人工智能专家、开发者以及爱好者,一起用大模型自动解答中小学数学难题,探索和解决人工智能在数学领域的挑战。
此次比赛分为中文数学解题和英文数学解题两个方向。由学而思提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。该数据集囊括了国内外多个中小学数学竞赛真题。
比赛期间,参赛者需使用大模型对给定的数学题目,生成推理步骤与答案。主办方将通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。准确率最高的参赛者将会赢得此次比赛。
这是全球首次数学大模型解题竞赛,主办方还为此次比赛提供了3个测评基准作为参考,即GPT-3.5,GPT-4以及好未来自研的数学大模型MathGPT在公榜上的表现。
好未来对MathGPT投入巨大,这次解题竞赛也是学而思试图解决“大模型不擅长理科方面的推理和计算”这一不足所做出的努力之一。
01
探索人工智能数学推理无人区
众所周知,大语言模型具备“先天性的缺陷”(如缺乏复杂推理能力、数值计算不够准确等),如何提升大语言模型数学推理能力,突破语言模型的先天不足,成为当下全球人工智能领域关注的重点。这是此次学而思牵头,联合谷歌、暨南大学等共同举办的 AAAI2024 全球大模型数学推理竞赛的重要原因。
AAAI2024全球大模型数学推理竞赛比赛官网已经公布:https://ai4ed.cc/competitions/aaai2024competition
AAAI(Association for the Advancement of Artificial Intelligence)由计算机科学和人工智能科学家Allen Newell、 Marvin Minsky 和John McCarthy等创办,是国际人工智能领域最为权威与重要的协会之一,AAAI会议被中国计算机学会(CCF)推荐为A类会议。
比赛期间,参赛者需使用大模型对给定的数学题目,生成推理步骤与答案。主办方将通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。准确率最高的参赛者将会赢得此次比赛。
为了更充分地探究各类大模型的数学推理能力,此次比赛分为中文数学解题和英文数学解题两个方向。由学而思提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。该数据集囊括了国内外多个中小学数学竞赛真题,题目格式均经过精心处理,每道题目都包含题目内容,题目难度等级和题目涉及到的从粗粒度到细粒度的知识点链条等字段。与之同时,TAL-SAQ7K-CN、TAL-SAQ6K-EN数据集中涉及到数学表达式已经处理成统一的文本模式Latex。
比赛分为两个阶段,第一阶段即日起截止到12月31日,为公榜阶段。主办方事先随机在TAL-SAQ7K-CN和TAL-SAQ6K-EN中选出30%的数据,供参赛者进行大模型调试。第二阶段则从2024年1月1日到1月10日,为私榜阶段。期间,参赛者使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。这一阶段的成绩将会作为比赛的最终成绩。
此外,主办方还为此次比赛提供了3个测评基准作为参考,即GPT-3.5,GPT-4以及好未来自研的数学大模型MathGPT在公榜上的表现,具体结果如下:
Track1:
Track2:
02
做好AI大模型时代的数学基础工作
大模型一直是近来年人工智能发展最热门的领域之一,ChatGPT的横空出世则让更多人看到了人工智能未来的方向。然而,现有的大语言模型在数学问题的解决、讲解、问答和推荐方面则存在明显不足,如解答数学问题经常出错,难以进行复杂运算。
作为本次全球大模型数学竞赛的发起者,学而思方面表示,希望能够通过这次大模型数学比赛,探索、解决现有的模型擅长文科而不擅长理科方面的推理和计算这一不足。学而思也在积极探索解决,如学而思MathGPT(官网:https://www.mathgpt.com/)结合大模型和计算引擎两者能力解决大模型在数学领域的三大挑战——解对题、讲清步骤、内容有趣生动。前者负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以此来提高正确率。基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。
以一道数列题为例,MathGPT给出的答案包含“分析”、“详解”、“点睛”三个部分,比通用大模型的粗略讲解方式更为细致,“分析”提供了题目的解题思路、思考方式,帮助用户更好地理解题目,“详解”则给出具体的计算方式和答案,最后“点睛”的环节,对题目的考点、难点、关键点进行提示,帮助用户回顾反思出题意图、举一反三。
作为国内首个数学领域千亿级大模型,MathGPT数学计算能力已覆盖小学、初中、高中阶段,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。相关技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,学而思MathGPT取得了多项测试的最高分数;在C-Eval的初高中的全科测试集合上,MathGPT也均有不错的表现。
此外,学而思也在GitHub、Hugging Face等技术社区开源了MathGPT的模型训练测试数据集——TAL-SCQ5K-EN/CN(各3K训练集和2K测试集),题目为单选形式,涉及小初高阶段数学内容,带有详细的解析步骤便于进行COT的训练。(GitHub开源地址:https://github.com/math-eval/TAL-SCQ5K;Hugging Face开源地址:https://huggingface.co/datasets/math-eval/TAL-SCQ5K)
作为智慧教育国家新一代人工智能开放创新平台承建单位,学而思一直积极参与推动我国人工智能技术发展与进步。随着大模型时代的到来,学而思希望用自身在数学和AI上的多年积累,面向全球范围内的数学爱好者和科研机构,做好AI大模型时代的数学基础工作。
教育界网