人工智慧(AI)技术的发展日新月异,现有评测与比较大型语言模型的方式已不敷使用,科技业者正赶忙重新设计用来测试与评估AI模型的方式,希望创建新基准。
英国金融时报(FT)报导,AI业者的AI模型会交由公司团队或外部研究人员进行评估,为标准化测试的一环,也就是评估模型能力以及不同系统或新旧版本之间效能差异的基准。然而,AI近期的发展速度,意味著最新模型在现有测试中,已能逼近或超过90%的准确率,凸显研发新基准的必要性。
Hellaswag和MMLU等既有公开测试,是用选择题评估AI模型对各个主题的常识和能力。如今研究人员认为AI模型需要更复杂的问题。
因此,Meta、OpenAI和微软等科技业者,纷纷创建自家的内部基准与测试。微软在自家内部的基准测试,纳入先前在训练中未出现过的问题,以评估其AI模型是否像人类一样进行推理。OpenAI则主要透过数学、STEM科目和撰写程式码任务的评估,来衡量模型的推理能力。
外部组织也努力打造新的基准,例如,新创公司Scale AI和Hendrycks在9月宣布一个名为「人类最后考试」的计划,汇集不同学科的专家来设计复杂问题,需抽象推理才能完成。
一项公开测试SWE-Bench Verified在今年8月更新,以提升评估AI模型的能力。这个测试是使用来自GitHub的现实世界中的软体问题,会提供AI代理人程式码储存库,和一个工程问题,询问他们如何解决。这项任务需要推理才能完成。以此进行测试,OpenAI的最新模型GPT-4o预览版解决41.4%的问题,而Anthropic的Claude 3.5 Sonnet解决了49%的问题。
执行更高阶的测试有另一个重要的要素是,确保基准测试的问题没出现在公共领域,以防AI模型透过训练资料产生答案而不是靠推理来解决问题。对释放AI代理人的潜力来说,推理和规划的能力至关重要。