人工智能基准测试长期以来一直是衡量人工智能进展的标准。它们提供了一种切实可行的方法来评估和比较系统的能力。然而,这种方法是否真的足以评估AI系统的全面能力?Andrej Karpathy最近在X平台上的一篇帖子中提出了对这一方法的质疑。他指出,AI系统在解决预定义问题方面变得越来越熟练,但其广泛的实