普林斯顿大学本月发布基准测试 CEO-Bench,模拟创业公司,评估 AI 模型担任企业首席执行官的能力,
CEO-Bench 主要面向企业经营场景,用于评估智能体在长期、多变量环境中的管理能力。该测试模拟创业公司运行 500 天,启动资金为 100 万美元,要求模型连续处理定价、预算、竞争分析和战略制定等复杂关联事务。
该基准围绕着 AI 应对长期周期中的不确定性、在噪声环境中获取信息、适应变化中的外部世界、协调多个变量以服务统一目标四项能力设计。
智能体按周行动,可无限轮调用 34 个工具,覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等类别,同时可查询 19 个业务 SQL 数据库。
模拟环境包含 26 个客户群体,客户的价格承受力和质量偏好对智能体不可见,智能体只能从订阅、流失、支持工单、收入、声誉和社交媒体反馈中间接推断。
产品质量由多项投入共同决定,包括日常开发、研究项目、模型层级、定向开发、基础设施容量、客服支持、使用配额和应用内广告强度等。
结果显示,多数当前模型难以在 500 天后保住初始 100 万美元现金。最佳单次运行中,Claude Fable 5 期末现金为 4715 万美元。
在所有评估的模型中,Claude Fable 5 是唯一一个多次运行结果均高于初始余额的模型,基于规则的基准模型最终余额为 1580 万美元。










