AI老板500天模拟经营：多数模型亏惨，Claude Fable 5独占鳌头

发布时间：2026-06-30 17:28

　　普林斯顿大学本月发布基准测试 CEO-Bench，模拟创业公司，评估 AI 模型担任企业首席执行官的能力，

　　CEO-Bench 主要面向企业经营场景，用于评估智能体在长期、多变量环境中的管理能力。该测试模拟创业公司运行 500 天，启动资金为 100 万美元，要求模型连续处理定价、预算、竞争分析和战略制定等复杂关联事务。

　　该基准围绕着 AI 应对长期周期中的不确定性、在噪声环境中获取信息、适应变化中的外部世界、协调多个变量以服务统一目标四项能力设计。

　　智能体按周行动，可无限轮调用 34 个工具，覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等类别，同时可查询 19 个业务 SQL 数据库。

　　模拟环境包含 26 个客户群体，客户的价格承受力和质量偏好对智能体不可见，智能体只能从订阅、流失、支持工单、收入、声誉和社交媒体反馈中间接推断。

　　产品质量由多项投入共同决定，包括日常开发、研究项目、模型层级、定向开发、基础设施容量、客服支持、使用配额和应用内广告强度等。

　　结果显示，多数当前模型难以在 500 天后保住初始 100 万美元现金。最佳单次运行中，Claude Fable 5 期末现金为 4715 万美元。

　　在所有评估的模型中，Claude Fable 5 是唯一一个多次运行结果均高于初始余额的模型，基于规则的基准模型最终余额为 1580 万美元。

上一篇：消息称京东方G8.6 OLED产线万块显示面板

下一篇：金川瑞翔、维衡股份等7家企业深交所IPO审核状态变更为“已受理”

排行

1罗技（Logitech）停止生产Harmony遥控器

2据报道，小米正在使用Snapdragon 8xx SoC开发

3小米MIXFOLD液态镜头有什么用小米MIXFOLD液

4三星计划将全自动洗衣机领域的市场份额

5IDC报告：尽管芯片短缺，但2021年第一季度

6iPhone 11 Pro背面的苹果标志位置有瑕疵，售

7小米手环6nfc版怎么唤醒小爱同学

8小米11ultra有耳机孔吗？

9来自5亿个LinkedIn帐户的数据在线泄漏

10Facebook将总部的一部分变成了疫苗站点

精选

运营三年两个月，LoveLive!莲之空手游今日

马斯克抽调SpaceX顶尖星舰和星链工程师，

新股消息国内儿科医药营销龙头科郦二次

《刺客信条：黑旗记忆重置》Xbox版细节公

大摩：升药明康德目标价至168港元重申首

华创证券：太空经济迈入规模化时代火箭

港股异动地平线辅助驾驶系统迎来重磅升

地平线创始人余凯：今年底会有累计20款

兰博基尼预告高性能版Urus，有望首次冲破

江波龙官宣新里程碑：mSSD月产能百万交付

研究：激进的交通电动化转型，到2050年可

TrendForce：预估晶圆代工成熟制程涨价效应

中通快递-W6月29日斥资499.55万美元回购2

金川瑞翔、维衡股份等7家企业深交所IP

AI老板500天模拟经营：多数模型亏惨，C

消息称京东方G8.6 OLED产线万块显示面板

开源家庭影院软件Kodi 22 Beta发布：升级

森海塞尔旗下首款耳夹式耳机ACCENTUM Cli

市场抛压逐步释放，英矽智能解禁平稳落

港股异动硬蛋创新再涨超10% 端侧AI市场规

推荐

是什么让iOS 13的发布如此漏洞百出以及如

Microsoft Edge可让用户使用命令控制其浏览

索尼将于4月14日推出新的智能手机

如何在Microsoft Edge中禁用Windows 10 Alt + Ta

　

联系我们版权声明晋ICP备2025056884号-1