Kosmos:自主复现论文代码的AI科学家
AI科研新纪元的开启
近日,FutureHouse推出了其下一代AI科学家——Kosmos,这标志着AI加速科学研究的新时代正式到来。Kosmos是此前AI科学家FutureHouse的Robin的重大升级版本,从发布第一天起就可以在相关平台上使用。
与此同时,FutureHouse平台的管理将过渡到其商业衍生产品Edison Scientific。Edison Scientific致力于保持慷慨的免费层,符合FutureHouse加速科学界的承诺,同时为需要更高速率限制或其他功能的高级用户提供付费服务。
突破性创新:结构化世界模型
前几代AI科学家如Robin主要受限于语言模型的有限上下文长度,这意味着AI科学家只能采取有限数量的步骤或进行有限的逻辑跳跃,限制了其能够发现的复杂性。
Kosmos的核心创新在于采用结构化世界模型,使其能够有效整合在数百个代理轨迹中提取的信息,并在数千万个令牌上保持对特定研究目标的一致性。一次单独的Kosmos运行涉及阅读1500篇论文和运行42,000行分析代码,远超其他已知代理的能力。
惊人的效率提升
基于其强大的处理能力,Kosmos可以执行比以前工具(如Robin)更复杂的分析。测试版用户估计,Kosmos可以在一天内完成6个月的工作,其结论的79.4%是准确的。此外,Kosmos已与学术beta测试人员合作,在神经科学、材料科学和统计遗传学等领域取得了七项重要发现。
透明度和可追溯性设计
与所有系统一样,Kosmos在设计时充分考虑了透明度和可追溯性。科学结论必须以事实为基础,但如今太多AI系统在没有明确出处的情况下得出结论。相比之下,Kosmos报告中的每个结论都可以通过平台追溯到激发它的特定代码行或科学文献中的特定段落,确保报告在任何时候都完全可审计。
重大科学发现
在测试过程中,Kosmos取得了七项重要发现:
独立复现的人类发现
在三项发现中,Kosmos独立复现了人类科学家的先前发现:
1. 低温小鼠大脑研究:使用代谢组学数据从未发表的手稿中复现了将核苷酸代谢确定为低温小鼠大脑中主要改变途径的主张。描述原始作品的预印本在Kosmos运行后发表于BioRxiv。
2. 钙钛矿太阳能电池研究:复现了预印本中的声明,确定热退火过程中的绝对湿度是决定钙钛矿太阳能电池效率的主要因素,包括识别设备发生故障的"致命过滤"阈值高于约60g/m³。
3. 神经元连通性研究:确定了描述物种间神经元连通性的相同数学规则,如Piazza等人报道的。
全新科学贡献
在另外四项发现中,Kosmos对科学文献做出了全新贡献:
4. 心血管疾病研究:使用公开可用的GWAS和pQTL数据进行孟德尔随机化,提供统计证据表明高水平的循环超氧化物歧化酶2(SOD2)可能导致心肌T1时间减少和心肌纤维化。
5. 糖尿病研究:使用公开可用的多组学和统计遗传学数据提出新的分子机制,通过该机制,单核苷酸多态性(SNP)可以降低患2型糖尿病的风险。
6. 阿尔茨海默病研究:开发新颖的分析方法,使用来自阿尔茨海默病患者的蛋白质组学数据来确定导致神经元tau积累的分子事件序列。
7. 神经元脆弱性研究:发现内嗅皮层神经元——阿尔茨海默病中第一个发展tau积累的神经元——随着年龄增长而减少翻转酶基因的表达,这一发现已在人类AD病例的正交单细胞RNA-seq数据集中得到验证。
使用注意与挑战
Kosmos今天已可在平台上使用,但用户需要注意一些重要事项:
使用性质:Kosmos不同于聊天机器人,更类似于深度研究工具,需要时间来学习如何有效提示。
成本结构:以$200/运行的价格推出(每次运行200学分,$1/学分),为学者提供免费套餐。创始订阅用户可无限期锁定$1/信用额度的价格。
局限性:虽然Kosmos确实产生了相当于几个月人工的产出,但它也经常会掉进"兔子洞"或追逐具有统计学意义但科学无关的发现。建议在同一目标上多次运行Kosmos以对各种研究途径进行采样。
6个月工作等效的深度分析
研究中最令人惊讶的发现是,一次Kosmos运行可以完成相当于6个月博士或博士后科学家的工作。感知到的工作等效性与Kosmos运行的深度呈线性关系,为科学研究提供了最早的推理时间缩放定律之一。
这一估计通过多种方法验证:
- 用户调研:7位科学家的平均20步Kosmos运行时间为6.14个月
- 客观指标:三个由人类完成的发现需要约4个月的原工作,Kosmos能复现
- 独立计算:假设科学家阅读一篇论文需要15分钟,单个数据分析轨迹约需2小时,计算得出约4.1个月
对AI评估体系的启示
如果6个月估计是正确的,这对AI代理评估体系具有重要意义。目前如METR等评估试图测量AI代理可以连贯执行的任务长度,可能过于简化。AI代理今天能够执行的任务的最大人类等效持续时间在很大程度上取决于任务类型。
缩放定律需要进一步解释:虽然beta测试人员估计人类等效时间随运行深度线性增加,但经验表明Kosmos运行时间越长,掉进"兔子洞"的可能性就越大。预计如果将缩放定律扩展到逻辑极端,可能会看到反转,其中Kosmos运行的价值随深度增加而开始减小。
科学加速的新时代
Kosmos的出现标志着AI加速科学的时代已经到来。通过自主复现论文代码和进行科学发现,Kosmos为科研工作者提供了强大的工具,能够大幅提升研究效率,加速科学发现进程。
随着基础语言模型的不断改进,AI科学家在科研领域的应用前景将更加广阔,人类正站在AI驱动科学革命的前沿。