OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力

PANews 4月11日消息,OpenAI已开源全新基准测试BrowseComp,用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目,设计初衷为模拟AI在复杂信息网络中的“在线寻宝”,强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域,难度显著高于现有如SimpleQA等测试。 据AIGC开放社区称,这个测试基…

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注