OpenAI推出高难度基准测试BrowseComp，挑战AI上网搜索能力

PANews 4月11日消息，OpenAI已开源全新基准测试BrowseComp，用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目，设计初衷为模拟AI在复杂信息网络中的“在线寻宝”，强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域，难度显著高于现有如SimpleQA等测试。据AIGC开放社区称，这个测试基…