“人类最后的考试”:全球呼吁对人工智能进行更严格的测试

2024-09-21 21:56:13 生活

一个名为“人类的最后一次考试”的全球项目正在寻找艰难的、专家级的问题来评估人工智能的进展，因为流行的基准对高级模型来说太容易了。

周一，一组技术专家向全球发出呼吁，寻求向人工智能系统提出最难的问题。人工智能系统越来越多地像处理儿童游戏一样处理流行的基准测试。

该项目被称为“人类的最后一次考试”，旨在确定专家级别的人工智能何时到来。据组织者，一个名为人工智能安全中心(CAIS)的非营利组织和初创公司Scale AI表示，它的目标是在未来几年技术进步的情况下保持相关性。

就在几天前，ChatGPT的制造商预览了一款名为OpenAI o1的新模型，CAIS的执行董事、埃隆·马斯克(Elon Musk)创业公司xAI的顾问丹·亨德里克斯(Dan hendricks)表示，该模型“摧毁了最流行的推理基准”。

亨德里克斯与人合著了两篇2021年的论文，提出了对目前广泛使用的人工智能系统进行测试的建议，其中一篇测试了它们对美国历史等主题的本科水平知识，另一篇则探索了模型通过竞赛水平数学进行推理的能力。这个本科风格的测试在在线人工智能中心“拥抱脸”上的下载量超过了任何此类数据集。

在这些论文发表的时候，人工智能几乎是随机给出考试问题的答案。亨德里克斯对路透社说:“他们现在已经崩溃了。”

举个例子，根据一个著名的能力排行榜，人工智能实验室Anthropic的克劳德模型在2023年的本科水平测试中得分约为77%，一年后达到近89%。

但人工智能仍然没有比人类更聪明

斯坦福大学(Stanford University) 4月份发布的《人工智能指数报告》(AI Index Report)显示，人工智能在计划制定和视觉模式识别谜题等较少使用的测试中得分很低。例如，ARC组织者周五表示，OpenAI 01在模式识别ARC- agi测试的一个版本中得分约为21%。

一些人工智能研究人员认为，这样的结果表明，规划和抽象推理是更好的智力衡量标准，尽管亨德里克斯表示，ARC的视觉方面使其不太适合评估语言模型。他说，“人类的最后一次考试”将需要抽象推理。

行业观察人士表示，来自普通基准的答案也可能最终成为用于训练人工智能系统的数据。亨德里克斯表示，“人类最后一次考试”中的一些问题将保密，以确保人工智能系统的答案不是死记硬背的。

此次考试将包括至少1000道11月1日到期的众包题，非专家很难回答。这些作品将接受同行评审，获奖作品将获得合著资格，并由Scale AI赞助高达5000美元的奖金。

Scale首席执行官亚历山大·王表示:“我们迫切需要对专家级模型进行更严格的测试，以衡量人工智能的快速发展。”

其中一个限制是:组织者不希望提问有关武器的问题，有些人认为武器太危险，人工智能无法研究。

一个名为“人类的最后一次考试”的全球项目正在寻找艰难的、专家级的问题来评估人工智能的进展，因为流行的基准对高级模型来说太容易了。

周一，一组技术专家向全球发出呼吁，寻求向人工智能系统提出最难的问题。人工智能系统越来越多地像处理儿童游戏一样处理流行的基准测试。

在这些论文发表的时候，人工智能几乎是随机给出考试问题的答案。亨德里克斯对路透社说:“他们现在已经崩溃了。”

举个例子，根据一个著名的能力排行榜，人工智能实验室Anthropic的克劳德模型在2023年的本科水平测试中得分约为77%，一年后达到近89%。

但人工智能仍然没有比人类更聪明

Scale首席执行官亚历山大·王表示:“我们迫切需要对专家级模型进行更严格的测试，以衡量人工智能的快速发展。”

其中一个限制是:组织者不希望提问有关武器的问题，有些人认为武器太危险，人工智能无法研究。

欠日的骚婊子小说

66MB

熟妇一区二区在线播放

1MB

方秀娟的丝袜臭脚H文

55MB

欧美性爱在线一区三区

8MB

日韩欧美第6页

12MB

鸡巴区二区三区
鸡巴区二区三区
星空传媒童汐
星空传媒童汐
西西荫道口
西西荫道口
王娟的性放荡生活
王娟的性放荡生活
女优啊啊啊
女优啊啊啊
极度狼友
极度狼友
曰韩四级黄色视频
曰韩四级黄色视频
91淫男乱女爽歪歪精品免费看
91淫男乱女爽歪歪精品免费看
欧美医生与熟妇BB日B
欧美医生与熟妇BB日B
亚洲妞xxx×
亚洲妞xxx×
袖珍少妇肉肉大HD
袖珍少妇肉肉大HD
Chinesefemdom小刚
Chinesefemdom小刚
肥婆的批又大又肥又深
肥婆的批又大又肥又深
人妻辣文视频
人妻辣文视频
国内无码电影网站
国内无码电影网站
日本搞黄网站
日本搞黄网站
公车被奷到高潮很舒服动漫
公车被奷到高潮很舒服动漫
一女被多男玩喷潮3p
一女被多男玩喷潮3p
冈江凛av中文字幕
冈江凛av中文字幕
国产jk美女被操哭
国产jk美女被操哭
妺妺晚上夹我又紧又爽H视频
妺妺晚上夹我又紧又爽H视频
成人3d动漫无码黑丝逼
成人3d动漫无码黑丝逼
又色又爽又高潮com
又色又爽又高潮com
黄色一级日BA片
黄色一级日BA片
欧洲D VD无码视频
欧洲D VD无码视频
七禁莉莉Av电影
七禁莉莉Av电影
一本露乳av
一本露乳av
午夜精品福利91
午夜精品福利91
国产一级毛毛毛片在线
国产一级毛毛毛片在线
美女露出胸和屁股让我操
美女露出胸和屁股让我操
深田咏美无码
深田咏美无码
尻稚屄喷水视频
尻稚屄喷水视频
爱妾伦理免费观看
爱妾伦理免费观看
日本妈妈视频
日本妈妈视频
天天日AV
天天日AV
欧美一级大片在线免费观看
欧美一级大片在线免费观看
丝袜另类丁香色五月
丝袜另类丁香色五月
女生张开男生捅
女生张开男生捅
原神秘黄动漫免费网站
原神秘黄动漫免费网站
私人玩物黑丝红桃视频
私人玩物黑丝红桃视频
亚洲天堂无毛
亚洲天堂无毛
公交车上双乳被老汉揉搓玩下载
公交车上双乳被老汉揉搓玩下载
臀射小白虎
臀射小白虎
免费A级毛片啪啪毛片啪啪
免费A级毛片啪啪毛片啪啪
最新国产精品福利
最新国产精品福利
国产中文字幕丝袜在线
国产中文字幕丝袜在线
纲手污图在线免费阅读
纲手污图在线免费阅读
日本三级韩国三级少妇久久
日本三级韩国三级少妇久久
我和饥渴岳
我和饥渴岳
含着她的花蒂啃到高潮在线观看
含着她的花蒂啃到高潮在线观看

：

“人类最后的考试”:全球呼吁对人工智能进行更严格的测试

最新内容

推荐内容

最近推荐

热门内容

TAGS标签

“人类最后的考试”:全球呼吁对人工智能进行更严格的测试

相关推荐

栏目热门

最新内容

推荐内容

最近推荐

热门内容

TAGS标签