在可预见的未来,自动生成子智能体的AI会进一步发展,为复杂问题解决给出一种新式答案。
Auto-GPT,一款基于GPT-4的人工智能内容生成机器人在近期迅速爆红。
(相关资料图)
截止至2023年4月16日,Auto-GPT项目在GitHub上共斩获了72.8k Star,吸引了全世界关注着AIGC的人的关注。
AutoGPT GitHub Star增长情况
此前让LLM(大语言模型)火出圈的产品ChatGPT,最大的局限性就在于需要人工提供大量的原始信息和引导词(Prompt),才能让ChatGPT生成理想的内容。
而Auto-GPT就是为了解决这个痛点而诞生的。它可以通过LLM自主产生Prompt,并且通过Google搜索和Python脚本来实现自己的目的。
Auto-GPT在推特上有很多收获了极高关注量的例子,案例的内容包括有商业调查、无代码生成APP或网页、自动化办公和文本生成等等。在加入了Stable Diffusion后甚至可以拥有图片的生成能力。
这一切听起来非常美好对吧?但是别忘了Auto-GPT仍然只是一个实验性项目,仍然有较大的局限性。
01 Auto-GPT的工作流程
由人类给Auto-GPT分配一个角色(例如一名写手),接着给他分配最多五个任务让他执行。
Auto-GPT就会自己将任务列表拆解成某些具体的任务,并生成后续的任务执行列表。每一步可以是执行Google搜索、生成Python脚本、存储生成文本、执行脚本文件等等。
上述步骤主要依赖于以下几个部件:
1.基础框架:GPT-4和GPT-3.5,二者分别被成为聪明模型和快速响应模型。这两者共同充当整个Auto-GPT的大脑。不同的任务将会适时的分配给两种不同的模型以加快生成速度和降低成本开销。
2.自主迭代:从最原始的Task List中出发,将任务投入LLM中生成更进一步细化的Task List。再逐项完成任务并将结果保存。每次结果都会被选择性的放回LLM中再迭代生成回应。
3.内存管理:Auto-GPT默认使用一种向量数据库(保存在auto-gpt.json中)存储对话上下文,使得LLM可以获得长期记忆并且最大程度降低token(LLM中的数据量计数单位)的使用,防止超过输入限制和降低使用成本。除了本地向量数据库外,还可以使用Redis保存上下文进一步提升性能。
4.多功能部件:Auto-GPT被赋予了多种新型的工具,包括本地shell的执行权限、本地文件的读取和写入、Google搜索能力、Python脚本执行能力等等。
以上能力不仅仅赋予了Auto-GPT的联网能力,还使其拥有了部分本地操作权限,极大拓宽了AI的能力以及使用范围。
Auto-GPT初始化所需信息
02 Auto-GPT实测表现
测试一:自动化检索。
在这里定义Auto-GPT为一个Research GPT,可以自动化检索互联网信息并作出市场分析。任务分配就是找到市面上的Top5电视盒子并列出他们的配置和价格。
电视盒子信息
Auto-GPT找到了所需要的数据,但是也仅给出了分析出的Top5的盒子的参数和价格,并没有列出数据来源和评判标准。同时也没有做市场分析,只是单列出了数据和配置,没有针对所收集到的数据进行额外分析。
可以说虽然Auto-GPT降低了对Prompt的依赖性,但是对初始任务的描述详细性仍然要求较高。
2.测试二任务:自动写作。
这个测试中,Auto-GPT被定义为作家,要求写一个以赛博朋克为背景的科幻小说的大纲。
Auto-GPT完成的非常出色,其在文件夹中分别生成了几个文件:“赛博朋克大纲”、“对话”、“赛博朋克调查”、“世界背景”、“人物性格”、“人物目标及其背景”等等文件。每份文件中都详实地记下了其文件名的内容,而且每个内容都是基于同一个世界观下生成的。
本次任务仅仅只为创作一个故事大纲,但是他最后交付给我们了一个近似完整的故事。主角的设定也符合赛博朋克的背景故事。
Auto-GPT的长期记忆功能帮助了Auto-GPT可以始终保持在相同的背景设定里而不偏离。虽然没有完成整篇文章,但是故事脉络已经非常清晰,甚至已经可以说是在“创作”一些新文字了。
03 Auto-GPT当前的问题
1.开销极高
Auto-GPT是基于GPT-3.5和GPT-4而建立起来的。而GPT-4的单个token价格为GPT-3.5的15倍。
假设每次任务需要50个step(较好状况下),每个step会花费6K tokens的GPT-4 使用量,Prompt(提示词)和Completion(回答)的平均每一千tokens花费是0.05美元(因为实际使用中回答使用的token远远多于提示词),汇率为1美元 : 6.8人民币,那么花费就是50*6*0.05*6.8=102人民币。
GPT-4 API访问价格
GPT-3.5 API访问价格
注意,这仅仅只是理想状况下,而且假设了使用时Auto-GPT没有出现其他的问题(后续会提到),单次任务的成本就为100余元。这个成本显然是不可以被大规模应用的。
2.常见死循环现象
在执行任务的时候,Auto-GPT会将任务细化并分解。但是一旦遇到了一些GPT-4都无法处理的问题时,就会陷入自我循环,每一个step执行完后的动作都为“do_nothing”,而且下一个动作仍为这个。
但是每次都会将相同的Prompt交给GPT-4处理从而造成了极其大量的资源浪费现象。而且从目前来看并没有什么很好的解决方案。
Auto-GPT陷入死循环中常见表现
除了这种do_nothing类型的死循环外,还可以经常发现Auto-GPT的另一种死循环,即生成的python脚本执行的时候无法正确完成任务。
接着GPT-4就会尝试修复脚本,再重新执行。通常的修复可能分为很多步让人很难发现问题所在。但是通常来说这种修复都是不起作用的,就又会陷入另一种死循环。
3.执行速度过慢
从实测的第一个问题来看,还有一个非常大的问题就是响应速度过慢。GPT-4的生成token的速度就比GPT-3.5慢许多,再加上脚本执行其它指令(比如Google)所消耗的时间就更长了。
本次统计出Top5的电视盒子,Auto-GPT共耗时8分钟,进行了20个steps完成了总结。但是联网的AI工具除了Auto-GPT还有其它的AI工具可以完成,例如New Bing。
虽然Bing无法自我搜索网络评论并鉴别是否为虚假评论,而且数据来源比较狭窄,但是New Bing的响应只花了8秒,还提供了参考链接供读者自行参考,比起Auto-GPT更加直观。
04 总结
AGI,即通用人工智能,最重要的一个特点就是脱离人工监督可自行完成任务,并且可以完成一些“创意任务”。而Auto-GPT正是在当前条件比较有限的前提下对AGI做出的一个有益尝试。
通过主任务生成子任务(也有人叫子智能体)的方法而让AI通过LLM脱离人类监督自行完成任务可能是未来的发展方向之一。
当前的问题是LLM的能力还是比较弱,对当前的状态把握的还不够好,从而经常让自己陷入死循环需要人类的介入。而且虽然向量数据库成功赋予了AI中长期记忆的可能性,但是对于后续的任务缺无法继续沿用此前的记忆了。
执行速率也可以通过调整架构提升,例如将逐项执行的子智能体转换为可以异步同时执行的模式,大幅提升效率,每一步不强依赖于上一步,就可以极大提升运行效率。又可以像Bing一样快速获取信息,还可以自行分析获取内容达到超过New Bing的效果。
在可预见的未来,这种自动生成子智能体的AI会进一步发展,为复杂问题的解决给出一种新式的答案。
原文标题:Auto-GPT实测报告——虽不完美,但却是最有前景的AI路线
标签:
-
环球即时看!Auto-GPT实测报告
在可预见的未来,自动生成子智能体的AI会进一步发展,为复杂问题解决给出一种新式答案。 Auto-GPT,一款基于GPT-4的人工智能内容生成机器人在
-
环球今日讯!涧峪岔镇召开人大代表联络站工作推进会
涧峪岔镇召开人大代表联络站工作推进会
-
今日热讯:龙湖24亿斩获上海地块,3月以来已布局多地,一季度新增货值超百亿
就在不久前,龙湖集团披露的2022年业绩报告中,提到了这样的一句话“地产行业经历了深度调整,拐点已现”。这一次,落子上海。4月18日,上...
-
全球快讯:经济学家下调GDP增长预期 韩国能否避免技术性衰退
经济学家下调GDP增长预期韩国能否避免技术性衰退,韩元,美国,经济学家,韩国央行
-
【全球时快讯】老玩家带教新选手 中来股份百达精工合作投建TOPCon项目
财联社4月18日讯(记者刘梦然)TOPCon电池凭借其性价比优势,成为跨界光伏行业的首选,近期还出现了“老人带新人”以更高效率扩产抢市场的...
-
我省确定今年市场主体发展主要目标-要闻
我省确定今年市场主体发展主要目标,主流媒体,山西门户。山西新闻网是经国务院新闻办审核批准,由山西日报报业集团主管、主办的山西省重点新闻
-
世界快消息!同宇新材IPO:收现比仅五成产量远超许可、年报临阵修改实控人认定存疑
据深交所网站消息,深交所上市委定于2023年4月7日召开2023年第18次上市委审议会议,届时将审议同宇新材料(广东)股份有限公司(下称:同宇新材或
-
小米贷款逾期3个月会有什么后果?
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
【热闻】瘦腰和肚子
孙强副主任医师中国医科大学附属第一医院病情分析:其实没有什么捷
-
世界速看:省级人大委员是什么级别 人大常委会委员是什么级别
今天来聊聊关于省级人大委员是什么级别,人大常委会委员是什么级别的文章,现在就为大家来简单介绍下省级人大委员是什么级别,人
-
自来水表一方水多少斤(自来水表一方水表示2000斤水)_实时
自来水表一方水表示2000斤水。自来水表上一度表示一方水,一方水就是一吨水(一方是一立方米的简称,水的密度是每立方厘米一克)一吨等于一千克
-
全球头条:曹真能攻退诸葛亮真的是靠的司马懿吗?
曹真能攻退诸葛亮真的是靠的司马懿吗?感兴趣的读者可以跟着趣历史小编一起往下看。首先我们不否认曹真在政务上的才能的确不如司马懿和诸葛亮
-
假面骑士:汇总令和时代的吞噬者,都是BOSS或者类BOSS的存在
吞噬作为假面骑士中怪人变强的一种手段,也是用不同的方式的,今天我们就来汇总一下令和时代吞噬者吧。假面骑士01中的就是卫星亚克了,其先是
-
世界关注:你会怎么做?女子现金被风吹跑众人80秒捡回6000元:网友点赞素质高
据大众网报道称,山东淄博沂源县的王女士在去银行存款的路上,手中的现金被大风吹跑。随后,银行几名工作人员先后冲出银行,和“风”比速度...
-
OpenAI的CEO Sam Altman:构建庞大AI(人工智能)模型的时期已经结束。
OpenAI的CEOSamAltman:构建庞大AI(人工智能)模型的时期已经结束。
-
世界热资讯!高速公路舟山管理中心光伏发电设施启用 预估年发电量约130万千瓦·时
4月13日,省交通集团高速公路舟山管理中心装机容量为1 28MWp分布式光伏发电装置调试完成,顺利并入国家电网通电,在满
-
全球信息:无人机为什么下架合法吗?_无人机为什么下架
1、这个全新的系统,我们制作出来是能够上架交易的,可是有些无法制作的玩家想要购买无人机,却发现购买不了,这是为什么呢。2
-
全球报道:“割包皮杀医案”男子被判无期,医院违规行为是导火索
“割包皮杀医案”男子被判无期,医院违规行为是导火索
-
超5万人,7071单,交易额603.83亿元!2023中国(山东)团餐食材博览会在泰闭幕
泰安日报社·中华泰山网讯(记者马晓艺徐文莉摄影隋翔)4月16日,为期3天的2023中国(山东)团餐食材博览会闭幕
-
播报:打开春天的正确方式!坐公交车奔赴青岛宝藏露营地
青岛新闻网4月17日讯(记者张晓楠通讯员赵妍)春暖花开、天气晴好,人们纷纷踏青出游,野餐露营“霸占”了周末的朋友圈,成了不一样的“春...
-
热文:坚朗五金拟定增募资不超19.9亿元 2022年净利预降9成
坚朗五金拟定增募资不超19 9亿元2022年净利预降9成---4月15日,坚朗五金发布向特定对象发行A股股票预案。本次发行募集资金总额不超过199000 00
-
世界简讯:海洋馆里面有哪些动物?海洋馆和极地馆的区别?
海洋馆里面有哪些动物海洋馆里面有鲨鱼、水母、海豚、鲸鱼、海马、章鱼、乌贼、龙虾、海狮、海星、珊瑚 "><linkhref= "http: www szonline
-
小夫妻喜中福彩"点球大战"20万 刮刮乐是甜蜜催化剂
中奖彩票霭霭四月初,新树叶成阴。近日,济南福彩迎来了幸福的一家三口。奶爸小李带着爱人和九个月大的孩子,共同领取了刮刮乐“点球大战”...
-
即时焦点:禅定杯可以泡功夫茶吗 禅定杯可不可以泡功夫茶
1、禅定杯可以泡功夫茶。2、禅定杯不仅仅是普通的茶具,也是修身养性的道具。使用时,还是应该有点仪式感的。禅定杯的外形确实特别。杯口内收
-
民生证券:给予海康威视买入评级|世界看点
民生证券股份有限公司吕伟近期对海康威视进行研究并发布了研究报告《2022年报及2023一季报点评:低点已过,创新业务增长强劲》,本报告对海康
-
缅甸佤邦禁矿?沪锡午盘收涨超11%_环球速看料
上证报中国证券网讯4月17日午盘,国内商品期货主力合约涨跌互现。截至11:30,沪锡大涨超11%。新湖期货表示,缅甸佤邦禁矿刺激了锡价飙升。当地
-
焦点要闻:薄荷对孕妇有害吗?
薄荷对孕妇无害。但孕期不要吃,因为薄荷比较凉,所以在怀孕期间吃了以后也是比较危险的,因为薄荷有一定的通气效果,所以孕妇在怀孕期间吃了
-
焦点速看:思源电气:4月14日融券卖出金额128.47万元,占当日流出金额的1.9%
同花顺数据中心显示,思源电气4月14日获融资买入664 82万元,占当日买入金额的10 08%,当前融资余额2 37亿元,占流通市值的0 93%,低于历史20%
-
天天快报!南方新一轮降雨过程开启,18日为降雨最强时段
南方新一轮降雨过程开启,18日为降雨最强时段
-
cad引线标注快捷键命令_cad引线标注快捷键
1、快速引线标注命令:QLEADER默认快捷键:LE。2、输入命令后选择参数S,到设置项目内选择附着,勾选在最后一行加下划线就可以了。3、以后每次