人工通用智能(AGI)可以被认为是一个人工智能系统,它能够像人类一样理解、处理和响应智力任务。这是一项具有挑战性的任务,需要深入了解人脑的工作方式,以便我们能够复制它。然而,ChatGPT的出现引起了研究界对开发此类系统的巨大兴趣。微软已经发布了这样一个由AI驱动的关键系统,名为HuggingGPT(Microsoft Jarvis)。
在深入了解HuggingGPT的新内容以及它工作原理的相关细节之前,让我们首先了解ChatGPT的问题,以及为什么它在解决复杂的AI任务方面很困难。像ChatGPT这样的大型语言模型擅长于解释文本数据和处理一般任务。然而,它们经常在特定任务中挣扎,并可能产生荒谬的反应。你可能在解决复杂的数学问题时遇到过来自ChatGPT的虚假答复。另一方面,我们有专家级的AI模型,如Stable Diffusion和DALL-E等,它们对各自的学科领域有更深入的了解,但在更广泛的任务上却举步维艰。除非我们在LLM和专业AI模型之间建立起联系,否则我们无法完全利用LLM的潜力来解决具有挑战性的AI任务。这就是HuggingGPT所做的,它结合了两者的优势,创造了更有效、更准确、更多的AI系统。
什么是HuggingGPT?根据微软最近发表的一篇论文,HuggingGPT利用LLM的强大功能,把它作为控制器,将其与机器学习社区(HuggingFace)中的各种AI模型连接起来,使它能够使用外部工具,以提高工作效率。HuggingFace是一个为开发人员和研究人员提供大量工具和资源的网站。它还拥有各种各样的专业和高精确度的模型。HuggingGPT将这些模型用于不同领域和模式的复杂AI任务,从而取得了令人印象深刻的结果。在涉及文本和图像时,它具有与OPenAI GPT-4类似的多模式功能。但是,它也将你连接到互联网上,你可以提供一个外部Web链接来询问有关问题。
(资料图)
假设你想让模型对写在图像上的文字进行音频阅读。HuggingGPT将使用最适合的模型串行地执行这项任务。首先,它将从图像中导出文本,并将其结果用于音频生成。可以在下面的图片中查看响应详细信息。简直太神奇了!
对视频和音频模式的多模式合作进行定性分析
HuggingGPT是如何工作的?HuggingGPT是一个协作系统,它使用LLM作为接口,向专家模型发送用户请求。从用户提示到模型直到收到响应的完整过程可以分解为以下不连续的步骤:
1.任务规划在这个阶段,HuggingGPT利用ChatGPT来理解用户的提示,然后将查询分解为小的可操作任务。它还确定了这些任务的依赖关系,并定义了它们的执行顺序。HuggingGPT有四个插槽用于任务解析,即任务类型、任务ID、任务依赖性和任务参数。HuggingGPT和用户之间的聊天记录被记录下来并显示在显示资源历史的屏幕上。
2.模型选择基于用户环境和可用的模型,HuggingGPT使用一个上下文中的任务-模型分配机制,为一个特定的任务选择最合适的模型。根据这一机制,模型的选择被认为是一个单选题,它最初根据任务的类型筛选出模型。之后,根据下载次数对模型进行排名,因为它被认为是反映模型质量的可靠措施。Top-K模型是根据这个排名选择的。这里的K只是一个反映模型数量的常数,例如,如果它被设置为3,那么它将选择下载次数最多的3个模型。
3.任务执行在这里,任务被分配给一个特定的模型,它对其进行推理并返回结果。为了提高这个过程的效率,HuggingGPT可以同时运行不同的模型,只要它们不需要相同的资源即可。例如,如果给出一个提示,生成猫和狗的图片,那么不同的模型可以并行运行来执行这个任务。然而,有时模型可能需要相同的资源,这就是为什么HuggingGPT维护一个
最后一步是生成对用户的响应。首先,它整合了前几个阶段的所有信息和推理结果。这些信息以一种结构化的格式呈现。例如,如果提示是检测图像中狮子的数量,它将绘制具有检测概率的适当的边界框。然后,LLM(ChatGPT)使用这种格式,并以人类友好的语言呈现它。
设置HuggingGPTHuggingGPT建立在Hugging Face最先进的GPT-3.5架构之上,它是一个深度神经网络模型,可以生成自然语言文本。以下是如何在本地计算机上设置它的步骤:
系统要求默认配置需要Ubuntu 16.04 LTS,至少24GB的VRAM,至少12GB(最小)、16GB(标准)或80GB(完整)的RAM,以及至少284GB的磁盘空间。此外,需要42GB的空间用于damo-vilab/text-to-video-ms-1.7b,126GB用于ControlNet,66GB用于stable-diffusion-v1-5,50GB用于其他资源。对于“lite”配置,只需要Ubuntu 16.04 LTS。
开始使用的步骤首先,将server/configs/config.default.yaml文件中的OpenAI Key和Hugging Face Token替换为你的密钥。或者,你可以将它们分别放在环境变量OPENAI_API_KEY和HUGGINGFACE_ACCESS_TOKEN中
运行以下命令:
对于Server:设置Python环境并安装所需的依赖项。# 设置环境cd serverconda create -n jarvis pythnotallow=3.8conda activate jarvisconda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidiapip install -r requirements.txt
下载所需的模型。# 下载模型。确保`git-lfs`已经安装。cd modelsbash download.sh # required when `inference_mode` is `local` or `hybrid`.
运行服务器# 运行服务器cd ..python models_server.py --config configs/config.default.yaml # required when `inference_mode` is `local` or `hybrid`python awesome_chat.py --config configs/config.default.yaml --mode server # for text-davinci-003
现在你可以通过向Web API端点发送HTTP请求来访问Jarvis的服务。发送请求到:
/hugginggpt端点,使用POST方法访问完整的服务。/tasks端点,使用POST方法访问阶段1的中间结果。/results端点,使用POST方法访问阶段1-3的中间结果。这些请求应该是JSON格式的,应该包括代表用户输入的信息列表。
对于Web:在服务器模式下启动应用程序awesome_chat.py后,在计算机上安装node js和npm。导航到web目录并安装以下依赖项:cd webnpm installnpm run dev
将http://{LAN_IP_of_the_server}:{port}/设置为web/src/config/index.ts的HUGGINGGPT_BASE_URL,以防你在其他机器上运行Web客户端。如果要使用视频生成功能,请使用H.264手动编译ffmpeg。# 可选:安装 ffmpeg# 这个命令需要在没有错误的情况下执行。LD_LIBRARY_PATH=/usr/local/lib /usr/local/bin/ffmpeg -i input.mp4 -vcodec libx264 output.mp4
双击设置图标,切换回ChatGPT。对于CLI:使用CLI设置Jarvis是非常简单的。只需运行下面提到的命令:
cd serverpython awesome_chat.py --config configs/config.default.yaml --mode cli
对于Gradio:Gradio演示也在Hugging Face Space上托管。你可以在输入OPENAI_API_KEY和HUGGINGFACE_ACCESS_TOKEN后进行试验。
要在本地运行它:
安装所需的依赖项,从Hugging Face Space克隆项目存储库,然后导航到项目目录使用以下命令启动模型服务器,然后启动Gradio演示:python models_server.py --config configs/config.gradio.yamlpython run_gradio_demo.py --config configs/config.gradio.yaml
在浏览器中通过http://localhost:7860访问演示,并通过输入各种输入进行测试作为选择,你也可以通过运行以下命令以Docker镜像的形式运行该演示:docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/microsoft-hugginggpt:latest python app.py
注意:如果有任何问题,请参考官方Github Repo(https://github.com/microsoft/JARVIS)。
最后的思考HuggingGPT也有某些需要在此强调一下的局限性。例如,系统的效率是一个主要瓶颈,在前面提到的所有阶段,HuggingGPT都需要与LLM进行多次交互。这些交互会导致用户体验的降低和延迟的增加。同样,最大的上下文长度也受到允许的令牌数量的限制。另一个问题是系统的可靠性,因为LLM可能会误解提示并产生一个错误的任务序列,这反过来又会影响整个过程。尽管如此,它在解决复杂的AI任务方面具有很大的潜力,并且是AGI的一个很好的进步。一起期待这项研究会把AI的未来带向哪个方向吧!
标签:
上一篇 : 去新疆旅游哪个季节好_去新疆旅游什么季节去最好
下一篇 : 最后一页
最新推荐
简介人工通用智能(AGI)可以被认为是一个人工智能系统,它能够像人类一样理解、处理和响应智力任务。这是
1、很多人都问过我新疆旅游最佳时间是什么时候,我的回答是一年四季都是新疆旅游的最佳世间,不同季节让你
供观音的素菜一般有香菇、豆腐、佛手瓜、生菜、鸡蛋、南瓜等,一些地方的寺庙也允许使用鸡蛋、牛奶等上供,
欢迎观看本篇文章,小勉来为大家解答以上问题。1毫米等于多少微米,等于1000微米很多人还不知道,现在让我
1、霹雳布袋戏虚拟人物。2、化外之地六极天桥的修行者,扮相斯文、谈吐谦和,与太慈心衔命探查五大神器下落
【港股午评:恒指涨0 75%中字头股票领涨】港股早盘持续震荡,恒生科技指数冲高回落。截至午盘,恒指涨0 75%
KD上场仅31中12布克:我跟他说别去担心TM什么效率就正常打,美国篮球,凯文杜兰特,丹佛掘金队,德文·布克,国
山东海化(000822)05月08日在投资者关系平台上答复了投资者关心的问题。
1、振华国际安全保卫(北京)有限公司于2018年10月09日成立。2、法定代表人李亚新,公司经营范围包括:门卫、巡逻
“五一”假期,各大美发厅十分繁忙,烫发的人居多,冷烫、热烫、离子烫、数码烫等五花八门。“无论选择...
IT之家5月8日消息,iQOO的平板电脑也在路上了,根据微博博主@数码闲聊站爆料,iQOOPad基本上
5月5日,四维图新(002405)融资买入2006 11万元,融资偿还3948 64万元,融资净卖出1942 53万元,融资余额1
北京时间5月6日晚间,被称为“投资界春晚”的伯克希尔哈撒韦年度股东大会问答环节如期举行。约五个半小...
今天来聊聊关于初中物理电学公式大全总结,初中物理电学公式大全的文章,现在就为大家来简单介绍下初中物理
1、面如土色的色就是颜色的意思。2、土色就是土黄色,形容一个人因为惊吓而面部的颜色变成了土黄色。本文到
1、十二生肖变肖是龙 猴 还有猪。首先能变的一是龙,传说龙能隐能显,能细能巨,能长能短,春分登天。秋分
最近这段时间总有小伙伴问小编互联网理财品牌有哪些 互联网理财产品排名有哪些是什么,小编为此在网上
明天大部分人就又要回到工作岗位上了,今年总要有个新气象,为了让新一年的工作顺利开展,首先建议大家来做
1、《快穿之女王驾到》是连载于百度小说的一部现代言情类网络小说,作者是月土月土。2、。本文到此分享完毕
5月2日以来,我国华中、华东地区出现强降雨及强对流天气过程。7日,雨带继续南压,强降雨区转移至华南。5月
据彭博10月10日消息,越南国家银行行长阮氏红(NguyenThiHong)表示,该行已采取“必要措施”确保西贡商业
1、没有星星的夜空,没有话题能补充太多承诺从指缝中溜走,不敢奢求什么回忆将我们扣留。2、一瞬间亲吻的
1、控制面板—打印和传真—打印机—文件—服务器属性—在出现的对话框中点格式——创建新格式—起个名B5...
1、天珠的功效与作用:天珠具有强烈的正面磁场能量,可以帮助平衡体内磁场,同时可以逐渐帮助缓解人的情绪
全国已实施小麦赤霉病防控面积3 53亿亩次---近期江淮、黄淮海等小麦主产区出现强降雨天气,气象预报未来10
1、鱼腥草具有清热解毒、消痈排脓、利尿通淋的作用。鱼腥草味辛,微寒。鱼腥草入肺经,可用于治疗肺脓肿、
1、武汉微冷科技有限公司成立于2012年。2、微冷科技位于光电子企业云集的湖北省武汉市,其工厂距武汉天河国
5月6日,德州市委常委会召开会议,认真学习4月28日中共中央政治局会议、二十届中央财经委员会第一次会议精
央视新闻消息,5月7日,据广州市气象台监测,广州市达到启动气象灾害(暴雨)Ⅲ级和(雷雨大风)Ⅳ应急响应
参考消息网5月7日报道据日本共同社5月7日报道,该社当天公布的一项民调结果显示,80%的受访者反对通过增税
1、百度打歌词搜就是的出来了。本文就为大家分享到这里,希望小伙伴们会喜欢。
1、MIYOTA是世界上产量和使用频率最高的石英机芯,由西铁城下属机芯厂生产。2、特点是,实惠。3、但是说实
东方网记者刘辉5月7日报道:宁夏的“青菜仔”、云南的“水果西芹”、盐城东台的“顶呱瓜”品牌西瓜、马来...
1、你这个配置不到最低配置诶·····游戏会崩溃也比较正常······补丁打到1 0 8,32位补丁打...
几天来,这里游客络绎不绝,游客们在赏风景、体验门巴族文化的同时,用相机记录着勒布沟秀丽独特的迷人景色
美国银行连续“爆雷”,引发市场广泛担忧,德国安联集团首席经济顾问穆罕默德·埃尔-埃利安认为,目前美...
据日本TBS电视台消息,当地时间6日23时54分左右,日本石川县能登半岛近海发生里氏4 1级地震,最大震度2级,
巴菲特表示,人工智能很可能不会告诉我们,应该买哪些股票。他指出,虽然人工智能可以帮助筛选符合某些参数
在我们的日常生活中,数码产品的普及率是相当的高了。各式的数码产品在我们的生活中都充当着重要的角色,这
1、7月5日星期三晴今天,我把《舒克贝塔历险记》看完了。2、这本童话故事是写舒克和贝塔这两只老鼠怎么交上
1、拼音:gāoliáng高粱(拉丁文名:Sorghumbicolor(L )Moench)别称蜀黍、芦粟等
鸡胸肉用刀背拍一下,切成大拇指甲大小的丁。用料酒一汤匙,食用油半汤匙,白胡椒半茶匙,盐半茶匙,淀粉一
1、骈伙工防膦杰现实总是残发忍又无奈,当你错过李春霞之后,你就知道或许此生再也无休缘了。2、每一个李春
1、中国雅虎的邮箱已经停止服务了。2、4月18日上午消息,阿里巴巴旗下的中国雅虎今天向用户发出通知,中国
长江防汛抗旱总指挥部发布:鉴于鄱阳湖水系赣江、抚河等支流防汛形势,按照《长江流域防汛抗旱应急预案》有
宁波市地方金融监管局、中国人民银行宁波市中心支行、宁波银保监局联合印发《金融支持恢复和扩大消费的若干
嘉兴经济运行交出优异答卷,嘉兴市,大运河,利用外资,经济运行,中国文物,中国世界遗产,内需战略规划纲要
2023年苏州医保个人账户划入标准是什么社保网小编为您整理了以下最新资讯供您参考。现在职工进入单位工作后
5月4日,笔者从南明区文体广电旅游局获悉,今年“五一”小长假期间,南明区累计接待游客106 65万人(次)...
球队的推进整体联赛状态总体上比较糟糕,目前处在联赛积分榜的第14名位置。两支球队的最近三次交手中,狼队
知识分享 为什么无线路由器连不上
男子做小程序曝光全国不诚信公司,为打工人、消费者避雷 当前聚焦
店家回应7人吃自助炫300多个螃蟹:那天太忙没注意已超时 世界微头条
世界热门:6-3,6-2!恭喜金花张帅:横扫7号种子组合,首进温网女双四强
我的电脑快捷方式怎样恢复正常_我的电脑快捷方式怎样恢复 环球热讯
环球快播:直通蓝厅丨外交部:美方正在把台湾变成“火药桶” 遭殃的是广大台湾同胞
全球速讯:手机桌面快捷键不见了怎么弄出来(桌面快捷键不见了怎么弄出来)
当前看点!i9 + RTX 4060 售价 6999 元,机械革命新款旷世 16 Pro 游戏本开售
李想辟谣“全网营销”,另曝车界“买流量,刷评论”怪象? 资讯推荐
世界速递!中外名人2022年亏损7563.36万同比亏损减少 信用减值损失减少
半决赛G2战罢,最新夺冠率出炉:榜首30%,勇士14%,湖人希望不大 实时
【全球快播报】“五一”假期常州警力下沉一线 守护市民游客安全
南京理工大学数学与统计学院2023年硕士研究生招生一志愿复试名单公示
孚能科技:因经营业绩出现亏损 2022年度不进行利润分配_每日焦点
Copyright © 2015-2022 世界律师网版权所有 备案号:琼ICP备2022009675号-1 联系邮箱:435 227 67@qq.com