配资开户

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

优配资讯 你的位置:配资开户 > 优配资讯 > 惊天回转?全球首个AI步调员被揭演示作秀,再次“触动”硅谷

惊天回转?全球首个AI步调员被揭演示作秀,再次“触动”硅谷

发布日期:2024-04-17 09:12    点击次数:150

让 AI 出身的奇迹,会因为 AI 逍遥吗?

上个月,初创公司 Cognition AI 用精妙绝伦的 Demo 演示了 AI 软件工程师 Devin,整夜之间在 X 上卷刮风暴之余,也让更多步调员发出了如上疑问。

在官方的界说中,Devin 被刻画为世界上第一位完全自主的 AI 软件工程师,大有要取代步调员的意义。

图片

举例,Cognition AI 念念让 Devin 完成一个任务:测试大言语模子 Llama 在三个 API 提供商上的性能。

他们发了一段用当然言语写的教导词,接下来,双手离开键盘,一切齐交给 Devin。

然后,Devin 便运行像东说念主类步调员相似写代码,告成构建和部署了一个可视化的网站,既完成了任务,收尾又赏心顺眼,走进阅卷淳厚的心坎里。

关联词,几天前,一位 Youtube 博主在逐帧分析 Devin 的宣传视频以及上手复现 Demo 后,发现过于完竣的 Devin 似乎只是「活」在视频里。

一方面,Devin 并不可按照老板的条目去完成完整的任务,另一方面,Devin 也清寒算作一个及格工程师与老板交流决策和阐明具体需求的才智。

以下为该视频文本:

这等于「互联网的无理」节目。我是卡尔,当今有个谣喙念念要告诉你们。这个视频分为三个部分。

首先,咱们将计议这个说法。咱们将计议应该作念什么,Devin 执行上作念了什么,以及它是若何作念到的而况作念得若何。

我从事软件行业也曾 35 年了。我并不反对 AI,但我真的反对炒作,这等于我这样作念的原因。

一个月前,Devin 被吹捧为世界上第一个 AI 软件工程师,我不笃信它是第一个软件工程师,我也曾制作了一个对于这个的视频。我会在说明中提供贯穿。但今天是对于具体观念的。即视频简介的第一句话——「看 Devin 通过参差的 upwork 任务来收货。」这种说法是谣喙。但你在视频中看不到这小数,它也不会在视频中发生。

更恶运的是,东说念主们因为试图赢得点击或病毒式传播或者只是念念跟上期间的潮水。而胁制相通和好意思化这一说法,并激发了东说念主们的炒作和恐惧、不笃定性和怀疑。总的来说,对于 Devin 的炒作是落拓的。这句话似乎是许多东说念主所依据的。

需要说明,我个东说念主认为生成式 AI 很酷。我本东说念主依期使用 GitHub Copilot。我也使用 ChatGPT、Llama 2、Stable Diffusion。通盘这些用具齐很酷。然则,谎报这些用具能作念什么对通盘东说念主齐是抵拒允的。因此,Devin 作念了一些令东说念主印象深切的事情,我但愿这家公司本不错保捏赤诚,粗浅地承认这一成就。但他们莫得这样作念。他们不得不假装它的功能远超执行。

当今,我不测谴责那些信得过开导 Devin 的工程师们的孝顺。我认为 Devin 在许多方面齐令东说念主印象深切,终点是,我不是要针对视频中的那位一又友。谣喙不是在视频自身中,而是在视频的形容以及公司的推文中。

然后它们出当今许多场地,东说念主们一遍又一随地相通着这种谣喙。这不应该是善事。公司不应该在莫得受到质问的情况下撒谎。东说念主们也不应该未经核实就相通互联网上的言论。我知说念这似乎是竹篮吊水,但我孤高为此坚捏到底。

由于莫得看到其他东说念主在讲明这是个谣喙,看来要处置这个问题,我需要亲身出马。在你以为这种谣喙轻于鸿毛之前,请理解到这确乎能形成执行的伤害。

你可能是有一定时候配景的不雅众,请记取,许多东说念主只看标题,不读正文,他们并莫得时候配景。这些谣喙导致非时候东说念主员无理地认为东说念主工智能的才智远超现时水平,从而激发了多种问题。

而这些谣喙所作念的是让非时候东说念主员笃信 AI 比当今更有才智,东说念主们最终对 AI 的怀疑也清寒必要的警醒性。面前对 AI 盲目信任已让许多东说念主靠近窘境,其中 AI 讼师伪造案件或 AI 伪造科学论文齐是比较隆起的例子。

这也伤害了信得过的软件专科东说念主士,因为会有一些东说念主笃信 AI 生成的代码。因为有东说念主会信任 AI 生成的代码,这意味着聚积上将出现更多的无理,而当今聚积的现象也曾很恶运了,疏忽和黑客行动层见错出。恶运的代码越多,对每个东说念主的生态环境的影响就越恶劣。

咱们接着来计议第二部分,Devin 应该完成的责任是什么?这是视频的运行或较早的部分。请谛视,屏幕左下角标有我也曾给你行将分析的每一帧齐标上了时辰码。当今咱们来到了视频的 2.936 秒处,如果你对某个具体细节感酷好,或念念要知说念更多我计议内容的配景信息,你不错自行放哨。

这等于 Devin 在 Upwork 上所作念的责任。咱们一会儿再计议。首先,请放哨屏幕左侧顶部,谛视看,他们搜索了这个。是以这不是一些巧合的责任。这不是...Devin 不错在 Upwork 上承担任何责任,对不合?这是他们全心挑选的。这并不一定具有骗取性。你可能也会这样期待。但请记取,这意味着 Devin 在其他大部单干作上可能比这一次的进展还要差,而此次的进展就已不尽东说念主意。

再来望望阿谁特定苦求的细节,不才面,那才是客户信得过需要的。我念念要利用这个库来进行推理。你需要提供翔实的操作指南。我不念念计议完成这项责任瞻望需要的时辰。Devin 莫得说起这小数。那不紧要,我不在乎这个。但你看,这才是 Devin 执行被见知的内容。而这是径直复制并粘贴给 Devin 的。我但愿利用这个模子在库中进行推理。这是阿谁存储库。请我方弄了了。

好了,回到责任自身。你需要提供的是如安在 AWS 的 EC2 上操作的翔实指南。粗浅地说「请我方弄显豁」和提供 AWS 的 EC2 实例操作的翔实率领是不相似的。迟滞声明,视频末尾的这份呈文是 Devin 生成的呈文,内部根柢莫得说起客户执行所需。

那么,这份责任的最终效果应该是什么呢?首先,你要明确的是若何运行这项责任。你将需要在云表配置一个实例。笃定实例的大小、类型、所需的内存等,这些齐要弄了了。你需要向客户商讨,他们是更倾向于一个运行更快但资本更高的实例,如故一个更经济但运行较慢的实例?这个系统需要捏续在线吗?随时不错处理提交的任务并给出回报吗?如故你操办启动它,运行后却关闭以省俭开支?

你如那边理你需要进行推理分析的府上?如那边理你需要分析的图片?你操办若何把这些上传到办事器?不错设立一个网页界面来处理。你也不错通过 SSH 上传,或者放在 S3 bucket 里。那输出收尾的造访面容又是若何的呢?这些齐是你必须了解的问题。

好了,这亦然我之前视频里提到的。

算作又名软件工程师,软件开导东说念主员的责任中 AI 不擅长的部分、难点、关节、复杂、耗时的部分主淌若与客户、上级及其他利益接洽者的交流。弄了了执行需要处理什么,反复计议「这样作念会粗浅许多,咱们就这样作念若何?」这些齐是 AI 面前无法完成的任务,而这些恰正是咱们所作念的相配弥留的事情。

这只是从 AI 作念错事运行的。缺憾的是,这是在 upwork 上的情况。因此,对于那些改日可能会遭遇这个情况的东说念主来说,像这样的提案苦求很恶运。如果可能,尽量幸免。合理的提案苦求历程会包含问答门径。他们会说明他们的需求,你向他们建议问题,其他供应商也会建议问题。他们回答通盘问题,将谜底发送给每个东说念主,然后竞标就运行了。

既然咱们不可在 Upwork 中作念到这小数,因为平台不维持,接下来最佳的作念法 (固然并不是很好) 是你陈列通盘问题,选择那些不错最大归天减少你责任量的谜底。然后在你的提案起原明确说明,「这些是我所作念的假定。如果这些假定有任何不符,不错再行协商,但这意味着资本会飞腾。」

因为你要尽可能地低报价,同期确保客户显豁你的出价是基于这些假定的,如果这些假定中的任何一个,他们但愿以不同的面容完成,他们将不得不支付更多。这不是一个好的竞标过程,但如果你必须作念这种竞标过程,那等于你的模式。

此任务的委用内容应该包括:哪种云实例类型、哪种操作系统和镜像的使用以及若何树立、安设环境 (对于 CUDA、APEX、PyTorch,如果你不纯熟这些并不弥留)。

这是一个四年前的库,你要么更新这个库以便适用于当代 Python 及其库,或者你需要讲明若何安设一个四年或更旧的环境,必须选择这两种决策中的一种。你需要向客户讲明若何将数据上传至实例,他们若何从实例下载输出收尾等。

我也执行上复现了 Devin 作念的事情。稍后咱们会更多地磋议这个问题。

这是我使用的执行实例的规模。我选择了 Vulture 而不是 AWS,因为 AWS 的界面复杂不易操作,不太适合制作视频。而且最弥留的是,到这个视频被裁剪和发布时可能也曾有新版块发布,导致数据出错。

因此,这种面容厚实性更高,操作也更粗浅。对于这项责任,为客户着念念,蓝本操办在 AWS 上完成的。咱们不知说念 Devin 使用了什么样的图片。他们莫得线路任何信息。

如果你是个受虐狂,这里有个贯穿,不错看到完整视频,我会当今放在形容中。整整 35 分钟 55 秒,复制 Devin 所作念的一切。如果你真的没事干,不妨望望。我认为透明度很弥留,这视频固然没趣,但至关弥留。我但愿那些制造 Devin 的公司及其他在网上发表此类声明的东说念主,省略真的发布原始视频,让咱们在必要时不错核实他们的声明。

好的,接下来的部分。辩论到 Devin 莫得按客户的条目行事,呈文里也莫得包含客户条目的内容,而且 Devin 执行也莫得得到任何薪金,那 Devin 到底作念了什么呢?如果它莫得收货,那它究竟产出了什么,执行作念得好不好呢?

这是视频的一个截图,也等于被提到的 Repo。咱们稍后再回到这样的屏幕。

这是 Devin 第一次信得过的变动。这是一个名为 requirements.txt 的文献,它规章了代码的依赖库版块。而况它必须蜕变一些事情,因为这个代码库领先依赖的一些库是四年前的版块,而当今其中一些库出售,不再提供下载,是以不得不进行了一些修改。

这里提到 Devin 执行上正在更新代码。这种说法在某种进程上是不错成立。我认为这更多的是在修改配置文献,而非代码革新,但这也说得曩昔。Devin 省略作念到这小数确乎令东说念主赞美。如果这个用具只是是调遣了通盘 requirements.txt 以使它们一致,那将大大省俭我的时辰。这将是一个很棒的功能。

是以,能作念到这小数很好。我不笃定是否将其称为代码,但这是信得过需要完成的责任的很小一部分。

与客户的条目比拟,他们基本上但愿建立我方的推理才智。Devin 被见知只使用样例数据就不错,因此这正是我复现 Devin 操作时所作念的。平凡情况下,应该比这更复杂,但咱们将展示 Devin 执行所作念的。好的,Devin 很早就遭遇了一个无理。我莫得遭遇这个无理,马上你会看到原因。在这里仔细看,这是一个号令行无理。

在顶部,咱们遭遇了与掀开图像、文献未找到、无此文献或目次接洽的无理。这个无理出当今一个名为 visualize_detections.py 的代码文献中。我莫得遭遇这个问题,是因为在阿谁代码库中不存在名为 visualize_detections.py 的文献。我不笃定阿谁文献从哪来的,但对于这个问题的更多信息稍后会提供。

回到号令行,如果你放大窗口的其他部分,你会发现,Devin 将一些内容写入一个名为 inspect_results.py 的文献中接着运行 Python 实践这个文献收尾出现了语法无理。在 Python 文献中使用反斜杠 n 是运行不了的。echo 号令也不该这样使用。这可能是由于东说念主为浮滑而进行的操作,然后你会已而理解到,「哦,对了,我应该蜕变我的模式。」

但当今看来,优配资讯Devin 在创建这些含无理的文献后,又进行了修正。

视频中提到 Devin 执行上是在进行打印行调试。这很酷,这是咱们许多东说念主作念的事情,在某些情况下,使用打印行调试确乎很有用,能看到 Devin 也能这样作念,嗅觉很酷。但这里也出现了另一个我之前莫得谛视到的无理。Devin 正在尝试处置这个问题。

驳倒里说,「Devin 正在添加代码,跟踪数据流直至透澈通晓。」我对此没问题。我不笃定在这种情境下使用「通晓」这一词是否妥当。我不笃信 Devin 真的能理撤职何事物,我对此暗示怀疑。

不外,咱们一直将这样的东西拟东说念主化,这亦然言语使用上的一种便利。因此,我不会因此而严厉品评他们。但话虽如斯,让咱们来望望 Devin 执行在作念什么。放大不雅察这一部分,不错看到一个奇特的轮回。它正在读取一个文献,并把数据读入一个缓冲区。这是 update_image_ids.py 文献。

再次说明,这个文献在客户条目咱们使用的代码仓库中不存在。执行上,我在 GitHub 上搜索了通盘可能的位置,惟有两处存在带有这个称呼的文献。屏幕上夸耀三个的原因是其中一个是另一个的分支版块,它们与 Devin 正在使用的文献完全不同。是以我不了了这个文献从何而来,咱们也一无所知。

但问题在于 Devin 此处正在调试一个我方创建的文献,而这个文献完全不在名堂代码仓库中。这相配失当。对于那些可能不太专心看视频的不雅众,或是那些没时辰或没元气心灵去放哨代码库的东说念主,或莫得时辰查验代码仓库的东说念主,这段视频给东说念主的嗅觉是 Devin 正在识别并修正 Upwork 用户建议需要咱们查验的代码库中的无理。

这并非真相。Devin 自行生成无理,随后我方调试并竖立了这些无理。这似乎不适合 Devin 的老例操作。这既不是东说念主们遍及认为 Devin 应该作念的,也不是许多撰写对于 Devin 的著述和视频的东说念主士所形容的。

事实上,Devin 并莫得竖立它在互联网上发现的代码,也莫得竖立客户条目它竖立的代码。而是在修正我方生成的无理代码。这完全不是大多半看这个视频的东说念主所认为的情况。更恶运的是,莫得旨趣这样作念。这是阿谁代码库中的 readme 文献。

正如前边提到的,咱们会回到这个页面。该库中有一个名为 infer.py 的文献,正如视频中 Devin 所作念的那样。readme 文献说明了其功能及使用模式。在右侧,以致还有一个小按钮,你不错点击它来复制整条号令,粘贴至你的号令行窗口,然后按下回车。如果你看过我演示若何重现收尾的长视频,这正是我所作念的。我复制粘贴了这个代码,修改了旅途名后按下回车,它就运走时行了。

我认为开导这个检测说念路损坏的代码仓库的东说念主也曾尽可能地简化了使用说明,但 Devin 似乎如故没能通晓。因此他不得不我方创建了一个絮聒的名堂。这段代码,对于读入缓冲区的部分,是很恶运的,对吗?这是几十年前在 C 言语,这种更初级的言语中才会用的模式。而 Python 有更有用的处理面容。

正如 Devin 正在发现的,这样的代码很难调试。它复杂,难以处理,很容易出现小无理,我念念这正是 Devin 当今尝试处置的问题。我不完全笃定具体是什么出了问题,但看起来像是字符偏移了,导致 JSON 莫得被正确理解。但我要说的是,当今这种模式也曾落后了。咱们在 Python 中不会这样作念。这不是我在代码审查时会汲取的,尤其是来自一个初级开导者的。这种作念法引起的问题比它处置的要多。这瑕瑜常恶运的作念法。

此外,代码仓库里确乎存在一个信得过的无理,Devin 莫得找到也莫得竖立。Devin 刚刚创建了一堆其他的东西。

就像我说的,我我方复现了 Devin 的责任。这是贯穿,将会在视频形容中提供。我使用了 Torch 2.2.2,这是比 Devin 使用过的版块更新的版块。回看之前的 requirements.txt 文献,我遭遇的主要贫瘠是安设一个叫作念 Apex 的软件包,需要合作正确版块的 CUDA,也等于 NVIDIA 的驱动步调。这相配难办。

我最终不得不从源码运行构建,这个过程大要占了我责任总时辰的 16 分钟,共 36 分钟。可能有一个更粗浅的模式来作念到这小数,但对于 16 分钟的编译时辰来看,这似乎是最快捷的模式。我确乎把硬编码从 requirements.txt 文献中删除了。Devin 只是革新了一些数字,我认为我的面容更好,但时候上不管哪种面容齐不错。

不才一张幻灯片中,执行上有一个需要竖立的无理,我将会展示那是什么。总计花了我大要 36 分钟,具体来说是 35 分 55 秒来完成我所作念的事。

待会当咱们计议 Devin 花费的时辰时,这会很弥留。这是我上传的阿谁长视频的截图,固然没列出,但我提供了贯穿,接待不雅看完整视频。放大放哨。是以,信得过的无理在于名为 dataset.py 的文献第 33 行。问题是 torch 模块坚苦一个名为 underscore six 的属性。通过 Google 搜索,我在 Github 上发现了一个驳倒。我按照该驳倒中的建议修改了代码行,这样确乎处置了问题。

我还附上了一个贯穿,展示了我是从那边赢得这个处置决策的灵感,因为我对 Apex 的责任旨趣并不瑕瑜常纯熟。能在聚积上找到匡助确实太好了。处置这个问题总计花了我大要一分钟七秒的时辰,只需这样短的时辰我就修正了无理。这只是一个快速的 Google 搜索辛劳。

以下是我所作念的修改的具体内容。这是我领先现象和临了现象之间的各别。这是 requirements.txt 文献的一处修改。最运应用用的是 torch 1.4.0 版块,我使用了最新版块的 torch,即 2.2.2,或者至少是一个比较新的版块。在曩昔的一小时里,可能也曾有了更新的版块。然后在右边,这是 Devin 视频中的临了一个屏幕,左边是我的视频,也等于临了的输出。它们或多或少是相似的。我的框框是黄色的,他们的是红色的。我不了了哪个更好或更差。但我只花了 36 分钟,Devin 花的时辰稍稍多小数。

这里是 Devin 视频的早期部分。时辰戳 3 月 9 日下昼 3.25 的。在视频的后半部分,你不错看到另一个时辰戳,等于 3 月 9 日晚上 9.41。那么咱们看到的是 6 小时 20 分钟的拆开。我完全不知说念这 6 小时 20 分钟里发生了什么。我但愿像 Devin 那样,他在等东说念主的时辰较长,因为这个过程花这样长的时辰真实没专门义意义。

这几乎是疯了,因为我只用了大要半个小时。另外一个我猜念念,可能等于他们让它过夜,然后第二天再追念处理,因为又有一个时辰戳,是第二寰宇午 6 点的。但愿这个过程并莫得捏续这样永劫辰。是以我忖度用了六个小时,但执行上可能花了一天两小时。

只是,我不知说念为什么会花费那么永劫辰,毕竟这样的着力不高。当你逐帧放哨时,你会发现屏幕上出现了一些奇怪的号令行操作。这里有一个奇怪的无理。望望这个号令「head -N 5 results.json | tail -N 5」。这是什么意义呢?它暗示取这个 JSON 文献的前五行,然后再取这些行的临了五行。这完全没必要。

莫得旨趣这样作念,莫得东说念主会这样作念,而这正是 AI 无法感知的事情。当你稍后回及其来看,你就会发现我刚直在试图调试什么。然后到处齐是这些卑不足说念的东西。这让找出问题的关节变得相配贫瘠。其实,正确的作念法应该是「head -5 results.json」。阿谁-N 是过剩的。只须说 -5 就不错,不需要那些过剩的东西。

这种情况等于,当 AI 当今生成内容时,会让事情变得更复杂,但愿这种情况能变得更好。但当今 AI 生成的东西中有许多齐很愚蠢。比如它在 Python 中实践操作的面容,就像你在 C 中实践操作的面容,关联词当今莫得东说念主会用 Python 这样作念。即使它当今能泛泛责任,然则生成式 AI 的近况等于它完成的责任恶运、复杂、絮聒,这不仅给每个东说念主加多了更多的责任,如果你将来要尝试去保重它,竖立其中的无理,或者更新到新的版块,或者作念任何近似的事情,齐会相配贫瘠。

让咱们看一下 Devin 认为需要完成的任务列表。如果你看左边,就会看到我接下来会翔实先容的复选框。具体是什么并不弥留,只是看一下数目辛劳。这一系列复选框给东说念主的嗅觉是 Devin 完成了一些复杂或贫瘠的任务。当你不雅看视频,看到这些信息快速回荡曩昔,你可能会以为,哇,Devin 作念了许多事情。

关联词,为了复制 Devin 的收尾,我只需要在云实例上树立合适硬件的环境,并执走时行两个带有正确旅途的号令。这些东西看起来就像 Devin 作念了许多责任,完成了许多任务。关联词,只须你树立好环境,执行上你只需要运行两个号令。这些代码修正十足卑不足说念,因为它们齐是 Devin 自身生成的代码。

然后在临了旁白视频中的东说念主说,干得好,德文。而当今执行上,Devin 完成的任务对于一个 AI 来说的确很酷。

如果你几个月前问我,一个 AI 面对这个问题会作念些什么,我可能会预测它的进展会比 Devin 执行上的要差。说真话,就我而言,这真的相配令东说念主印象深切。但在 Upwork 责任应该完成的任务配景下,尤其是在一些东说念主宣称 Devin 从 Upwork 接活并完成的情况下,再加上公司的声明,即这段视频将展示 Devin 若何通过责任赢得薪金,这些齐只是谣喙,我不太招供「干得漂亮」这句旁白。

因此,如果你们正在开导 AI 家具,那很好。AI 是有价值的,我频频使用它,我但愿它能变得愈加优秀。请赓续开导 AI 家具,但请一定要如实告诉公共对于它们的事情。

如果你是又名记者,博主或者有影响力的东说念主,千万不要盲目地转发和扩大互联网上的信息,而不进行必要的核实,莫得查证它们是否真实。如果你对某些信息是否真实感到困惑,或者你我方无法笃定它们是否真实,那么请向其他东说念主商讨,或者干脆不要转发这些信息。因为许多东说念主并不会去放哨信息的原始来源,他们只看标题,然后就会误以为这些信息是真实的。

这的确让东说念主感到缺憾,但这等于咱们的现实。如果你当今正在使用互联网,那么出于对通盘圣洁事物的怜爱,请对你在互联网上看到的一切或新闻上看到的一切捏怀疑格调,尤其是任何可能与 AI 相关的事情。

面前有太多的炒作,有许多东说念主在溜达各式信息,宣称这些是真实的,但执行上并非如斯。是以理财投资,请一定不要健忘对一切捏有怀疑的格调。这很弥留。



Powered by 配资开户 @2013-2022 RSS地图 HTML地图

万生; 2013-2022 万生优配公司 版权所有