基于大语言模型,自动化将能够到达第三个发展阶段。
4月25日,由中国科技产业智库「甲子光年」主办、上海市信息服务业行业协会支持的「共赴山海·2023甲子引力X智能新世代」峰会在上海顺利召开!
(资料图)
36位嘉宾齐聚本次峰会,全方位聚焦新一代人工智能,为科技与产业的结合寻找新机会,层层剖析中国科技产业新风向和趋势判断,一起驰骋在智能新世代,共同探寻智能新世代的过去,现在和未来。
当天下午,澜码科技创始人&CEO周健带来了《智能新时代下自动化的新思考》的分享。
周健表示,任何技术的突破都会存在明、暗两条线。明线是应用场景不断被解锁,暗线是技术应用的成本下降、技术走向“平民化”。以往基于RPA技术实现的自动化需求,将在AI大模型的加持下变得更加容易,进一步释放自动化的价值。
此外,周健还分享了他对自动化三个发展阶段的理解和预判。他表示,当前大语言模型下,我们正处在部分自动化的第二阶段。而真正到了完全自动化的第三阶段时,机器就能够完全自动的帮助我们实现各种我们需要的操作,相信这一天也会在不久的将来到来。
以下是澜码科技创始人&CEO周健演讲实录,「甲子光年」整理删改:
大家好,很高兴能够在此与大家分享智能时代下我们对自动化发展的新想法。
1.三位一体结构演化模式
首先简单自我介绍一下,我毕业于上海交大计算机专业,2002年获得ACM国际大学生程序设计竞赛世界冠军,当时我们是第一个获得这项竞赛冠军的亚洲团队。2006年我加入谷歌美国总部,负责中文网站搜索质量优化,在之后的职业生涯中,我在阿里云、MediaV、依图科技等工作过,我创业前的上一个身份是弘玑RPA公司CTO。这些经历和学习,让我能够比较深入了解AI和自动化等领域。
澜码科技是一家基于大语言模型的自动化平台公司,致力于人机协同、人机融合、人机共生等领域的研究和探索。
前不久,陆奇博士分享了“三位一体结构演化模式”,本质是讲任何复杂体系,包括一个人、一家公司、一个社会,甚至数字化本身的数字化体系,都是复杂体系。
“三位一体”包括:“信息”系统,从环境当中获得信息;“模型”系统,对信息做一种表达,进行推理和规划;“行动”系统,我们最终和环境做交互,达到人类想达到的目的。
陆奇博士比较好地描述了新时代下的三个科技发展系统,让人们可以更多地从AGI的视角下看待机器的不同功能。第一个信息系统其实就是信息化系统,例如记录供应链、HR等信息,它对于AGI而言是一个感知系统。
模型系统其实就可以对应到现在的AI大模型,模拟人的语言生态。其中语言模型相当于大脑,各种各样的信息系统相当于手、脚,但仍然需要一个神经中枢,将人类的意图通过大语言模型翻译为不同的软件操作,这个过程实际上就是所谓的自动化。
过去,工业革命时代自动化是工厂里替代蓝领工人的工具。AI时代则有机会通过越来越多、越来越便宜的智能涌现,替代白领办公室里重复性的知识劳动,让他们将精力集中在创新性的工作上。这也是自动化软件所定位的方向,也就是第三个行动系统。
2.技术成本降低,并催生新的应用场景
接下来是我的一些个人感受。从2015年AlphGo以来的两次AI浪潮,两次AI革命的主要发展方向是图像识别,因为深度学习技术的出现,许多计算机视觉技术变得更加普遍易用,其中最典型的例子是人脸识别技术。
下面这张是我在上一家公司画出的人脸识别图像技术发展趋势,随着技术的突破,模型参数能够达到20亿的指标。显而易见,技术的不断进步带来了新的应用场景。
在2014-2015年,我们只能进行人和身份证的比对,类似于酒店登记时的应用。后来在银行的手机端,我们能够进行活体检测,例如眨眼、张嘴、左右转头,这是2015-2016年的水平。现在,我们能够实现人脸闸机、门禁以及安防场景下的人脸搜索,甚至在摄像头下实现人脸识别。随着技术的不断革新,新场景也不断涌现。
现在的市场环境,已经和2015年相比有了巨大变化。最初我们在做CV(计算机视觉)的时候,市场上没有任何的图像识别供给,花100万可能都买不到一套。而现在OCR识别身份证成本只需要1-2万元,非常低。大B端采购70-80个AI模型可能只需要花费百万元。这是一个典型的,技术曲线从底层快速拉升,再到“天花板”的过程。
这次AI大模型的出现非常惊艳,GPT源于2017年的Transform,这就是不断地技术突破带来了新的惊喜。不仅是GPT-4,我相信GPT-5也会带来新的惊喜,技术的突破带来新的场景解锁。
显然,NLP(自然语言)技术和CV技术的成本已经非常低,尤其在OpenAI将其SaaS化之后,相当于今天任何一家初创公司,都拥有一支300人的NLP团队。今天,无论是什么场景或者NLP任务,企业都不需要雇用一个10人的NLP团队,只需要买一些算力、收集一些数据并进行训练,与之前相比成本极低。这将给整个创业生态带来巨大变化。
以前我们想不到做什么,认为AI技术有局限性、成本有限制,但现在我们完全有能力做到了。
实际上,AI带来的是人机协作的能力。以前以RPA为中心,而今天基于大语言模型,自动化将变得更容易,因为RPA更偏向于机器语言。这就是自动化的优势。
从企业技术视角来看,每个人每天都会完成很多任务,如何将这些任务自动化,是一个可能由RPA解决的问题。所谓“线”,就是流程自动化;而团队如何协作,则可以通过低代码、BI等软件实现。事实上,由于现在有了大型语言模型,任务和流程自动化可以带来很大的价值,不仅提升了流程的价值,也提高了个人的价值。
但是我认为未来有更大的可能性,如果人和系统之间全部由机器人协作,我们就可以对整个企业流程进行诊断。
在超级自动化中,有一种新的赛道叫做流程挖掘。这个过程相对来说十分简单,只是基于时间戳、事件ID和字符串的过程阶段,然后分析。就像对人进行CT检查一样。但是当今天,人和机器之间能够通过这些自动化脚本来记录日志,未来就很容易开发类似彩超或核磁共振的机器来对企业组织的效率进行诊断。这也是一种可能性。
从大型语言模型的角度来看,人机交互将会发生重大变革。过去人们需要适应机器,而现在是机器适应我们。人们不再需要记住所有事情,机器会代为记忆。我的预测是,未来所有的软件都会采用自然语言进行交互,不需要菜单,也不需要API。它们之间能够相互交流,协同完成人类的目标。
给大家看一个澜码的Demo,它是一个游戏开发引擎。我们在这个游戏上执行了一些基本操作,相当于在XY坐标上添加资源。通过翻译、理解用户需求,我们可以让它像工厂一样将其转化为自动化操作。
过去,软件可能无法轻松地实现如此多的功能,但大语言模型能够理解这种需求,通过API调用实现自动化过程,无需了解细节、菜单或在3D场景中与之对齐,只需下达命令,就像有一位秘书帮助您完成任务。
对于大语言模型而言,这是一个新的机会。
3.自动化的三个阶段
在我看来,自动化一共会分为三个阶段。
第一个阶段是连接自动化。今天每个软件都可能有自己的API,或者可以使用RPA的方式操作这些没有API的软件。这些软件的操作基于大型语言技术比较容易,通过提供一个翻译框和用户对操作的具体了解,用户可以告诉计算机他们想要做什么。例如,上面的Demo中,把树的高度缩小一些这样的命令,能够被计算机理解并翻译成针对每个对象的操作。如果对象类型为数值型,则将其高度乘以2。这是第一个阶段,用户仍然需要详细描述操作参数,但计算机可以将其分类并进行翻译。
第二个阶段是自动化的部分实现。当机器能够掌握一定领域的模型,并且对于个人的上下文有一定理解时,它可以自动完成一些任务。
假设我需要安排一天的行程,其中包括与同事的会面和约见投资人。我可以告诉机器人安排行程,并告诉它我有哪些约会和会议。例如“下午3点有人约我,能不能去新天地开会”。机器人会通过爬取微信聊天记录、飞书和手机日历来自动生成一张行程表,并提醒我今天1点到2点在哪里,2点到3点在哪里,以及出行时间等信息。这种自动完成任务的方式是在第二个阶段实现的,相当于部分实现了智能化。
这些信息与自然语言模型无关,因为自然语言模型只会了解世界知识。如果机器能够理解上下文,或者企业业务规则,例如出差规定,根据职级,不能超过600元的二线城市酒店等,它可以帮助自动补全上下文,以便做出合理决策和规划,无需一个个在携程上查找和确认。此种机器人能力是第二个大阶段的体现。
第三阶段其实就是完全实现自动化阶段。由于现在的自动化是由RPA调用API接口完成的,所以机器可能无法完全理解屏幕上的应用程序,因此我仍然需要有人来告诉我这是招商银行的网上银行、这是中信银行的网上银行。在硅谷,有一家公司试图解决这个问题,他们能够在底层进行认知、理解整个屏幕。未来,当我需要下载招商银行网上银行的流程时,机器就能够自动地帮我完成,这就是第三个全自动化的阶段。
除了API,我们在上层也有应用程序可以通过自然语言进行交互。这些应用程序可能会了解一些底层模型,例如刚刚提到的行程、火车票或酒店订购。有了这些模型,它们可以主动获取个人上下文信息,并根据当前需求规划。
展望未来,除了操作软件,我们还将面临各种智能家居设备和机器人的接入。未来5-10年内,整个世界将进入元宇宙时代,手机上的应用程序将成为过去,完全由AI虚拟人和人类之间的互动代替。
以上就是我的演讲,谢谢大家!