您的位置首页  科技产品  机器人

AIGC产业应用研究报告一文读懂AIGC的前世今生

  • 来源:互联网
  • |
  • 2023-03-06
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

AIGC产业应用研究报告一文读懂AIGC的前世今生

  AIGC是AI Generated Content的缩写,指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,都在助力AIGC的快速发展。去年人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现,拉开了智能创作时代的序幕。

  在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。本书将结合生动的比喻和有趣的案例,向所有关注未来科技的从业者、创业者、投资人、政府部门科普AIGC的商业落地场景和行业应用案例。

  趋势判断:人工智能产业经过多年发展,技术实现将从感知智能升级成认知智能,从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内,AIGC技术将在多个领域落地。

  与之前的PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。按照模态区分,AIGC又可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中跨模态生成值得重点关注。

  自然语言处理(NLP)赋予了AI理解和生成能力,大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG),ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5系列中的模型进行微调产生的聊天机器人模型,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。

  AIGC发展可分为三阶段,早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段 (本世纪10年代中期至今)。

  由于技术限制AIGC仅限于小范围实验与应用,1957年出现首支电脑创作的音乐作品,弦乐四重奏《依利亚克组曲(Illiac Suite)》,80年代末至90年代中由于高成本及难以商业化,因此资本投入有限导致AIGC无较多较大成绩。

  AIGC从实验性转向实用性,2006年深度学习算法取得进展,同时GPU,CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《I The Road》(《在路上》)问世,2012年微软展示全自动同声传译系统,主要基于“深度神经网络”(Deep Neural Network,DNN)自动将英文讲话内容通过语音识别等技术生成中文。

  2014年深度学习算法“生成式对抗网络”(Generative Adversarial Network, GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年Open AI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。我国AIGC市场在2022年底引起较大关注,2023年开年企业端跃跃欲试。虽然行业仍处于起步阶段,距离大规模证明和体系化发展仍有距离,但从资本的加码到应用场景的探索,距离的缝隙有望逐步填补,同时,“模块分拆+个性化推荐”的“泛AIGC”形式有望持续发展。

  1950年,人工智能的先驱艾伦·图灵发表了一篇划时代的论文《计算机器与智能》,文中提出了著名的图灵测试:“如果一台机器能够与人类展开对话(通过电信设备)而保证其机器身份不被识破,那么就可以认为这台机器具有智能。”此外文章还预言了在未来可能创造出具有真正智能的机器。

  虽然图灵测试从理论上验证了机器拥有智能的可能性,但AI正式发展成一门专业学科则是在1956年的达特茅斯会议,会议的组织者与参与者都是数一数二的科学家,包括约翰·麦卡锡,马文·闵斯基,纳撒尼尔·罗切斯特,克劳德·香农等。在这次会议上,“人工智能”的名称与概念正式确立,因此这次会议也被视为AI产业的起点。

  符号主义认为人类的一切活动(包括体力活动和智力活动)都是符合某种逻辑的,所有信息都可以用各种符号表示,人类的认知过程就可以视为基于逻辑规则的,操作这些符号的过程。根据这种理论,如果电脑能自动执行和人脑一样的规则和过程,那么就可以视为实现了人工智能。

  联结主义与符号主义几乎是同时提出的,人工智能的关键不在于让电脑等机器实现智力活动,而应该模仿人脑的结构。这派观点认为智能是人脑细胞与神经元彼此连接成网络共同处理信息的结果,如果能在电脑中模拟这种结构再实现人工智能自然也更轻松。早在电脑发明前的40年代,就有持这种观点的科学家进行了数学建模,奠定了后来人工神经网络和专家系统的雏形。

  与前两种流派不同的,行为主义于上世纪80年代提出,它倡导“感知+行动”。这种观点源于“控制论”,强调模拟人在控制过程中的智能行为和动作。但是限于时代和科技发展,行为主义直到上世纪末,随着智能控制与机器人逐渐兴起才引起重视。截至目前的AI发展,几乎都是三种流派的结合运用。

  在1950年,图灵的论文《计算机器与智能》中提出了“学习机器”的概念,现在已经发展成AI科学中的一个独立分支。机器学习主要是设计和分析一些让电脑可以“自动学习”的算法,是一类从数据中自动分析和获得规律,并利用规律对未知数据进行预测的算法。从技术角度说,这一理论关注可以实现的,行之有效的学习算法(要防止错误累积)。

  机器学习中最容易理解与实现的是监督学习与无监督学习,前者就是感知器算法的典型案例之一,它也是人工神经网络的基础。简要说来,监督学习是从给定的训练数据集中学习出一个函数,再接收到新数据时就可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,也可以说是特征和目标,训练集中的各项目标都是人为标注的。

  这种算法可以视为多层感知器,除了输入输出层外,它还加入了若干隐藏层。隐藏层中的神经元节点可以与输入输出节点相连,每条链接上都有各自的权重系数,最终形成一个网络结构。之所以要加入隐藏层,是因为现实中很多情况都不是简单的二元对立,总有这样那样的变化需要考虑。

  与监督和无监督学习更重视学习数据不同,强化学习是在给定的数据环境下,让机器学习如何通过选择一系列行动来达成长期累计收益最大化的目标。从本质上说,这种算法学习的是一套决策系统而非数据,它在很多游戏中都有运用。著名的阿尔法狗(AlphaGo)就结合了强化学习与专家系统,能连续击败多位人类围棋高手,名噪一时。

  通过前面的介绍可以发现,不论哪种机器学习算法,对特征的选取和处理在模型训练中是很重要的,但在很多情况下要直接提取合适且有效的特征是很困难的,如提取海量图片和句子的特征。此时的机器学习就不能只局限于图片或句子的某一特征,而是它们背后隐含的复杂关系。因此需要结合深度模型进行自动计算,而模型主要是深度神经网络,这是一种更复杂的神经网络。深度学习算法就是采用类似的深层次结构进行机器学习的算法,目前大火的ChatGPT就运用了这种算法。

  2022年9月的AI绘画作品《太空歌剧院》获得美国科罗拉多州博览会的艺术比赛的第一名,当时有人预测若未来五年有10%-30%的图片在AI的帮助下诞生,那么AI绘画则将创造超过600亿元的市场空间,若考虑到下一代互联网对内容需求的迅速提升,则可能创造更大的市场规模。随后OpenAI的ChatGPT一问世就多次刷新之前APP注册用户数量突破的纪录,业内预测带动的市场规模将破万亿。

  不论AIGC产业如何发展,人工智能的分析、创作、决策能力都依赖海量数据。因此决定不同机器间能力差异的就是数据的数量与质量。

  通常来说数据库有两种模型,一种像湖泊,汇聚来自各地的水源而不作区分;另一种像仓库,分门别类的存储数据。近几年在科技的推动下,现代数据库一般都是两种模型的结合,兼具二者的易用性、规范性等特征,还为用户带来降本增效、省时省力等特点。根据对其中数据的查询与处理等时效性,涉及其中业务的公司可分为异步处理型公司和实时处理型公司。

  数据的处理主要涉及提取,加载和转换。根据海外市场研究企业Grand View Research的数据,2021年全球数据集成工具市场的规模约105亿美元,在未来十年将以年复合增长率约12%的速度增长。根据处理方式的区别,这种公司可以分为本地部署型公司和云端原生型公司。

  不论哪种机器学习模型,都可以简化为“老师教学生知识”,其中对知识点等数据就需要标注与管理,从而进行监督,最终形成各种不同的算法模型。根据Grand View Research的数据,2021年全球数据标注市场规模约为16.7亿美元,在未来十年将以年复合增长率约25%的速度增长。根据公司业务拓展程度的差异,这种公司可以分为基础型公司和扩张型公司。

  在数字经济时代,数据是和土地、人力、资本一样举足轻重的生产资料。因此就需要保证数据资产在管理时预先设置质量规范,在后期的访问和调取时也要做到合法合规,因此这项服务也就成为各大企业的必需品。根据海外市场研究企业ReporterLinker的数据,全球数据治理市场规模约18亿美元,预计未来几年将以年复合增长率约22%的速度增长.根据服务交付模式,这种公司可以分为工具型公司和定制型公司。

  算法模型是AIGC最核心的环节,是机器学习的关键所在。它包含三类参与者:专门实验室、企业研究院、开源社区。

  算法模型在AI系统中起决策作用,是它完成各种任务的基础,可以视为AI系统的灵魂所在。很多企业为了更好地研究算法并推动商业化落地,在内部都设立专门的实验室,因此这种实验室可以分为独立型实验室和附属型实验室。

  一些集团型公司或企业往往会设立专注于前沿科技领域的大型研究院,下设不同领域的细分实验室,通过学术氛围更浓厚的管理方式为公司的科研发展添砖加瓦。

  开源社区对AIGC非常重要,它提供了一个共享成果、代码的平台,还可以与其他人相互合作,共同推动AIGC相关技术的进步。根据覆盖领域的宽度和深度,这种社区可以分为综合型开源社区和垂直型开源社区。

  任何优秀的科研成果都需要最终落地部署才能产生实际意义和价值,算法模型也不例外。在AIGC产业链的下游,可以将相关应用拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理。

  目前,文本处理是AIGC相关技术距离普通消费者最近的场景,也是技术较为成熟的场景,许多应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。

  此处主要介绍由语音合成技术来生成的相关应用,与视频相关的将放在视频部分说明。目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI的应用将优化供给效率,改善整体利润水平。

  图片的创作门槛比文字高,传递信息也更直观,所以商业化的潜力自然也更高。随着AIGC应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。

  随着时代的发展,人们在视频上的投入逐渐超出了在图片上的,视频也日益成为新时代最主流的内容消费形态。因此将AIGC引入视频将是全新的赛道,也是技术难度最大的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。

  在信息化时代,社会中充斥着各种资讯,同时这些资讯也有高标准、需求大、时效强等特点。自2014年起,AIGC已开始用于新闻资讯领域,因此资讯行业是AIGC商业化相对成熟的赛道。

  优质的新闻产出必定需要全面、高效、准确的信息收集与整理的基础上。按照传统的作业模式,工作人员需要亲临现场,通过各种手段才能获得足够且扎实的信息。现在的AI已经能对该环节高效赋能,例如科大讯飞的AI转写工具可以帮助记者实时生成文稿,自动撰写提纲、精简语句等,进而提高工作效率,保证最终产出的时效性。

  除帮助获取一手信息外,AI也可以帮助精确检索二手信息,收集素材。在高性能的AIGC工具如ChatGPT出现后,就可以像常人对话一样直接提问并获得答案。虽然难免还是会有这样那样的问题,但作为工具而言,AIGC的意义已经非常明显了。

  在资讯写作等生成环节,基于自然语言生成和自然语言处理技术,AIGC已经逐步得到从业者和消费者的认可,因此有不少企业积极参与其中。以产出数量为例,与美联社、雅虎等外媒合作的Automated Insights,其撰稿工具Wordsmith能在一分钟内生成两千条新闻,且单条质量可比拟人类半小时的作品质量。

  除了速度惊人,AI在准确度方面同样优势明显,能够很好的避免人类的粗心或计算等错误,在保证质量的同时减轻人类工作压力。这方面国内企业颇多,如新华社自研的写稿AI“快笔小新”、腾讯公司开发的Dream Writer、百度公司和人民网合作开发的“人民网-百度·文心”大模型都是其中的佼佼者。

  在内容分发环节,AI除了常见的个性化内容推荐外,也在逐步开拓全新应用场景,如虚拟人主播,以视频或直播的形式发放内容,打造沉浸式体验。如新华社数字记者“小诤”、央视网虚拟主播“小C”、阿里巴巴数字人“冬冬”、百度智能云AI手语主播等等,在未来,AI虚拟主播可能发展成媒体行业的标配。

  自网络电商出现以来,社会的很多方面都被改变了,电商企业既是网络时代的受益者,也在推动社会发展进程中扮演关键角色。自十年前网络直播出现,带动带货模式变革以来,各大企业都在或多或少的面临转型问题。在数字世界和物理世界快速融合的当下,AIGC走在时代前沿,可以赋能电商行业的多个领域,可能带来新一轮的行业变革。

  对比传统的购物模式,网购的一个典型问题在于只能通过图片了解商品,难以观察到全貌,也让以次充好的不法商家有机可乘。而AIGC技术可以通过视觉算法生成商品的三维模型,提供多方位视觉体验,节省沟通成本,改善用户体验,促成用户成交与转化。

  除了三维建模,AIGC还有更高级的应用方式,如阿里巴巴的每平每屋业务就利用AIGC技术,实现线上“商品放家中”的模拟展示效果。这种业务是将AIGC功能植入手机淘宝和每平每屋APP端,用户用手机扫描家居环境让AI生成商品模型,在手机即可预览实物效果,进而改善电商家居的购物体验。

  AIGC可以为商家提供大量创意素材,电商广告正是对创意营销素材需求量很大的领域,阿里巴巴的AI设计师“鲁班”就是应用于此。除了通用型广告,AIGC在电商服饰领域用途更多。一般说来,服饰领域都采用“小单快返”的模式,即先小批量生产多种样式的服饰产品投入市场,快速获取市场反馈,对优质产品加大投入,在试出爆款的同时减小库存压力。但这种方式对产品图片的需求量很大,如果有上千种服饰产品分别找模特再牌照修图,无疑会耗费极大的时间和成本。

  成立于2020年的ZMO公司就运用AIGC解决这个问题,商家只需在ZMO平台上传产品图和模特图就可以得到展示图。借助AIGC,更多服饰相关的市场策略都可以低成本的实现。即使没有专业模特,虚拟人模特及广告也可以发挥作用,甚至还可以调整虚拟人的相貌来适配不同风格的服饰。

  随着概念的传播,虚拟主播正日益成为许多商家的选择。与真人主播不同,虚拟主播可以全天无间断的直播,突破时间和空间的限制。2022年2月28日,经典美妆超级品类日活动开启时,京东美妆虚拟主播“小美”就出现在兰蔻、欧莱雅、OLAY等超过二十个美妆大牌直播间,开启直播首秀。虚拟人不仅五官形象由AI合成,嘴型也可以利用AI精确匹配台词,动作灵活且流畅,营造出极佳的真实感,为用户带来与真人无异的体验。

  不过目前的虚拟主播更多的是与真人主播形成互补,或者为没有直播能力的的商家提供服务,还不能完全替代真人。虚拟主播要获得更强的交互能力,更好的与观众互动,做出实时反馈,还需要AIGC相关技术的后续发展。

  随着虚拟技术的逐步到来,对影视内容的需求也在爆发式增长。为了满足观众日益刁钻的口味和挑剔的眼光,影视行业正全力提高产量,迭代技术,导致整个行业的工业化程度逐渐提高,同时变得精细且复杂,同时人的局限性也逐渐凸显。AI的应用无疑可以降本增效,让行业回归本真。

  通过对海量优质剧本的学习,AI能根据特定需求快速生成不同风格或架构的剧本,在极大提高工作者工作效率的同时,AI也在激发创意,帮助产出更优质的作品。事实上,将AI引入剧本创作的做法早已有之。2016年,纽约大学研发的AI在学习了几十部经典科幻电影剧本后成功编写了剧本《阳春》以及一段配乐歌词。经过修改、调整后的成品只有区区八分钟,内容也平平无奇,但《阳春》在各大视频网站最终收获的百万级播放量依然证明外界对AI创作的兴趣很大。2020年,GPT-3被用于创作一个短剧,再次引发广泛关注。

  通过这些早期试验可以看出AI在剧本创作方面的潜力,但要真正将其转化为生产力,还要AI更贴合具体的应用场景,做针对性训练,并结合实际业务需求开发或定制功能。海外一些影视公司如Final Write和Logline等都偏向垂直式工具,国内的海马轻帆公司深耕中文剧本、小说、IP等领域,也已经收获百万级用户。

  虽然AI能帮助人类更好的释放创意,但从剧本到荧幕仍是一段漫长的距离。从创意到表达的跨越,AI可以保驾护航,帮助人类化不可能为可能。举例来说,当前劳动密集型的影视生产方式难以满足观众对质量日益提高的要求。2009年上映的《阿凡达》令全球观众首次了解3D电影的魅力,此后沉浸式观影体验成了影视产业链上共同的追求。为了满足这种追求,影视特技与应用呈现井喷式发展,但后期制作与渲染,复杂程度也都水涨船高,传统的作业方式已经难以为继,而AI技术就有推动变革的潜力。

  从技术角度来说,影视特技行业的作业流程是极为繁琐的,比如场景中的建模就需要从一草一木、一人一物开始,逐渐打造世界的雏形,再通过骨骼绑定和动作设计让模型活起来,之后的定分镜、调灯光、铺轨道、取镜头等等无不费时费力,后期的解算和渲染等工作同样如此。可以说在影视工作的每个环节都有大量重复性工作或等待时间,无形中拖慢了工作节奏。因此现在就有企业致力于解封流程生产力,比如优酷的“妙叹”工具箱,在动漫中实时渲染,帮助工作者实时把握效果或做出修改,节省了大量成本,减轻人员负担,目前已被多家国漫企业采用。

  技术的飞速发展也将为教育行业带来颠覆,但是相比其他行业的快速发展,AI在教育中的落地部署似乎也慢了半拍。这其实是由教育行业本身的性质导致的,它的参与者众多,时间跨度很大,个体的差异性也很大,这让解决边界清晰、定义明确的AI难以适应。另外教育更注重人与人的互动和联结,也没有统一的理论模型,这都为相关AI的开发训练和落地部署增加了难度。但AI在教育行业绝非毫无用处,以技术手段推动行业进步也并非痴人说梦。

  生活经验告诉我们,从降生起人类就开始通过各种手段建立对世界的认识。识字前的手摸嘴咬、拳打脚踢,识字后的课本习题、书籍影视、实地体验等等无不如此。但是不论怎样,每个人的学习过程总会遇到这样那样的阻碍,而AI对学习者的意义就在于尽量摆脱种种束缚,最终从有限的自身走向无限的世界。

  互联网时代的教育,是将部分内容转化为数字化形式并公开分发,助力资源流转。现在由AI辅助甚至主导的制作,整理学习资料,降本增效是显而易见的,资源的丰富度和易用性都将提升到新的高度。AIGC也可以在一些特定领域,如儿童绘本等,加速知识的生产效率并接入网络,最终提供给用户。通过补充有限的学习资源将促进教育公平,AI也助力教育资源的生产与分发。微软在这一领域就布局颇多,如微软亚洲研究院与华东师范大学合作研发的中文写作智能辅导系统“小花狮”,借助自然语言处理技术,实时为学生作文评分并分析原因,从而帮助学生进步。

  老话说“师傅领进门,修行在个人”,教育者作为领路人的重要性不言而喻,对他们而言,AI就如同手上的火把,更好的帮助学习者引燃心中的学习火种。从目前的社会发展现状来看,教育者数量不足将会是长期现象,一位老师带几十位学生的“大班制”还将长期存在,在各种琐碎的答疑解惑,书山题海中奔波,AIGC就可以解决此类问题。现在作业/试卷自动批阅技术已经获得了广泛应用,AI不但可以判断对错,还可以生成针对性的评语,教师的作业批改用时大幅节约,可以更关注学生的个性化发展。除了助力解决重复性问题,AI还可以延伸感知。如基于电脑视觉技术,AI可以实时分析学生当前的情绪和状态等,帮助教师更好的了解情况。

  通过对教育者的赋能,AIGC最终可以帮助实现教育的终极理想:因材施教,推广个性化教育。尽管AI还有可能加剧信息茧房的风险,以及对传统理念的挑战,甚至将人机器化,但就目前来看,未来还是值得期待的,以人为本的教育还是可能实现的。

  对医患双方而言,AIGC的应用与推广都是福音,比如AI预问诊的应用。虽然病人与病情千变万化,但总是有重复的地方,因此在预问诊阶段,AI就可以先了解患者的既往情况,让医生的诊断更有针对性,既缓解了医生的工作压力,也更好的服务了患者,医院内病人扎堆排队的现象也得以分流,可以说是一举三得。2021年,复旦大学附属眼耳鼻喉科医院与腾讯医疗健康签署合作协议,全面打造数字化医院新标杆、新范式,深入推进医院数字化转型,在预问诊等业务上快速落地部署。

  对于传统医学的难点:心理疾病领域,AI同样可以参与其中。相较于过去的与人对话,AIGC聊天机器人只是个软件程序,用户不必担心隐私被泄露,况且还可以预置海量数据或知识模型,可以在更新迭代中保持冷静与中立。成立于2021年的聆心智能就是这方面的代表,基于生成式大模型开发的情绪疗愈机器人Emohaa,可以构建以生成对话为核心的交互式数字诊疗方案,通过对话与患者共情,及时提供情绪支持与心理疏导,促进患者心理健康。

  金融业天然与数据和信息密切相关,各类公司都要从繁复的市场上搜集信息,并加以利用,创造价值。基于这样的现状,金融行业的信息化一直走在其他行业之前,具备数据质量好、维度全、场景多等特点,因此也成为了AI最早落地的商业化场景之一。

  一般说来,AI在金融行业最常见的应用是通过机器视觉和学习的方式捕捉市场的实时变化,并利用实时数据进行分析,以此提高金融公司的财务分析效率与能力。类似的,AIGC在金融行业的应用则是以智能客服和智能顾问两种,基于自然语言处理技术与客户互动,此外还可以快速高效地完成一些人工难以完成的任务,改善服务体验。2017年4月,富国银行开始试点一款基于Facebook Messenger平台的智能客服,美国银行很快也推出了类似的智能助手Erica。国内金融行业的相关产业应用也较为成熟,多家公司或商业银行都推出过自己的AI业务,如2022年工商银行的“工小智”,邮储银行的半年报显示数字化转型成绩斐然,这些都表明AIGC应用于金融行业的巨大潜力。

  作为尖端科技,AIGC正迎来全面商业化落地部署的今天,因此展望未来趋势自然有助于更好的建设明天。

  AI发展至今已走过多次寒冬与春天,每次交织都与AI的“通用化”与“专业化”分歧息息相关,可以说“通用化”代表着人类对未来的畅想,“专业化”则能带来更好的落地部署形式,但不论哪种都经常遇见这样那样的瓶颈。

  21世纪的前二十年,是“通用化”大模型提出并获得发展的时代,简单说来它是通过“预训练大模型+下游任务微调”的方式,先让模型在大量标记与未标记的数据中学习知识,在将微调后的模型迁移到其他场景中,进而极大的扩展了模型通用能力。现在随着模型规模的增长也让大模型的能力水涨船高,比如GPT-3就包含高达1750亿的参数量。

  大模型之“大”,除了参数规模庞大,数据量同样不能小视。过去有人说“人工智能就是大量人工才能换来的智能”,这是因为当时的机器学习依赖数据标注,一旦转换场景就需要重新标注。现在的机器学习多采用监督与无监督学习相结合的方式,例如“无监督训练,监督微调”。此外也利用互联网上的PGC,UGC进行训练,以获得更丰富的数据与更自然的表达。

  不论模型还是数据,大模型都为AIGC赋予了充分的想象空间,随着时代的发展,它也许在未来能获得更多应用场景。

  在AI产业刚起步时,一种非常简单的思路是让机器模仿人的学习方式,这种模式一直都是AI算法的重要思路来源,因此AI也经历了从推理到知识再到学习的变化。从起初的微观,机械性模仿,到现在宏观的认知模式借鉴,技术哲学也在随着时代而发展。

  在AI发展早期阶段,三种流派中的“符号主义”占据主导地位,这派观点简而言之就是“人类的一切智能源于某种逻辑规则”。虽然当时它的确取得了一定成绩但这种观点缺陷明显,最易于理解的莫过于人类的很多智力行为都没有逻辑可言,因此这一流派很快被淘汰,由从更高的抽象层次定义AI的“联结主义”取而代之。这种观点在发展初期遇到了诸多障碍,现在的形式也与当初的出发点相去甚远,但AI神经网络的蓬勃发展也在一定程度上验证了这种高度抽象化模式的可行。

  从AI开拓到应用,从模仿人类的学习过程到模仿人类的认知方式,AI的发展也逐渐变得宏观,随着未来科技的发展,AI还会迎来飞跃式发展,为AIGC带来更多可能性。

  AI的发展堪称具有性,但本质上来说,任何科技都有伦理问题,并且逐渐受到关注。很多AIGC从学术研究转向产业研究的第一步就是探索如何从技术角度解决可能的技术伦理问题。

  比较典型的是AI生成内容的危险性,比如2016年微软发布的Tay,它可以通过推特学习社会信息并与他人互动。但是在仅仅一天后,Tay就开始说出一些种族歧视之类的偏激言论,因此微软暂时关闭了Tay的账号。但这些言论明显是和网络上一些有偏激言论的人互动后,被刻意教导出来的,因为微软当时还没有让Tay了解哪些言论是不适当的。

  目前很多企业都在运用一些技术手段避免类似事件的发生,如改善数据集,或者增加限制性条件,微调模型,让AI可以更少的接触不良信息,但依然难以根绝有人刻意诱导AI。比如最近大火的ChatGPT就曾写过步骤详细的毁灭人类计划书,后来发现是有一位工程师在故意为之。

  除了技术伦理问题的预防,在使用时的及时警告及紧急关停措施同样重要且必要。AIGC应该自带对生成内容的检测机制,确保不被用于危害社会。一旦发现可疑举动AI可以迅速反应,暂停服务,并且给出警告甚至自动报警。这不仅依赖技术发展,相关的法律法规同样必不可少,AIGC技术伦理问题需要社会各界的共同努力。

  从本质上说,AIGC是机器学习的应用。而在模型的学习阶段一定会使用大量数据,但目前对训练后的生成物版权归属问题尚无定论。对此问题,业内一般有两种观点。其一认为内容由学习数据集后生成,那版权就归数据集作者;另一种则认为AIGC的生产过程是完全随机的,没有版权问题,生成的版权属于AIGC作者或平台,具体规则由平台制定。目前的实践中,各平台的版权条例也偏向后者。

  但无论哪种都会引擎一些原创版权作者的不满,比较常见的说法是“吃作者的饭,砸作者的碗”。很多人的愤怒点在于,为什么AI基于自己创作的作品生成的新作品却与自己无关?而且现行法律都是针对人类的行为规范而设立的,AI只是一种工具,不受法律约束与审判。即便证据充分,作者的维权之路通常也难言顺利。不过对于AIGC与作者的关系将会随着时代发展而逐渐清晰,界定也将更有条理性。

  近几年高科技手段层出不穷,AI经过训练后也可以创作出以假乱真的音视频,同时制作门槛也在日益降低,既可用于修改作品,也可用于制作全新内容。比如现在很常见的“换脸”“变声”等功能,一旦滥用就可能导致正规渠道信息的公信力减弱,久而久之危害甚大。

  现在已有部分分子利用“换脸”技术实施,也有不法分子恶意伪造他人视频,再转手兜售到灰色市场,用于、、非法集资等犯罪行为,极大的增加了执法机构的成本投入。

  从技术角度说,AIGC完全取决于使用者的引导,在安全措施不到位的情况下,AI对恶意诱导会不加分辨或判断,只会根据学习到的信息输出新内容,例如Tay的极端或暴力言论。一旦被人利用恶意造谣生事,或者编造花边新闻,除了对社会人物名誉和形象的损害,更会导致许多不必要的麻烦。这类新闻此前就屡见不鲜,无疑是应该被打击严惩的。

  AIGC作为内容生产的新范式,在推动数字经济快速发展的同时也对国家相关法律法规机构及监管治理能力都提出了更高要求。很多国家在打击违法犯罪的同时也在不断完善法律法规,尽力避免潜在的社会漏洞。

  本报告所采用的数据均来自合规渠道,分析逻辑基于EqualOcean的专业理解,清晰准确地反映了作者的研究观点。本报告仅在相关法律许可的情况下发放,并仅为提供信息而发放,概不构成任何广告。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。本报告的信息来源于已公开的资料,EqualOcean对该等信息的准确性、完整性或可靠性作尽可能的获取但不作任何保证。

  本报告版权归EqualOcean所有,欢迎因研究需要引用本报告部分内容,引用时需注明出处为“EqualOcean”。对于未注明来源的引用、盗用、篡改以及其他侵犯EqualOcean著作权的商业行为,EqualOcean将保留追究其法律责任的权利。

  EqualOcean上线月,是一家专注于服务中国企业全球化和帮助海外企业及机构把握中国发展机会的商业信息与研究公司。EqualOcean坚信全球化的价值,以连接中国与世界为使命。基于这样的使命,EqualOcean的团队十分多元;既有全球视野,又是各自领域的“中国专家”。

  针对中国做全球化的客户,EqualOcean提供海外市场和行业研究、国际品牌定妆照、数据产品、海外资源搭建等服务;针对海外想把握中国发展机会的客户,EqualOcean提供中国市场和行业研究、中国投资标的尽调、数据产品、中国资源搭建等服务。

  EqualOcean服务过的客户包括华为、阿里集团、字节跳动、拼多多、贝壳找房、达达、安客创新、Intel、贝恩资本、SAP、Advance Group等。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:
  • 标签:儿童画机器人图片
  • 编辑:郭晓刚
  • 相关文章
TAGS标签更多>>
热网推荐更多>>