AI大模型“狂”潮还将持续多久？访北京邮电大学教授曾剑秋

2023-08-03 09:51:02来源：人民邮电报

【资料图】

科技创新总是在发现问题、解决问题中前行，每一项颠覆性创新成果从来都不是水到渠成的自然发展，而是由量的积累带来质的提升。对于人工智能大模型而言，参数规模的倍增带来了智能涌现。当下，大模型密集发布，各大厂商纷纷加码人工智能，这样的大模型“狂”潮还会持续多久，发展方向是什么？针对业界关注的热点问题，《人民邮电》报记者采访了北京邮电大学教授曾剑秋。

AI大模型兼具“大规模”和“预训练”两种属性，在海量数据上进行训练后能够完成一系列下游任务。曾剑秋认为，大模型带来的颠覆性创新可以总结为：规模大、速度快、场景全。首先，参数规模上，从GPT-1的1.17亿参数到GPT-3的1750亿参数，大模型的参数规模动辄上千亿，能够从海量数据和知识中学习，在不同领域和场景中“轻松”完成任务。其次，得益于信息基础设施稳步推进带来的算力提升，大模型能够在短时间内响应用户并提供归纳整理后的内容，已然从聊天机器人转变为数字助手。最后，在应用广度方面，大模型似乎是“全才”，写诗、编程、绘画、解题样样全能，具有广阔的应用场景。

曾剑秋认为，大模型是建立在网络能力、数据能力和计算能力三者之上的创新应用。大模型需要在多个设备之间进行数据传输和参数同步，而坚实的网络基础为大模型提供了高效、稳定、可扩展的训练和部署环境。数据要素作为数字经济的核心生产要素，已成为推动产业升级、优化经济结构和打造经济增长点的战略性资源。数据能力对于大模型的训练和应用至关重要，因为大模型需要从海量数据中学习和捕获知识以提升泛化能力。在计算能力方面，大模型需要海量的计算资源来执行复杂运算和存储巨量参数，需要使用高性能、低功耗、高度并行的计算设备和系统（如GPU），可以说，算力是大模型训练、人工智能发展的基础设施。曾剑秋谈到，这三种能力是大模型发展、人工智能产业进步、信息技术创新应用的“沃土”。

入局大模型的门槛主要包括基础门槛、训练门槛和应用门槛。曾剑秋谈到，基础门槛包括网络能力和数据处理能力，需要具备大模型训练计算所需的高性能服务器、GPU设备、高速网络等。训练门槛是指大模型的“成长”迭代需要不断训练，需要提供符合一定标准的高质量训练数据，因而需要花费时间和计算资源来对数据进行清洗和预处理，从而保障数据的质量和准确性。应用门槛是指大模型的落地需要与垂直行业需求深度融合，同时，对于企业来说需要权衡收益与研发成本。

基于公有数据的大模型是通用底座，很难满足专业场景的特定需求。曾剑秋谈到，如何打通大模型技术和产业应用的“最后一公里”，找到计算资源和产业应用效果之间的平衡，是需要关注的重点课题。

大模型“热”需要“冷”思考，要超前布局也要理性发展。曾剑秋表示，盲目跟风研发大模型不可取，当热潮退去，留下的注定是推动人工智能技术革新、深耕垂直行业应用的数智实干家。同时，曾剑秋建议建立国家级的基础大模型平台，加强智算中心、超算中心等算力资源统筹，加强跨数据中心算力协同能力，从战略高度着手，培育大模型发展基础，构筑人工智能发展优势。

标签：

AI大模型“狂”潮还将持续多久？访北京邮电大学教授曾剑秋

相关阅读

精彩推荐

阅读排行

相关词

推荐阅读