赖圣伟
【摘要】随着人工智能模型与理论的不断发展,继“元宇宙”、“Web3”等热点之后,“ChatGPT”作为美国人工智能公司OpenAI基于推出的最新人工智能技术发展应用成果,凭借丰富的功能库、庞大的知识库和爆发式发展态势吸引各行各业高度关注。ChatGPT是各大媒体争相报道的新热点,也是资本市场高度关注的新风口,更是互联网巨头抢滩登陆布局的新项目。深化税收征管改革、推动智慧税务建设离不开人工智能新技术的参与,通过分析当前智慧税务建设的发展现状,充分了解以ChatGPT为代表的AIGC新技术的发展所带来的机会与影响、风险与挑战,结合现有的软硬件基础与发展前景阐述ChatGPT带来的影响。
【关键词】ChatGPT 深化税收征管改革 智慧税务建设 税收征管 纳税服务
2020年12月,习近平总书记主持召开中央深改委第十七次会议研究部署进一步优化税务执法方式、深化税收征管改革等工作。2021年3月,中办、国办印发《关于进一步深化税收征管改革的意见》。《意见》对深化税收征管制度改革、推动税收征管现代化作出重要部署,明确提到要全面推进税收征管数字化升级和智能化改造,包括充分运用大数据、云计算、人工智能、移动互联网等现代信息技术加快推进智慧税务建设,深化税收大数据共享应用。全面了解和认知ChatGPT,探索应用最新人工智能技术的可能性和局限性,对于如何利用AIGC赋能深化税收征管改革,驱动智慧税务建设,加快税收征管数字化升级和智能化改造都具有十分重要的意义。
一、ChatGPT概述
(一)ChatGPT简介
ChatGPT 是AIGC (Artificial Intelligence Generated Content,生成式人工智能)在AI聊天机器人分支领域的优秀发展成果。AIGC是指通过对大量的数据进行深度学习和模拟,然后根据模型和规则训练生成内容,利用人工智能技术生成的文本、图像、视频等内容应用于AI聊天机器人 、AI绘画、AI剪辑等领域。
AIGC与传统AI模型相比,除了具备传统AI已有的能力和优点,在人机交互、语义理解和上下文学习等方面具有更加强大的学习和分析能力,智能水平比传统AI呈现跨越式发展,能类人思考和连续对话。ChatGPT中的“Chat”表示这是用于聊天的模型(人工智能机器人)。

图1 《ChatGPT是什么?为什么要叫做ChatGPT?》的回答截图
如图1所示,向“ChatGPT”提问相关问题后,得到上图的反馈回答。 ChatGPT是一个基于人工智能公司OpenAI公司所开发的GPT(Generative Pretrained Transformer,生成式预训练)模型中的“GPT-3.5”版本,结合RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习)和机器学习技术进一步训练的NLP(Natural Language Processing,自然语言处理)模型,是近期AIGC技术领域迅猛发展的璀璨成果之一。
ChatGPT利用LLM (Large Language Model,大语言模型)对大型数据集进行预训练,加入 RLHF能更有效地利用海量数据内容进行预测训练,并产出更符合人类交流习惯的自然语言实体及其关系的结果。ChatGPT通过观察和学习大量的文本来模拟人类的语言行为,使用户能够与计算机进行更准确的自然语言对话。
(二)从GPT-1发展到ChatGPT的历程
2018年,GPT-1使用12层Transformer神经网络架构,支持特征向量维数768,参数量1.17亿。
2019年,GPT-2使用48层Transformer神经网络架构,特征向量维数1600,参数量15亿。
2020年,GPT-3使用128层Transformer神经网络架构,支持特征向量维数12888,参数量1750亿。
2022年,OpenAI在GPT-3的基础上加入RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习)技术训练,并通过指令参数进行人工监督微调,嵌入上下文学习、主动记忆、连续对话等先进特征研发GPT-3.5,并以GPT-3.5为基础开发出更擅长与人类对话的ChatGPT。
从以上GPT的发展历程中可以看到,每一代的GPT所使用的Transformer数量和特征向量维数以指数级上升的态势不断发展。Transformer可以理解成一种为自然语言设计的深度神经网络的函数集合。Transformer用矩阵表示关系,自身不假设顺序,一次性并行处理所有输入,输入和输出都是整句的语言,根据矩阵计算特征向量得出结果。GPT可以简单理解成多层Transformer的集合,如何让多层Transformer根据输入的内容合并输出准确的语言结果,是GPT模型发展的主要方向。ChatGPT则是在GPT的模型上结合RLHF这一训练方式来增强人类对模型输出结果的调节,能对结果进行更具理解性的排序,进一步优化内容的上下文关系,输出更符合人类表达习惯的自然语言处理结果。
2023年3月,OpenAI正式推出GPT-4,成为目前领先应用的多模态大模型,神经网络架构、特征向量维数、参数量比上代版本均增加数倍。GPT-4 比目前ChatGPT所采用的GPT-3.5主要在识别理解能力、创作写作能力、处理文本量以及自定义身份属性迭代方面取得进展。
(三)ChatGPT的应用
ChatGPT于2022年12月推出,其用户在短短两个月内增加到1亿,相比较而言,我国字节跳动公司走出国门的TikTok应用(国际版抖音)用了9个月才达到上亿规模的用户数,ChatGPT无疑是目前有史以来用户增长速度最快的应用程序,没有之一。
ChatGPT虽然只是一个聊天机器人,但得益于预训练时投入的超大型百科知识库和优秀的微调参数,结合 RLHF解决了如何让人工智能模型产出具有良好的逻辑性和精确性输出结果,使其能够符合普罗大众的常识、认知、需求、价值观,从而促进人们更高效地利用人工智能进行内容创作,提升内容生产效率与丰富度。ChatGPT被用于写报告论文、程序编码、写诗作词、搜索引擎、智能客服等诸多领域。

图2 ChatGPT能应用于哪些领域的使用截图
2023年1月25日,美国众议员杰克·奥金克洛斯使用ChatGPT进行AI撰稿,并当众发表演讲。
2023年2月1日,以色列总统艾萨克·赫尔佐格在一个网络安全大会上使用ChatGPT编写的致辞作为开幕演讲,成为世界首位使用 ChatGPT 撰写演讲稿的领导人。
2023年2月7日,微软公司宣布推出新版必应搜索引擎和 Edge 浏览器,集成了 OpenAI 开发的 ChatGPT 技术,随后微软市值大涨重回2万亿美元。微软创始人比尔·盖茨称,ChatGPT的发布的重要意义不亚于互联网的诞生。
(四)ChatGPT的基本特征
1.大模型、大数据、大算力
ChatGPT具有庞大的数据库。数据库的来源包括网页内容库、电子书籍库、电子期刊库、维基百科内容库等等。根据公开信息,ChatGPT通过对45TB的数据量进行预训练,模型参数量使用达1750亿,要对超大量的语言数据进行捕捉语言知识和关系更需要庞大的AI算力,据称ChatGPT的基础硬件需要上万片最新的英伟达AI算力芯片,因此才能快速生成仿真文本和回答问题。(注:红楼梦的文本容量不超过1MB,1TB=1024GB=1048576MB。如果把数据量比作读过的书,那么ChatGPT训练所用的45TB数据相当于读了5000千万本红楼梦的数据量。若把参数量比作读书笔记,那么ChatGPT拥有1750亿条读书笔记。)
支持文本生成
ChatGPT具有基于预训练数据库生成相关文本的能力,由于OpenAI的GPT-3模型所使用的数据库包罗万象,因此可以生成论文、报告、小说、诗词、代码、指南、攻略等内容。
支持多语种混合输入
ChatGPT支持使用多种语言(如英语、中文等)混合发起提问。如图3所示。

图3 ChatGPT支持多语种混合提问的使用截图
4.支持记忆存储
ChatGPT具备存储用户输入信息的能力,能记住并准确回答提问者曾经输入的信息。如图4所示。
5.语言理解能力
ChatGPT具有较强的语言理解能力,可以识别语句中的意图和关系,有一定的上下文学习能力,可以生成较为符合人类想法的多段落回答。
6.人类反馈学习
支持 RLHF ,能够让模型向更符合人类预期目标的方向不断优化。
7.模型可训练性
ChatGPT是一个可训练模型,开发者可以根据自己的需求对模型进行训练和优化。通过调整预训练所使用的数据库和代码参数进行指令微调,训练出不同的模型。

图4 ChatGPT支持主动记忆信息和连续对话的使用截图
8.存在内容局限性
ChatGPT基于GPT-3模型的采用的预训练数据库虽然庞大,但GPT-3模型目前仅支持2021年之前的资料库,无法实时联网查询,因此缺失2021年之后的新内容,无法对2021年之后发生的相关问题进行有效解答。另外,由于数据库巨大,无法保证预训练所捕获的参数及所生成的内容对于所有人都是正确的,比如涉及政治立场、思想观念的认知。
二、智慧税务建设的发展现状
(一)智慧税务的基本概念
《国家税务总局关于印发〈“互联网+税务”行动计划〉的通知》(税总发〔2015〕113号)首次提及“智慧税务”。《通知》明确指出,紧跟时代新步伐,把握发展新机遇,充分运用互联网思维,引入云计算技术,发挥大数据优势,推进物联网应用,始终重视纳税服务,不断激发管理活力,拓展税收服务新领域,打造便捷办税新品牌,建设电子税务新生态,引领税收工作新变革,更广范围、更深程度、更高层次地依托 “互联网+”力量,为税收改革发展奠定稳固坚实基础,为税收现代化注入恒久动力,为税收服务国家治理提供强劲支撑。推动互联网创新成果与税收工作深度融合,税务总局负责顶层设计,省及以下税务机关作为“互联网+税务”应用主体,按税务总局工作部署,结合本地实际,制定实施工作方案,推进和落实“互联网+税务”行动。
简而言之,智慧税务建设需要全面贯彻《关于进一步深化税收征管改革的意见》,全方位优化税务执法、纳税服务、税收监管等系统,各省、市税务机关以纳税人需求为导向,在现有 “互联网+税务”和大数据等技术应用的基础上,坚持科技引领、创新驱动,适应新技术、新应用的发展,促进纳税服务进一步便捷普惠、税收征管进一步提质增效、税收执法进一步规范透明、协作发展进一步开放包容,打造全天候、全方位、全覆盖、全流程、全联通的智慧税务生态系统。
(二)税务系统人工智能应用现状
1、税收征管人工智能应用现状
近年来,税务部门积极加强对税收大数据资源的深挖细掘、智能分析和融合共享,充分运用大数据提升税收治理现代化水平。税收大数据是智慧税务的重要基础,不论是建立全国统一的税务云征管服务平台和全国统一的电子税务局,还是探索区块链技术在发票电子化改革中的应用,都是在确保税收数据全生命周期安全,严格保护纳税人缴费人的商业秘密、个人隐私等,同时加强智能化税收大数据分析,不断强化税收大数据在经济运行研判和社会管理等领域的深层次应用。
金税四期从金税三期的大数据库、基于纸质发票生态的电子发票、人工分析升级到全面数字化的电子发票、云信息共享、传统的初步人工智能(相对于AIGC而言)等先进技术,极大地提升信息透明水平和风险识别能力,从主动发起的定期分析数据到不间断的交叉对比分析数据,并延伸去发现、识别、推送税务风险,有效提升税收征管水平,提前防范涉税违法漏洞。
2、纳税服务人工智能应用现状

人工智能已经应用在税法宣传、纳税咨询、办税服务等方面,并取得一定成效。各地税务机关推出12366智能咨询服务机器人,部分省市还进一步创新上线智能语音聊天机器人(如大连的爱连塔可思、广州的税宝等),便民举措不仅能方便纳税人查政策、问业务,还可以减轻税务机关人工客服的压力,优化提供税收政策咨询、业务查询、预约办理、需求响应等数字化税费服务的渠道,让企业感受到精准便捷的高效服务。
图5 12366智能咨询服务机器人使用截图
(三)税务智能化应用与ChatGPT的对比
目前,不论是金税四期工程,还是12366智能咨询服务机器人、爱连·塔可思之类的税务AI机器人,均属于采用传统AI技术(相对AIGC而言)。这类传统AI与ChatGPT的主要区别,可用前文所述的“ChatGPT的基本特征”进行对比。
1.AI模型发展差距
AI模型的核心三要素是数据、算法、算力。根据相关报道,广州“税宝”智能机器人的知识库为标准问答1.6万条、扩展问答14.4万条、政策法规文件4600多条;“爱连·塔可思” 智能机器人知识库为1.1万条税费政策及操作类知识。12366智能咨询服务的知识库可以视作全国各种“税宝”“爱连·塔可思”的叠加之和,与GPT-3的45TB数据和1750亿参数量相距甚远。数据不是简单的比大小,更在于命中数据并准确输出结果的准确率和响应速度。目前,税务智能化应用仅限于采用部分传统AI模型特征,与ChatGPT采用的新型AIGC模型相比较,前者在AI模型的核心三要素应用上比后者存在一定差距。
2.语言理解能力的差异
未应用AI模型的税收政策库搜索“企业所得税法”,优先命中并显示的是与“企业所得税”相关的其他文件,而非《中华人民共和国企业所得税法》。采用传统AI模型的纳税服务机器人是基于命中关键词链接到特定的回答内容;采用新型AIGC模型的 ChatGPT是基于语义理解和预训练调整参数创作生成文本进行回答。
ChatGPT不仅拥有传统AI模型的全部能力,更可以进一步支持理解自然语言和语义。
从不能准确命中关键词,到准确命中关键词,再到理解语言语义,就是没AI、采用传统AI以及采用AIGC之间在文本生成和语言理解能力最明显的区别。
3.上下文学习能力的差异
传统AI模型无法主动记忆用户输入的信息,也无法进行上下文学习。而ChatGPT可以利用主动记忆存储输入进行上下文学习,形成连贯性的对话。
4.模型可训练性的差异
传统AI模型需要从无到有去创建模型和数据库,并用人工分析调整得出稳定的指向性结果。ChatGPT实在既有模型的基础上,利用不同的数据库内容和人工监督参数进行指令微调,从而让模型主动去学习并生成结果。
5.人机交互学习能力的差异
传统AI模型结构相对稳定,在使用过程中不会主动学习用户反馈去影响结果生成, 传统AI模型不会进行主动性调整。ChatGPT可以主动采集学习用户反馈信息,并在使用过程中按照预训练模型的人工监督参数进行指令微调,从而让模型主动学习、调整,生成更有效的结果。


图6 采用传统AI模型的“爱连·塔可思”使用截图及二维码下载地址
三、ChatGPT在智慧税务建设的发展前景
(一)税收征管
2022年9月22日的会议上,王军局长宣布“金税四期”将于2022年底开发完成,建成纳税人“一人式档案”,实现了从“人找数”填报到“数找人”确认的转变。金税系统从原始数据录入到建立各种风险分析模型定期筛查,再到应用人工智能实施分析自动识别风险,可谓是百尺竿头更进一步。
ChatGPT具备可训练、大模型、语言理解等优秀特征,在全电子发票改革应用取得突破性成果的时代,应用ChatGPT可以更好地分析金税系统所采集的数据,让“一人式档案”数据在生成时归纳得更为准确有效,有助于风险分析和信息推送更加科学精准,进一步优化覆盖全税种的档案数据,甚至可以替代部分简单重复的税务申报和催报工作,节约税务工作者查询、分析和整理数据的时间和精力。ChatGPT在数据的处理和分析应用方面的优秀特征能促进全面优化税务电子信息系统,不断推动税收征管从传统“广而全”转向新型“专且精”,帮助税务机关提高税收管理水平.
(二)纳税服务
税务部门的12366纳税服务平台以及电子税务局首当其冲作为“ChatGPT”应用的桥头堡,特别是12366智能客服的应用。12366作为税务部门面对纳税人的线上远程门面,在移动互联网时代承担着巨量的客服工作。通过应用ChatGPT,对大量的法规库、知识库、热点问题集、公告解读等大数据语料进行预训练,使智能客服能够更快速更有效地回答纳税人提出的问题,提高纳税服务效率,提升纳税人满意度,降低征管双方沟通成本,这是是税务部门不断推进智慧税务建设的目标和动力。
ChatGPT版的12366智能客服,不再是命中关键词后罗列几个可能相关的回答链接,而是可以准确分析纳税人的身份、适用政策和询问意图后,生成符合纳税人预期的具体回答,在纳税人提出“你好,不理解你刚才说的某个问题”时,能像一个真实的人一样马上为纳税人详细地答疑,而不是冷冰冰的表示回答已结束。预训练和人机交互的特性可以让税务工作者的关注点和纳税人的疑问在不间断的系统模型自我学习中逐渐统一对应,促使征纳双方看对眼并碰撞出火花,让征纳双方更清楚知道双方的痛点和疑问,以便更有效的解决。ChatGPT甚至能提出解决方案和建议。前文说过,ChatGPT是拥有RLHF (基于人类反馈的强化学习技术)的一个智能技术平台,这将会是一个能让纳税人与税务部门更紧密联系和亲切互动的技术平台,对数据的联通处理、对业务的归纳整理、对纳税人的拟人实时应答,将极大的提升办公效率和纳税服务水平。
(三)行政管理
ChatGPT将打通纳税服务系统和税收征管系统的壁垒,以及税费同管时代下的税务系统数据与外部系统数据之间的差异壁垒,成为税务工作者与纳税人、其他外部系统的全天候紧密联系平台。新招录入职、遴选、生育哺乳期等都会导致税务系统工作岗位的轮换或临时调整,基层的一线税务工作者可以区分为行政条线(如党政、人事等)和业务条线(法制、税政、稽查等),税务工作者在岗位调整后从事不同条线的工作,一般都会存在不同程度的政策掌握、专业知识、业务经验和工作能力适配度等跨条线壁垒。
ChatGPT具备良好的人机交互能力和语言理解能力,不论是行政条线和业务条线,还是税务系统和其他专业领域税务工作者都可以用简单、自然的聊天对话形式从系统数据和外部交换数据中调取税务部门日常管理工作中需要用到的表格数据、归纳报告、统计分析等数据结果,降低人员调动后从事新条线工作的学习成本。利用ChatGPT强大的机器学习能力和可训练性,对于各种类型的数据不需要逐一查询并整理,甚至可以利用ChatGPT让快速生成的数据符合不同业务条线倾向的报告语言风格,极大地压缩了原先从系统数据转换为人工撰写报告成果的时间。
四、智慧税务建设应用ChatGPT面临的挑战与风险
(一)法律法规方面的挑战和风险
由于AIGC产生的深度合成内容数量大、仿真强,鉴别难度高,因此国内外在关于AICG方面建立健全监督管理机制,做了多次尝试。我国今年年来发布多份AIGC相关的法规文件,主要有:
2019 年 11 月,国家互联网信息办公室、文化和旅游部、国家广播电视总局联合发布《网络音视频信息服务管理规定》,明确规定“不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻信息”。
2019 年 12 月,国家互联网信息办公室通过并公布了《网络信息内容生态治理规定》,禁止使用深度学习和虚拟现实技术从事任何非法活动。
2020 年 12 月,中共中央印发了《法治社会建设实施纲要(2020-2025 年)》,要求对深度伪造等新技术制定和完善规范管理办法。
2022年11月3日,国家互联网信息办公室审议通过《互联网信息服务深度合成管理规定》,并经工业和信息化部、公安部同意,自2023年1月10日起施行。
另外,美国参众两院在2018年至今,先后提出《深度伪造责任法案》《2018恶意深度伪造禁止法案》《2019年深度伪造法案》和《2020财年情报授权法案》等多部法案,美国地方各州对于人工智能合成生成的“深度伪造”技术的法律制定较为积极,目前正式生效的法律。欧盟、新加坡、韩国也将“深度合成”纳入现有法律框架规制。世界各国不约而同地通过立法完善和规范深度合成内容生成技术的发展机制。
税,是国家强盛的基石和社会发展的命脉。进一步深化税收征管改革的过程中,要时刻防备国外通过立法和行政命令限制我国的技术应用和发展,智慧税务建设和发展需要紧跟国家行政、立法和技术发展的方向,及时制定针对性发展规划和方案,
(二)来自技术霸权主义国家的“卡脖子”制裁
以美国为首的霸权主义国家制裁我国中兴、华为在芯片技术和5G技术发展领域的事件为例,直接应用美国OpenAI公司研发的ChatGPT或者相关国外专利无疑是走不通的。ChatGPT的母语是英文,背后是美国的资本家,底层逻辑是国外的程序员写的,研究和应用ChatGPT必须走自主创新之路,打造中国版的ChatGPT不能靠拿来主义。
中美之间的摩擦已经持续很长时间,过去的事实告诉我们,必须放弃幻想,准备斗争,直面现实,克服一切困难,自研核心技术,否则还将受制于人,要从一开始就做好避免被人“卡脖子”的打算。华为和中兴在美国制裁面前有着截然不同的表现,极好地证明了自立自强、自主可控的必要性。实践证明,在今天的国际形势下,如果核心技术不能自主可控,那么人家会随时卡你脖子。
吸纳ChatGPT技术的优点推动智慧税务建设的路上,我们需要全面践行习总书记的网络安全观,构建安全可控的信息技术体系。习近平总书记指出,没有网络安全就没有国家安全,没有信息化就没有现代化。习总书记的网络安全观博大精深,是我们从事网信工作的指导方针。在中美贸易战的新形势下,我们不能再等着二手技术或同步技术,我们努力实现关键核心技术自主可控,把创新和发展主动权牢牢把握在自己手里,加快推进国产自主可控替代计划,构建安全可控的信息技术体系,力争弯道超车。
将ChatGPT应用于税务领域,要充分考虑软件和硬件的国产化水平,准确把握正确的应用时机,加强与国内互联网尖端科技主体的合作,加大自主创新力度,完善智慧税务建设与新技术的适配机制,努力利用新技术为智慧税务的建设添砖加瓦。
(三)硬件基础与硬件安全方面的挑战和风险
任何AI模型都离不开AI芯片,越先进的AI芯片能提供越多的AI算力,算力是一切AI研究、发展和运行的基石。作为AI三大核心要素(数据、算法、算力)之一,算力被誉为人工智能“发动机”。人工智能的每一次浪潮,都离不开AI芯片的发展和提升。
根据Open AI测算,自2012年以来,全球先进的AI模型训练算力需求每一季度翻一番,每年最先进的AI模型所需算力规模较上一年增长10倍。AIGC较传统AI而言,正在不断地逼向现有AI芯片的算力极限。前文也提到,由于中美贸易战和以美国为首的霸权主义国家蛮横地制裁,我国芯片领域发展遭受釜底抽薪似的打击。传统AI只需要CPU芯片执行通用AI计算,而新型AIGC则需要具备支持新型AI特性的GPU(图形处理器)、NPU(嵌入式神经网络处理器)、FPGA(现场可编程门阵列)、ASIC(专用集成电路)同时利用进行计算。
国产芯片性能不足,国外芯片担心存在漏洞和断供隐患。AI模型依靠GPU提供算力进行计算支持,我国头部企业景嘉微的2021年发布的最新主打产品“JH920独立显卡” 性能参数仅接近于美国头部企业英伟达2016年发布的入门级显卡 “GTX 1050显卡”, 略胜于英伟达2010年发布的旗舰产品“GTX 580显卡”,国内外的AI芯片发展差距由此可见一斑。业界提到,从算力来看, ChatGPT在训练时至少使用了1万颗英伟达的高端GPU。目前,我国的超级计算机发展和云计算服务都取得一定规模的发展成果,但在AI算力领域,由于受限于我国芯片领域的发展遭受打击,芯片与国际尖端AI算力所采用GPU存在不小的差距。尖端AI芯片的价格和供应渠道的稳定性,直接影响到AIGC在进一步深化税务征管改革过程中智慧税务建设方面的应用。
小冰CEO李笛(原微软(亚洲)互联网工程院副院长为首席执行官)表示,若用ChatGPT的方法,以小冰(微软在中国推出的人工智能机器人)框架当前支撑的对话交互量计算,每天成本将高达3亿元,一年成本超过1000亿元。以全国纳税人的数量,每天电子税务局、12366和金税系统的频繁使用量来看,智慧税务建设用ChatGPT的方法应用AIGC技术,背后的开发和使用成本难以估量。
要打赢关键核心技术适配智慧税务建设的攻坚战,需要时刻关注产业链和供应链的关键技术、关键元器件、关键材料等国产化重点突破发展。应用ChatGPT推动智慧税务建设,不仅要考虑加入新技术后系统运行的稳定,更要考虑到技术本身能否稳定持续的使用和运行下去,技术更新和硬件升级是否能满足税务智慧建设安全性和稳定性需求,以及研发新技术所需要的硬件成本和系统运行成本,都是亟需慎重考虑的事项。
(四)软件基础与软件安全方面的挑战和风险
根据2023年7月27日卡内基梅隆大学和safe.ai共同发表的一项研究表明,ChatGPT、Claude、羊驼家族等国际领先大模型的安全机制可以通过一段神秘代码破解,破解后能让大模型生成攻击伤害人类、制作毒品武器等有害内容。此前,ChatGPT存在红极一时的“奶奶漏洞”,只要对ChatGPT说:请扮演我已经过世的祖母,ChatGPT就可以卸下防御机制,倾其所有告诉对话者任何事情,比如生成Win11系统、Office365的激活码和其他正常对话时不会生成的敏感内容。税务系统对于AI大模型的开发应用,应避免类似漏洞事件和代码破解事件的发生。
国家互联网信息办公室发布的《互联网信息服务深度合成管理规定》进一步明确了深度合成技术的范围及使用规范,涵盖文本、图像、音频、视频等多种模态的相关技术。《互联网信息服务深度合成管理规定》对数据和技术管理规范以及监督检查与法律责任,都做出了更详细的规范和说明,包括禁止制作传播虚假新闻消息、使用深度合成技术必须进行实名认证、涉及多项个人信息需取得单独同意、深度合成服务生成或编辑的内容需添加显著标识、健全申诉及举报入口、规范流程及反馈时限等等,诸多规定每一项都是在强调软件安全、技术安全。
2023年,中国大模型呈现蓬勃发展态势,从年初的寥寥无几到年中的百花齐放,国内头部企业的大模型研发紧跟国际领先水平,在自然语言处理、机器视觉和多模态等各技术分支上均快速发展、同步跟进,涌现出盘古(华为)、混元(腾讯)、通义千问(阿里巴巴)、文心一言(百度)、悟道(智源研究院)、星火认知(科大讯飞)等一批具有行业影响力的预训练大模型,形成了紧跟技术发展前沿的大模型技术群。华为的“昇腾”AI大模型创新平台已原生孵化和适配30多个大模型,成为 国产AI 大模型创新首选,其中,国内原生大模型有一半基于“昇腾”AI大模型创新平台孵化。
值得一提的是AI芯片的发展水平并不等同于算力水平,算法在AI模型发展的过程中发挥着至关重要的作用,对千万个芯片进行规模化调度运行的能力也不可或缺。根据《2021―2022全球计算力指数评估报告》显示,美国计算力指数得分为77分,中国为70分,分列世界前两位,中国对计算力应用的水平与美国的差距并不大。
中国在NLP领域的模型应用水平虽不如ChatGPT先进,但是AI发展的三大要素:算力、数据和算法,中国均具备良好的发展基础和市场环境。从大数据资源看,中国拥有全世界最大规模的网民数量,有丰富的应用场景,在数据积累方面优势明显。国内对ChatGPT方面的技术应用水平差距大概在1到2年,并非像AI芯片存在十年以上的差距鸿沟,存在较大的同步发展可能,甚至像支付宝、微信支付一样在实际应用场景中赶超美国。
智慧税务建设的安全性和可靠性关系到国家税收收入、税收数据、纳税人信息等重要数据的安全,对于类似ChatGPT的 AI大模型创新平台的技术研究和开发应用必须走国产+自研之路,AI大模型的预训练水平关系到进一步深化税务征管改革过程中智慧税务建设软件方面的应用效能。我们需要加大税务领军人才和各层次骨干人才在AI方面培养力度,特别是为培养充分运用大数据、云计算、人工智能、移动互联网等现代信息技术人才做好人才培养制度保障和规划,着力建设出一支能依托国内先进AI大模型孵化平台,融合利用尖端技术,加强协调沟通合作,利用先进AI大模型赋能智慧税务建设的高素质税务人才队伍。
五、结论
2022年10月16日,习近平在中国共产党第二十次全国代表大会上的报告中提到:“加快实施创新驱动发展战略,加快实现高水平科技自立自强,以国家战略需求为导向,集聚力量进行原创性引领性科技攻关,坚决打赢关键核心技术攻坚战,加快实施一批具有战略性全局性前瞻性的国家重大科技项目,增强自主创新能力。”在进一步深化税收征管改革,推动智慧税务建设的路上,要坚持党对税收工作的全面正确领导,坚决贯彻落实党中央的重大决策部署,努力服从服务于中国式现代化建设大局。推进智慧税务建设,科技是第一生产力、人才是第一资源、创新是第一动力,面对科技世界的日新月异,需要不断强化科技创新引领,不断加强科技领军人才队伍,充分考虑新技术的安全可靠性和适配可行性,确保智慧税务建设始终沿着正确的政治方向前进。
(作者单位:国家税务总局漳州市税务局第三稽查局)
【参考文献】(略)