设为首页   加入收藏
   学术论坛
基于税收大数据的纳税人画像模型构建——基于福州市税务局360纳税人体检中心实践案例
日期:2020-12-15    来源:福州市税务学会   

 

国家税务总局福州市税务局课题组

 

【内容摘要】纳税人画像是一种运用大数据处理技术对纳税人遵从税法的行为进行分析的数据分析工具,为税务机关实施税收风险管理奠定了基础。税务机关在税收风险管理上已经实践多年,但在利用大数据技术与税收风险管理相结合以及对纳税人画像理论和实践研究较为薄弱。本文通过文献分析及具体案例研究等方法,借鉴用户画像和企业画像理论和实践方法,对纳税人画像概念界定、标签体系模型和模型建构进行探讨,为大数据格局下的纳税人画像提供参考。

【关键词】税收大数据,纳税人画像,标签体系,模型构建,纳税人360体检中心

 

引言

智能终端和移动互联网应用的快速普及,企业和广大消费者的个性化属性和行为特征,通过互联网数据化,以各种形式存储,越来越多的市场参与者以及政府部门通过对大数据的分析,洞察管理或服务对象的行为和动因,并预测未来的行为趋势。随着税收管理信息化建设进程加速,金税工程逐步升级,总局税收大数据平台[1]已经建设完成,分散的税收管理信息系统得到有效整合,利用税收大数据实施税收管理和服务已经具备了基本的物质基础。但是由于数据量日益庞大,数据类型日益复杂,如何在海量的数据中获取有价值的信息,从而为解决问题提供有价值的洞察力,成为大数据格局下众多市场参与主体亟待解决的重要问题。因此,产生了大数据时代下将用户”“数据化的技术[2]——用户画像(persona[3])。用户画像是一个抽象化的用户模型,背后是用户(主要是指自然人属性的消费者)真实的数据,用户画像可以让企业更加理解用户的行为特征以及消费偏好,能够更好的设计符合消费者需求的产品和服务。同样,企业既是生产者也是消费者,企业画像就是把企业信息标签化,在一系列真实数据的基础上为企业建立标签模型体系,将企业的具体行为属性进行归类,最终形成一个多元化的企业标签对象,因此,本文认为本质上来看,企业画像也属于用户画像。

一、纳税人画像内涵

大数据(big data)[4]指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据也可以定义为来自各种来源的大量非结构化和结构化数据[5]。大数据通常包含的数据大小超出了传统软件在可接受的时间内处理的能力。大数据包含各种个人信息数据,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可。本文所论述的大数据是指与税收有关的涉税数据。包含企业经营者的涉税经济活动数据、税务机关掌控的涉税数据、以及除两者之外的涉税数据。本文所阐述的税收大数据是指与涉税事项有关的数据集合,包含企业经营者自身、税务机关、其他政府部门、互联网等涉税数据,也包含国际间交换的税收情报。

纳税人是指税法中规定的直接负有纳税义务的单位或个人,企业和个人都有可能成为纳税人,事实上参与市场活动的企业和个人基本上都是纳税人。本文认为纳税人画像是用户画像在涉税领域的具体应用。在互联网应用领域,用户画像主要指以真实用户群体为对象,以用户的静态属性( 人口统计特征、空间和地理特征等) 和动态属性( 消费行为、使用行为等)数据为基础,通过定性或定量方法提炼抽象出的具有显著特征的用户模型。[6]因此,本文的纳税人画像是指以真实的纳税人为对象,以纳税人的涉税活动属性数据为基础,通过定性或定量方法提炼抽象出的具有显著特征的纳税人模型,并以此为参照,对其实施不同的税收管理和服务活动。

二、纳税人画像模型构建

税收在国家治理中发挥基础性、支柱性、保障性作用[7],因此,需要不断推进税收治理体系治理能力现代化。税收治理是一个复杂的系统性工程,这个系统性工程的目标就是实现税收治理现代化,税收治理现代化的核心之一就是税收管理方式的现代化,转变税收管理方式是适应社会经济变化必然要求。现代信息化技术是转变税收管理方式的重要支撑,人工智能、大数据、云计算和区块链等是当今及未来一段时间信息化技术的代表,税务机关各类信息系统存储着大量的税收数据,如何充分利用大数据技术提升税收治理能力是当下急需要解决议题,纳税人画像是大数据技术在税收领域的具体实践和应用,是提升大数据格局下税收治理能力的尝试。

税收管理具体实践中,在税务总局层面,已经建成智慧税务大数据平台,其中金税三期决策支持系统(即总局的云平台)已经在各地税务机关使用;地方层面,有不少地方税务机关已经开展了利用大数据技术进行税收管理的实践。例如,福建、深圳、河南和安徽等地建立了本地化的税收大数据平台,以及福州市税务局利用网络爬虫技术为基础的互联网涉税数据平台。随着各层级的税收大数据平台的建设,纳税人画像的实施有了集成的数据基础。但是大数据技术在税收领域的应用进展缓慢,例如,数据源主要来源企业报送和申报的数据,数据分析较为单一,缺乏系统化,大数据等现代信息化技术利用程度高等。为此,基于大数据技术的纳税人画像是对大数据格局下转变税收管理方式,提升税收治理能力的尝试。基于用户画像的理论和实践基础,纳税人画像包括四个阶段:确定目标、确定维度、建立标签、建构模型。

1:纳税人画像四个阶段

(一)确定目标

用户画像强调以用户为中心,以用户需求为指引,纳税人画像应该着重强调以满足税务机关职能为核心的治理需求,因此,纳税人画像的目标与税收征管管理的目标是一致的,就是提高税法遵从度。税法具有公平性,纳税人必须履行纳税义务,同时可以公平的获得法律赋予的各项权利。但同时纳税人类型、行业、商业模式和经营方式不同造成了对具体税收政策及管理的需求上又有差异性,在确保纳税人权利和义务的公平性的基础上,满足各类型纳税人的个性化需求的差异性,需要通过技术手段加以区分,需要通过技术手段提高服务和管理精准度,同时主导税收共治,为不同的社会主体提供优质的纳税服务。因此,纳税人画像的目标就是:提高纳税人的满意度和遵从度。

(二)确定维度

根据纳税人画像的目标,建立两个维度:第一,围绕纳税人满意度构建,为纳税人提供高效、便捷的办税服务;第二,围绕纳税人涉税风险,着力发现和纠正纳税人不遵从税法行为。

(三)建立标签

本文侧重于税务机关对纳税人的服务和管理,从数据来源看,主要有企业、税务机关、其他三大类数据:第一类企业经营活动及企业财务处理产生的数据,存在与企业内部及与企业产生交易活动的企业中,以及用会计语言记录企业经营活动的财务报表;第二类是纳税申报数据,基于企业财务处理后进行纳税申报产生的数据;第三类是除企业和税务机关之外的各类组织存储的涉税数据,包括其他政府部门、非盈利性组织、行业协会等,特别是其他政府部门对企业经营活动的监管和服务产生的数据。



2:纳税人画像标签体系

(四)建构模型及实践案例

1.纳税人画像模型建构

根据用户画像建模的一般流程,纳税人画像建模一般分为四个步骤:数据源及数据采集、数据传输与存储、大数据分析处理平台、算法模型及可视化应用。

2.福州市360纳税人体检中心实践案例

1360中心目标

福州市税务局360纳税人体检中心(以下简称360中心)是纳税人画像的具体实践案例。360中心依托金税三期决策支持应用系统,以大数据为主要技术手段,使用基于J2EE[8]的多层分布式应用模型、可支持业务变化的应用架构,基于SOA应用集成的技术架构,对纳税人全生命周期及全方位涉税事项设置风险扫描指标,实现对登记、优惠、认定、申报、征收、证明、发票、出口退税、综合等涉税事项的360度立体化全面监控,并依据扫描产生的风险结果对纳税人实行差异化的服务和管理。

3:纳税人画像模型构建

2)数据源

目前360中心的数据源已经实现从4个主要渠道(图4

3)数据存储

数据存储是大数据应用的一个基础环节,也是一个业务系统的根基。截至2020年6月30日,全省(不含厦门,下同)各登记状态纳税人总数[9]为249.82万户,核心数据量[10]有18721GB(不含电子档案类数据),且每年快速增长,传统的存储技术无法适应大数据的需求,而分布式的系统是通过计算机网络互连协作来完成任务分配,能够更好的处理大规模数据分析问题。其中Hadoop技术应用于存储架构的方式,且具有硬件成本较低,以及具有较高的灵活性,目前福建省的大数据平台采用了Hadoop存储架构。


数据源
4360中心数据源

4)数据分析平台

360中心作为福建省风险管理平台一个应用模块。360中心主要有三个模块:模块套餐式体检项目管理。对全流程征管事项中的涉税风险点,建立标签体系,建立各类模型——全面风险体检、专项风险体检、行业风险体检、相关税种风险体检、自定义风险指标体检,以100为指数标准对纳税人进行分级分类。模块二:单户和批量风险体检管理。主要对纳税人的基础征管、申报纳税、财务及票证等信息建立标签体系并建立模型,对单个纳税人或者自定义批量纳税人运算,发现纳税人的涉税风险点,用于衡量纳税遵从状况。模块三:模型运行结果以风险报告形式展现纳税户体检总体情况及各体检项目的检验结果指数信息,以组织架构图形式进行可视化展现;根据税收风险发生环节和风险等级,将风险体检报告精准推送给纳税人、办税大厅人员、税管员、风险管理人员,实现差异化服务和管理。

5)算法模型及可视化应用

纳税人画像通用模型如下:

Y=i=0n   (i=0n(A1+A2+A3...Ai)+i=0n(B1+B2+B3...Bi)+i=0n(C1+C2+C3....Ci)+i=0n(D1+D2+D3...Di)+i=0n(E1+E2+E3+Ei))

A为登记类,B为申报类,C为发票类类,D为法制类,E为认定类

A有欠税或者有未缴销发票的非正常户被注销预警认定为非正常户的纳税人法人是其他正常开业企业的法人预警正常开业企业的纳税人法人是其他认定为非正常户的法人预警......

B研发费用加计算扣除金额异常加计扣除口径研发费用大于高新口径研发费用企业所得税营业收入上升且印花税应纳税额下降......

C防伪税控一机多票纳税人领购其他普通发票连续6个月零申报,且有结存发票,购票日期超过180注销户、停业户和非正常户仍有正常发票结存......

D一年内3次违章以上纳税评估一次后又出现中等风险以上举报超过2。。。。。。        E小规模纳税人开票金额超过500税务登记的纳税人,没有财务报表鉴定正常的纳税人的有效税种的征收方式代码为空......

Y≤100,n>1,3≤i≤100,i=0nA≤20,i=0nB≤20,i=0nC≤20,i=0nE≤20,i=0nA≤20

模型可视化结果(数据时间节点202011-2020911日):

表:可视化风险等级划分

序号

综合指数

风险等级

应对策略

1

0-50
(不含50)

高风险

稽查/审计

2

50-90
(不含90)

中等风险

纳税评估

3

90-100
(不含100)

低风险

纳税提醒

4

100

无风险

纳税服务

模型运行结果以可视化方式进行呈现,两个维度,第一个维度为风险管理层面:一共设置高风险、中等风险和低风险三类,并对应采取的税收管理应对策略为:稽查或审计,纳税评估和纳税提醒。第二维度为无风险,及综合指数为100,对应的提供优质、高效的纳税服务。

模型测试一共体检422232户,其中综合类批量处理406788户,其中高风险的为235户,占综合类体检项目的0.057%,中等风险的为1778户,占0.436%,低风险19831户,占4.875%,无风险的385846户,占94.852%;房地产行业体检12168户,建筑行业体检7912户。作为税收管理和服务的策略来说,征管资源应该集中在化解高风险领域的企业,并对违法犯罪进行严厉打击和威慑;对中低风险的应该着

力纠正纳税人不遵从行为,逐步防范和降低风险;对无风险的(指数为100)则提供优质纳税服务,降低征纳成本。

5:综合类、房地产行业、建筑行业体检测试结果总体可视化情况

6:综合类、房地产行业、建筑行业体检测试结果分行业可视化情况

从行业角度看,批发业的高风险户数占批发业测试户数的0.0679%,高于总体均值。

7:综合类、房地产行业、建筑行业体检测试结果高风险可视化情况

从高风险情况看,高风险企业集中在仓山区、鼓楼区、经济开发区和台江区。

三、结论和建议

(一)结论

从上述福州市360中心测试结果来看,最后的输出结果应该是能够与当前征管资源相匹配,即无风险的占绝大多数,整体呈现金字塔型,从测试结果来看,符合预期。

8360中心测试结果预期金字塔

(二)建议

1.明确税收数据使用法律依据

现行的税收法律法规对税务机关的主要依赖于实体的证据,比如,发票、财报等,对电子数据的证据采信需要一系列的法律支持。一是明确税务机关采集涉税数据的合法性。税务机关采集的数据来源,包括纳税人申报的数据、其他政府部门以及非盈利机构掌握的涉税数据。其他政府部门等掌握的数据,例如,工商、发改委、社保等。税务机关有权根据所获取的涉税数据对纳税人进行管理,或者就纳税人的违法违规行为进行行政处罚。二是明确其他政府部门有义务为税务机关采集涉税提供便利。除了制定地方性税收保障办法等,更重要的是需要在涉税数据共享上提供数据交换平台,开放一定数据接口,确保数据共享与交换的安全与效率。其他企业或者非盈利机构,有责任有义务协助税务机关采集涉税数据的义务,并按照税务机关依法确认的格式和要求向税务机关主动报送涉税数据,税务机关依法使用涉税数据。

2.重塑业务流和数据拓宽数据采集渠道

业务数据化是未来的税收管理的必然趋势,随着增值税专票电子化的试点,以及金税工程四期的推进,必然对税收管理各个领域和方式带来新的挑战,业务流程必然需要适应新技术手段。对于一个庞大而复杂,且已经长期运行的税收管理系统来说,对所有业务流程和业务信息流一步到位的重塑是不可能的,为避免因过多业务变革导致管理成本的剧增,应采用渐进式的变革方式。一是围绕数据管税这个核心开展变革本文认为人性化纳税服务、数据高效采集、分布式存储、精准分析、有效应对策略、具有威慑力的税务稽查等业务是最重要的业务。其中税收管理的未来,涉税数据采集与分析处理,将成为基础的工作,服务、管理、稽查都需要依托涉税数据处理,涉税数据处理能力的高低决定税收管理能力的高低。现有的纳税服务部门(电子税务局)应该着重准确采集纳税人的税务登记、纳税申报、财务数据;税种管理部门、非税收入管理部门、税务分局等应该在管理过程中着重采集纳税人的经营数据;稽查部门应该在稽查过程对其稽查所属期的数据资料留至信息管理系统中。二是拓宽数据采集渠道。数据是税收管理最基本的原材料,对涉税数据来源渠道除了纳税人主动报送的数据之外,应该着力解决其他数据渠道来源,数据应该是可验证、可持续、可用性。当前数据量最大的几个来源:一是政府部门;二是银行系统;三大运营商(电信、移动、联通);四是互联网流量平台巨头(百度、腾讯、京东、阿里等)

3.不断升级管理系统和工具

金税三期系统[11](以下简称金三系统)是当前税收管理核心信息系统,由于该系统是一个逐步优化升级的过程,全国各地的实际需求差异性较大,无法真正满足所有管理单位的需求。全国各地的信息化程度、人员素质等方面也存在差异。因此,等待金三系统升级到位以及满足个性化需求较为漫长,且成本过高。本文认为采取以金三系统为核心,外围辅助系统的方式,既满足金三系统主体稳定性与统一性的要求,也能够满足地方个性化迫切需求。通过地方各地的小步探索的方式,也能够为金三系统的整体性优化提供思路和实践,降低试错成本。

4.建构智能化服务系统

税务机关的服务和管理具有公共产品的一般特性——非排他性和非竞争性,同一类型的纳税人具有共同的服务和管理需求,同时由于每个纳税人的独特个性,对服务的需求有极具个性化。一是给纳税人精准画像。局限于税务机关的征管资源,无法做到通过人工的方式给每个纳税人所需要的个性化服务,因此,有必要通过人工智能领域的一些方法,在满足一般性或者共性化的纳税服务基础上,给每个纳税人画像,提供更为精准的服务。与大数据有关的方法日益精确,越来越智能,计算速度越来越快,处理数据的精确度越来越高。人工智能的发展能够为每个纳税人提供画像,除了一般的办税服务、涉税咨询之外,纳税人更为迫切的是涉税风险提醒。根据纳税人涉税风险等级的具体化标签,采取不同的服务策略,一方面能够实现精准服务,最大限度满足纳税人需求;另一方面能够最大限度优化现有征管资源,缓解征管资源稀缺的状态,提高服务效率。二是确保可以多渠道实时触达纳税人。能够持续跟纳税人保持良好的沟通是一项税收风险管理基本工作,一方面要能够准确及时采集纳税人的涉税信息(含登记信息、申报、管理、经营等信息),另一方面要随着多渠道触达纳税人,能够及时提供精准服务,或者保持税法刚性的威慑力。当前触达纳税人的方式已经比较多样化,比如,电话、短信、电子税务局等,但是除了电话、短信之外,能够主动触达纳税人的渠道依旧不是畅通的,电子税务局是纳税人主动跟税务机关接触渠道。就风险管理而言,越早提供涉税风险提醒,越能够减少纳税人的涉税风险,事前的风险应对比事后的风险应对,征纳双方的成本会大大降低。

5.提供免费的税务+ERP系统

税务+ERP[12]系统具有现实意义。企业端ERP系统仅仅是在企业端使用,并未与税务端实现数据交换功能。互联网早已普及,且移动互联网也已经深入到企业生产经营管理中,税务+ERP可以实现把税务局机关与企业进行数据实时传输和交换可以和国内主要ERP服务商合作开发系统,将税务+功能增加到系统中,统一数据标准及传输时间等要素。由税务系统提供免费版的税务+ERP系统,具备基础的管理信息功能,税务端开放端口,接收实时传输的数据和信息,将接收的数据和信息写入税务机关管理信息系统,并实时推送至各个管理环节和岗位。使用税务+ERP系统的企业,可以高度简化办税流程,且能够得到税务机关实时的精准服务。税务系统可以根据实时接收的大数据,提供更多的涉税服务,比如可以提供脱敏的行业涉税风险分析报告。

 

 

 

课题指导:余茂铃

课题组成员:余茂铃  曹阳  康逢华

执笔人:康逢华

 

 

 


[1] 2020826日,国家税务总局依托阿里云打造的智慧税务大数据平台已建设完成。由于采用了分布式海量计算技术,计算速度提高了2000倍。国家税务总局税务系统借助新平台可实现30多个省级机关核心税务数据的当日汇总、计算。

[2] 田娟,朱定局,杨文翰.基于大数据平台的企业画像研究综述[J].计算机科学,2018,11,58-62.

[3] .交互设计之路[M].北京: 电子工业出版社,2006: 10AlanCooper最早提出了persona 的概念。Persona是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。

[4] 研究机构Gartner对大数据的定义。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

[5] 从互联网上抓取的大量数据属于非结构化数据。

[6] ,吴俊.用户画像概念溯源与应用场景研究[J].重庆交通大学学报(社科版),2017(5).

[7] 王军.绩效管理在推进税收治理现代化中的战略定位于实现路径[J].中国行政管理,2020(07).

[8] J2EE的全称是Java 2 Platform Enterprise Edition,它是由SUN公司领导、各厂家共同制定并得到广泛认可的工业标准,或者说,它是在SUN公司领导下,多家公司参与共同制定的企业级分布式应用程序开发规范。目前,J2EE是市场上主流的企业级分布式应用平台的解决方案。

[9] 各登记状态纳税人是指:正常、停业、清算、非正常、非正常注销、报验、简易注销无异议等。

[10] 六类核心数据:核心征管库、发票库、社保库、个税库、第三方数据、互联网数据

[11] 金税三期工程属国家级信息系统工程,是国家电子政务建设的重要组成部分。该系统融合了税收征管变革和技术创新,统一了全国地税征管应用系统版本,搭建了统一的纳税服务平台,实现了全国税收数据大集中,对于进一步规范全国税收执法、优化纳税服务、实现降低税务机关征纳成本和执法风险,提高纳税人遵从度和满意度两提高、两降低的税收征管改革目标具有极其重要的意义。

[12] ERP (Enterprise Resource Planning),即企业资源计划指建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台。

上一页:基于税收数据透视福建经济高质量发展与产业转型升级
下一页:税收视角下南安经济发展质量分析研判 【收藏本页】 【打印】 【关闭】
地址:福建省福州市铜盘路30号 邮编:350003
联系电话:0591-87840097 Email:fjswxh@qq.com
技术支持:福州泰讯软件技术服务有限公司  建议使用分辨率为:1024*768
闽ICP备09045903号   闽公网安备 35010202000728号   Powered by SiteServer CMS