首页 > 栏目首页 > 财报 >
 
 

民生银行知识图谱建设与应用

2023-06-25 21:28:38  来源:互联网

文 / 中国民生银行数据管理部  周礼 沙利民 张翔 夏玮璐

中国人民银行《金融科技发展规划(2022—2025年)》指出,金融科技作为技术驱动的金融创新,是深化金融供给侧结构性改革、增强金融服务实体经济能力的重要引擎。规划指出,知识图谱作为前沿创新技术,是实现对海量多样化多维度数据资源进行价值挖掘和关联分析的核心技术手段,已经成为助力银行发展的重要方式。知识图谱可以融合银行内部和外部数据,从原始数据中深度挖掘各类实体之间的关联关系,进而识别企业风险、异常担保、疑似实控人等情况,为银行的风险防控、营销拓客等业务提供决策支持,更大程度地挖掘数据背后的价值。


(资料图片)

在央行金融科技发展规划的指导下,中国民生银行(以下简称“民生银行”)结合数字化转型战略制定了相关信息科技规划,其中“建设图谱能力、强化关联分析”是坚持科技赋能业务的重大举措之一。为此,民生银行建设包含“1+2+N”模式的“万象”知识图谱体系。以分布式图数据库与图计算框架为核心,构建了支持知识工程全流程处理的一站式知识图谱平台;实现了面向分析和面向交易两类图谱能力,分别用于关联挖掘与实时组网决策;融合行内外数据,构建了“N+”金融领域图谱,以超结构化数据驱动风险、营销、审计等数十个场景的业务创新。

中国民生银行数据管理部 高级工程师  周礼

打造一站式平台,支持分析与交易

根据数字化转型战略目标,民生银行在大数据和人工智能领域提前布局,通过构建基础图能力和统一知识图谱平台增强关联分析与应用能力。自2019年开始,从解决信贷申请领域的团伙欺诈问题出发,民生银行开始引入分布式图数据库以构建大规模数据集下的图存储和图计算能力。通过市场调研,并参考了信通院《图数据库白皮书》《图数据库基准能力测试》等标准,围绕图数据库的基本操作能力、图模型管理能力、分布式能力、权限管理能力方面进行考察,最终完成了自主可控分布式图数据集群的引入投产。在此基础上,根据对知识工程和复杂网络分析的能力抽象,基于Hadoop/Spark技术栈、整合图数据库、图算法以及知识构建工作流等相关组件,构建了“万象”知识图谱平台,提供了知识图谱建模、图谱分析、图谱挖掘、知识服务全流程的一站式应用能力。如图1所示,民生知识图谱平台主要包含四层内容,具体如下。

图1  知识图谱平台应用架构图

1.基础设施层。在存储方面,以图数据库为核心,结合Hadoop体系,构建了多级存储机制。实体关系数据利用图数据库进行存储,并实现了生产多模态集群,分别服务于分析场景和交易场景;用于查询加速的索引数据以及关系详情等数据,使用ES或HBase等组件进行存储。在算法挖掘方面,通过图数据库以及SparkGraphX等计算框架的支持,提供对常规的图遍历、中心性、社区算法,以及图神经网络等深度学习算法的支撑,并且将常用算法封装为算子,便于研发人员使用。

2.图谱工程层。为降低研发门槛,平台提供了界面化的工程能力。针对图谱研发的全流程提供了各类组件,能够支持各类大数据平台的数据整合和知识抽取,实现可见即所得的本体设计,并能够通过“拖拉拽”的挖掘流程构建复杂图谱,以及基于模型算子进行关系挖掘,形成的数据内容还可以一键发布为引擎服务。将这样的一站式能力供给行内各团队使用,形成“平台即服务”,从而推进图谱数据和应用场景的规模化落地。

3.图谱服务层。为同时满足面向分析和面向交易的服务模式,平台在服务层构建了图谱分析模块和图谱服务引擎模块。其中图谱分析模块主要面向数据分析师和业务分析人员,提供交互式的知识图谱分析和探索能力;支持在各类图谱上进行自助查询、路径分析、群体分析、形态匹配等,并可以对分析结果进行快照导出或者文件下发进行进一步使用。而图谱服务引擎模块则将图谱数据或者图计算能力封装形成API,对接业务系统形成实时在线服务。针对已建设好的实体、关系或者图数据,以服务对接或者嵌入式图谱等方式供业务系统使用。而针对交易决策场景,可以提供实时组网类或网络特征计算类服务,接受交易请求数据进行同步网络构建,根据策略计算各类特征并实时返回判定结果,嵌入交易流程形成智能决策支持。

4.业务产品层。将图谱的各项数据、服务和能力封装后,可以形成独立的数据应用产品,如对标互联网企业图谱产品的行内金融图谱,覆盖了全国工商企业的档案和各类关系,并与行内客户数据实现了拉通,可以提供零售客户、法人客户和集团客户的全景视图。

构建多领域图谱,赋能数字化转型

民生银行持续夯实图谱内容与落地业务场景,以广泛支持各业务的数字化转型工作。在数据层面,通过不断引入工商、司法、税务、舆情等数据源和粗加工关系,与行内的交易、客户、风险、担保、申请、设备等数据进行拉通聚合,形成了企业图谱、信贷风险图谱、集团图谱、资金交易图谱等多项图谱资产;在赋能层面,基于平台和数据能力,当前在客户洞察、风险防控、营销获客、合规预警、经营管理等五大方向等20+业务领域进行了场景实施,如图2所示。

图2  知识图谱及业务场景

1.构建企业图谱,赋能数字化风控与营销场景。由于企业跨地域、集团化经营业态的发展,使得客户风险表现形式更加多元化,信息不对称进一步加剧,风险管理难度持续加大。民生银行为了应对复杂的经济形势,需要持续加强数字化风控能力,扩大观察视角,从客户整体关系网络角度评判风险。同时在营销场景中,传统的营销方式已无法满足快速变化的市场要求,数字化营销是营销转型的策略之一。民生银行顺应科技浪潮,占领发展先机,大力发展数字化营销。

民生银行首先实现行内客户信息、风险相关数据和行外工商数据的拉通,然后提取法人、自然人、集团三类实体,和担保、抵质押、股权、法定代表人、额度使用等几十种基础关系,并通过图算法深度挖掘担保圈、担保链、互保、集中性担保、间接持股等隐形关联关系,进而了构建企业全息图谱,共计近百亿数据;并对复杂的关系图谱网络进行可视化建设,根据不同关系类型提供不同可视化方案,做到企业客户“一眼清”,为风险管理全流程中各类业务人员、管理人员以及各类风险管理系统提供关联分析支持。

同时企业图谱也应用于营销获客场景中,实现基于客户关系网络的营销线索挖掘,筛选出与我行存量客户有关联关系且关联关系符合一定特征的潜力客户,下发经营机构组织开展精准营销及客户关系维护,经统计此类潜力客户的营销成功率是无关系客户的6倍以上。

2.构建交易图谱,全方位保障资金交易安全合规。将资金交易抽象为网络,将一次交易作为网络中的边,交易双方为网络中的点,每一条交易边从资金转出的一方起始,指向资金转入的一方。但是交易网络的构建与计算技术难度较大,首先是网络中的点、边数量都非常多,且随时间推移只增不减,这与相对稳定的企业集团关系是不同的。其次属性信息量也很多:点属性涉及客户的身份信息、账户信息;边属性涉及交易时间、金额、附言、渠道等。再次,图谱中会存在明显的超点,即单位时间内交易次数明显高于其他账户的账户实体。超点往往会极大影响图计算的性能。

但交易图谱的应用范围非常广泛,包括异常资金流向、交易环路等都以它为基础。票据贴现资金流向监控是典型应用案例之一:央行的126号文等监管文件对于票据贴现业务给出了明确的监管要求,严禁票据贴现资金回流前手,严禁以贷款、贴现资金作保证金办理银行承兑汇票,虚增存款。以人工跟踪贴现资金流向效率较低且监控范围有限,亟需进行更高效、更全面的流向预警手段。

在高性能的图存储和计算能力基础上,结合图算法解决了上述技术难题,也为资金流向监控提供了新方案。我们以交易流水、票据信息、背书历史、客户信息作为原数据,抽取出票据、公司、账户六类实体,和出票、收款、背书、贴现、转账、所属六种关系,进而构建形成票据的交易网络图谱;运用图算法进行社团划分与流向传播,识别交易网络中环路、汇聚、群组等复杂交易形态;运用流水中交易对手、资金用途、交易附言进行预警规则研判;运用机器学习算法预测贴现资金违规概率;最终形成了覆盖同名划转行外、流入保证金、流入房市、流入理财、流入股市、回流前手、流入存单七类违规场景的预警信息,并提供违规案例的可解释性图谱,便捷辅助业务决策。

3.构建信贷申请图谱,实现全流程实时组网风控。近年来欺诈风险呈现多产业链、多团伙等特点,团体欺诈风险识别难度愈加递增,传统的反欺诈体系已无法满足当前复杂欺诈模式的识别。同时信贷领域愈加强调掌握用户间的关联关系以及信贷申请行为的聚集性特征,而知识图谱在识别用户关系和聚集性特征方面就有着不可替代的优势。民生银行为更好地保护客户资产安全,增强自身欺诈识别能力,通过知识图谱建设了信贷全流程的实时组网风控体系,如图3。

图3  信贷申请实时组网风控流程图

通过知识图谱平台将信贷申请信息、设备信息、联系方式、工作单位、地址、受托支付、交易等行内关系数据和外部工商数据加工成信贷申请图谱,同时应用图实时计算技术,打造从关系视角进行风险分析的实时组网风控体系,支持在贷前、贷中、贷后全流程识别关联风险。并将实时组网风控结果进行可视化展示,提供交互式分析功能,配合相关的特征指标,帮助业务核查风险。目前知识图谱已为小微和消贷的50+信贷产品申请提供实时组网与风险计算服务,响应时间达到毫秒级别。

总 结

从2019年建设至今,“万象”知识图谱体系完成了从无到有的跨越,支持多集群批量分析、实时计算图数据;沉淀了企业图谱、信贷风险图谱、集团图谱、资金交易等多个图谱;触达风险防控、营销获客、信贷申请、票据贴现、审计、反洗钱等20+业务领域;通过降本增效、智能风控、关联拓客、创新营销持续为民生银行创造价值。

知识图谱作为大数据时代的重要应用技术,在银行业的数字化转型中发挥着越来越重要的作用。后续民生银行会在优化技术平台的便捷使用、提升图谱数量和质量、促进应用的智能化等方面持续发力,推动数据和算法在业务端的纵深赋能。

关键词:

  
相关新闻
每日推荐
  • 滚动
  • 综合
  • 房产