宜人贷何林海:社交图谱在金融反欺诈产品的应用 +关注 +发表新主题

宜人贷何林海:社交图谱在金融反欺诈产品的应用

发表于讨论求助 2023-05-10 14:56:27

点击上方“宜人智库” 可以订阅哦！

在今年的「QingCloud Insight 2017」上，麦思博（msup）组织了主题为“AI落地实践”的专场论坛。宜人贷数据产品经理何林海在本场带来了题为《构建基于社交图谱关系的反欺诈产品应用》的演讲。

何林海在演讲中主要分享了欺诈行业面临的挑战和产业链式发展、如何快速评估欺诈风险/平台搭建（框架体系）及实现、基于社交知识图谱的欺诈团伙发现、宜人贷面向行业的反欺诈解决方案“先知”等内容。

何林海，目前主要负责宜人贷反欺诈产品的搭建，在做反欺诈之前，主要负责SDK行为数据的采集，收集了大量宝贵的用户行为数据，目前在公司内各个项目中得到了广泛使用。在宜人贷之前，就职于美团数据工程部。

以下为何林海的演讲内容。

我是来自于宜人贷的何林海，今天主要分享社交图谱关系在金融反欺诈产品方面的应用。

关于宜人贷

宜信公司2012年推出的一款在线金融服务平台。宜人贷通过科技驱动金融创新，为中国优质城市白领人群提供高效、便捷、个性化的信用结款咨询服务。

2015年12月18日，宜人贷在美国纽约证券交易所上市，成为中国金融科技第一股。截止2017年3月31日，宜人贷累计服务了超过60万借款用户，近120万出借用户，累计促成借款总额达393亿人民币。

欺诈的行业挑战和链式发展

在美国，欺诈主要是由于信用风险而产生，但在国内，很多坏账是由欺诈产生，中国对于欺诈的惩罚不够，导致了类似事件频繁出现。作为一个行业的挑战，欺诈不仅只存在于在线P2P领域。

关于欺诈的行业挑战，举三个例子。

非银信贷：行业整体风险偏高，由于门槛较低，滋生了大量团伙欺诈、身份冒用、老赖、多平台借款、黑中介等，带来巨大经济损失，坏账率居高不下。

银行：开展网络支付、直销理财、电商、消费信贷、P2P等创新业务中，和非银信贷面临同样的问题。

电商：电商领域的在线支付、恶意点击、广告监测、黄牛、账户安全等方面面临交易欺诈风险。

这些问题是全行业的挑战，宜人贷面临的主要是信贷申请时候的欺诈。

现在大量欺诈已经不再只是个人作为，而是一种行业性质的行为。我简单分成三类：上游、中游、下游。

上游，主要是黑产技术服务，能力不逊于技术团队，力量强悍，积累了丰富的工具使用经验，包括虚拟模拟资料，做帐单造假等，成员都是计算机高手。

中游，把恶意注册的帐号释放出去，或者是通过交流平台招揽技术人才。另外，由于需要很多资料，到农村收一些大爷大妈的身份证。对他们来说，赚一百块钱，身份证借用两天没什么关系，实际上这些资料被用来骗贷了。

下游，有专人用这些资料来做欺诈、盗窃、勒索，甚至用来刷单。

如何快速评估欺诈风险及平台搭建

宜人贷如何建立一套快速评估欺诈风险的机制呢？

2014年开始有这些想法，在现有风控体系外，把欺诈风险和信用风险分开做。欺诈风险单独拎出来，并将对用户的欺诈风险识别出来。我们建立了一套从数据采集到机器学习，并快速给出欺诈评分的体系。

在数据采集时，通过SDK的方式，也就是采集SDK，可以在不同触点采集到用户的基本信息，只要用户触达任何一个终端，我们都实时地将这些用户信息送到SENT EVENTS上。

深度学习以前没怎么用，监督类学习是基于欺诈和非欺诈的用户去做分类，无监督用了知识图谱的技术。对于单个用户，每个事件会给出一个评分。

比如，用户打开APP会得分，因为怀疑安装了模拟器，用户进行申请时会给他提醒完善信息。对于优秀用户，根据他的设备或者关联出的其他信息，在注册时给他打一个好的分数。

这是对于不同事件进行实时欺诈评分的流程。用户在设备激活的时候得一个分，注册的时候得一个分，查看新手引导的时候又得到一个分，这个分会实时变化。每次过来，用户都会带上基本信息：设备、IP地址等等，可用作评估风险程度的特征。

上面说到的是反欺诈的基本架构，我们在内部做成一个产品化平台，今天主要介绍一下它的体系，主要基于三个层次。

首先是实时的数据采集，数据采集分几个部分，第一部分是基于SDK采集相关的用户行为数据，第二部分是用户授权的相应个人信息，包括消费数据和通话数据，第三部分是三方数据。

其次，我们用到了实时数据处理，基于知识图谱构建了三个层次，第一个是欺诈评分模型，实时对用户的每个事件进行评分，第二个是传统的规则引擎，我们用了一个非常强的规则；第三个是团伙挖掘，这是一个很大的亮点。

前两点很多公司都在做。针对单个分类的问题，数据决定了模型好坏的上限，模型调的再好，只是决定效果无限逼近上限。团伙挖掘是基于知识图谱，把用户通过图的方式，挖掘他们之间的关系，把这些（有类似欺诈行为或关系的）用户拎出来。

在实时欺诈发现阶段我们采用产品化的工具，在流程里通过调查工具，直接给到信审。把每个用户提报出来，通过这套流程可视化平台，帮助快速理解用户是否欺诈，我们会做中介发现，把中介找到。第三是团伙监控和预警，把欺诈团伙挖出来。

每个阶段的具体实现过程

下面讲讲每个部分的具体实现过程。

第一个模块是基于SDK的实时数据采集，获取一手数据。我在去年加入了宜人贷，当时就在想，这么多的用户行为数据为什么不用来做反欺诈呢？用户的淘宝数据、消费数据，以及其他的很多临时性数据都可以作假，但是用户的行为数据一般不会去模仿，我们做了一个SDK采集框架，分成三层。

第一部分是数据采集，覆盖宜人贷所有客户触达终端的采集能力，采集用户行为、设备指纹等相关信息，比如型号、是否模拟器、各项物理层，以及网络源信息，这部分非常重要，它连接着一些上网轨迹，还有Location，我们发现很多团伙都在一个地点，好几十个坏用户聚在一个基站下面。以上是采集层。

中间是实时数据处理，我们做了一层相应的配置，对于哪些数据是可用的，我们花了很多力气做数据清洗，刚开始的时候在这方面踩了不少坑，然后后续实时的时候会做一些数据回填，才达到一个比较好的运算。数据处理层分为离线和实时。实时数据直接灌到知识图谱里，离线数据做一些特征处理和建模分析。

在数据应用层，最简单的就是流量统计分析，分析用户的行为。其中两个方面跟反欺诈有关，一个是反欺诈前置，另一个是流量反作弊，对每个渠道过来的激活都需要做是否作弊的评分。在反欺诈前置方面，我们会对每个用户进行实时的欺诈评分。

这是SDK采集的基础框架。数据采集方面数据由固定表头信息+事件信息组成，每条记录都是一个事件，包含如获取定位行为、或者设备信息行为、用户点击行为、页面加载行为。数据发送有些策略：实时发送、满N条发送、默认15条、失败重发等等。

采集的内容分为几个模块。设备数据主要有手机品牌、手机型号、操作系统、设备ID、App列表。

行为数据主要包括账号登录、页面进入、按钮点击、信息输入、广告浏览、操作时间等。我们有很多流程，比如，新手机运营商授权的密码，很多人都记不住，但是欺诈分子一下子就输入了，他的输入速度非常可疑，我们通过聚类把这种用户聚在一起。

位置数据现在主要用四个：GPS、IP、基站信息、WIFI列表。比较精准的是GPS和WIFI，基站大概有100~200米误差。很多欺诈分子喜欢用代理IP。

基于以上，把用户实时行为数据采集完之后，对每个用户会形成一个实时的欺诈评分。

这是一个实时预警流程。我们真正用的模型不只是只有行为，但是它的权重非常高，我们还用到很多的其他数据，需要用户授权的一些数据，我们都会放到欺诈的特征里面。

我们做了一个FICO评分标准，评分越高用户信用风险就会越小。此外还有一个规则引擎，我们会发现一些强有力的单条规则，或者多条单一规则组成的策略，对每个预警用户非常有效。

预警出来会分成两部分，一部分信用好的就直接拒了，另一部分交给反欺诈调研，形成黑名单。所有流程都是实时的，保证跟业务系统完全解耦，有快的反馈速度，十分钟放款，就要判断出他是否是欺诈。

模型训练，我们有一个好的点给大家分享下，大家可能做过，正负样本非常不平衡，欺诈领域也有这个问题，我们面临的是想要找出一些坏用户，但很不易。

坏用户常见的定义就是MOB6里面的M3+（逾期三个月），不能把有信用风险的用户刨除掉，这个用户不一定是欺诈，他是违约了，但有可能就是没钱还，要把欺诈跟信用解耦出，可以信用风险的方式做信用定价。我们构建了基于欺诈标注的自动化学习，可疑对实时新增的欺诈标注，快速反馈回模型训练。

基于知识图谱的欺诈团伙发现

以上是对于识别单个欺诈用户的应用。接下来谈谈如何基于知识图谱判断欺诈团伙，大家知道团伙其实很难发现，发现了也很难认定。

我们采用了两种方式，第一种是通过无监督的方式，通过聚类的方式找到这些用户；另外就是通过知识图谱的方式发现关联关系。我们的知识图谱关系网用的是Neo4j。

我们主要应用知识图谱做了三件事情：疑似中介识别、关联骗贷团伙识别、团伙监控&预警。关联骗贷团伙，一个用户来了之后，对单个用户的特征评价里有了非常多的数据，他跟某一个团的关联关系，他在团里的关联特征，比如一度联系人，和二度的设备联系有多少，这些是作为单个用户而言。此外还有对所有用户的全局搜索，从而发现骗贷团伙。

关于团的定义可以参考以下图。

以下是上线之后的短期效果。

面向行业的反欺诈解决方案：“先知”

宜人贷面向全行业的一个反欺诈解决方案——先知。

宜人贷CEO对此提出了三项服务要求。第一是数据抓取服务，包括对于淘宝数据、公积金、社保数据抓取的服务，提供给其他行业；第二是反欺诈能力。第三是精准获客能力。

宜人贷有非常多存量用户，我们已经投了很多钱去获取基本用户，这部分用户客单价非常高，我们希望把一些不符合宜人贷定位，同时又是优质的客户，他的风险不高，但是他可能就想借一千块钱的用户，这种用户我们是可以转出去给其他的平台。

我们的反欺诈能力是通用的解决方案。第一，基于SDK采集行为数据；第二，结合全网数据绘制关系图谱；第三，通过规则+模型实时判断欺诈用户；第四，自动对接业务流程。

立足宜人贷多年行业经验及强大的研究能力，聚焦金融科技行业、、分析模式、解读热点、洞察趋势。致力于持续输出高质量文章、报告、及独家观点；促进行业交流，推动行业创新及规范发展。每周推送原创文章，每月发布行业报告。

研究创造价值智慧引领行业

往期精彩：

[洞察] CapitalOne 嘉信理财 招行

[图解] 消金格局 移动支付金融业态

[网贷] 风险消金 9月报

[泛金融] 牌照网联 联通混改

[金融科技] 趋势 产业地图 区块链

发表

签到

26906人签到看排名