宜人贷YEP共享平台构建实践

发表于 讨论求助 2023-05-10 14:56:27

宜人贷(NYSE: YRD)是中国领先的在线金融服务平台,由宜信公司2012年推出。宜人贷通过科技驱动金融创新,为中国优质城市白领人群提供高效、便捷、个性化的信用借款咨询服务;通过“宜人财富”为大众富裕阶层提供安全、专业的财富管理服务。2015年12月18日,宜人贷在美国纽约证券交易所成功上市,成为中国金融科技第一股。

而伴随着近年来“互联网+”发展的大潮,互联网+金融市场异常活跃,通过互联网进行金融服务的支付、在线保险、P2P网贷等互联网金融平台数量剧增,发展态势异常火爆,尤以宜人贷为代表的P2P网贷发展最为迅猛。P2P网贷最大的优越性是使传统银行难以覆盖的借款人在虚拟世界里能充分享受贷款的高效与便捷。据相关资料统计,2016年全年网贷行业成交量达到了20638.72亿元,相比2015年全年网贷成交量(9823亿元)增长了110%。在2016年,P2P网贷行业历史累计成交量接连突破2万亿元、3万亿元两个大关,单月成交量更是突破了2000亿元,2016年“网贷双11”单日再次突破100亿元,实现了116.07亿元,这一系列的成绩都反映了P2P网贷行业仍然获得大量投资人青睐的事实。但与此同时,以P2P网贷为代表的金融科技行业也面临诸多挑战:由于缺乏精确的用户画像和用户行为分析,互联网金融企业的精确获客及用户转化能力成本居高不下;由于没有统一的征信体系和信用评价,有预谋有组织的骗贷行为时有发生,网贷反欺诈任重而道远;由于缺乏对用户实际经济能力、偿还能力的有效评估,风控压力巨大;由于缺少对用户的精确识别和等级划分,贷后管理面临诸多问题,无法实现对优质用户的利益提升和对劣质用户的有效的催收。

宜人贷当然也不可避免地面临同样的挑战,为此,宜人贷基于过去五年在互联网借贷行业的深度积累和丰富实践,以及在数据抓取、反欺诈和线上获客方面的深入投入和研究,推出了YEP共享平台,为宜人贷以及其他互联网金融相关企业提供了一个集数据抓取、数据解析、风险控制、反欺诈、精准获客、流量共享为一体的开放平台。

技术方案

技术选型

宜人贷YEP共享平台,主要基于Hadoop、Spark等开源技术构建,而之所以选择Hadoop、Spark这些开源技术,作为宜人贷首席运营官&首席技术官的曹阳最有发言权,他表示,在选择技术架构时,宜人贷主要从四个维度考虑,第一,该技术本身是不是很成熟。第二,是不是有大量的人才掌握这种技术。第三,该技术后续的持续发展方向是不是跟宜人贷的发展方向符合,是不是还有可能持续发展。第四,综合的成本,不仅仅是软件本身,还包括硬件以及人力成本等。而基于以上四个维度,Hadoop无疑是最好的,尤其是在国内有很多优质的Hadoop人才,而其他一些新的技术虽然也不错,但由于人才上的匮乏,无法对其进行很好的支持,因此,很难得到广泛的应用。但宜人贷也在不断的尝试很多新的技术,例如Neo4j,就是宜人贷在相关的新技术尝试中发现的“明珠”。

同时,宜人贷在技术架构的选择上也非常拥抱像Hadoop、Spark这样的开源技术,因为开源技术通常都具有很好的社区支持,有大量的用户在使用,有很多用户的经验可以分享,而通过这些,就可以尽量避免在开发中的许多弯路和跳过许多坑,而这也是宜人贷选择Hadoop、Spark等开源技术的另一个重要原因。

开发过程

曹阳介绍说,YEP共享平台的研发采用的是小团队项目的开发模式,在实际的开发中,实际上是有两个开发组,一个是基础架构组,主要负责基础架构,包括前端、后端、监控、配置以及动态等,这个基础架构组解决的问题跟业务的关联性不大。还有一个就是业务组,主要关注业务开发,在这个组中会鼓励采用模块化组织化的开发模式,这样能够实现很容易的共享,并显著提高业务上线的效率。而在整个YEP共享平台的研发工程中,最大的挑战还是来自于产品的更新迭代和数量增长。例如,原有一个产品,现在变成六个产品,其中四个产品中间还有不同的分支,这样,后台的复杂度就会直线上升,数据的需求也会发生很大变化,给用户的引导也会完全不同,在这样的情况下,前端就需要重构,前端重构的时候,后端的数据也会不一样,因此,后端也要重构,这实际上对开发团队是一个不小的挑战,而理想的情况是在类似情形发生之前,重构已经进行。

架构解析

宜人贷YEP共享平台,由负责精确获客的获客系统、负责数据抓取的蜂巢系统以及反欺诈系统三部分组成。 

其系统架构如下图所示:

其中,在获客系统中,采用了Hadoop的集群,并基于开源的TensorFlow应用了一些相对比较简单的机器学习算法,主要是对用户的标签效果进行评估、实时的优化或者关键词的投放,策略的调整等等。目前,这个基本的模型还比较简单,但处理速度非常快,而未来,这个模型将越来越复杂。实际上,纯获客不是很复杂,但把获客和欺诈结合在一起就比较复杂了。比如想通过用户对消费行为的问题回答来判断有用户是否存在欺诈的可能性,这就需要很多在算法层面的优化,需要与反欺诈系统结合,而不是单纯靠获客系统或者人力就能够解决的。

在最基础的数据抓取系统中,YEP共享平台采用了Hadoop做分布式计算,HBase做数据存储。之所以采用Hadoop的架构,是因为在对用户进行数据抓取时,数据量本身绝对值较大,同时,数据的维度也很多,比如对于一个用户,就需要抓取涵盖了电信运营商、电商、公积金、网银、信用卡账单、保单、社保、行为习惯等多个维度的大量非结构化数据;然后在此之上的关联的需求也很多,而这样的需求特别适合于善于处理广泛分布的非机构化数据并具有强大并行处理能力的Hadoop集群和具有分布式处理能力和强大横向扩展能力的HBase数据库。

在反欺诈系统中,需要对用户行为的数据进行分析,例如通过用户使用宜人贷的应用的行为或是使用其他APP时的应用的行为数据来为用户定义标志用户质量优劣的标签,而这些数据通常是海量的流式数据。因此,在这部分采用了对流式数据处理在性能和速度上都俱佳的Spark,并同样采用HBase作为数据存储系统,并基于Logistic Regression/Gradient Boosting/Graph Mining 等人工智能、深度学习算法对用户行为进行分析。同时,在此系统中还应用了一个比较有意思的技术,即基于图数据库Neo4j生成的用户关系的知识图谱。这个知识图谱等同于用户的数据关联,通过这种数据关联,反欺诈系统可以对一些用户定义标签,比如,如果从收集的用户的通话详单中,发现有两名用户经常互通电话,而其中一名用户被系统标记为欺诈,那其朋友就很有可能也会存在欺诈行为,而系统就会为这个用户打上标签,而通常,这种用户之间的关联并不像上面所举的例子那样简单,而是具有非常错综复杂的关联,这个时候,Neo4j化繁为简的能力在这里就能得到充分的用武之地。此外,YEP共享平台还在前端提供收集用户行为的SDK,这个SDK可以收集包括用户的输入、点击等行为,而这些行为也可以用于判断一个用户是否在进行欺诈。例如,如果一个用户在输入个人信息的时候犹豫不决或者耗费时间过多,该用户就很有可能是一个想要进行欺诈的用户,而通过这个SDK就可以判别出这个用户,这个SDK也是宜人贷的一个创新。

另外,YEP共享平台在系统层面还大量使用了基于Spring boot的微服务架构,同时也在尝试一些金融云服务,但宜人贷是一家上市公司,、合规、审计的需求,目前,YEP共享平台的基础架构还是搭建在宜人贷自身的服务器之上。

架构优点

YEP共享平台的基础架构具有三大亮点。首先,这个架构很多设计都是可以灵活调控的(Configable),包括对一些参数的配置,一些比较复杂的功能的调控都比较容易,而这样的灵活调控能力是金融行业的数据处理要求,因为,这些数据处理的流程长,步骤多,数据变化频繁,针对一个用户的数据,需要做多次统计,比如,一个用户连续性的在某个商店消费的次数,在一个地方停留多少时间,他经常浏览的页面是什么等等,这些数据的处理,需要基础架构具有灵活的调控性,以应对随时都可能变化的数据处理需求。其次,整个基础架构采用了开放的架构,采用开放架构的优点是,通过社区可以很快的解决一些基础的问题,从而可以把主要精力用在解决最重要的问题上,同时,开放的架构也更容易促进与其他友商的合作和交流,从而反向促进架构的升级和改进。第三点,是非常重要的一点,YEP共享平台的基础架构具有很强的扩展能力,而这个扩展能力一方面体现在扩展用户的能力,另一方面则体现的是业务扩展的能力,实际上,面对当前不可预知的用户增长以及变化多端的业务需求,具有灵活扩展性的架构将具有更大的优势。

企业收益

通过YEP共享平台,宜人贷在目标客户获取和服务能力方面获得了显著提升。截至2016年12月31日,宜人贷累计服务了超过50万借款用户,近100万出借用户,累计促成借款总额达323亿人民币。2016年全年,宜人贷净收入32.38亿人民币(4.66亿美元),较2015年全年增长146%;净利润11.16亿人民币(1.61亿美元),较2015年全年增长305%。同时,通过平台数据建模构建用户画像、精准匹配、定向推广,使得运营成本降低50%;根据用户属性和行为设置用户、价值标签、用户分层、针对性营销,使得转化率持续提升;通过逻辑回馈+决策树算法,预警用户流失,用户召回率获得了3倍提升。

在数据抓取方面,通过自然语言解析、知识图谱匹配、金融数据解析、用户行为分析等手段,可以实现毫秒级抓取、秒级解析、实时抓取、流式处理等高效的数据抓取效果,抓取解析成功率高达98%,拦截欺诈账单达160万封,分析账单达3.9亿,交易记录5.4亿笔,通话记录192.2亿通。

在反欺诈方面,通过基于Mathematical Modeling和Unsupervised Modeling的双层账户安全体系,账户安全性得到了10倍的提升。同时,欺诈案例的发现率相对于人工效率提高了5倍。

据统计,YEP共享平台从2017年1月投入运营至今,已经对接了20家以上精选的金融科技合作伙伴,累计查询百万次以上,峰值QPS在1000以上;识别并证实欺诈用户千人以上;累积促成交易十亿以上;成果显著!

经验总结

在谈到开发类似YEP共享平台的经验时,曹阳表示,对于金融平台的研发,首先还是要努力去采用一些成熟的最新技术,而对于选择哪些技术,可以到如CSDN这样的社区来看哪些技术的关注程度较高。其次,金融平台的开发人员,需要对数据敏感,需要真正的了解业务。第三,金融平台上的研发是快与慢的结合,慢是指金融系统本身的运作较慢,比如说,对于一个用户,需要较长的周期才能判断出他的风险表现。而快是指具体产品研发的速度快。而这个快与慢的结合特别重要,因为个人信贷变化很快,而且金融类产品比较复杂,关联的点会比较多,因此开发者需要具有较高的综合能力。

曹阳最后表示,未来,宜人贷YEP共享平台将会在获客能力、数据抓取、反欺诈方面持续增强,此外,还将探讨将各种能力单独输出的可能性以及数据抓取后数据特征的提取和分析能力。

据悉,目前宜人贷YEP共享平台已经向行业开放,种类不同的金融平台可以进驻,共享宜人贷品牌流量。一方面,能为客户提供更丰富的选择。另一方面,对于非宜人贷目标用户,YEP共享平台会在合作企业内为用户推荐更为适合的产品,充分提高用户的借款效率。通过这种方式,YEP共享平台将实现更好的客户体验,也有助于为互联网金融行业整体降低获客成本、提高服务能力。


发表
26906人 签到看排名