评分卡建设系列内容第一课:数据选取与抽样

发表于 讨论求助 2023-05-10 14:56:27

开发评分卡,我们希望选用的历史数据距离现在较近,以保证现有的和未来的开发人群分布不会有较大的偏差。


数据选取时间窗示意图如下图所示,其中观察窗与表现窗内的时间为观察期与表现期。


观察窗、表现窗的选择

1.观察窗选择:某个时间阶段,例如采用申请件进件量如下表所示:


从图中我们可以看到,观察期内申请件共17,353条申请,满足评分卡对数据总量的需求。


数据暂略。


2.表现期选择


一般表现期选择为12个月,某国际著名的零售信贷风险管理解决方案提供商的研究结果指出,对于申请类型的评分卡,申请信息的预测能力通常在开户3个月后开始降低,在8个月左右降低到三分之一左右,开户后更多的是依靠客户的行为信息对未来表现进行预测。


一般来说,在放贷机构业务中有逾期的账户数目比例不高(整正规放贷的机构。。因为你懂得。。),为了满足评分卡开发对“坏”账户数目的要求(800-1200个),将表现期定为12-18个月之间,以期为单位,最小账期是月就按照月,最小账期是周、日的,则按照3-6个月进行换算。


3.表现窗选择:


表现窗的选择方法,业内有两种常用方法,分别是固定表现窗与移动表现窗。


定义为:


1)   固定表现窗:在观察窗后选定一定期限作为表现期,不同时间的申请件表现期不同。固定窗口表现期主要反应固定的自然时间段与信用风险的关系。

2)   移动表现窗:在申请开户后选择固定时间长度作为表现期,所有申请考察的表现期均相同。移动窗口表现期主要反应开户时间长短与信用风险的关系。

在本次项目中将根据业务考虑与数据实际情况选择较合适的方法。


4.排外条件


由于某些申请在处理的过程中,获得特别的对待,所以这一类申请被批准后的表现,包括还款情况、使用情况、拖欠情况等都会发生与众不同的现象。因此,这些申请数据不应当用来开发评分卡,这些观察数据在开发评分卡的过程中首先被剔除。评分卡应用的范围也将不包括这一类型的申请。比较典型的例子是不需经过正常途径直接被批准办卡的高端申请人,他们往往会被赋予更高的信用额度和更优惠的待遇。对这一类申请人也采用评分是没有意义的。


另外,放贷机构再收到国家政策影响后,将会在业务中停止某些个贷产品,对于这些产品的申请不会再出现,保留他们的数据会对其他产品的评分结果产生影响,所以对这类申请进行评分也是没有意义的,也要把它们列为排外条件中。


排外条件是以业务逻辑为主,综合数据情况和采用专家建议,以确定了申请阶段风险评分模型开发排外条件与逻辑,以下是详细描述:


  • 如果是精英贷产品的申请,年龄大于45岁以及小于22岁的需要被排除

  • 如果是预付卡类产品的申请,年龄小于18与大于55岁的要被排除;

  • 有申请无表现的记录排除(因为这些人可能并未有借贷记录);

  • 被拒绝的申请有表现(错误记录,很少); 


需要特别指出的是,即使人行征信显示有瑕疵或者不良,也需要跑进行机构内评分,所以不建议把人行不良信息作为排外条件(同业或三方征信的与此类似,不再赘述)。


5.表现期内逾期期数分布


建议以固定表现窗表现数据集进行分析:


例如某逾期分布情况



基于逾期数据给出的分布统计与汇总。



在表现期内1期、2期逾期期数分布,X轴是日期,Y轴是逾期数据


根据上图所示结果,有如下结论:中国农历传统节日春节前后几个月内的逾期状态波动较大,业务上解释收到跨年资金流的等影响造成,具体原因可深入到业务中进行分析调研,这里不再详细列出。


与其同时,再对几个主要产品进行了逾期分布分析,增加业务部门考虑的产品的逾期分布和分析。


来源|消费金融风控联盟

作者|刘鹏程


更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|九大步骤轻松搞定评分卡开发|

|机器学习在金融大数据风险建模中的应用|

|互联网金融风控的应用场景及风控手段|

 2018开年大课,阅读原文,即可报名


发表
26906人 签到看排名