引言

在日常的金融风控工作中,无论是做策略也好,还是建模也好,基本上都是有监督学习(supervised learning)或者半监督学习,目标变量如何合理定义,是保证后续的数据分析、策略挖掘、模型构建有效的前提。

本文将就金融信贷风控场景中,如何合理的定义好坏标签做详细阐述,整体方案与网上能获取到的大同小异,部分内容为笔者实践过程中的个人观点,如有争议,欢迎留言或私信讨论。



概要

在金融信贷场景的日常风控工作中,目标变量如何定义,是一个新人或者刚入行不久的同学会困惑的问题,本文就笔者日常工作中定义目标变量的几种常规方法做简要说明。

在笔者看来,目标变量定义的方法大致可以分为几种:

专家经验

根据专业人士提供的目标变量定义方法或依据公司之前一直沿用的目标变量定义方法。适合公司已有该场景或类似场景的经验,能够清晰明了的知道目标变量如何定义比较适用。例如在大部分银行风控部门,使用M1+作为坏客户的定义

组合规则

根据规则来进行目标变量的定义。例如在对渠道或者商户进行管理时,使用首三逾订单的占比来定义是否欺诈,使用M1+逾期率来定义好坏,使用贷后客诉欺诈、套现、乱收费等来定义欺诈

滚动率分析(Roll Rate Analysis)

根据滚动率分析,即在某个时点(观察点)之前(观察期)和之后(表现期),在贷客户不同逾期状态之间的滚动情况,来定义目标变量。通常考虑到单一时点观察存在偶然性,会结合多个不同的观察点前后客户逾期状态滚动情况来综合判定目标变量如何定义。例如,12期等额本息产品,在2023-01-31、2023-06-30两个时点观察前后6个月客户逾期状态之间的滚动情况,发现逾期天数 (45,60] 的客户有80%多会滚动到逾期天数 (60, INF] 内,仅有5%左右的客户会变好,那么可以判定逾期超过45天的客户基本上很难回款,可以设定 DPD 45+ 的客户为坏客户。后续结合 VINTAGE 分析,就能最终定义好目标变量

迁移率分析(Flow Rate Analysis)

根据迁移率矩阵,即根据各个月末时点存量在贷资产之间的迁移情况,来进行目标变量定义。通过迁移率分析,可以发现不同逾期状态资产的回收难易程度,从而直观的判断出客户处于某个逾期状态或者更差时,基本上很难回款。通常为了防止单个月末时点的迁移指标存在偶然性,会根据多个月份的迁移率计算平均值,根据平均值来判定不同逾期状态资产之间的迁移情况,结合 VINTAGE 分析即可定义目标变量。通常通过资产迁移率来设定目标变量比较好理解

专家经验

拍脑袋

遇事不决拍脑袋,当你脑袋瓜子嗡嗡嗡,遇见事情一脸懵的时候,拍拍你机智的脑袋说不定有用。当然,为了稳妥起见,也可以适当的多拍几个旁边同事或者monitor的脑袋,很多时候起码能有一个可行解或者近似解。

德尔菲法

德尔菲法(又名专家经验法),是很早之前从某些大忽悠的论文里面看到的,从某些方面来讲相当于专家经验的书面用语。

根据多个行业专家的经验,经过多次反复讨论后整理归纳得出目标变量的定义方式。

组合规则

组合规则与专家经验类似,结合业务实际情况与建模时应用场景的需求,来定义目标变量。

滚动率分析

方法简介

滚动率分析(Roll Rate Analysis)是从某个时点(观察点)之前一段时间(观察期)客户最差的逾期状态,向观察点之后一段时间(表现期)客户最差的逾期状态滚动的情况。

计算步骤

选择观察时点,设置观察期和表现期

通常不同期限的产品,在设定观察期和表现期时,可能会存在差别。例如,对于12期等额本息的产品,通常设置观察期和表现期的长度都为6个月来看观察点前后逾期状态之间的滚动情况。而对于3期的等额本息产品,观察期和表现期可以设置在1~2个月。

特别说明: 在做滚动率分析时的表现期与 VINTAGE 分析中账户的成熟期(表现期)是不同的概念,尽管名字很多时候一样,但注意不要混淆,不然会造成滚动率分析前后时间不同长度导致分析结果有问题。

定义逾期状态

逾期状态可以根据逾期天数进行划分,通常是等距划分。例如可以将逾期状态划分为C、M1、M2、M3、M3+,或者DPD 0、DPD 15、DPD 30、DPD 45、DPD 60、DPD 75、DPD 90、DPD 90+,根据实际场景需求进行划分即可。

客户订单数据拉取

从数据库中取出客户订单明细数据,剔除在观察点之前结清的订单和在观察点之后放款成功的订单。对于在观察点之前申请并且走完账期,但在表现期未结清的订单,可以根据实际情况判断是否剔除

统计观察期客户逾期状态

统计截止观察时点,每个客户订单最大逾期天数,并将客户标记上不同的逾期标签。

例如,客户A有两笔订单,一笔截止观察点逾期20天,一笔截止观察点逾期35天,那么客户A截止观察点订单最大逾期天数为35天,对应的逾期状态根据区间进行划分,M2或DPD 45。

统计表现期客户逾期状态

统计表现期内,每个客户订单最大逾期天数,并将客户标记上不同的逾期标签。

根据观察期和表现期的客户逾期状态交叉统计客户数

统计观察期内每种逾期状态的客户,在表现期内的滚动到不同逾期状态的客户数,并形成一个二维交叉表。

例如,在观察期内有10个M1的客户,表现期有5个滚动到C,1个保持M1,1个滚动到了M2,1个滚动到了M3,1个滚动到了M3+。

统计观察期各逾期状态的客户在表现期滚动到各逾期状态的比例

将上述交叉表中的客户数转换为比例。

例如,在观察期内有10个M1的客户,表现期有50%滚动到C,10%个保持M1,10%个滚动到了M2,10%个滚动到了M3,10%个滚动到了M3+。

根据滚动率矩阵计算观察期各逾期状态变好、变坏和保持的比例

根据滚动率矩阵,对对角线上方的元素按行求和得到变坏的比例,对对角线下方的元素按行求和得到变好(或者从良)的比例,取出对角线元素得到保持的比例。

例如,在观察期内有10个M1的客户,表现期有50%滚动到C,10%个保持M1,10%个滚动到了M2,10%个滚动到了M3,10%个滚动到了M3+。那么,变好的客户占比为50%,变差的客户占比为40%,保持不变的客户占比为10%。

根据不同逾期状态变坏的客户比例,定义目标变量

根据观察期不同逾期状态变坏的比例,筛选出第一个比例突增或者比例超过80%的逾期状态,定义目标变量即可。

例如,观察期内C变坏的比例为10%,M1变坏的比例为25%,M2变坏的比例为70%,M3变坏的比例为85%,M3+变坏的比例为95%。从M2开始变坏的比例激增,说明逾期超过30天以上的客户,变坏的可能性非常大,结合其他观察点的数据,也能得出类似结论,那么目标变量可以定义M1+为坏客户。

根据 VINTAGE 分析得到账户成熟期

根据上述的逾期定义,计算 VINTAGE 曲线,得到账户成熟期(即坏账率多少个月后开始平稳),即可定义坏客户。

例如,通过 VINTAGE 分析得到账户成熟期为8个月,坏账率基本稳定,那么可以定义M1+ MOB8为目标变量。

由于后续会出专题对 VINTAGE 分析的几种不同口径进行深入讲解,故而本文不会涉及相关内容。

迁移率分析

方法简介

迁移率分析(Flow Rate Analysis)是根据不同月末时点的资产分布情况,计算某一逾期阶段迁移到下一逾期阶段的比例。

迁移率分析能形象的展示客户贷款账户在整个生命周期中的变化轨迹,也是预测未来坏账损失的最常用的方法。

计算步骤

生成月末时点日期序列

生成从贷款业务开始(或者需要观察的时点开始),截止当当月月末时点的月末时间序列。

例如,某业务从2022-12-01开始,当前时间2023-10-24,那么生成2023-01-31~2023-10-31日的月末时点日期序列。

统计每个月末时点的资产分布情况

筛选在观察月末时点之前放款的客户订单数据,计算每笔订单截止观察月末时点的当前逾期天数、订单余额以及逾期状态(C、M1、M2、M3、M4、M5、M6、M6+),并根据逾期状态对订单余额进行求和,得到观察月末时点资产分布。以此类推计算月末时点日期序列中,每个月末时点对应的资产分布情况(在计算当前的资产分布时需要特俗处理)。

计算每个月末时点的资产迁移率

迁移率是资产从当前逾期阶段迁移到下一逾期阶段的比例,在月末资产分布表中,计算前一期资产余额到下一期资产余额的转化率,得到C-M1、M1-M2、M2-M3、M3-M4、M4-M5、M5-M6、M6-M6+的资产迁移率。

例如,2023-08-31某业务M1的余额为100万,2023-09-30的M2余额为30万,那么观察点为2023-09-31时M1-M2的资产迁移率 = 30万(当月M2的资产余额) / 100万(上个月M1的资产余额)=30%。

计算平均迁移率

根据每个月末时点C-M1、M1-M2、M2-M3、M3-M4、M4-M5、M5-M6、M6-M6+的资产迁移率,统计得到平均的资产迁移率。

例如,2023-08-31 M1-M2 的资产迁移率为40%,2023-09-30 M1-M2 的资产迁移率为30%,那么M1-M2平均的资产迁移率为(30%+40%) / 2 = 35%。

根据平均资产迁移率定义目标变量

根据C-M1、M1-M2、M2-M3、M3-M4、M4-M5、M5-M6、M6-M6+的平均资产迁移率,查看从某个逾期状态开始,资产迁移率开始激增或者超过80%,即可定义目标变量。后续结合 VINAGE 分析即可开始建模及相关工作。

例如C-M1的平均迁移率为15%,M1-M2的平均迁移率为30%,M2-M3的平均迁移率为70%,M3-M4的平均迁移率为80% … ,可以发现M2-M3迁移率激增,说明逾期 (30, 60] 的客户很难回款,那么可以定义 M1+ 为坏客户。

参考资料

https://www.listendata.com/2019/09/roll-rate-analysis.html

https://zhuanlan.zhihu.com/p/81027037