大数据风控新趋势:T-L模型与RandomForest结合构建ScoreNet体系,安龙网站建设营销
#网络推广 发布时间: 2024-12-31
【概括】随着互联网金融、消费金融的快速发展,央行征信在数据及时性、全面性、层次性等方面的短板日益凸显。深度挖掘互联网大数据信息、开发大数据风控模型、更准确地评估风险逐渐成为新一代信用风险模型体系建设的核心课题。
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建了TL模型,并结合模型改进了模型结构。采用TL核模型代替RF模型中传统的决策树模型,将RF模型和TL核模型结合起来建立模型体系。不仅大大提高了风险模型区分能力,而且保证了模型结构的清晰性和评分的广泛应用。
【关键词】大数据风控TL模型
一、选题背景及意义
目前,央行个人征信中心拥有自然人8.6亿多人,但其中有信用记录的仅3亿多人。同时,信用记录主要来自商业银行、农村信用社等金融机构。在数据时效性方面,全面性和层次性方面存在严重缺陷。因此,在互联网金融蓬勃发展的今天,深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人信用信息的缺失显得尤为重要。
无论是线上还是线下的用户消费和社交数据,都具有区别于传统信用信息的独特特征:
数据高度稀疏(用户线上线下行为分布广泛,收集和覆盖极其困难;用户的行为偏好也不同,不同类别的行为差异很大,因此数据的稀疏性极其明显。一般来说,用户行为信息的缺失率超过50%);
数据覆盖面广(信息覆盖面广泛,支付宝或微信活跃用户超4亿,用户行为涵盖服装、图书、租赁、休闲、娱乐等,单指标维度超过1000个);
单变量风险辨别能力较弱(与传统风险模型中使用的历史业绩状况和个人资产评估等强变量不同,消费或社会变量一般是弱变量,辨别能力较弱)。
传统的信用风险评估模型利用数据驱动或专家经验在业务逻辑架构下开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)获得准确的计量结果。然而,在新的数据肖像和业务场景下,不仅原有的业务逻辑框架丢失,传统统计分析模型的应用也受到严重限制。近年来,机器学习技术发展迅速,在信息识别、推荐引擎等领域取得了优异的应用成果。大量实验结果证明机器学习模型具有良好的鲁棒性和泛化性。然而,机器学习模型的模型逻辑极其复杂,难以掌控模型的真实效果,也难以直观地展示和解释变量的风险特征。如何将传统风险评估模型系统与机器学习技术相结合,在保证业务逻辑和评分广泛应用的同时,更准确地评估风险,成为新一代信用风险模型系统建设的核心问题。
2.文献综述
(1941)首先使用信用评分领域的判别分析来预测借款人的贷款偿还状况; 20世纪50年代,他发明了基于回归模型的FICO信用评分系统。得益于清晰的业务逻辑和可解释性,评分系统逐渐成为应用最广泛的风险模型系统。然而,逻辑回归和判别分析模型都主要针对线性问题,无法分析变量的非线性结构。同时,它们对数据的完整性和有效性要求很高,对数据噪声也很敏感,不适合大数据。上下文中的模型开发和集成。
,;(1943)[1]提出了神经网络模型,并得到了广泛的应用,并首次描述了机器学习理论的雏形; (1956)[2]在文章中首次提出机器学习的概念; ,MarkA.;,.;,LevI.(1964)[3]提出了在统计学习领域应用最广泛的机器学习模型,支持向量机(SVM); Leo(1996)[4]、(1988)[5]、Ho(1995)[6]提出了集成学习算法:,,完美解决了问题。传统机器学习算法的过拟合困境,显着提高了算法的稳定性、泛化性和鲁棒性。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域取得了突破性进展。推荐算法与风险模型的一致性,以及GBDT[7]在推荐算法上的优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而,单一机器学习算法和集成学习算法都具有复杂的模型结构。这种复杂的结构不仅使模型失去了可解释性,也限制了专业模型分析师控制模型的能力,难以实现真正意义上的大范围应用。
三、研究的理论框架和模型构建
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建TL模型,并结合模型改进模型结构,建立模型。不仅大大提高了风险模型区分能力,还保证了业务逻辑的清晰性和评分的广泛应用。
3.1.TL内核模型
传统的信用风险评估模型分析业务逻辑结构下变量的基本属性和风险区分能力,并利用逻辑回归等统计分析模型进行定量分析,以获得准确的风险计量结果。然而,用户行为数据特有的稀疏性会导致统计模型极不稳定。决策树对于局部数据分析具有很强的稳定性和鲁棒性,能够揭示变量风险判别能力的非线性结构关系。因此,我们嫁接决策树模型和逻辑回归模型建立TL核模型。即在统计建模之前增加一层决策树模型进行单变量分析,利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、跨变量和二元)决策树变量)导入逻辑回归模型进行统计建模,确定所有风险因素的风险权重。
3.1.1.决策树模型
在各种决策树算法中,CHAID[8](Chi-)既适用于二元变量,也适用于连续变量。对于每个分叉,CHAID 分别对二元响应和连续目标变量使用卡方检验和 F 检验。因此,本文选择CHAID算法作为决策树算法。
CHAID算法以因变量为根节点,对每个自变量(只能是分类变量或序数变量,即离散变量)进行运算,如果是连续变量,例如年龄、收入,则必须被定义为分类变量或序数变量)。分类,生成一系列二维表,然后分别计算生成的二维表的卡方统计量或F统计量。如果因变量(目标变量)是分类变量(如PD模型),则采用卡方检验(Chi--Test);如果因变量是区间变量(如LGD、EAD模型),则进行F检验(F-Test)。如果几个候选变量的分类显着,则比较这些分类的显着性(P值的大小),然后选择最显着的分类变量和划分作为子节点。
3.1.2.逻辑回归模型
逻辑回归模型[9]是一种广义线性模型[10],其中因变量服从二项式分布,自变量的线性预测与因变量的logit变换相联系。具体数学表达式为:
由此我们可以得到
该理论可以证明,如果样本的分布服从多元正态分布,那么样本就完全满足对数回归的假设。对数模型的误差项服从二项式分布。因此,拟合时采用最大似然估计法而不是最小二乘误差法进行参数估计。
3.2.型号
3.2.1.基本原理
随机森林是美国科学家于2001年发表的一种机器学习算法,将1996年提出的集成学习理论[4]与Ho于1998年提出的随机子空间方法[11]相结合。随机森林是一种以决策树为基本分类器的集成学习模型。它包含通过集成学习技术训练的多个决策树。当输入待分类的样本时,通过单个决策树的输出来投票决定最终的分类结果。决定,如下图所示。随机森林克服了决策树的过拟合问题,对噪声和异常值具有良好的容忍度,对于高维数据分类问题具有良好的可扩展性和并行性。另外,随机森林是一种由数据驱动的非参数分类方法。它只需要通过给定样本的学习来训练分类规则,不需要分类的先验知识。
随机森林使用K个决策树作为基本分类器
# 大数据风控新趋势
# 会泽工商网站建设程序
# 山东关键词排名渠道
# 金山区营销推广设计方案
# 邢台装修网站建设哪家好
# 黑龙江网站优化运营平台
# 网站优化培训seo门户
# 甘南短视频seo优化
# 广西网站建设中心
# 网站建设高级教程
# seo文章越来越少
# 潮州网站推广如何做大
# 梅列抖音seo优化
# T-L模型与RandomForest结合构建ScoreNet体系
# 壮阳药网站seo
# 营销推广什么平台好用
# 肇庆建材网站seo优化
# 淘宝营销推广培训价格
# 众人网络优化网站方法
# 手机网站能优化吗知乎
# 网站全是图片怎么优化
# 网站建设一秒互联
上一篇 : 基层央行金融大数据平台建设突破:文山州成功案例分析,如何优化网站使用
下一篇 : 笔记本电脑如何进入BIOS设置?详细步骤与操作指南,深圳公司网站建设价格
-
SEO外包最佳选择国内专业的白帽SEO机构,熟知搜索算法,各行业企业站优化策略!
SEO公司
-
可定制SEO优化套餐基于整站优化与品牌搜索展现,定制个性化营销推广方案!
SEO套餐
-
SEO入门教程多年积累SEO实战案例,从新手到专家,从入门到精通,海量的SEO学习资料!
SEO教程
-
SEO项目资源高质量SEO项目资源,稀缺性外链,优质文案代写,老域名提权,云主机相关配置折扣!
SEO资源
-
SEO快速建站快速搭建符合搜索引擎友好的企业网站,协助备案,域名选择,服务器配置等相关服务!
SEO建站
-
快速搜索引擎优化建议没有任何SEO机构,可以承诺搜索引擎排名的具体位置,如果有,那么请您多注意!专业的SEO机构,一般情况下只能确保目标关键词进入到首页或者前几页,如果您有相关问题,欢迎咨询!