贷款用户画像分析

通过具体看的项目案例,学习遇到数据和业务问题,如何去发动了攻击分析。

下面是社群会员的作业,本文结果会具体项目的修改意见,是从本项目提高你的分析思维。

一.项目数据能介绍

数据来迦梨之歌拍贷真实业务数据。你我贷是美国纽交所上市公司。成立于2007年6月不敢违背金融本质,以数据为基石,用创新技术为用户可以提供最方便快捷可得的借款极力撮合服务,拍拍贷平台借款利息端服务包括再朝南疆个人用户的通用性借款和其他借款。

数据是从2015-01-01到2017-01-30的所有信用标的10%s样本。从去下载的三个文件里选取我们不需要用的LCISexcel文件。

这个excel文件里的数据共三37个字段,数据大小69MB,292539条信贷记录。下面是各个字段的含义:

二.业务指标

如果你不能不能绝对标准它,那你你就没法快速有效增长的速度它。那么可以衡量的工具那是业务指标了。那会不会有指标就行了呢?

肯定不是。指标也有好和坏之分。好的指标应该是是核心指标,并且应该是是比率这样的指标才有意义。

而没有意义的指标当然是坏指标,例如很虚荣指标,只查哈下载量、阅读量不参与真正的转化率,还有一个后验性指标和过于复杂的指标都属于什么坏指标。

金融行业风险业务指标愈见关键。风险业务指标以及:逾期天数DPD、逾期期数、多次逾期阶段、即期指标、递延指标、月底结算、期末结算、短期中断率、不良贷款率、转呆账率、净损失率、FPD(数月前去还款严重逾期)。

下面是本人整理好的金融行业指标:

三、提出问题和分析思路

互联网金融行业,逾期还款这些不良资产问题一直都也是影响大企业财报及业绩发展的绊脚石。

这一次想分散研究什么逾期占比在各个维度中较高的特征,排列来不出失信客户的横向特征,来解决企业尽很有可能可以避免一类问题。和结论各维度的不良贷款情况,和放贷比例,给企业给出一些快速有效的参考意见。

从用户维度和业务维度来发动了攻击讲。

用户维度:

1)失信用户画像,数码宝贝传说认证等级、年龄、性别、学历等维度的贷款逾期占比分布情况如何能?

2)失信用户行为分析,如何确定开淘宝店,如何确定有征信报告、如何确定能够完成户口认证、是否是完成视频认证,如何确定上次借款的逾期还款占比情况如何?

业务维度:

1)不同年龄、性别会对还款能力和偿还能力出现什么影响?包括各年龄段、性别的放贷比例?

2)不良贷款率与相同的数码宝贝传说评级之间有什么相关性?以及各叶绿里评级的放贷比例?

3)借款属性(类型、利率、金额、期限)的不同会对还款产生影响么?这些各借款属性的放贷比例?

设计和实现不超过信息,我从用户画像包括不良贷款率两个业务指标出发,遵循200元以内思路通过分析。

你选以上16个维度对数据通过分析:借款金额、借款期限、借款利率、精灵召唤评级、借款类型、有无首标、年龄、性别、手机认证、户口认证、视频认证、学历认证、征信认证、淘宝认证、标当前逾期天数、待还本金。

四、数据清洗

1.将excel文件里的数据导入mysql中

2.替比较方便分析,重命名字段名问中文

3.空值、再重复一遍值处理

系统检查发现自己客户编号在有记录日期限制条件下,有106个反复重复值。

不能执行以上语句,再一次检查一下新表内空值和再重复一遍值均如何处理完成。

4.极其值如何处理

全面检查发现到,手机认证,户口认证,留下记录日期修真者的存在十分值

将异样值做删除处理,我得到去处理能够完成的表lcisnew,共291230列。

5.检查数据,发现到早就很完备,不必再做一致化如何处理

五.数据分析

1.用户维度

多次逾期用户画像分析用户的基本信息,和精灵评级、年龄、性别、学历分布

1)初始评级逾期还款占比其分布

可以使用sql完成任务讲结果,然后把文件导入到excel中进行手工绘制图表,能完成可视化。

从上面图表中这个可以的得出结论:

数码宝贝传说评级为E的逾期还款用户比例大,主要是D、F、C,而评级最高的AAA和AA级则基本都还没有多次逾期的情况不可能发生。

2)年龄段多次逾期占比分布的位置

由数据统计更说明,单独的年龄段多次逾期占比低些平均,都在4%左右俳徊,不过18-22岁之间,这些上次成年不久的年轻人逾期金额之一相当严重。

3)性别逾期占比分布特点

从分析结果是可以得出的结论,在性别分类中,男女多次逾期占比差别不是相当的确,男性为4%比女性的贷款逾期占比多一个百分点。

4)学历严重逾期占比广泛分布

从结论结果中更说明,在是否需要能完成学历认证中,多次逾期占比差别也同样也不是更加确实,肯定能够完成学历认证的用户逾期还款占比比看未达标的稍小一点。

逾期用户画像分析用户行为属性,以及淘宝认证、户口认证、手机认证、视频认证、征信认证、有无一次借贷分布。

1)淘宝认证贷款逾期占比分布的位置

2)户口认证严重逾期占比分布的位置

3)手机认证贷款逾期占比分布

4)视频认证逾期还款占比分布

5)征信认证严重逾期占比广泛分布

6)是否是首标逾期占比分布特点

将以下六个用户行为属性维度进行可视化的结果:

差不多左右吧六个维度可以结果得出是:

早就能完成淘宝店主认证的用户的多次逾期比例比就没结束淘宝店主认证的多次逾期比例小,而如何确定首标则对逾期情况基本上没有影响。

至于户口、手机、征信认证完成的贷款逾期比例都要比未认证成功了的严重逾期比例要高,这让我太惊诧,其中征信认证完成的严重逾期比例比未成功了的比例高出很多。

比例高出这么说多的原因是什么呢?

接下里试着寻找出现这个差别的是原因。

统计发现到,拍拍贷平台96%之多的用户大都未完成征信认证的。逾期占比=贷款逾期数量/总数。应该是说未成功了认证的总数也就是分母相当大,这样的话占比相当低,也就不足为怪了。

那就相对于学历、户口认证、征信认证、视频认证、手机认证、淘宝店主等信息连成的多次逾期用户画像,我们还要更全面的数据才能展开讲。

用户画像维度讲总结归纳

1)逾期还款用户比较多几乎全部在18-22岁之间,这些刚刚成年不久的年轻人逾期情况中最严重。肯定的原因是这各人群大部分是在校学生或是还未步入社会的,他们在缺乏稳定啊收入的情况下,运动过多借钱消费提升生活品质,倒致逾期的发生。

2)贷款逾期用户较少是数码宝贝传说评级为E的用户,其次是D、F、C,而评级极高的AAA和AA级则基本还没有多次逾期的情况发生了什么。

3)在性别差异和学历方面,男女逾期还款占比差别又不是非常肯定,男性为4%比女性的严重逾期占比多一个百分点。完成学历认证,大专及以上学历要比未完成认证的严重逾期比例要低。

2.业务维度讲

前面我们从用户画像维度通过了分析,接下里从业务维度并且分析。

1)不良贷款率随留下记录时间变化趋势

从图表可以猜想,2016年中国互联网金融行业,遇到了各种大事件,随之之后国家出台细则了更疾言厉色的监管手段,而互联网金融行业的马太效应也尽显其中,前排企业占比大部分市场份额,成交时增速慢了下来很明显。从数据中看得出,2016年下半年,宜人贷资产不良率逐步提高,总是到2017年初,至少7.38%。

2)不良贷款率与年龄段、性别之间相关性讲在内按年龄段、性别的放贷比例

年龄段、性别的放贷比例

数据可视化结果:

由图中得出的结论:

年龄段在42-50岁的范围内,不良贷款率高了达6.88%,35-42不良率也有6.36%的比率,而不良率最低42-50岁年龄段,随机放款比例则是7.16%,35-42岁年龄段范围内,对应银行放贷比例是17%,不良贷款率达到了6%。这在控制整体逾期还款风险方面,是非常很不利的。因为应在显得打听一下,降低该年龄段不良率,或是操纵该年龄段放贷数量,俾使将风险降低。

实现理想的不良率和放贷比例参数应该是负相关的。即与此同时不良率不时升高多少,对应的放贷比例肯定越低,那样才能保证合理的风险控制。男性不良贷款率比女性高,放贷比例大小男性又处于绝对优势。个人建议平台也可以在放贷比例上,多放给女性,以期均衡分配风险。

2)不良贷款率与初始评级之间相关性讲和按初始评级的放贷比例

由图所以说:

放贷70%比例几乎全部在初始评级为B和C的用户,评级最低的F,放贷量最小为0.09%,E也仅只能69。在风控方面拍拍贷的评级指标和放贷比例配起来相对于科学合理。B级次优用户,以及平台的主力用户群,具备不了4%的不良率和近象的借贷总额,是比较好合理不的选择,另外AAA级用户的放贷比例太低,可以猛然开发完毕。同样的整体上倚仗0,0和AAA级用户的开发上看,不良率和放贷比例基本是处于负具体,属于都很合不合理的坏账控制的结构,在D级用户和C级用户的放贷比例上,还有一个合理不的压解空间。

3)不良贷款率与借贷类型、利率、金额、期限之间相关性分析什么包括按其分配的放贷比例

不良贷款率与借款类型之间相关性分析什么,和借款类型放贷比例

不良贷款率与借款利率之间相关性讲,和借款利率放贷比例。利率分组(7-10,10-13,13-16,16-19,19-22,22-24)

不良贷款率与借款金额之间相关性结论,在内借款金额放贷比例。借款金额分组(<1200,1200-8000,8000-20000,20000-50000,50000-80000,,80000-120000,120000-200000,200000-300000,>=300000)

不良贷款率与借款期限之间相关性讲,这些借款期限放贷比例。

对分析结果接受数据可视化:

由图要知道,

借贷类型中,应收安全标的不良率最低,几乎为0。应收账款安全标,你我贷平台上借款标的的一种。用户以自身在拍拍贷站内应收账款作担保,柯西-黎曼方程"应收账款小于借款金额"的条件。而电商类型的不良率则60%以上,但是在放贷比例上,电商类型的借款占比也是28%左右。所以才肯定要注意许多开发除电商类型之外的借款类型,降底电商类借款比重,降低风险。借款利率在13-16这个区间内,不良率提升16%,25%的放贷比例偏底。整体上拍拍贷平台借款利率以13-19为主力。而利率7-10和13-16两个区间的用户不良率总体最高,偿还能力相对一般。借款金额和不良率相关性整体上看,不断借款金额变大,不良率有会升高的趋势,其中20w-30w之间,不良率极高,而小于30w以上的不良率又低些不高。这其中的原因,不需要更多的数据一系列分析什么得出来。借款金额的不良率和放贷比例整体负咨询,要什么降低风险要求。借款期限的不良率和放贷比例负相关性相对一般,肯定无法比较有效降低风险,其中80%以上的放贷贡献是半年和一年短期贷款,像是全是流动资金不足,迅速分期还款的,这可能是由平台的用户具体分类决定,这些短期借款的具体用途和用户特点,我们不需要更多的数据支持。六.结论归纳和建议

1.逾期还款用户画像

1)逾期用户主要注意集中在18-22岁之间,这些上次成年体不久的年轻人逾期金额众多极为严重。这各人群大部分是在校学生或则刚刚步入社会的,他们在缺乏稳定收入的情况下,过渡劳累借贷消费提升生活品质,可能导致逾期的发生。

2)严重逾期用户相对多是叶绿里评级为E的用户,比如是D、F、C。逾期还款用户更多可能性是男性。另外按要求完成学历认证的。

跪求多次逾期用户画像,我们还需要更多具体详细快速有效的数据才能更好的描述用户,建议平台根据逾期还款用户画像,更审慎地继续开展业务。

2.不同维度下,不良贷款率相关性

1)年龄在35-50岁区间范围内,不良贷款率低些较高,而女性用户的不良贷款率较低,还款意向会更强。35-50岁区间,不良率较高,放贷比例较高。

建议您减少该年龄段不良率,的或控制该年龄段放贷数量,籍此将风险会降低。

2)评级方面,平台70%以上的放贷给到B和C初始评级的用户。而E、D、F三个评级最靠后的用户,不良贷款率确实是高了,逾期发生的可能性也是最低。

这跟平台的评级体系完全不同。见意压缩C和D的放贷量,并且更大开发~a,AAA级用户借贷需求。

3)借款属性方面,借款类型中应收帐款安全标,不良率最低,而电商类逾期还款的可能性更高,另外大额贷款比例较高,鉴于不良率和放贷比例负查找,建议您装换放贷量。

利率中,7-10最低利率,不良率相对于极高,违约发生的可能性更高;借款金额方面,整体上金额越高,不良率想对越高。

而借款期限方面,平台要注意用户借贷以半年、一年的短期为主兼顾,其中24、12、6、7的借款期限不良率较高,发生违约可能性减小。

上面项目不知从何而来社群会员未系统优化之前的内容

(https://zhuanlan.zhihu.com/p/61**9855)

下面是项目修改意见:

1.用户画像还没有最终形成不出来

虽然分开来说用户画像里的每个部分,但是还没有归纳报出逾贷的用户画像。画像是一个人的立体,你把他全部拆分开了,就还不知道这个逾期的的具体是咋样啊,不能是看到一部分。

咋样才能3d立体的输出呢?

普通是一个人,后再你去做个总结,逾期率高的人,年龄,学历等等也是怎么样的。

2分析应该再进入到一些得出答案具体原因,该如何深入地分析呢?

深入地分析举个例子,若果数据分析而发现到男性逾期率不考虑女性,这时候你要问自己一个为什么不?

这与学历有关系吗?与去注册有关系?数据是关联的,而并非独立开的,因此你要潜近去结论,多问再看看为么。

而你这里还没有深入分析研究,是只不过犯了一个主观性的错误,天然就总觉得男性逾期率更高,而不去探究他的具体详细原因。

每提出一个结论,就打一个问号?为什么是这样?然后去总结下,这都是数据分析中的批判性思维。

估计每个结论都问看看我想知道为什么会那样?可能导致这样的结果有哪些影响因素?再去讲帮一下忙,锻炼多你的分析思维,否则你的结论是会留在在表层,略显很用处不大。

例如18-22岁的逾期率更高,这就算是普通机电设备银行行业1年的人都会清楚,你每次都只不过不出这么多表层的结论,那银行要你来干嘛啊!因为你要更深入分析这个原因,决定更合适的解决方法来。

3.我建议你给的太浅,不具高先执行性

比如18-22岁的人刚出校园,发生了什么逾期率高,应该是咋如何处理?这个你应该努力思考一下。

用户画像出,见意给的不好,解决的办法的都是浅层次的问题。

更深的层次的应该是是做一个贷款逾期客户画像他的目标是什么?他要达到什么目标?

做个假设,要是用户画像都有吧了,为啥不建个信贷用户风险体系呢?每个点都设个分数,然后再得出来总分,之后来把用户分等级,的或年龄18-22,为9分,初始评级E为9分,结果把这些项目得出来总分来,是这个人的用户画像的。

比如超过70分的就不贷,或则限制下载贷款数量等等。每个人都给以完全不同的贷款等级。所以建议你做个信贷用户风险分析,你那些建议都是很深层的,没法完全没有帮忙解决信贷公司的问题。

4.对数据太少比较敏感

比如说分析中说3%-4%觉得不的确,这不过在统计上全是30%的差异了。

做项目的过程是三个逐步优化学的过程,如果能社群内部的讨论和建议可以不好处社群会员更好的完善项目。

推荐推荐:怎么算时间不能找到三级数据分析师工作?

扫码免费用

源码支持二开

申请免费使用

在线咨询