1.背景介绍
数据选自科赛数据平台的练习赛:「二分类算法」提供银行精准营销解决方案。
这些数据与葡萄牙银行机构的营销活动有关。本次数据分析的目的是研究银行客户是否认购银行产品(定期存款)与哪些因素有关。
共有18个字段,25371条记录,具体数据说明见下表:
2.提出问题
1)整体购买情况如何?
根据上述数据特征,我们发现客户是否认购银行产品不仅与客户自身的条件有关,而且与银行销售行为有关。因此,我们可以从客户维度和业务维度两个方向进行探索。
客户维度:
可从以下五个维度入手:
1.像往常一样,先读数据,看统计特征
这根据数据集提供的特征进行分析。
2)与客户的基本信息有什么关系,如年龄、职业和教育水平
3)与客户的经济状况,如存款,是否有贷款有怎么样的关系
业务维度:
4)什么样的沟通方式、时间、间隔有利于销售?
3.数据预处理
2.检查缺失值
3.检查重复值
判断每个客户是否只有一个数据,如果有多个数据,是否重复数据
结果显示y每个客户只有一条数据
4.检查异常值
通常,异常值出现在连续数据中,可以用箱形图查看。以下图为例,中位数约为200至250,上四分位数约为400,下四分位数约为100、500是统计意义上的异常点,但这些点在业务逻辑上不是异常点。所以保留它,而不是处理它。
4.数据分析
1)购买率
用y=除总人数外,1人数得到购买率
饼状图显示比例
2)用户分析
用户有education,job,** rital,default,housing,loan,age,balance先分析前六个离散属性。
教育
可以看出,虽然购买和购买不足的用户集中在购买上secondary和teriary,但是tertiary在这一类中,购买产品的用户比不购买产品的用户多近0个.因此,可以推断,购买产品的客户受教育程度较高。
职业
第一张图是购买产品的客户的职业按照从大到小的比例排列。第二张图是不购买的客户的职业排名。发现购买产品的客户集中在经理和技术人员身上,而不是蓝领工人身上。所以推测职业地位高,工资高,理财意识强,购买产品越容易。
所以把职业和工资结合起来,取前五名
婚姻
从图中的信息可以推断,单身人士更喜欢购买产品。
违约
购买产品客户的违约率为0.0088,未购买产品的客户违约率为0.0188购买产品的违约率较低。
贷款
下图反映了个人贷款和住房贷款的到期率。可以看出,有贷款的客户需要购买金融产品。
age,balance在进一步分析之前,应,再进一步分析。
年龄
观察年龄观察,18-30岁的年轻人和38-51岁的中年人购买了更多的产品。据推测,这两个年龄段的人需要更多的收入来上学、结婚、买房、支付孩子的教育等。
账户余额
观察极值点,发现最大值和最小值存在于未购买的客户群中。在存款0-1万的范围内,购买超过1万的客户不购买。因此,推测该产品适合中低级客户。负存款和高存款不适用。
3)业务分析
联系方式
使用cellular客户更容易接受这种联系方式。
上次联系结果
上次成功购买的客户更容易续购,证明继续吸引老客户也是一种方便有效的手段。
最后一次通话时间
第一张图是购买产品的客户的通话时间盒图,整体通话时间较长,中位数约为500。没有购买产品的通话时间要短得多。中位数约为250,整体时间约为购买产品客户通话时间的一半。长时间的通话可能是客户本身非常感兴趣,没有提前挂断电话,销售代表有足够的时间介绍产品,也很容易促销。
交流次数
上次交流次数
根据两次沟通的次数,我们发现在这次沟通中,客户越容易购买产品,沟通次数就越少,这些客户通常以前也有过沟通。没有购买产品的客户通常上次没有沟通,这与老客户更容易购买产品的结论是一致的。
此外,计算本次交流比上次交流少的百分比,发现购买的产品减少率为0.203985年,未购买的减少率为0.074074.进一步证明,以前的沟通可以促进。因此,隔断时间与客户沟通的产品比同时多次沟通更有效。
上次联系多久?
最好每三个月到一年联系一次。
5.总结
扫码咨询与免费使用
扫码免费用
申请免费使用
在线咨询