发布时间:2022-11-21 19:57:04 文章来源:互联网
微博 微信 QQ空间

建模方案3.2特征工程3.2.1用户信息特征

建模方案3.2特征工程3.2.1用户信息特征

1 个问题

2 问题分析 2.1 问题背景

随着科技的发展,银行陆续打造了丰富多样的线上线下客户触点,满足客户日常业务办理、渠道交易等需求。面对海量客户,银行需要更全面、更准确地洞察客户需求。在实际业务开展过程中,需要发现客户的流失,预测客户资金的变化;提前/及时对客户进行营销,减少银行资金流失。本次大赛提供实际业务场景中的客户行为和资产信息作为建模对象。一方面,希望展示每位参赛选手的实际数据挖掘能力。营销解决方案充分体现了数据分析的价值。

2.2 赛题分析与理解

通过对赛题的分析理解,本次比赛的任务是:根据用户的基本信息、资金状况和每个季度的行为信息,建立客户流失预警模型,找出客户流失的原因,并协助商家加强客户维护和营销,增加客户粘度,减少客户/资金流失。这个建模的目标是根据用户前两个季度的历史数据预测下一季度用户的标签(-1/0/1,标签有递增关系)。问题转化为三分类问题,特征由1) aum_m(Y), 2) behavior_m(Y), 3) big_event_Q(Z), 4) cunkuan_m(Y), 5) cust_info_q(Z)构成桌子,

3 建模方案

3.2 特征工程 3.2.1 用户信息特征

数据源表:cust_info_q(Z季度客户信息) 家庭年收入、年龄等数值类型直接输入模型。发现不同标签下的年龄分布差异较大。

将性别、客户等级、职业等分类类型转换为分类变量并输入到模型中。发现普通用户是最大的流失客户群。

此外,用户信息的完善程度可能会影响用户的忠诚度,从而对基础信息的缺失率特征进行处理。

3.2.2 资金状况特点

数据源表:aum_m(Y月末资产数据)、behavior_m(Y月行为数据)、cunkuan_m(Y月存款数据):

主要处理存款、金额、交易金额的方差、平均值、增长率、最大值和最小值,并结合字段含义进行组合推导。

其中,月入金C1和产品数量C2分布在不同的标签下,发现资金流动风险高的用户整体入金金额/产品数量相对较低,且呈下降趋势时间。

3.2.3 时间特征

数据源表:behavior_m(Y月行为数据)、big_event_Q(Z季度客户主要历史数据)

big_event_Q(Z)主要是第一次转账、入金等日期,从今天到开户处理的日期区间,反映客户的活跃度;

behavior_m(Y) 有季度末的最新交易日期。通过处理交易的具体时间和星期几等时间特征,可以反馈用户的一些行为。发现不同标签用户的交易时间分布差异较大,针对特定时间段(12点,>14点)做了离散化。

3.2.4 序列预测特征

由于计算资源不足导致拟合效果不佳,该模块的特征没有包含在模型中。不过这个方法考虑了时间序列的连续性来预测未来的资金情况,可以作为这个程序的一个小亮点。

考虑到项目的标签定义与资金波动情况有很大的关系,本模块序列预测特征的思路是利用(LSTM或LGB)回归,基于Q4季度的资金情况进行预测前几个月的历史资金数据(比如Q3季度作为训练样本),将预测的数值结果作为特征放入模型中。

3.2.5 Featuretools组合特征

Featuretools 是一个用于自动特征推导的开源库。它主要采用转换和聚合的方法自动推导特征,以补充人工推导特征的不足。我们先通过lightgbm进行训练,然后人工选择split和gain重要性前150的特征,然后使用Featuretools成对做乘法/除法,做特征交互特征。考虑到Featuretools组合的变量噪声较大,模型最终选择Top300 Featuretools的重要特征进入模型。

3.3 特征选择

特征选择的主要方法有: 1)筛选方法:皮尔逊相关系数(衡量变量之间的线性相关性)、缺失率和单值率等;2)打包:多个特征集(前向/后向))迭代寻找最优子集。3)Embedding方法:通过LGB模型选择特征重要性较高的特征。考虑到有限的计算资源,该方案采用:筛选方法初步筛选后,模型通过嵌入方法进一步筛选重要特征。这种方法更有效,因为模型学习和特征选择的过程是同时进行的。

3.4 模型训练

LightGBM(Light Gradient Boosting Machine)是一个实现了GBDT算法的框架,支持高效的并行训练,训练速度更快,内存消耗更低,精度更好,支持海量数据的分布式处理。并且它支持分类变量等优点。基于派生特征,共有1211维特征,包括原始特征和类别特征。Lightgbm就是用这个训练的,用贝叶斯方法调整参数。单模型验证集的Kappa值约为0.49(在线测试集的Kappa值约为0.475)。

3.5 模型融合

受到bagging思想的启发,我们对训练集随机采样5次(采样率70%)银行零售流失客户挽回方案,随机采样列,使用贝叶斯优化选择子模型,最终得到5个lgb子模型进行bagging。该方法在参数和特征上都引入了多样性(差异),最终大大提高了bagging的泛化效果,OOT测试集Kappa约为0.483。

3.6 建模过程中的发现与创新

1)总结用户画像:在特征处理的过程中,我们总结了高流失用户的用户画像:

2) Features 设计了序列预测特征:考虑时间序列的连续性,预测未来资金情况,将预测的数值结果作为特征。

3)模型易于部署:最终模型使用5个Lightgbm进行均值融合,模型结构不复杂且易于部署,达到了在线Kappa 0.483的效果。

4 营销方案 4.1 客户流失综合原因分析

当今银行产品同质化现象很普遍。客户选择产品和服务的方式越来越多,客户对产品的忠诚度越来越低。获取新客户的成本远高于维护老客户的成本。因此,客户流失成为银行业最为关注的问题之一。客户流失的原因可以分为两类:

第一类是缺乏非主观意志。比如破产,工资卡变更等。

第二类是未满足的需求。原因比较复杂,比如产品营销活动少、产品利率较低、经营体验差、客户自身需求变化、竞争对手策略、国家政策等。

结合模型对客户流失特征(Shap值)的分析,对客户流失贡献度高的特征有:存款金额小、存款产品少、AUM低、年龄小等,综合原因可能是产品没有竞争力,活动少,不重视年轻客群。我们建议可以采取相关措施,如:加强客户关系维护、差异化营销、扩大销售、多开展营销活动等。

(注:本节亏损原因分析是从建模技术层面分析的,无疑是比较片面的,具体原因可以结合宏观政策变化、营销活动等因素来分析)流失趋势,并通过流失客户资金流向分析补充证据。)

4.2 营销策略 4.2.1 客户群体细分

商业银行客户数量庞大银行零售流失客户挽回方案,银行自身资源相对有限。考虑到成本效益的原则,我们需要重点关注容易流失的优质客户。因此,我们首先将客户群体分为两步:

第一步:借助流失预警模型,我们可以将客户的流失倾向分为三类:高流失风险客户群(-1)、低流失风险客户群(0)、稳定客户群(1) .

第二步:根据客户的质量,大致可以分为以下三类:低价值客户、有价值客户和高附加值客户。我们可以综合考虑客户等级、Aum值、最近一次消费区间、消费频率、消费金额、金融产品数量、金融产品金额、未来价值这些维度(通过这个序贯回归预测模型预测未来的AUM值),我们有具体划分客户群质量的两种方式:

方法一:根据客户在各维度指标中的排名分布划分价值客户(例如,以各指标的第80个百分位点作为参考阈值)。各维度指标具体划分门槛,请参考业务建议。

方法二:以各维度指标为特征,归一化后采用聚类方法建模划分K个客户群,以各客户群的中心值定义客户群的价值类别。

4.2.2 整体客户经营策略

按综合损失风险和质量属性划分客户群后,针对不同类型的客户制定不同的营销策略:

4.2.3 大客户管理策略

在这种细分结构下,我们专注于存在流失风险的高价值/附加值客户,并根据他们的需求为他们量身定制营销方式:

1)借助用户画像了解其特点,提供个性化服务和优惠政策。如:提醒参加营销活动、增加贷款授信额度等;

2)通过建立营销推荐模型交叉销售更多优质产品;

3)建立专职客户经理机制,做好营销渠道(如电话营销)和客户的用户问卷调查。

5 思考与展望 5.1 聚焦客户生命周期与智能营销

需要注意的是,当客户处于不同的生命周期阶段时,需要满足不同的需求。结合客户生命周期管理,对每一类客户进行深入理解和量化管理。通过区别对待处于不同客户生命周期阶段的客户,实现企业资源的优化配置。

5.2 其他营销点 5.2.1 营销时机等偏好

挖掘客户手机APP登录、转账、购买理财产品等活动的活跃时间段,并参考每个客户的活跃时间段,有针对性地发送营销短信。

5.2.2 洞察客户需求

获取更多类型的数据(参与活动、理财习惯),评估客户的兴趣爱好,推荐适合客户的营销产品。

另一视角

换一换