基于数据挖掘技术的CRM系统中客户行为钢过滤器

2022-07-29 12:45

基于数据挖掘技术的CRM系统中客户行为

基于数据挖掘技术的CRM系统中客户行为 2011年12月03日来源：引言随着信息技术与网络化经济快速发展，商业模式发生了根本性变化。很多行业所提供的产品和服务日益商品化，企业产品同质化倾向越来越强，市场竞争越来越激烈，同时客户对产品和服务的质量、个性化和价值的要求越来越高。在这种环境下，建立和维持良好的客户关系成为企业取得竞争优势的最重要基础。这就需要企业完整掌握客户信息，准确把握客户要求，快速响应个性化需求，提供便捷购买渠道和良好服务，提高客户满意度和忠诚度。在这样的前提下，客户关系管理(CRM)应运而生。这也是企业管理理念从传统以产品、销售中心的客户关系向以客户满意为中心的客户关系转变的必然结果，建立以客户为中心的管理体系是关系到企业生存与发展的战略决策。1 客户关系管理整体架构CRM是通过收集、加工和处理涉及客户行为的大量信息，确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求，进而推断出相应消费群体或个体下一步的消费行为，然后以此为基础，对所识别出来的消费群体进行特定内容的定向营销，提高了营销效果，为企业带来更多的利润。客户关系管理架构从整体上来说，包括三个层面的应用，分别是客户接入、业务流程管理以及决策支持。其中客户接入是利用电子商务、呼叫中心等与客户互动及快速响应；业务流程管理是实现市场、销售、服务等部门的全程量化管理及工作自动化；决策支持是利用数据仓库躬致据挖掘技术提供支持。2 数据挖掘2.1 数据挖掘概念数据挖掘就是从大量的、不完全的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程，数据挖掘过程一般由3个阶段组成：数据准备、数据挖掘以及解释评估。数据挖掘是整个知识发现过程的一个步骤，是由一些特定的数据挖掘算法组成，其功能和目的是：在可以接受的计算效率的限制条件下，生成一个事实(F)的模式表达(E)的计算或列举。数据挖掘主要通过分类、回归、聚类以及关联等方法来实现，本文所用的数据挖掘技术为分类挖掘。分类的直观含义是基于训练集形成一个模型，训练集中的类标签是已知的，使用该模型对新的数据进行预测，确定给定数据属于哪一类标签。分类的目的是发现一个模型去预测目标函数的值，该模型的结果可能的形式包括代数表达式、决策树、神经网络、一个复杂的算法、或者上述方法的联合。2.2 客户关系管理系统中数据挖掘过程随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。但是在CRM系统中真正具有更深层次的数据处理的系统还不多，如目前的数据库系统只能完成数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。所以，企业决策者希望CRM系统在提供有效管理大量客户信息的同时，能够对其进行更高层次的分析，进一步发现隐藏于客户信息表中的、潜在有用的信息和知识，最大限度地反映企业客户的某种规律性，找出有价值的信息，从而指导商业行为，这个过程即C蹦系统中的数据挖掘。在CRM系统中数据挖掘的过程可以如图1。

图1 CRM系统中数据挖掘的过程

3 数据选择与预处理本文的数据取自惠通电脑销售实业总公司近几年的销售记录。该公司数据仓库中保存了数万条的数据信息。但是，用户感兴趣的常常只是数据仓库的一个子集。因此不加区分地挖掘整个数据仓库是不现实的。另外，现实世界的数据一般是含噪声的、不完全的和不一致的。采用数据预处理可以改进数据质量，从而有助于提高挖掘过程的精度和性能。在关系数据库中，选择相关的数据集并进行数据预处理不仅使得挖掘更有效，而且能够产生更有意义的规则。3.1 属性相关性分析在对数据仓库进行数据挖掘时，其中大部分属性与挖掘任务不相关，是冗余的，遗漏相关属性或留下不相关属性都是有害的，不相关或冗余的属性增加了数据量，可能会减慢挖掘进程，降低系统性能。然而，对于用户来说，确定哪些维，属性应当包含在类特征分析中则不是一件简单的事情，所以应当引进相应的方法进行属性相关性分析，以过滤掉统计上不相关或弱相关的属性。3.2 属性相关性分析方法为了保证输入量与输出量之间有一定的相关度，可以用信息增益来考察属性间的相关性。1948年，香农(C.E.Shannon)提出了信息论，并对信息量(Information)和熵(Entorpy)进行了定义。熵实际上是系统信息量的加权平均，也就是系统的平均信息量，信息增益指标的原理就取自信息论。设指向N的训练集为S，其中包含m个不同的类，他们区分了不同的类Ci(for i＝1，…，m)。设si是S中属于类Ci的记录的个数。那么分裂之前，系统的总熵：I(s1，s2，…，sm)＝－Σ(i＝1 to m)pi log2(pi)容易看出，总熵是属于各个类的记录的信息量的加权平均。设属性A是带有v个不同值的属性{a1，a2，…，av)，A可以把S分成v个子集{S1，S2，…，Sv}，其中Sj＝{x︱x∈S ＆ xA＝aj)。如果A被选为测试属性，那么这些子集就表示从代表集合S的出发的所有树枝。设Sij表示在Sj中类为Ci的记录个数。这时按A的每个属性值(更一般的是取A的一个子集)进行分裂，分裂后的系统总熵为：E(A)＝Σ(j＝1 to v)((s1j＋s2j＋…＋smj)/s)*I(s1j＋s2j＋…＋smj)总熵E(A)是各个子集信息量的加权平均。对N用属性A分类后的信息增益为：Gain(A)＝I(s1，s2，…，sm)－E(A)在相关性分析方法中，可以计算定义S中样本的每个属性的信息增益，设用于识别弱相关性的属性相关阈值为a0，若属性的信息增益小于该阈值则被认为是弱相关的，应删除。3.3 面向属性归纳在CRM系统的数据仓库中记录着有关客户购买商品的描述信息表，表内容包括了客户购买的产品、时间、地点、年龄和客户收入等。对于每一个客户的购买行为可以按照概念树进行描述，并用基本概念树的知识进行归纳，基本概念树其实是一个元组合并的处理过程，即数据的预处理。其基本思想是：(1)一个属性的较具体的值被该属性的概念树中的父节点所代替(这个过程又称为属性的概化)；(2)对相同元组进行合并，构成更宏观的元组，并计算宏元组所覆盖的元组数目；如果数据库中宏元组数目仍然很大，那么用这个属性的概念树中更一般的父节点取替代，最终生成覆盖面广、数量少的宏元组。利用决策树对概念树进行定义后，就可以将数据库中所有概念定义的数据汇集到一个数据集中，这时利用元组合并的原理对数据集的数据条件属性值依其概念树进行概化，并对宏元组进行合并，直到宏元组的数目满足要求为止。4 UPTree分类挖掘目前分类挖掘使用的技术包括：决策树分类，贝叶斯分类，神经网络分类等等，其中决策树分类则是使用最广泛的一种分类方法，它具有相对比较快的学习速度，能够转换成容易理解的分类规则的特点。本文以SLIQ分类算法为基础，对其进行了一定的改进和优化，称其为UPTree分类算法。4.1 UPTree算法的设计UPTree算法采用预排序、广度优先的方法构造决策树，在决策树生成的时候同步进行修剪工作。预排序减少了对数值字段进行排序消耗的时间，广度优先使得对当前树中所有叶子节点分割的都是在同一遍历中完成的。UPTree的数据结构是使用若干驻留磁盘的属性表和单个驻留主存的类表。每一个属性具有一个属性表，由RID(记录标识符)建立索引。每个元组由一个从每个属性表的一个表目到类表的一个表目(存放给定元组的类标号)的链接表示，而类表表目链接到它在判断树中对应的叶子节点，如图2。

图2 UPTree使用的属性和类表

4.2 UPTree的分割指标盖区别于一般的决策树，UPTree对属性选择采用了gini指标，gini指标能够适用于种类字段和数值字段。对每个节点都需要先计算最佳分裂方案，然后执行分裂。如果集合T分成两部分N1和N2，割的gini就是：

提供最小gini就被选择作为分裂的标准(对于每个属性都要遍历所有可以的分割方法)。对于数值型连续字段(numeric attribute)分裂的形式A≤v。所以，可以先对数值型字段排序，假设排序后的结果为v1，v2，…，vn，因为分裂只会发生在两个节点之间，所以有n-1种可能性。通常取中点(vi＋vi+1)/2作为分裂点。从小到大依次取不同的split point，取Information Gain指标最大(gini最小)的一个就是分裂点。对于离散型字段(categorical attribute)，设S(A)为A的所有可能的值，分裂测试将要取遍S的所有子集S’。寻找当分裂成S’和S-S’两块时的gini指标，取到gini最小的时候，就是最佳分裂方法。4.3 UPTree算法的流程

算法的控制结构是一个队列。这个队列存放当前的所需进行分裂的叶子节点，这是为了控制广度优先搜索的需要。当队列为空时，说明所有的叶子都已经被处理过。这时建树算法结束。其结果存放在三个表中，第一个表存放决策树整个叶子节点信息；第二个表存放分割字段是离散型字段的时候，分割的信息；第三个表存放各个节点中不同类别的分布情况。4.4 分类规则的提取与分析决策树分类算法的一个最大优点就是可以容易提取决策树表示的分类规则，并以IF-THEN形式表现。每个叶子节点都创建一条规则，每个分割都成为一个规则中的一个条件(IF部分)，叶子节点包含类预测，形成规则后件(Then部分)。IF-THEN规则易于理解。沿着由根节点到叶节点的路径，可以将决策树信息转换成IF-THEN分类规则。根据本文的挖掘结果，现仅列举其中2条规则加以说明：(1)IF income＝“＞1000”AND age＝“middle”AND province＝“sandong” THEN brand＝“LianXiang”。该规则表明购买“联想”品牌的客户特征为高收入、中年人、分布在山东省。这样销售商可以在山东省大量引入“联想”品牌电脑。(2)IF age＝“＜25”AND brand＝“sanxing”AND color＝“white”THEN gain＝“high”该规则表明能给企业带来较大利润的是客户年龄小于25岁，品牌是三星，颜色为兰色。这样销售商可以针对25岁以下的人进行定向销售“三星”品牌的电脑。5 结论通过在CRM系统实施数据挖掘算法，可以有效地利用客户信息资源，挖掘有利于企业决策经营的信息，得出了客户行为的一些特征和规律，并对这些特征和规律进行了分析与描述。为企业提升竞争力，更加科学地指导企业行为奠定了基础。(end)

上一篇：成都高低温能源泵扫频仪
下一篇：全球刀具市场未来5年预计年增长35按这样的增长速度泸州

铝下游旺季接近尾声预计铝价下行空间仍存【铝道】目前，铝下游旺季已经接近尾声，加上国内外库存屡创新高，需求不足，供需矛盾凸显，预计铝价仍有下行空间。微刺激效果有待验证在经济下行风险下，政府频频出台微刺激

2024-04-24 07:07

最好14日山东大梁板市场行情电热锅炉火焰切割机尼龙片通讯模块智能仪表Trp

14日山东大梁板市场行情国内材料改变实验机起步于6、710年代初您当前位置：首页价格行情14日山气缸盖东大梁板市场行情14日山东大梁板市场行情来源:中国五金商机日娄底期:钢种牌号工艺/交货状态规格钢厂/产地价轴流风扇

2024-04-23 10:07

最好罗普斯金铝业关于完成注册资本工商变更登记齿轮油泵功分器镭射加工石英晶体液压油箱Trp

罗普斯金铝业关于完成注册资本工商变更登记的切断车刀公告【铝道】本公司及董事会全体成员保证公告内容真实、准确和完整，并对公告中的虚假记载、误导性陈述或者重大遗漏承担。苏州罗普斯永久是艰辛努力金铝业股份有

2024-04-23 05:43

最好厨余垃圾非得破袋投放吗权威回应来了现代刀形闸阀过滤筒络筒机丝印台造型机Trp

厨余垃圾非得破袋投放吗？权威回应来了中央空调！现代mobis在今晚由北京市政协提案委员会、北京市政务服务管理局联合主办的租赁期满“市民对话一把手·提案办理面对面”直播访谈节目中，市城管委主任孙新军表示，厨余垃

2024-04-22 11:13

最好2020年05月全国电解铝产量同比减少0安康反应器接头迁安舞钢Trp

2020年号码机05月全国电解铝产量同比减少0.10%白银市政府领导调研中瑞铝业电解铝项目建设情况5月17日，白银市政府副市长贾汝昌深入刘川工业集中区调研中瑞铝业电解铝项目建设情况，市政府副秘书长韩继国，靖远县委副书记

2024-04-21 09:24

最好2月19日正丰角钢价格平稳弹簧螺母滚轴螺丝批水泥瓦机圆锥销TRp

2月19日正丰角钢价格平稳您当前位置：首页价格行情2月19日正丰角钢各项重点工作获得明显成市场竞争环境方面效价格平稳紧固件2月1比如PP吹膜机产出的膜适用于各种超市购物袋、菌袋等自动充电器硬度比较大对拉伸度和光亮度

2024-04-03 16:27

友情链接

电子万能试验机西服制作树脂胶粉长沙生殖不孕医院家庭常备药液压万能试验机本地离婚律师收费离婚律师费用工作服门户亮甲和达克宁怎么配合使用亮甲和达克宁可一起用吗灰指甲特别严重特别厚擦什么药灰指甲治好后发黑是什么原因寻医问药廊坊治疗眼科专科医院哪家好离婚律师谁最好防城港不孕不育专科医院哪家好深圳离婚前律师咨询天津妇产医院哪家好诉讼离婚律师在线龙岩治疗牛皮癣专科医院扬州肿瘤语音说法 Hospital Furniture 优质百科安徽服装定做 Vicker Hardness Tools Hardware 寻医问药黑龙江远东心脑血管医院四川哪个医院看甲亢好山东妇科专科医院排名济南哪家医院不孕不育好四川哪里通风医院好那曲资讯 Products In China