以下内容来自网络,关于数据挖掘的一些最基本的知识。
数据挖掘是对一系列数据进行分析和挖掘的方法的统称,在精准营销领域,最常用的数据挖掘方法主要包括以下三类:分类、聚类、关联。
分类(Classify)属于预测性模型。分类模型的构建需要“训练样本”,训练样本中的每一个个体的类别必须是明确的。分类模型的特征变量一般称为“自变量”,又叫“预测变量”,类别变量称为“目标变量”。分类模型采用的方法有:决策树、Logistic回归、神经网络、判别分析等方法。
聚类(Clustering)属于非预测模型(描述性模型)。聚类模型是将特征相似的用户归在一个组里,特征不同的用户分在不同组。聚类模型不需要“目标变量”,只需要给定自变量。选择聚类所需的变量是构建聚类模型最关键的工作,变量的选择往往取决于应用的目标要求。
关联(Association)也属于非预测模型,主要解决的问题是研究产品购买的关联性,即买A产品的同时是否会对B产品也很感兴趣。经典的数据挖掘案例“啤酒和尿布”就属于关联模型。
关联模型中度量两个产品关联性强弱主要用三个指标:支持度、可信度、提升度。
针对两个商品A、B,研究A–>B的相关性,三个指标的定义如下:
支持度(Support):表示A、B同时购买的人数占总购买人数的比例。支持度越高,表示A、B商品同时购买的人数越多,这两个商品越主流。
可信度(Confidence):表示在购买A商品的人中同时购买了B商品的比例。可信度越高,表示购买了A商品后再购买B商品的可能性就越大。
提升度(Lift):可信度除以总用户中购买过B商品的用户占比。提升度越高,表示购买了A商品对购买B商品的影响度就越大,也即他们之间的相关性就越强。
关联模型可以解决两大类问题:1、如何对用户进行商品推荐?2、把哪些商品捆绑在一起销售更好?前者我们叫“交叉销售”的问题,后者叫“捆绑销售”。
在互联网广告行业快速发展进化的今天,对用户网络行为进行跟踪,并利用数据挖掘技术还原用户自然属性、描述用户意图,进而指导广告主精准投放已经成为行业大势,随着越来越多的Data Provider的出现,独立的第三方数据大鳄DMP平台也会很快浮现。当DMP平台出现时,意味着中国的互联网广告行业彻底进入用户投放时代,这才是大的变革。作为变革的必要条件——数据挖掘技术,作为广告产品经理,有必要对其增加了解。