如何从日志中发现广告被作弊?

前文扫地老僧的文章《在线广告作弊手段一览》介绍了媒体为了增加广告收入所用的作弊技术,但在实际工作中,我们更多的是从报表数据中发现了可疑之处,然后导日志去查询作弊证据,最后在页面上去做查找验证。

所谓可疑点,有两个角度判断,第一是从相同维度来看,本维度的唯一数据项(汇总数据)占所有日志的比例不均匀;第二是以某一个维度汇总的数据中,其他维度上的数据分布不平均或者出现极值。两个角度的比较必须是多媒体的数据比较。这些数据维度一般有:IP、User-Agent、Cookie ID、访问时间、访问页面等。我们以演示日志来进行说明。

第一步、相同维度分析,按照经验,IP是容易检查出异常的维度。
IP的汇总数据
明显能够看出异常数据是来源于哪一个IP——222.82.44.14。

但是否222.82.44.14的数据都是异常数据呢?这就需要我们进行第二个角度的判断。
异常IP的分解数据

最终分解下来,我们可以看到222.82.44.14的流量中有89%的流量来自于http://www.abc.com,这肯定是我们认定的作弊数据了。但其他5个页面的流量从严格意义来讲,也是作弊流量,因为其Cookie ID以及User-Agent也都完全相同。

以上分析看起来很简单,是因为给定的例子简单。事实上,有些高明的作弊技术不会在日志中表现出来。如果在日志中确定了异常,我们就需要在页面上去查证网站是采用了什么技术在作弊了,一般我们会用到Httpwatch、Firebug或者浏览器的开发者工具去查找。当然,本文给定的例子可以明显看出是利用了广告机或其他方法在做,这在页面上倒看不到。

因此,对作弊的检查我们可以分事实判断和逻辑判断两种,事实判断如扫地老僧文章所写,找到了作弊的代码;逻辑判断是对日志进行的分析,但不是真正的证据。

 

One thought on “如何从日志中发现广告被作弊?

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注