HI, 你好!我是来自19DPG 数字营销学院的孙栎。本文是旨在帮助买家评估客户数据平台(Customer Data Platform)系统的系列文章之三。它提供了CDP系统的背景,CDP系统的一般功能描述,并对买家准备选择采用CDP系统所进行评估时所涉及到内部处理问题列示了检核清单。

客户数据平台的背景及功能描述

请参考 CDP非技术问题评估

内部处理问题的检核列表
转换

这些问题与永久存储在CDP中之前处理数据记录有关。

数据清洗。摄取的数据通常需要一些初步处理。清理步骤可能会删除字符,数据元素或整个记录。这样可以减少系统中的数据量,从而更容易把重点放在重要的信息上。有关数据清洗的问题包括:有哪些清洗流程可用; 如何定义清洗规则; 什么标准的清洗规则是可用的,确保用户不需要从头创建它们; 用户如何测试清洗规则以确保其正常工作; 处理缺失数据记录的选项; 关于清洗活动的报告是什么; 并且,系统可以随时间比较清洗结果吗?

标准化。这是指将数据转换成一致的格式。它可以调整数据录入错误,入口标准不足以及不同系统中的标准不一致造成的异常。例如,即使每个系统中的数据是一致的,产品名称在系统之间通常也是不一致的。标准化可能适用简单的规则,例如大写每个名字的第一个字母或以mm / dd / yyyy格式放置所有日期。标准化还常常依赖于参考表,这些参考表存储特定值的首选格式,比如将Rob,Robert,Bob和Bobby转换为Robert,使用每个产品的标准名称,或者将公司名称与主文件进行匹配。其他常见的标准化包括邮政地址,可以放在一个标准的格式,检查内部一致性(例如,城市和州与邮政编码匹配),或与已知的值进行验证(例如邮政递送文件中实际存在的特定地址) 。标准化对名称和地址匹配尤为重要。与标准化有关的问题包括:有哪些标准化处理可用;哪些参考数据集是可用的;更新参考数据的用户选项;用户创建标准化规则的能力;检查字段之间一致性的能力;保留原有值而不是取代原有值的能力;以及关于标准化流程的报告,如所做的更改和不能标准化的值。

增强。这是指添加与输入记录内容相关的数据。典型的例子是将人口统计数据(年龄,收入,兴趣等)附加到个人数据或将公司信息(收入,员工数量,行业,公司母公司等)附加至商业数据。增强功能也可能应用标识符,如电子邮件地址,Cookie ID或电话号码,但这些可能会受到隐私方面问题的考量。增强也可能涉及其他实体,如产品(添加数据,如标价,尺寸,特征等),促销(增加产品,报价,创意等数据)或上下文(如天气,市场状况,交易时间等)。增强功能可以将数据直接存储在扩展记录中,也可以包含指向单独记录的链接。如果增强涉及到个人或公司实体,则可能会在身份关联流程(参见下一部分)后澄清相关实体的身份。有关增强的问题包括:可用的增强类型;与增强源连接所需的过程;限制使用增强数据以及如何传递和执行这些数据;增强来源的准确性和覆盖面;更新或删除可能随时间而改变的增强数据的选项;处理附加增强数据所需的时间;并报告增强结果。

推导&派生。这是指基于输入的更改或添加的数据。常见的转换包括创建派生或计算的字段,如存储事件的月份或自年初以来的天数; 分配一个类别或标签,如交易类型或产品组; 将一个值分解成地址内的街道名称,方向和建筑物编号等组件; 或者将标题,姓氏和名字等元素合并到一个邮件地址的单行记录中。一些转换应用了情感分析,自然语言处理或图像识别等先进技术,从非​​结构化或半结构化数据中提取结构化信息。与派生有关的问题包括:派生类型可用; 如何建立和维护派生; 用来衡量复杂派生的质量的流程; 如何存储派生数据; 以及为特殊目的而加入第三方推导工具的能力。

身份组合

这些问题涉及到链接属于同一个人或组织的记录。

直接匹配。这是指链接具有共享标识符的记录,如客户ID。每个CDP都可以做到这一点。对于相当数量的CDP,这是他们支持的唯一链接类型。这些系统的用户在添加到CDP之前必须将共享标识符应用于记录,在CDP处理期间调用外部匹配服务作为数据增强步骤的一部分,或导入将其他标识符与共享标识符相关联的交叉引用表。一旦共享标识符被放置在来自不同来源的CDP记录上,它们的数据可以被合并到单个客户档案记录中,或者数据可以保持独立,但是根据需要被链接在共享ID上。与直接匹配有关的问题包括:如果共享ID可用,系统能否匹配记录;系统可以使用什么方法创建共享ID;系统是否可以调用一个外部流程来创建一个共享的ID,如果是的话,有关性能的详细信息,用于匹配的数据,现有的集成等等。系统是否可以导入一张带有不同标识符之间链接的表格,并使用此表格链接相关记录;系统可以支持相同实体类型(例如个人vs家庭成员记录)上的不同级别的共享ID以及不同实体类型(例如个人vs公司记录)上的不同ID;系统如何区分不能与任何可识别的个人相关联的记录(例如,匿名cookie);系统为共享ID提供什么类型的报告(例如,具有不同标识符对的记录数量,如电子邮件地址加上电话号码或设备ID加上客户ID)。

链接。这是指通过标识链链接记录,例如将被链接到客户ID的电子邮件地址链接至设备。这些链可以组装在交叉参考表中,即使两个标识符从未直接链接,也可以使单个标识符与任何其他标识符相关联。这通常被称为“确定性”匹配。大多数CDP支持这种类型的匹配。与链接相关的问题包括:系统是否可以保存那些标识符一起使用的记录(即构建交叉引用表);系统可以使用什么类型的标识符(姓名,地址,客户或账户ID,电子邮件,电话号码,设备ID,浏览器cookie等);用户对哪些标识符可以链接进行哪些控制;系统如何处理重叠或冲突的链(例如,与同一设备相关联的两个客户ID;具有相同电话号码的两个名称);在数据加载之后发现链接(例如,客户ID与先前的匿名cookie相关联)时,系统可以追溯性地合并身份;而且,如果以后发现链接不正确,系统是否可以追溯地分离身份。

模糊匹配。这是指基于数据元素之间相似性的匹配;它是有时被称为“概率”匹配的几种方法之一。模糊匹配通常适用于不同版本的名称和地址,可能会在不同的邮件列表中找到。标准化通常会消除一些变化,例如不同形式的同名(David vs Dave,Susan vs Sue vs Suzanne),普通打字或拼写错误或地址变化(First Ave. vs 1st Avenue)。已经开发了许多模糊匹配方法,从非常简单到非常复杂。大部分依靠比较几个不同的数据元素(名字,姓氏,街道名称,城市,邮政编码等),并设置一个阈值,以确定这些数据必须相互匹配,以便记录被认为是匹配的。不同的权重通常应用于不同的元素:例如,电话号码匹配比首字母更权重更高。一些系统使用统计方法,这些统计方法是通过针对已知匹配和不匹配的样本进行训练而自动创建的;其他系统依赖专家用户创建的规则。与模糊匹配有关的问题包括:使用什么元素进行匹配;如何创建匹配规则;用户对匹配规则有什么控制;用户如何测试不同的匹配规则;对于不同的数据子集有不同的规则(例如来自不同国家或种族的名称);供应商是否提供预先建立的匹配规则;用户可以查看和解决可疑的匹配。

跨设备匹配。这是指将设备彼此连接;如果任何设备被链接到个人,则所有相关设备也与该个人链接。一些跨设备匹配基于传统的链接技术:例如,如果同一客户在两个不同设备上登录到他们的账户,则这些设备都链接到客户,并且通过链接彼此链接。其他设备链接基于“概率”方法,特别是识别在同一时间和地点重复使用的设备。例如,一个Web站点可能会记录来自同一位置的电脑和智能手机的访问,并可能稍后在不同的位置捕获来自同一个设备的同时访问。位置将通过网络信息捕获,并且设备将由设备ID,设备属性的组合(有时称为“指纹识别”)或Web浏览器cookie来识别。跨设备匹配可能基于公司自己的数据,但更多的是从与许多来源的数据匹配的商业供应商处购买。与跨设备匹配相关的问题包括:系统是否使用客户自己的数据执行跨设备匹配;该系统是否与商业供应商进行跨设备匹配?每个商业提供者有多少独特的身份可用;这些设备是否也与个人标识符(如姓名和地址或电子邮件地址)相匹配;用户可以选择匹配规则或置信度阈值;匹配多久重新核实一次;以及如何测量匹配精度。

持久性ID。这是指为每个人分配一个永久ID,尽管识别信息(如邮寄地址,Web cookies或设备ID)发生变化,仍可以保留该ID。持久性ID在跟踪客户历史记录方面尤为重要,因为即使数据上的原始标识符可能不再与当前标识符匹配,它们也会创建链接。例如,如果客户已经开设了一个新账户,那么账户ID链接就不会关联以前账户的数据。当数据加载到CDP永久性数据库中时,持久性ID可以被附加到数据,或者可以通过包括与个体相关联的所有标识符的交叉引用表来间接维护。与持久性ID相关的问题包括:当关联的标识符(电子邮件地址,电话号码,帐户ID等)发生变化时,系统如何将客户的新旧数据关联起来;系统可以将同一标识符的多个值与一个客户关联起来吗?是否有任何标识符不能超过每个客户的值对;系统是否存储每个标识符与客户关联的日期;系统是否存储每个标识符的来源;如果发现错误匹配(即发现错误地将标识符与特定客户相关联),系统如何分离先前的数据;当发现新的匹配时,系统如何合并先前的数据(即,它将先前分离的标识符与现有客户相关联);系统可以为不同的实体(个人,家庭,商业网站等)维护多个持久性ID。以及系统在创建,匹配和分割持久性ID时提供什么报告。

访问

这些问题涉及准备外部系统访问数据相关方面。

客户资料。 CDP只有在身份关联流程已经链接了与同一客户相关的记录之后才能呈现统一的客户视图。一旦完成,可能需要额外的流程才能有效使用数据。与客户视图相关的问题包括:系统是否建立每个客户的统一配置文件; 什么数据存储在统一的配置文件中; 添加新数据后配置文件更新有多快; 客户档案的大小或数据结构是否有限制?系统如何处理客户档案中数据元素的添加,删除或合并; 以及什么报告内容可用于客户档案。

索引。在CDP内扫描原始数据可能是非常耗费资源的。许多系统创建的索引允许用户使用索引来标识特定的记录集,而不是读取底层数据本身。有关索引的问题包括:用户可以指定要创建的索引; 系统可以根据对收到的查询进行分析来自动创建索引; 需要什么技术技能来创建和维护索引; 新数据添加到CDP后需要多长时间来更新索引; 什么数据可以从索引中读取而不需要查看底层的数据; 什么类型的查询可以使用索引(例如,组合多个索引的查询,索引内查询值范围的查询,查询特定值); 以及哪些工具能够使用索引。

聚合。许多CDP应用程序依赖于聚合数据,如终身购买价值。预先计算这些值可以在应用程序请求它们时大大加快响应速度。与聚合相关的问题包括:用户可以指定要创建的聚合; 系统能否根据收到的查询自动创建聚合; 用户可以指定哪些记录包含在聚合中(例如应用过滤器); 将新数据添加到系统后,更新聚合需要多长时间; 系统能否跟踪使用总量来确定哪些仍然是需要的; 以及外部应用程序如何知道适当的聚合是否可用。

趋势。像聚合一样,趋势往往是预先计算的,以提高性能。趋势是一个特别重要的CDP功能,因为它使用在源系统中经常丢失的历史数据。与趋势相关的问题包括:用户如何定义趋势进行计算; 系统可以计算趋势相关的统计数据,如增长率或两种不同趋势之间的比较; 当趋势统计信息发生重大变化时,系统是否可以发出警报?当用户定义新的趋势时,系统是否可以使用历史数据来计算过去时间段的值。

访问结构。主CDP数据存储通常不太适合提供直接外部查询或实时访问个人级别的数据。许多CDP可以以更适合访问的格式生成底层数据的提取,例如索引文件或关系数据库表。与访问结构有关的问题包括:CDP数据可以提供哪些格式用于外部访问; 什么查询语言可以用于这种访问; 是否有支持实时检索个人档案的结构; 有支持分析查询的结构吗?用户如何管理访问结构的创建; 需要哪些技术技能来管理访问结构; 将新数据添加到CDP之后,重新完善访问结构需要多长时间; 以及具有哪些安全功能来控制对访问结构的访问。

元数据。这是指使CDP中的数据对用户和外部系统可见。与元数据相关的问题包括:CDP中的一组数据元素如何暴露给外部系统; 用户有哪些选项可以将结构添加到公开的数据中; 用户可以根据不同的目的创建不同的可用数据视图; 可以将不同的用户限制到特定的视图; 如果数据加载了访问限制,这些数据是如何自动反映在数据的暴露方式中的; 用户可以应用额外的访问限制,可用数据元素的哪些信息可以被呈现(例如计数,来源,应用的转换等); 并且有哪些可用格式的元数据以支持特定的外部访问工具,如果有,是哪些。