HI, 你好!我是来自19DPG 数字营销学院的孙栎。本文是旨在帮助买家评估客户数据平台 (Customer Data Platform)系统的系列文章之二。它提供了CDP系统的背景,CDP系统的一般功能描述,
并对买家准备选择采用CDP系统所进行评估时所涉及到的数据摄入问题列示了检核清单。
客户数据平台的背景及功能描述
请参考 CDP非技术问题评估
数据摄入问题的检核列表
数据加载
这些问题涉及将多方源数据加载至CDP系统相关方面。
内部系统。公司自己的系统是CDP的基础,因为它提供了有关与客户和潜在客户交互的直接信息。典型的源系统包括公司网站,电子商务,移动应用程序,零售POS,销售自动化,客户支持,订单处理,计费和客户忠诚计划。您的业务可能还有其他类型,如银行存款账户或航空公司票务。来自公司系统的数据通常被称为“第一方”数据。关键问题包括CDP是否可以整合贵公司源系统提供的数据类型; 贵公司现有系统是否有现有连接器; 是否有公共应用程序接口(API)来构建新的连接器; 以及构建这种连接器所需的努力。
跟踪标签。一些CDP通过网站标签和相关技术直接收集数据。具有此功能的大多数供应商最初都是使用Javascript标签开始的,该标签将关于网站访问者的信息发回中央服务器,这些服务后来演变成为“标签管理系统”,包括更多其他标签,减少了页面加载时间,简化了多个标签的维护,并赋予所有者更多的控制从他们的网站流出的数据。供应商还扩大了他们的范围,以从其他来源(如移动应用程序)捕获数据,这需要与原始Javascript标签不同的技术(请参阅下一部分)。由于标签管理本身仍然是一个重要功能,因此要问的关键问题包括CDP用户如何添加,配置和删除其他标签; 对页面加载时间的影响; 以及他们如何控制通过何种标签所获取的哪些数据可以被共享。更一般的问题涉及系统可以捕获的数据类型以及如何存储和访问。
软件开发工具包(SDK)。一些CDP提供可嵌入移动应用程序或类似系统(交互式电视系统,健身设备,智能家居设备,其他物联网产品)的SDK。 SDK收集有关用户和应用程序行为的数据。许多SDK超越行为数据的收集,可以在应用程序内传递消息和采取其他动作。像标签管理系统一样,来自CDP的SDK可能会控制从应用程序到其他系统的数据流,从而使应用程序开发人员不必将多个SDK嵌入到其产品中。要问的问题包括:部署和管理SDK需要哪些技术或技能; SDK可以捕获什么样的数据; 将数据提供给其他应用程序(替换这些应用程序的SDK)以及数据库或报告系统等其他来源的预构建连接器; 什么功能可用来创建自定义连接器; 以及该系统具有传递消息并采取其他应用程序内动作的能力。
网络爬虫。一些CDP供应商从外部网站收集数据,包括公共社交媒体活动。这通常用于开发企业营销的公司资料。由此产生的数据被用来增强客户和潜在客户资料,以及公司无法通过自己的系统收集的信息。这种处理需要先进的技术来解释非结构化的来源数据,如网站内容和自然语言评论。关键问题包括:可以包含哪些数据源; 如何选择这些来源; 如何处理源数据以提取信息; 数据分配给哪些类别; 用户是否可以创建自定义类别; 并可进行怎样的检查以确保准确性。再次,还有其他更一般的问题,如信息如何与正确的公司或个人相关联。
外部数据。 CDP可以合并来自其他所有者的数据。这些数据所有者通常是收购和销售数据的公司,例如大型个人或商业数据库的编译者或将网络行为信息与匿名cookie相关联的广告网络。这种信息被称为第三方数据。有时,这些信息可能来自另一家有兴趣与其他公司共享有关其客户或潜在客户信息的公司,这样做的原因大多是为了共同推广。这被称为第二方数据。对于第二方数据的处理可以由可信代理处理,使得两个公司都不需要与另一个共享其整个客户数据。与外部数据有关的问题包括:是否与特定的商业来源存在既有整合;涉及建立新连接的努力;数据源更新和数据加载的频率;是否可以在不导入数据的情况下实时访问数据源;以及如何管理任何使用限制。第二方数据还经常带有必须在CDP中管理的特定使用限制。
加载方法。数据可以通过多种方式加载到CDP中。首选技术通常是一个API连接,一旦建立,几乎不需要付出任何努力。有关API连接的问题包括API是否已发布和文档化;有什么功能可用(除了加载数据,你还可以做一些事情,如定义新的数据类型或关系);是否可以一次加载多个记录;有什么样的安全措施? CDP是否可以从另一个系统的API请求数据;以及API调用的数据量或频率是否有限制。当源系统不支持API连接时,可能会使用批处理文件进行加载。第一个问题是批量加载是否被支持;其他问题包括哪些文件格式被接受(CSV,XML,数据库表等),加载是否可以自动执行以及如何工作;在加载过程中的错误处理;与大小或频率相关的任何限制。第三个加载选项是CDP主动查询外部系统。问题将包括支持的查询类型;连接如何配置;自动化调度;错误处理;数据量或频率限制。
外部访问。一些CDP可以访问存储在公司内部系统或外部系统中的数据。这种方法有时被称为“联合访问”。它避免了加载大量的细节,比如Web日志,或者仅在某些情况下相关的数据,例如购买行为发生时的天气或位置。与外部访问相关的问题包括可用的连接类型; 具体来源有哪些可用连接器?检索数据并使其可用(对于实时交互非常重要)所需的时间; 系统如何找到特定个人的数据(例如,是否需要客户ID?),CDP如何指定返回哪些数据元素; 以及如果没有找到请求的数据,系统如何响应。
数据结构
这些问题涉及数据如何被存储在CDP系统相关方面。
数据类型。一般来说,您的CDP需要存储源系统发送的任何类型数据。这至少包括标准的结构化要素,如客户名称和交易日期。这些很容易适合传统的数据结构,每个项目都被仔细地定义和存储在自己的位置。但是今天的大多数客户数据还包括较少结构化的信息,例如Web日志和消息文本。这类数据的情况可能各不相同,包含不同的元素集合,具体取决于正在报告的内容。有时这些元素在提供时被标记,例如在包含两个元素的“键:值 对”中:指定数据类型的键和指示实际数据的值。这样的一对可能是“名字:大卫”。如示例所示,通常需要额外的上下文来指示键值对的所有者 – 在这种情况下,它可能与显示客户ID或帐号的另一键值对关联。这些键值对在“NoSQL”数据库中很常见。他们可以很容易地添加新的数据元素(即密钥),而无需事先对其进行正式定义。当然,密钥必须一致地命名以使数据可用。
其他数据类型的结构化程度更小,例如必须使用高级语言处理技术解析的文本块,这些技术可以提取特定元素,例如在新闻稿中标识公司名称或在客户投诉电子邮件中标识产品名称。更高级的处理可以超越寻找实体名称,以理解实体之间的关系(例如,一篇新闻文章说,公司A收购了公司B,另一篇文章说公司C正在起诉公司D)或理解情绪(例如, 顾客对一个产品不满意)。通常,这种处理用于将非结构化数据转换为结构化元素,然后可以使用标准技术处理结构化元素。
CDP也可以存储非文本数据,如图像,视频或音频。这些信息通常伴随着结构化的数据,如名称,主题和日期,用于访问和分析数据。诸如图像识别之类的高级技术也可用于将结构化数据附加到这些输入的数据之上。
与数据类型相关的问题包括系统可以采集什么类型的数据; 从非结构化或半结构化输入中提取信息的能力怎样; 以及如何访问存储的数据和描述性属性。
模式。传统的关系数据库(如Oracle或SQL Server)将数据存储在具有已定义数据元素(列)的确定数据库表中,并在表之间定义关系(通过诸如Customer ID之类的公共元素关联)。这组定义提供了一个固定的模式,可以很容易地理解什么数据存储在哪里。这样的结构在很多情况下可以非常有效地处理,并且几乎总是存在于CDP中的某个地方,只是因为外部系统需要它们来访问存储在CDP中的数据。但是这样的模式本质上是僵化的,这意味着任何变化,例如添加一个新元素或表格,都必须事先定义。可以摄取半结构化数据的CDP也能以半结构化的方式存储该类数据,例如前面提到的“半结构化的”键:值对。这使得CDP可以容纳新的数据元素,而无需预先计划,使其显得更加灵活。
为了使数据可访问,CDP必须跟踪哪些元素已经被加载,并且必须经常将这些元素转换为定义的数据结构,以便它们可以被映射和索引以供外部工具使用。与CDP模式相关的问题包括:如何定义数据元素;添加新元素的过程;如何通知用户和其他系统有哪些元素可用;以及元素之间的关系是否有任何限制。关系问题是重要的,因为CDP越来越期望在社交网络中存储诸如连接之类的关系,然后让用户查询他们 – 例如找到“朋友的朋友”或“朋友拥有的产品”。对于传统的关系数据库来说,这些可能是困难的。同时,无模式系统在捕获关系数据库模式中精确指定的关系时可能会遇到问题。所以营销人员需要考虑各种情况,并具体探讨CDP如何处理每一种情况。
标准对象。根据定义,CDP数据是围绕客户组织的。一些CDP将所有输入视为客户的属性。这使加载数据变得简单,但可能会限制在项目之间存储关系的能力,例如将产品链接到活动。其他CDP为数据结构提供了诸如产品,渠道,营销活动和消息等标准对象。标准对象让CDP包含使用这些对象的预建功能,例如活动报告和下一个产品购买的预测模型。标准对像还可以简化外部数据到CDP的映射,并通过外部系统访问CDP数据。与标准对象相关的问题包括:CDP中内置了哪些标准对象;对像是如何相互关联的?添加一个对象的必要条件;新对象与标准对象相关联是否有限制?如果不使用标准对象,会发生什么情况;而且,是否有依赖于标准对象的特定功能?
输入映射。虽然有些技术允许摄取数据而不将其分配给预定义的数据元素,但是这些数据最终必须被分类以备使用。这意味着用户必须指定一组标准元素,例如姓名或电子邮件地址,然后定义来自每个来源的哪些信息将被分配给这些元素。这个映射过程对于结合来自不同来源的信息和进行多种分析和处理是必不可少的。与映射过程相关的问题包括:如何定义标准元素; 来自源系统的输入如何分配给标准元素; 如何处理丢失的元素(特别是关键元素,如客户标识符); 如何处理新的或未映射的元素; 以及在将输入放入标准元素之前,系统如何转换或标准化。
访问限制。允许在CDP中使用某些数据可能受到政府法规,公司政策或与供应商达成的协议的限制。 CDP需要能够执行这些限制,或者至少需要获取数据才能使执行成为可能。与访问限制有关的问题包括:是否有定义对指定数据元素的访问权限的标准方法; 可以限制时间(如合同到期日期); 系统是否可以要求指定的凭证来访问指定的元素(例如特殊的密码); 系统是否可以限制访问其他指定的系统; 系统是否可以保存指定元素的访问日志; 系统能否提醒管理者未经授权的访问尝试; 系统可以将属性添加到描述允许使用的数据元素中; 并且,系统可以通过在提取之前移除指定的标识符来匿名化数据。
性能
这些问题涉及CDP系统的性能相关方面。
延迟。这是指在CDP内获得新数据需要多少时间。其中一个因素是从源系统获取数据的速度有多快,从即时(只要进入源系统)到周期性(加载所有新数据的频次,从最后一次加载以来每天,每周甚至更长周期) 。另一个因素是提供新数据所需的时间:系统可能需要从非结构化数据源提取结构化数据,将数据转换为标准格式,检查数据的准确性或完整性,创建聚合或索引,或者加载数据转化为针对外部访问优化的专用数据库。与延迟有关的问题包括:接受实时输入的能力;批量输入频率的任何限制;准备数据所需的过程,以及这些过程的时间;有时间将数据加载到任何二级结构中;以及在数据更新过程发生时可访问的内容。如果更新过程冗长,那么最后一个问题是重要的:如果没有做出适当的规定,系统可能完全不可用,运行缓慢或返回不一致的信息。请记住,输入频率通常由源系统决定,因此某些延迟可能超出了CDP系统的控制范围。
响应时间。这是指系统在请求时可以多快返回数据。如果CDP支持实时交互,如网站个性化,展示广告出价或电子商务产品推荐,则响应时间最为紧迫。这样的交互可以有非常严格的响应要求,对于某些应用程序,低至30毫秒。响应时间对于非实时进程也很重要,比如用户指定的记录段计数需要多长时间,或者需要提取记录段中的数据时长。分配给CDP的计算资源通常可以调整以满足指定的性能要求,或者可以引入诸如索引的其他特征。用户需要提前知道他们需要的响应时间。与响应时间相关的问题包括:返回实时请求的时间;可以在实时请求期间完成的活动(例如计算预测模型评分);对实时返回的数据量或类型的任何限制;需要预先确定哪些元素是实时可用的;哪些需要时间进行分析计算,哪些因素会影响时间;使用不同的方法(API,查询,批处理文件)提取数据所需花费的时长;以及必要时可用来缩短响应时间的选项。
可扩展性。这是指CDP可以处理的数据量。它有很多维度,包括源系统的数量,客户的数量,每个客户的数据元素的数量,数据模型的复杂性以及所存储的数据的总量。延迟和响应时间通常受数据量的影响,使其成为可扩展性等式的一部分。对于实时应用程序,可伸缩性还包括在满足所需响应时间的同时系统可以维护的同时连接(对于Web会话,呼叫中心代理,移动应用程序等)的数量。与可伸缩性相关的问题包括:对各个维度(源系统,客户,数据元素,数据模型,总量,连接等)的限制; 配置选项来克服可伸缩性限制; 以及现有供应商配置的规模。
功能
这些问题涉及支持数据摄取所需的特定功能。
部署工作。这是指部署系统所需的员工时间和技能。营销人员需要特别关注的是技术和非技术两方面。需要花费太多精力的CDP根本不会被部署。与部署工作相关的问题包括:营销人员的工作任务,包括工作时间,技能和所需的具体业务知识; 由供应商或其他外部人员执行的任务; 企业IT人员执行的任务; 需要的培训; 初始部署的范围; 项目时间表; 建立在时间轴上的假设; 和项目管理过程。
维护工作。这是指部署后维护系统所需的员工时间和技能。它既包括日常运作系统的工作,也包括增加新数据,调整数据准备流程,发布新输出,连接新系统以使用CDP等方面的改变。尽管这些信息不能准确地提前得知,但营销人员需要对CDP需要的资源进行现实的估算。与维护有关的问题包括:维护系统所需的任务; 工作时间,日历时间,技能和特定任务所需的培训,如添加新的数据源; 可用于帮助完成这些任务的工具; 以及为这些任务使用供应商或外部资源的选项。
检查输入。这是指对输入数据进行基本检查,例如是否包含预期的数据结构,元素和值。在加载时发现错误的输入是非常重要的,因为一小部分坏数据一旦被合并到整个CDP的更大的数据池中,就很容易被忽略。输入检查对于高度结构化的数据是最重要的,因为系统可能无法处理例外格式的记录。但是即使是可以接受非结构化输入的系统也可能需要标记新的元素或标签,以便用户可以决定如何对它们进行分类。有些系统还可以检查特定字段中数据值的分布是否合理:例如,将所有客户生日设置为同一天或所有交易金额设置为零的数据馈送将是高度可疑的。与输入检查有关的问题包括:什么样的检查是可能的;提供什么报告;系统如何识别可疑的输入;而且,系统如何提醒用户潜在的问题。
回滚不良输入。这是指在数据已经被输入系统后删除不良数据的能力。它要求将数据标记为其原始来源,并且系统要么物理删除不良信息,要么将其标记为忽略。覆盖现有数据而不是附加新记录的系统可能难以纠正,因为之前的值可能会丢失。删除不良数据还可能需要重新计算派生数据,如聚合,提取和索引。涉及到大量数据时,这可能非常耗时。有关回滚的问题包括:是否存在回滚功能; 哪些类型的数据可以回滚; 配置选择需要使回滚成为可能; 执行回滚所需的步骤和技术技能; 执行回滚所需的时间; 以及在回滚期间的系统可用性。
发现和探索。这是指让用户在添加到系统之前探索新数据的功能。 (加载后的数据探索包含在不同的清单中。)它超越了对输入质量的自动化输入检查,让用户找到新的数据元素,值和关系。核心功能包括查看输入记录的样本;数据元素标签和值的频率分析;标签和值之间的相关性报告;并将新投输入与以前输入进行比较。具体目标是帮助用户确定是否以及如何使用新的数据源。要问的问题包括:有哪些工具可用于检查输入数据;什么样的标准报告是可用的;在可以探索数据之前,必须完成多少加载流程;使用这些工具需要什么技能;可以在将数据与主数据存储合并之前将数据加载到暂存区域中;什么样的数据存储用于暂存区域;可以使用哪些第三方工具来检查暂存区中的数据;并且可以将分段区域中的数据与已经加载到主数据存储中的数据进行比较。