客戶數據平臺評估指南 (內部處理問題評估)

HI, 你好！我是來自19DPG 數字營銷學院的孫櫟。本文是旨在幫助買家評估客戶數據平台（Customer Data Platform）系統的系列文章之三。它提供了CDP系統的揹景，CDP系統的一般功能描述，並對買家準備選擇採用CDP系統所進行評估時所涉及到內部處理問題列示了檢核清單。

客戶數據平臺的揹景及功能描述

請參考 CDP非技術問題評估

內部處理問題的檢核列表

轉換

這些問題與永久存儲在CDP中之前處理數據記錄有關。

數據清洗。 攝取的數據通常需要一些初步處理。清理步驟可能會刪除字符，數據元素或整個記錄。這樣可以減少系統中的數據量，從而更容易把重點放在重要的信息上。有關數據清洗的問題包括：有哪些清洗流程可用; 如何定義清洗規則; 什麼標準的清洗規則是可用的，確保用戶不需要從頭創建它們; 用戶如何測試清洗規則以確保其正常工作; 處理缺失數據記錄的選項; 關於清洗活動的報告是什麼; 並且，系統可以隨時間比較清洗結果嗎？

標準化。這是指將數據轉換成一致的格式。它可以調整數據錄入錯誤，入口標準不足以及不同系統中的標準不一致造成的異常。例如，即使每個系統中的數據是一致的，產品名稱在系統之間通常也是不一致的。標準化可能適用簡單的規則，例如大寫每個名字的第一個字母或以mm / dd / yyyy格式放置所有日期。標準化還常常依賴於參考表，這些參考表存儲特定值的首選格式，比如將Rob，Robert，Bob和Bobby轉換為Robert，使用每個產品的標準名稱，或者將公司名稱與主文件進行匹配。其他常見的標準化包括郵政地址，可以放在一個標準的格式，檢查內部一致性（例如，城市和州與郵政編碼匹配），或與已知的值進行驗證（例如郵政遞送文件中實際存在的特定地址）。標準化對名稱和地址匹配尤為重要。與標準化有關的問題包括：有哪些標準化處理可用;哪些參考數據集是可用的;更新參考數據的用戶選項;用戶創建標準化規則的能力;檢查字段之間一致性的能力;保留原有值而不是取代原有值的能力;以及關於標準化流程的報告，如所做的更改和不能標準化的值。

增強。這是指添加與輸入記錄內容相關的數據。典型的例子是將人口統計數據（年齡，收入，興趣等）附加到個人數據或將公司信息（收入，員工數量，行業，公司母公司等）附加至商業數據。增強功能也可能應用標識符，如電子郵件地址，Cookie ID或電話號碼，但這些可能會受到隱私方面問題的考量。增強也可能涉及其他實體，如產品（添加數據，如標價，尺寸，特徵等），促銷（增加產品，報價，創意等數據）或上下文（如天氣，市場狀況，交易時間等）。增強功能可以將數據直接存儲在擴展記錄中，也可以包含指向單獨記錄的鏈接。如果增強涉及到個人或公司實體，則可能會在身份關聯流程（參見下一部分）後澄清相關實體的身份。有關增強的問題包括：可用的增強類型;與增強源連接所需的過程;限制使用增強數據以及如何傳遞和執行這些數據;增強來源的準確性和覆蓋面;更新或刪除可能隨時間而改變的增強數據的選項;處理附加增強數據所需的時間;並報告增強結果。

推導&派生。 這是指基於輸入的更改或添加的數據。常見的轉換包括創建派生或計算的字段，如存儲事件的月份或自年初以來的天數; 分配一個類別或標籤，如交易類型或產品組; 將一個值分解成地址內的街道名稱，方向和建築物編號等組件; 或者將標題，姓氏和名字等元素合併到一個郵件地址的單行記錄中。一些轉換應用了情感分析，自然語言處理或圖像識別等先進技術，從非結構化或半結構化數據中提取結構化信息。與派生有關的問題包括：派生類型可用; 如何建立和維護派生; 用來衡量複雜派生的質量的流程; 如何存儲派生數據; 以及為特殊目的而加入第三方推導工具的能力。

身份組合

這些問題涉及到鏈接屬於同一個人或組織的記錄。

直接匹配。這是指鏈接具有共享標識符的記錄，如客戶ID。每個CDP都可以做到這一點。對於相當數量的CDP，這是他們支持的唯一鏈接類型。這些系統的用戶在添加到CDP之前必須將共享標識符應用於記錄，在CDP處理期間調用外部匹配服務作為數據增強步驟的一部分，或導入將其他標識符與共享標識符相關聯的交叉引用表。一旦共享標識符被放置在來自不同來源的CDP記錄上，它們的數據可以被合併到單個客戶檔案記錄中，或者數據可以保持獨立，但是根據需要被鏈接在共享ID上。與直接匹配有關的問題包括：如果共享ID可用，系統能否匹配記錄;系統可以使用什麼方法創建共享ID;系統是否可以調用一個外部流程來創建一個共享的ID，如果是的話，有關性能的詳細信息，用於匹配的數據，現有的集成等等。系統是否可以導入一張帶有不同標識符之間鏈接的表格，並使用此表格鏈接相關記錄;系統可以支持相同實體類型（例如個人vs家庭成員記錄）上的不同級別的共享ID以及不同實體類型（例如個人vs公司記錄）上的不同ID;系統如何區分不能與任何可識別的個人相關聯的記錄（例如，匿名cookie）;系統為共享ID提供什麼類型的報告（例如，具有不同標識符對的記錄數量，如電子郵件地址加上電話號碼或設備ID加上客戶ID）。

鏈接。這是指通過標識鏈鏈接記錄，例如將被鏈接到客戶ID的電子郵件地址鏈接至設備。這些鏈可以組裝在交叉參考表中，即使兩個標識符從未直接鏈接，也可以使單個標識符與任何其他標識符相關聯。這通常被稱為“確定性”匹配。大多數CDP支持這種類型的匹配。與鏈接相關的問題包括：系統是否可以保存那些標識符一起使用的記錄（即構建交叉引用表）;系統可以使用什麼類型的標識符（姓名，地址，客戶或賬戶ID，電子郵件，電話號碼，設備ID，瀏覽器cookie等）;用戶對哪些標識符可以鏈接進行哪些控制;系統如何處理重疊或衝突的鏈（例如，與同一設備相關聯的兩個客戶ID;具有相同電話號碼的兩個名稱）;在數據加載之後發現鏈接（例如，客戶ID與先前的匿名cookie相關聯）時，系統可以追溯性地合併身份;而且，如果以後發現鏈接不正確，系統是否可以追溯地分離身份。

模糊匹配。這是指基於數據元素之間相似性的匹配;它是有時被稱為“概率”匹配的幾種方法之一。模糊匹配通常適用於不同版本的名稱和地址，可能會在不同的郵件列表中找到。標準化通常會消除一些變化，例如不同形式的同名（David vs Dave，Susan vs Sue vs Suzanne），普通打字或拼寫錯誤或地址變化（First Ave. vs 1st Avenue）。已經開發了許多模糊匹配方法，從非常簡單到非常複雜。大部分依靠比較幾個不同的數據元素（名字，姓氏，街道名稱，城市，郵政編碼等），並設置一個閾值，以確定這些數據必須相互匹配，以便記錄被認為是匹配的。不同的權重通常應用於不同的元素：例如，電話號碼匹配比首字母更權重更高。一些系統使用統計方法，這些統計方法是通過針對已知匹配和不匹配的樣本進行訓練而自動創建的;其他系統依賴專家用戶創建的規則。與模糊匹配有關的問題包括：使用什麼元素進行匹配;如何創建匹配規則;用戶對匹配規則有什麼控制;用戶如何測試不同的匹配規則;對於不同的數據子集有不同的規則（例如來自不同國家或種族的名稱）;供應商是否提供預先建立的匹配規則;用戶可以查看和解決可疑的匹配。

跨設備匹配。這是指將設備彼此連接;如果任何設備被鏈接到個人，則所有相關設備也與該個人鏈接。一些跨設備匹配基於傳統的鏈接技術：例如，如果同一客戶在兩個不同設備上登錄到他們的賬戶，則這些設備都鏈接到客戶，並且通過鏈接彼此鏈接。其他設備鏈接基於“概率”方法，特別是識別在同一時間和地點重複使用的設備。例如，一個Web站點可能會記錄來自同一位置的電腦和智能手機的訪問，並可能稍後在不同的位置捕獲來自同一個設備的同時訪問。位置將通過網絡信息捕獲，並且設備將由設備ID，設備屬性的組合（有時稱為“指紋識別”）或Web瀏覽器cookie來識別。跨設備匹配可能基於公司自己的數據，但更多的是從與許多來源的數據匹配的商業供應商處購買。與跨設備匹配相關的問題包括：系統是否使用客戶自己的數據執行跨設備匹配;該系統是否與商業供應商進行跨設備匹配？每個商業提供者有多少獨特的身份可用;這些設備是否也與個人標識符（如姓名和地址或電子郵件地址）相匹配;用戶可以選擇匹配規則或置信度閾值;匹配多久重新核實一次;以及如何測量匹配精度。

持久性ID。這是指為每個人分配一個永久ID，儘管識別信息（如郵寄地址，Web cookies或設備ID）發生變化，仍可以保留該ID。持久性ID在跟踪客戶歷史記錄方面尤為重要，因為即使數據上的原始標識符可能不再與當前標識符匹配，它們也會創建鏈接。例如，如果客戶已經開設了一個新賬戶，那麼賬戶ID鏈接就不會關聯以前賬戶的數據。當數據加載到CDP永久性數據庫中時，持久性ID可以被附加到數據，或者可以通過包括與個體相關聯的所有標識符的交叉引用表來間接維護。與持久性ID相關的問題包括：當關聯的標識符（電子郵件地址，電話號碼，帳戶ID等）發生變化時，系統如何將客戶的新舊數據關聯起來;系統可以將同一標識符的多個值與一個客戶關聯起來嗎？是否有任何標識符不能超過每個客戶的值對;系統是否存儲每個標識符與客戶關聯的日期;系統是否存儲每個標識符的來源;如果發現錯誤匹配（即發現錯誤地將標識符與特定客戶相關聯），系統如何分離先前的數據;當發現新的匹配時，系統如何合併先前的數據（即，它將先前分離的標識符與現有客戶相關聯）;系統可以為不同的實體（個人，家庭，商業網站等）維護多個持久性ID。以及系統在創建，匹配和分割持久性ID時提供什麼報告。

訪問

這些問題涉及準備外部系統訪問數據相關方面。

客戶資料。 CDP只有在身份關聯流程已經鏈接了與同一客戶相關的記錄之後才能呈現統一的客戶視圖。一旦完成，可能需要額外的流程才能有效使用數據。與客戶視圖相關的問題包括：系統是否建立每個客戶的統一配置文件; 什麼數據存儲在統一的配置文件中; 添加新數據後配置文件更新有多快; 客戶檔案的大小或數據結構是否有限制？系統如何處理客戶檔案中數據元素的添加，刪除或合併; 以及什麼報告內容可用於客戶檔案。

索引。 在CDP內掃描原始數據可能是非常耗費資源的。許多系統創建的索引允許用戶使用索引來標識特定的記錄集，而不是讀取底層數據本身。有關索引的問題包括：用戶可以指定要創建的索引; 系統可以根據對收到的查詢進行分析來自動創建索引; 需要什麼技術技能來創建和維護索引; 新數據添加到CDP後需要多長時間來更新索引; 什麼數據可以從索引中讀取而不需要查看底層的數據; 什麼類型的查詢可以使用索引（例如，組合多個索引的查詢，索引內查詢值範圍的查詢，查詢特定值）; 以及哪些工具能夠使用索引。

聚合。 許多CDP應用程序依賴於聚合數據，如終身購買價值。預先計算這些值可以在應用程序請求它們時大大加快響應速度。與聚合相關的問題包括：用戶可以指定要創建的聚合; 系統能否根據收到的查詢自動創建聚合; 用戶可以指定哪些記錄包含在聚合中（例如應用過濾器）; 將新數據添加到系統後，更新聚合需要多長時間; 系統能否跟踪使用總量來確定哪些仍然是需要的; 以及外部應用程序如何知道適當的聚合是否可用。

趨勢。 像聚合一樣，趨勢往往是預先計算的，以提高性能。趨勢是一個特別重要的CDP功能，因為它使用在源系統中經常丟失的歷史數據。與趨勢相關的問題包括：用戶如何定義趨勢進行計算; 系統可以計算趨勢相關的統計數據，如增長率或兩種不同趨勢之間的比較; 當趨勢統計信息發生重大變化時，系統是否可以發出警報？當用戶定義新的趨勢時，系統是否可以使用歷史數據來計算過去時間段的值。

訪問結構。 主CDP數據存儲通常不太適合提供直接外部查詢或實時訪問個人級別的數據。許多CDP可以以更適合訪問的格式生成底層數據的提取，例如索引文件或關係數據庫表。與訪問結構有關的問題包括：CDP數據可以提供哪些格式用於外部訪問; 什麼查詢語言可以用於這種訪問; 是否有支持實時檢索個人檔案的結構; 有支持分析查詢的結構嗎？用戶如何管理訪問結構的創建; 需要哪些技術技能來管理訪問結構; 將新數據添加到CDP之後，重新完善訪問結構需要多長時間; 以及具有哪些安全功能來控制對訪問結構的訪問。

元數據。 這是指使CDP中的數據對用戶和外部系統可見。與元數據相關的問題包括：CDP中的一組數據元素如何暴露給外部系統; 用戶有哪些選項可以將結構添加到公開的數據中; 用戶可以根據不同的目的創建不同的可用數據視圖; 可以將不同的用戶限製到特定的視圖; 如果數據加載了訪問限制，這些數據是如何自動反映在數據的暴露方式中的; 用戶可以應用額外的訪問限制，可用數據元素的哪些信息可以被呈現（例如計數，來源，應用的轉換等）; 並且有哪些可用格式的元數據以支持特定的外部訪問工具，如果有，是哪些。