A / B testing 經驗談 ( 01 )

《善用數據幫你打造好設計》用掉相當多的篇幅反覆宣導引用數據輔助判斷的觀念,圖 1 是最具代表性的說明。從 A/B testing 前期藉由數據找出商業目標,發覺使用體驗的問題與機會點,到了中期運用數據生成實驗假設、定義量測指標,也能用來排定測試項目的優先順序,最後實驗結果出爐,分析報告也會包含大量的數據。

圖 1 原圖的重繪版

數據觀

在詳讀這本書之前,我對於 A/B testing 的數據觀仍不完整,只涵蓋了測試啟動後的階段,焦點都放在結果出爐後的分析報告,未曾反思過實驗的每個階段,都需要借重數據。這本書的觀點讓我想起先前讀研究所的日子,撰寫研究報告時都會查找證據支持,包括質性、量化的文獻,怎麼畢業後漸漸遺忘這個習慣了?

如果數據在 A/B testing 的每個階段都佔有重要地位,同理,數據也該貫穿整個使用體驗的開發流程,變成輔助觀察、設計、決策、驗證與優化的重要依據。在這本書的原文版中,有句話足以代表數據精神:

What leads you to believe that’s true ?
p.289

是什麼原因導致我們信以為真?怎麼知道那是對的?

這兩個問題是非常好的提醒。

 

大數據 vs 厚數據

A/B testing 能取得大量用戶的行為數據,行為數據能反映現況,揭露用戶如何使用產品,是相當有力的證據。

數據很好用,但不代表全貌,圖 2 是民族誌學者 Tricia Wang 提出的觀點,很清楚的呈現了大數據的優勢,但優缺點往往一體兩面,其劣勢正好是厚數據的優勢,兩者互補。以 A/B testing 來說,我們會根據量化數據找出問題點和目標達成率,也會從實驗分析的檢定力與顯著與否做出判斷,但是當實驗結果不如預期時,我們往往無法從數據推論出真正的主因,因為可能的原因太多,光從數字下手,會導致過度腦補。

這時厚數據可以挖出足夠深度的洞見,背後原因往往藏在質性資料中。

厚數據是來自小樣本,但它的深度可以提供很好的洞見,為你為什麼會在數字中看到某些行為提供很人性的原因。
pp.218-219

圖 2 大數據與厚數據的差異。來源:Why Big Data Needs Thick Data

之前有個 A/B testing 的案例,我們在某一版的討論區 APP 導入官網上很受歡迎的功能-追蹤發文,但實驗結果不理想,接連延長實驗時間,做了再多分析,新版在很多重要指標的數據都不如舊版,像是留存率。由於追蹤發文不是干擾性的功能,在官網上已驗證成功,APP 上線前的測試也沒發現重大問題,不如預期的實驗結果變成難以解釋的現象,從數據上無法合理推論問題主因。最後是做了抽樣訪談,才發現大半受訪者都遇到帳號被自動登出的問題,若要使用會員專屬功能,經常需要手動登入,如此一來誰會想用?這一個程式 bug 會降低使用意願,連帶的拉低關鍵指標的表現,正是所有問題的解答。

 

大數據的可靠度

參與訪談的使用者,有可能僅憑微弱印象,或有不便明說的顧慮,陳述內容已偏離實際行為。為了驗證訪談內容的可信度,可以比對其行為數據,但這個方法成立的前提是數據可靠。如果收集數據的方式有瑕疵,比如程式出問題或資料庫故障,或者運作機制(包含觸發時機、流程、邏輯判斷等)與人的理解有出入,數據也可能導致誤判。

之前有個真實案例,當討論區 APP 開啟時會觸發某一事件追蹤,該事件代表用戶的開啟次數。某次在一份報告中接獲回報一個開啟次數的數字出現異常,問題點是該用戶有使用主要功能的行為數據,但 APP 的開啟次數卻是 0,繼續追查後才挖出該事件追蹤有 22% 的機率會遺漏寫入,這代表開啟次數的數據已失準。但是在發現此問題之前,我們會採用這個指標的數字,這正是「垃圾進,垃圾出」的寫照。

大數據固然重要,實務上也有不少環節需要注意。在相信數據之前,必須先確認數據的可靠度,還有確實清楚想計算什麼、得到什麼意義的數字。

若要提高數據的可靠度,事前除了加強檢查來源、紀錄和換算方式,事後可用三角數據量測來交叉比對,也就是結合其他類型和來源的數字一同比對。這部分沒有泛用的理想解法,只能說如果我們會對現象、受訪者的陳述存疑,面對數據的態度也該如此。

 

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *