微信公眾號(hào)人工客服電話轉(zhuǎn)人工/南陽網(wǎng)站優(yōu)化公司
前言: 作為AB測試的學(xué)習(xí)記錄,接上文內(nèi)容, 本文繼續(xù)介紹假設(shè)建立和實(shí)驗(yàn)設(shè)計(jì)部分,包括實(shí)驗(yàn)對(duì)象、樣本量計(jì)算(顯著性水平、統(tǒng)計(jì)功效及最小可檢測效應(yīng))、實(shí)驗(yàn)周期。
相關(guān)文章:
AB測試——原理介紹
AB測試——流程介紹(定義問題和指標(biāo)選取)
3. 假設(shè)建立
3.1 原假設(shè)和備擇假設(shè)
在AB測試中,我們需要建立原假設(shè)和備擇假設(shè):
- 零假設(shè)(H0)是默認(rèn)的假設(shè),即控制組和實(shí)驗(yàn)組之間沒有顯著差異。它表明兩組之間任何觀察到的差異都是由于機(jī)會(huì)因素造成的。
- 備擇假設(shè)(Ha)與零假設(shè)相反。它表明控制組和實(shí)驗(yàn)組之間存在統(tǒng)計(jì)學(xué)上顯著的差異,而這種差異不是由于機(jī)會(huì)因素造成的。
3.2 案例說明
例如,我們進(jìn)行了一個(gè)AB測試,將用戶隨機(jī)分為A組和B組,在A組中采用原來的頁面設(shè)計(jì),在B組中采用新的頁面設(shè)計(jì),然后比較兩組用戶的轉(zhuǎn)化率。我們建立如下的假設(shè):
- 原假設(shè)(H0):頁面設(shè)計(jì)對(duì)轉(zhuǎn)化率沒有顯著影響,A組和B組的轉(zhuǎn)化率相同。
- 備選假設(shè)(H1):頁面設(shè)計(jì)對(duì)轉(zhuǎn)化率有顯著影響,A組和B組的轉(zhuǎn)化率不相同。
一個(gè)完整的AB測試假設(shè)可以描述為:“通過改進(jìn)網(wǎng)站的頁面設(shè)計(jì)(優(yōu)化方向)來提高注冊轉(zhuǎn)化率(測試指標(biāo)),我們將測試兩個(gè)版本的網(wǎng)站頁面(測試變量):版本A和版本B。我們希望看到版本B的注冊轉(zhuǎn)化率顯著優(yōu)于版本A,我們將在測試期內(nèi)每個(gè)版本中招募至少1000名用戶(測試樣本量),測試期為兩周(測試時(shí)間)?!?/p>
在AB測試中,建立清晰明確的假設(shè)非常重要,它能夠幫助我們更好地理解測試目標(biāo)和測試方案,高測試的可信度和有效性,從而優(yōu)化產(chǎn)品和服務(wù)的效果
4. 實(shí)驗(yàn)設(shè)計(jì)
4.1 確定實(shí)驗(yàn)對(duì)象
4.1.1實(shí)驗(yàn)對(duì)象分類
實(shí)驗(yàn)對(duì)象類型下面總結(jié)了比較常見的六種:
- 用戶:以每個(gè)用戶的唯一標(biāo)識(shí)(比如身份證號(hào)、用戶ID)作為實(shí)驗(yàn)樣本可以避免數(shù)據(jù)混淆,但需要注意用戶特性、數(shù)量和行為對(duì)實(shí)驗(yàn)結(jié)果的影響,如用戶數(shù)量較少時(shí)需要增加實(shí)驗(yàn)時(shí)間,保證實(shí)驗(yàn)組和對(duì)照組具有相似的行為習(xí)慣和偏好。
- 設(shè)備:以設(shè)備作為實(shí)驗(yàn)對(duì)象時(shí),每個(gè)設(shè)備將只分配給一個(gè)實(shí)驗(yàn)組或?qū)φ战M。因?yàn)檫@些設(shè)備通常只能由一個(gè)用戶使用,可以避免同一個(gè)用戶在兩個(gè)分桶中的情況,從而確保數(shù)據(jù)的可靠性。使用設(shè)備作為實(shí)驗(yàn)對(duì)象時(shí),需要考慮到設(shè)備的數(shù)量、品牌和型號(hào)的變化。
- 頁面或屏幕:這是一種適用于網(wǎng)站和應(yīng)用程序的實(shí)驗(yàn)對(duì)象分類,因?yàn)檫@些頁面或屏幕通常是用戶與應(yīng)用程序交互的主要方式。使用時(shí),需要考慮到頁面或屏幕的種類、內(nèi)容和布局的變化。
- 對(duì)話:如果要對(duì)用戶在應(yīng)用或網(wǎng)站上的交互行為進(jìn)行實(shí)驗(yàn),可以使用對(duì)話作為實(shí)驗(yàn)對(duì)象,如聊天機(jī)器人或客服。需要確保實(shí)驗(yàn)的隨機(jī)性和可重復(fù)性,避免實(shí)驗(yàn)組和對(duì)照組之間對(duì)話內(nèi)容或應(yīng)用程序使用場景的差異對(duì)實(shí)驗(yàn)結(jié)果的影響。
- 區(qū)域:通常是將參與實(shí)驗(yàn)的用戶按照所在區(qū)域劃分為實(shí)驗(yàn)組和對(duì)照組。例如,可以按照城市、國家或地域等將用戶分組。在這種情況下,需要考慮到區(qū)域的多樣性、用戶數(shù)量的變化、用戶行為的差異等因素。同時(shí),需要確保實(shí)驗(yàn)組和對(duì)照組在每個(gè)區(qū)域的用戶數(shù)量相當(dāng),以確保實(shí)驗(yàn)結(jié)果的有效性。
- 時(shí)間:將參與實(shí)驗(yàn)的用戶按照時(shí)間順序劃分為實(shí)驗(yàn)組和對(duì)照組。例如,可以按照日期、星期幾、小時(shí)等將用戶分組。在這種情況下,需要考慮到時(shí)間的變化、用戶數(shù)量的變化、用戶行為的變化等因素。同時(shí),需要注意確保實(shí)驗(yàn)組和對(duì)照組在每個(gè)時(shí)間段內(nèi)的用戶數(shù)量相當(dāng),以確保實(shí)驗(yàn)結(jié)果的有效性。
4.1.2 明確目標(biāo)群體
除了確定好實(shí)驗(yàn)對(duì)象的類型,還需要明確實(shí)驗(yàn)?zāi)繕?biāo)群體。實(shí)際實(shí)驗(yàn)中,往往只需要針對(duì)特定對(duì)象進(jìn)行實(shí)驗(yàn),基本很少會(huì)有把所有用戶/設(shè)備當(dāng)做實(shí)驗(yàn)對(duì)象的情況。
比如在頁面設(shè)計(jì)中,針對(duì)B端和C端的頁面是不同的,當(dāng)實(shí)驗(yàn)針對(duì)的是B端商家的界面優(yōu)化時(shí),實(shí)驗(yàn)就與C端用戶無關(guān),即可排除掉無關(guān)的C端用戶。同時(shí),登錄方式包括網(wǎng)頁、APP, 網(wǎng)頁頁面優(yōu)化和手機(jī)用戶的體驗(yàn)無關(guān)。盡量減少不相干的用戶
在實(shí)際應(yīng)用中,需要根據(jù)實(shí)驗(yàn)的具體情況來選擇適合的實(shí)驗(yàn)對(duì)象分類,并確保實(shí)驗(yàn)設(shè)計(jì)合理、隨機(jī)性良好,以獲得可靠的實(shí)驗(yàn)結(jié)果。
4.2 計(jì)算樣本量
4.2.1最小樣本量的意義
實(shí)驗(yàn)和業(yè)務(wù)的要求不同。實(shí)驗(yàn)是希望樣本量越大越好,樣本量越大越能保證實(shí)驗(yàn)結(jié)果準(zhǔn)確;但是業(yè)務(wù)方希望樣本小,可以降低風(fēng)險(xiǎn),加速迭代。
樣本量過小可能會(huì)導(dǎo)致測試結(jié)果不夠準(zhǔn)確,而樣本量過大則可能會(huì)浪費(fèi)資源。因此,實(shí)驗(yàn)必須 滿足最小樣本量,實(shí)驗(yàn)結(jié)果中的數(shù)據(jù)檢驗(yàn)才可信。如果沒有計(jì)算樣本大小,可能會(huì)提前停止測試而得出錯(cuò)誤結(jié)論。
樣本量計(jì)算工具網(wǎng)址
加粗樣式
4.2.2 顯著性水平(Significant level)
顯著性水平是指在假設(shè)檢驗(yàn)中拒絕零假設(shè)的概率,用α表示。通常使用的顯著性水平是0.05或0.01,表示假設(shè)檢驗(yàn)中有5%或1%的概率出現(xiàn)誤判,即錯(cuò)誤地拒絕了真實(shí)的零假設(shè)。
換言之,在95%或99%的情況下,我們可以相信實(shí)驗(yàn)結(jié)果的可靠性。
1-α 為置信度或置信水平
4.2.3 統(tǒng)計(jì)功效(Statistical power)
統(tǒng)計(jì)功效(statistical power)是指在統(tǒng)計(jì)假設(shè)檢驗(yàn)中,能夠正確拒絕原假設(shè)的概率,即檢驗(yàn)?zāi)軌虬l(fā)現(xiàn)真實(shí)效應(yīng)的概率。 也可以解釋為,正確地獲得小的P值(<0.05)的概率。
在計(jì)算樣本量時(shí),通常會(huì)根據(jù)要求選擇實(shí)驗(yàn)的功效為0.8或0.9(或更高),即β在0.2(或0.1)以下。
引用百度百科解釋:
在假設(shè)檢驗(yàn)中, 當(dāng)原假設(shè)錯(cuò)誤時(shí), 接受正確的替換假設(shè)的概率。
已知在假設(shè)檢驗(yàn)中:α錯(cuò)誤是棄真錯(cuò)誤,β錯(cuò)誤是取偽錯(cuò)誤。取偽錯(cuò)誤是指,原假設(shè)為假,樣本觀測值沒有落在拒絕域中,從而接受原假設(shè)的概率,即在原假設(shè)為假的情況下接受原假設(shè)的概率。
由此可知, 統(tǒng)計(jì)功效等于1-β。
它是在假設(shè)真實(shí)存在一定的效應(yīng)差異時(shí),我們能夠在實(shí)驗(yàn)中檢測到這種效應(yīng)的概率。
統(tǒng)計(jì)功效與一類錯(cuò)誤和二類錯(cuò)誤密切相關(guān),因?yàn)樵黾咏y(tǒng)計(jì)功效會(huì)降低二類錯(cuò)誤的概率,但同時(shí)可能增加一類錯(cuò)誤的概率。
4.2.4 最小可檢測效應(yīng)(Minimum detectable effect)
MDE指在實(shí)驗(yàn)中你希望能夠檢測到的最小變化量。 換句話說,它是一個(gè)指標(biāo),可以幫助我們確定是否需要進(jìn)行實(shí)驗(yàn),并確定實(shí)驗(yàn)的樣本大小。在實(shí)際運(yùn)用中,我們通常會(huì)設(shè)定一個(gè)最小可檢測效應(yīng)值,如果實(shí)驗(yàn)的結(jié)果小于該值,我們則認(rèn)為實(shí)驗(yàn)結(jié)果不具有顯著性,不值得進(jìn)一步的關(guān)注。
通常情況下,最小可檢測效應(yīng)越小,需要的樣本量就越大。
舉個(gè)例子:
一個(gè)旅行網(wǎng)站希望能夠驗(yàn)證一個(gè)方案去提高旅游報(bào)銷的銷售額。
已知: 1)網(wǎng)站每年有730,000個(gè)用戶預(yù)定;2)預(yù)計(jì)保險(xiǎn)的凈利潤為每個(gè)用戶3美元;3)新方案將花費(fèi)團(tuán)隊(duì)總計(jì)75000美元成本。
因此,在年度基礎(chǔ)上,網(wǎng)站必須銷售25,000份保險(xiǎn)才能達(dá)到盈虧平衡,相當(dāng)于添加保險(xiǎn)的預(yù)訂量為3.42% (25000 / 730000 = 0.0342)。通過ROI計(jì)算,3.42%將是一個(gè)合理的MDE。 即與現(xiàn)在相比,新方案需要對(duì)保險(xiǎn)銷量有3.42%的提升,該實(shí)驗(yàn)才有意義。
4.3 實(shí)驗(yàn)周期
一般而言,AB測試的實(shí)驗(yàn)周期應(yīng)當(dāng)足夠長,以確保測試結(jié)果具有統(tǒng)計(jì)學(xué)意義和穩(wěn)定性。
測試周期過短可能會(huì)導(dǎo)致測試結(jié)果不可靠或穩(wěn)定性差,而測試周期過長則會(huì)延長測試周期和成本,影響測試效率。
在實(shí)際應(yīng)用中一般是1~2周,以確保在不同時(shí)間段的測試結(jié)果差異不會(huì)對(duì)測試結(jié)果造成顯著影響。此外,測試時(shí)長還應(yīng)當(dāng)根據(jù)測試指標(biāo)和變化量大小來決定,一些指標(biāo)可能需要更長的測試周期才能反映出變化的效果。
需要考慮周期效應(yīng)和新奇效應(yīng):
4.3.1 周期效應(yīng)(period effect)
周期效應(yīng)是指用戶行為周期帶來的效應(yīng),比如季節(jié)效應(yīng)、周內(nèi)效應(yīng)。用戶可能會(huì)在某些時(shí)間點(diǎn)表現(xiàn)出與其他時(shí)間點(diǎn)不同的行為。
為了避免周期效應(yīng)對(duì)實(shí)驗(yàn)結(jié)果的影響,可以采取以下措施:
-
控制外部變量:盡可能地控制與實(shí)驗(yàn)相關(guān)的外部變量,例如假期、天氣等因素。這樣可以減少這些外部因素對(duì)實(shí)驗(yàn)結(jié)果的干擾,并更準(zhǔn)確地評(píng)估實(shí)驗(yàn)的效果。
-
分層實(shí)驗(yàn):在實(shí)驗(yàn)設(shè)計(jì)中,可以將用戶分成不同的層級(jí),例如按照地理位置、年齡、性別等進(jìn)行分層。這樣可以更好地控制周期效應(yīng)的影響,因?yàn)椴煌瑢蛹?jí)的用戶可能會(huì)受到不同的周期性影響。
-
長期實(shí)驗(yàn):如果實(shí)驗(yàn)的目的是評(píng)估某個(gè)長期效果,那么可以考慮將實(shí)驗(yàn)設(shè)計(jì)成長期實(shí)驗(yàn),以避免周期效應(yīng)的影響。通過持續(xù)觀察實(shí)驗(yàn)結(jié)果,可以更好地確定實(shí)驗(yàn)的效果,并減少周期效應(yīng)對(duì)實(shí)驗(yàn)結(jié)果的干擾。
4.3.2 新奇效應(yīng)(novelty effect)
新奇效應(yīng)是指在用戶面對(duì)新的或不同于以往的體驗(yàn)或設(shè)計(jì)時(shí),會(huì)對(duì)其產(chǎn)生興趣和好奇心,從而可能會(huì)導(dǎo)致其行為發(fā)生變化,而這種變化可能與實(shí)驗(yàn)本身無關(guān)。
為了避免新奇效應(yīng)對(duì)實(shí)驗(yàn)結(jié)果的影響,可以采取以下措施:
-
增加對(duì)照組數(shù)量:增加對(duì)照組數(shù)量可以幫助我們更好地確定實(shí)驗(yàn)結(jié)果是否受到新奇效應(yīng)的影響。如果對(duì)照組數(shù)量足夠大,那么我們就可以比較對(duì)照組和實(shí)驗(yàn)組之間的行為差異,從而確定實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)顯著性。
-
分階段實(shí)驗(yàn):將實(shí)驗(yàn)分成多個(gè)階段進(jìn)行,逐步引入新設(shè)計(jì)或體驗(yàn),可以幫助我們更好地了解用戶行為的變化。通過觀察不同階段的實(shí)驗(yàn)結(jié)果,我們可以更準(zhǔn)確地確定新奇效應(yīng)的影響,并確定新設(shè)計(jì)或體驗(yàn)所帶來的真正效果。
參考資料:
https://www.invespcro.com/blog/calculating-sample-size-for-an-ab-test/
https://www.eyeofcloud.com/abtest-widget/124.html
https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/
https://towardsdatascience.com/how-to-set-the-minimum-detectable-effect-in-ab-tests-fe07f8002d6d