當(dāng)前位置：首頁 > news >正文

微信公眾號(hào)人工客服電話轉(zhuǎn)人工/南陽網(wǎng)站優(yōu)化公司

news 2025/7/7 12:43:51

微信公眾號(hào)人工客服電話轉(zhuǎn)人工,南陽網(wǎng)站優(yōu)化公司,合肥建站平臺(tái),北京傳媒公司排行榜前言： 作為AB測試的學(xué)習(xí)記錄，接上文內(nèi)容， 本文繼續(xù)介紹假設(shè)建立和實(shí)驗(yàn)設(shè)計(jì)部分，包括實(shí)驗(yàn)對(duì)象、樣本量計(jì)算（顯著性水平、統(tǒng)計(jì)功效及最小可檢測效應(yīng)）、實(shí)驗(yàn)周期。相關(guān)文章： AB測試——原理介紹 A…

前言：作為AB測試的學(xué)習(xí)記錄，接上文內(nèi)容，本文繼續(xù)介紹假設(shè)建立和實(shí)驗(yàn)設(shè)計(jì)部分，包括實(shí)驗(yàn)對(duì)象、樣本量計(jì)算（顯著性水平、統(tǒng)計(jì)功效及最小可檢測效應(yīng)）、實(shí)驗(yàn)周期。
相關(guān)文章：
AB測試——原理介紹
AB測試——流程介紹（定義問題和指標(biāo)選取）

3. 假設(shè)建立

在這里插入圖片描述

3.1 原假設(shè)和備擇假設(shè)

在AB測試中，我們需要建立原假設(shè)和備擇假設(shè)：

零假設(shè)（H0）是默認(rèn)的假設(shè)，即控制組和實(shí)驗(yàn)組之間沒有顯著差異。它表明兩組之間任何觀察到的差異都是由于機(jī)會(huì)因素造成的。
備擇假設(shè)（Ha）與零假設(shè)相反。它表明控制組和實(shí)驗(yàn)組之間存在統(tǒng)計(jì)學(xué)上顯著的差異，而這種差異不是由于機(jī)會(huì)因素造成的。

3.2 案例說明

例如，我們進(jìn)行了一個(gè)AB測試，將用戶隨機(jī)分為A組和B組，在A組中采用原來的頁面設(shè)計(jì)，在B組中采用新的頁面設(shè)計(jì)，然后比較兩組用戶的轉(zhuǎn)化率。我們建立如下的假設(shè)：

原假設(shè)（H0）：頁面設(shè)計(jì)對(duì)轉(zhuǎn)化率沒有顯著影響，A組和B組的轉(zhuǎn)化率相同。
備選假設(shè)（H1）：頁面設(shè)計(jì)對(duì)轉(zhuǎn)化率有顯著影響，A組和B組的轉(zhuǎn)化率不相同。

一個(gè)完整的AB測試假設(shè)可以描述為：“通過改進(jìn)網(wǎng)站的頁面設(shè)計(jì)（優(yōu)化方向）來提高注冊轉(zhuǎn)化率（測試指標(biāo)），我們將測試兩個(gè)版本的網(wǎng)站頁面（測試變量）：版本A和版本B。我們希望看到版本B的注冊轉(zhuǎn)化率顯著優(yōu)于版本A，我們將在測試期內(nèi)每個(gè)版本中招募至少1000名用戶（測試樣本量），測試期為兩周（測試時(shí)間）?！?/p>

在AB測試中，建立清晰明確的假設(shè)非常重要，它能夠幫助我們更好地理解測試目標(biāo)和測試方案，高測試的可信度和有效性，從而優(yōu)化產(chǎn)品和服務(wù)的效果

4. 實(shí)驗(yàn)設(shè)計(jì)

4.1 確定實(shí)驗(yàn)對(duì)象

4.1.1實(shí)驗(yàn)對(duì)象分類

實(shí)驗(yàn)對(duì)象類型下面總結(jié)了比較常見的六種：

用戶：以每個(gè)用戶的唯一標(biāo)識(shí)（比如身份證號(hào)、用戶ID）作為實(shí)驗(yàn)樣本可以避免數(shù)據(jù)混淆，但需要注意用戶特性、數(shù)量和行為對(duì)實(shí)驗(yàn)結(jié)果的影響，如用戶數(shù)量較少時(shí)需要增加實(shí)驗(yàn)時(shí)間，保證實(shí)驗(yàn)組和對(duì)照組具有相似的行為習(xí)慣和偏好。
設(shè)備：以設(shè)備作為實(shí)驗(yàn)對(duì)象時(shí)，每個(gè)設(shè)備將只分配給一個(gè)實(shí)驗(yàn)組或?qū)φ战M。因?yàn)檫@些設(shè)備通常只能由一個(gè)用戶使用，可以避免同一個(gè)用戶在兩個(gè)分桶中的情況，從而確保數(shù)據(jù)的可靠性。使用設(shè)備作為實(shí)驗(yàn)對(duì)象時(shí)，需要考慮到設(shè)備的數(shù)量、品牌和型號(hào)的變化。
頁面或屏幕：這是一種適用于網(wǎng)站和應(yīng)用程序的實(shí)驗(yàn)對(duì)象分類，因?yàn)檫@些頁面或屏幕通常是用戶與應(yīng)用程序交互的主要方式。使用時(shí)，需要考慮到頁面或屏幕的種類、內(nèi)容和布局的變化。
對(duì)話：如果要對(duì)用戶在應(yīng)用或網(wǎng)站上的交互行為進(jìn)行實(shí)驗(yàn)，可以使用對(duì)話作為實(shí)驗(yàn)對(duì)象，如聊天機(jī)器人或客服。需要確保實(shí)驗(yàn)的隨機(jī)性和可重復(fù)性，避免實(shí)驗(yàn)組和對(duì)照組之間對(duì)話內(nèi)容或應(yīng)用程序使用場景的差異對(duì)實(shí)驗(yàn)結(jié)果的影響。
區(qū)域：通常是將參與實(shí)驗(yàn)的用戶按照所在區(qū)域劃分為實(shí)驗(yàn)組和對(duì)照組。例如，可以按照城市、國家或地域等將用戶分組。在這種情況下，需要考慮到區(qū)域的多樣性、用戶數(shù)量的變化、用戶行為的差異等因素。同時(shí)，需要確保實(shí)驗(yàn)組和對(duì)照組在每個(gè)區(qū)域的用戶數(shù)量相當(dāng)，以確保實(shí)驗(yàn)結(jié)果的有效性。
時(shí)間：將參與實(shí)驗(yàn)的用戶按照時(shí)間順序劃分為實(shí)驗(yàn)組和對(duì)照組。例如，可以按照日期、星期幾、小時(shí)等將用戶分組。在這種情況下，需要考慮到時(shí)間的變化、用戶數(shù)量的變化、用戶行為的變化等因素。同時(shí)，需要注意確保實(shí)驗(yàn)組和對(duì)照組在每個(gè)時(shí)間段內(nèi)的用戶數(shù)量相當(dāng)，以確保實(shí)驗(yàn)結(jié)果的有效性。

4.1.2 明確目標(biāo)群體

除了確定好實(shí)驗(yàn)對(duì)象的類型，還需要明確實(shí)驗(yàn)?zāi)繕?biāo)群體。實(shí)際實(shí)驗(yàn)中，往往只需要針對(duì)特定對(duì)象進(jìn)行實(shí)驗(yàn)，基本很少會(huì)有把所有用戶/設(shè)備當(dāng)做實(shí)驗(yàn)對(duì)象的情況。

比如在頁面設(shè)計(jì)中，針對(duì)B端和C端的頁面是不同的，當(dāng)實(shí)驗(yàn)針對(duì)的是B端商家的界面優(yōu)化時(shí)，實(shí)驗(yàn)就與C端用戶無關(guān)，即可排除掉無關(guān)的C端用戶。同時(shí)，登錄方式包括網(wǎng)頁、APP，網(wǎng)頁頁面優(yōu)化和手機(jī)用戶的體驗(yàn)無關(guān)。盡量減少不相干的用戶

在實(shí)際應(yīng)用中，需要根據(jù)實(shí)驗(yàn)的具體情況來選擇適合的實(shí)驗(yàn)對(duì)象分類，并確保實(shí)驗(yàn)設(shè)計(jì)合理、隨機(jī)性良好，以獲得可靠的實(shí)驗(yàn)結(jié)果。

4.2 計(jì)算樣本量

4.2.1最小樣本量的意義

實(shí)驗(yàn)和業(yè)務(wù)的要求不同。實(shí)驗(yàn)是希望樣本量越大越好，樣本量越大越能保證實(shí)驗(yàn)結(jié)果準(zhǔn)確；但是業(yè)務(wù)方希望樣本小，可以降低風(fēng)險(xiǎn)，加速迭代。

樣本量過小可能會(huì)導(dǎo)致測試結(jié)果不夠準(zhǔn)確，而樣本量過大則可能會(huì)浪費(fèi)資源。因此，實(shí)驗(yàn)必須 滿足最小樣本量，實(shí)驗(yàn)結(jié)果中的數(shù)據(jù)檢驗(yàn)才可信。如果沒有計(jì)算樣本大小，可能會(huì)提前停止測試而得出錯(cuò)誤結(jié)論。

樣本量計(jì)算工具網(wǎng)址
加粗樣式

4.2.2 顯著性水平（Significant level）

在這里插入圖片描述
顯著性水平是指在假設(shè)檢驗(yàn)中拒絕零假設(shè)的概率，用α表示。通常使用的顯著性水平是0.05或0.01，表示假設(shè)檢驗(yàn)中有5%或1%的概率出現(xiàn)誤判，即錯(cuò)誤地拒絕了真實(shí)的零假設(shè)。
換言之，在95%或99%的情況下，我們可以相信實(shí)驗(yàn)結(jié)果的可靠性。

1-α 為置信度或置信水平

4.2.3 統(tǒng)計(jì)功效（Statistical power）

統(tǒng)計(jì)功效（statistical power）是指在統(tǒng)計(jì)假設(shè)檢驗(yàn)中，能夠正確拒絕原假設(shè)的概率，即檢驗(yàn)?zāi)軌虬l(fā)現(xiàn)真實(shí)效應(yīng)的概率。也可以解釋為，正確地獲得小的P值（<0.05）的概率。

在計(jì)算樣本量時(shí)，通常會(huì)根據(jù)要求選擇實(shí)驗(yàn)的功效為0.8或0.9（或更高），即β在0.2（或0.1）以下。

引用百度百科解釋：
在假設(shè)檢驗(yàn)中，當(dāng)原假設(shè)錯(cuò)誤時(shí)，接受正確的替換假設(shè)的概率。
已知在假設(shè)檢驗(yàn)中：α錯(cuò)誤是棄真錯(cuò)誤，β錯(cuò)誤是取偽錯(cuò)誤。取偽錯(cuò)誤是指，原假設(shè)為假，樣本觀測值沒有落在拒絕域中，從而接受原假設(shè)的概率，即在原假設(shè)為假的情況下接受原假設(shè)的概率。
由此可知， 統(tǒng)計(jì)功效等于1-β。

它是在假設(shè)真實(shí)存在一定的效應(yīng)差異時(shí)，我們能夠在實(shí)驗(yàn)中檢測到這種效應(yīng)的概率。

統(tǒng)計(jì)功效與一類錯(cuò)誤和二類錯(cuò)誤密切相關(guān)，因?yàn)樵黾咏y(tǒng)計(jì)功效會(huì)降低二類錯(cuò)誤的概率，但同時(shí)可能增加一類錯(cuò)誤的概率。

4.2.4 最小可檢測效應(yīng)（Minimum detectable effect）

MDE指在實(shí)驗(yàn)中你希望能夠檢測到的最小變化量。 換句話說，它是一個(gè)指標(biāo)，可以幫助我們確定是否需要進(jìn)行實(shí)驗(yàn)，并確定實(shí)驗(yàn)的樣本大小。在實(shí)際運(yùn)用中，我們通常會(huì)設(shè)定一個(gè)最小可檢測效應(yīng)值，如果實(shí)驗(yàn)的結(jié)果小于該值，我們則認(rèn)為實(shí)驗(yàn)結(jié)果不具有顯著性，不值得進(jìn)一步的關(guān)注。

通常情況下，最小可檢測效應(yīng)越小，需要的樣本量就越大。

舉個(gè)例子:

一個(gè)旅行網(wǎng)站希望能夠驗(yàn)證一個(gè)方案去提高旅游報(bào)銷的銷售額。
已知： 1）網(wǎng)站每年有730,000個(gè)用戶預(yù)定；2）預(yù)計(jì)保險(xiǎn)的凈利潤為每個(gè)用戶3美元；3）新方案將花費(fèi)團(tuán)隊(duì)總計(jì)75000美元成本。

因此，在年度基礎(chǔ)上，網(wǎng)站必須銷售25,000份保險(xiǎn)才能達(dá)到盈虧平衡，相當(dāng)于添加保險(xiǎn)的預(yù)訂量為3.42％（25000 / 730000 = 0.0342）。通過ROI計(jì)算，3.42％將是一個(gè)合理的MDE。即與現(xiàn)在相比，新方案需要對(duì)保險(xiǎn)銷量有3.42%的提升，該實(shí)驗(yàn)才有意義。

4.3 實(shí)驗(yàn)周期

在這里插入圖片描述
一般而言，AB測試的實(shí)驗(yàn)周期應(yīng)當(dāng)足夠長，以確保測試結(jié)果具有統(tǒng)計(jì)學(xué)意義和穩(wěn)定性。

測試周期過短可能會(huì)導(dǎo)致測試結(jié)果不可靠或穩(wěn)定性差，而測試周期過長則會(huì)延長測試周期和成本，影響測試效率。

在實(shí)際應(yīng)用中一般是1~2周，以確保在不同時(shí)間段的測試結(jié)果差異不會(huì)對(duì)測試結(jié)果造成顯著影響。此外，測試時(shí)長還應(yīng)當(dāng)根據(jù)測試指標(biāo)和變化量大小來決定，一些指標(biāo)可能需要更長的測試周期才能反映出變化的效果。

需要考慮周期效應(yīng)和新奇效應(yīng)：

4.3.1 周期效應(yīng)（period effect）

周期效應(yīng)是指用戶行為周期帶來的效應(yīng)，比如季節(jié)效應(yīng)、周內(nèi)效應(yīng)。用戶可能會(huì)在某些時(shí)間點(diǎn)表現(xiàn)出與其他時(shí)間點(diǎn)不同的行為。

為了避免周期效應(yīng)對(duì)實(shí)驗(yàn)結(jié)果的影響，可以采取以下措施：

控制外部變量：盡可能地控制與實(shí)驗(yàn)相關(guān)的外部變量，例如假期、天氣等因素。這樣可以減少這些外部因素對(duì)實(shí)驗(yàn)結(jié)果的干擾，并更準(zhǔn)確地評(píng)估實(shí)驗(yàn)的效果。
分層實(shí)驗(yàn)：在實(shí)驗(yàn)設(shè)計(jì)中，可以將用戶分成不同的層級(jí)，例如按照地理位置、年齡、性別等進(jìn)行分層。這樣可以更好地控制周期效應(yīng)的影響，因?yàn)椴煌瑢蛹?jí)的用戶可能會(huì)受到不同的周期性影響。
長期實(shí)驗(yàn)：如果實(shí)驗(yàn)的目的是評(píng)估某個(gè)長期效果，那么可以考慮將實(shí)驗(yàn)設(shè)計(jì)成長期實(shí)驗(yàn)，以避免周期效應(yīng)的影響。通過持續(xù)觀察實(shí)驗(yàn)結(jié)果，可以更好地確定實(shí)驗(yàn)的效果，并減少周期效應(yīng)對(duì)實(shí)驗(yàn)結(jié)果的干擾。

4.3.2 新奇效應(yīng)（novelty effect）

新奇效應(yīng)是指在用戶面對(duì)新的或不同于以往的體驗(yàn)或設(shè)計(jì)時(shí)，會(huì)對(duì)其產(chǎn)生興趣和好奇心，從而可能會(huì)導(dǎo)致其行為發(fā)生變化，而這種變化可能與實(shí)驗(yàn)本身無關(guān)。

為了避免新奇效應(yīng)對(duì)實(shí)驗(yàn)結(jié)果的影響，可以采取以下措施：

增加對(duì)照組數(shù)量：增加對(duì)照組數(shù)量可以幫助我們更好地確定實(shí)驗(yàn)結(jié)果是否受到新奇效應(yīng)的影響。如果對(duì)照組數(shù)量足夠大，那么我們就可以比較對(duì)照組和實(shí)驗(yàn)組之間的行為差異，從而確定實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)顯著性。
分階段實(shí)驗(yàn)：將實(shí)驗(yàn)分成多個(gè)階段進(jìn)行，逐步引入新設(shè)計(jì)或體驗(yàn)，可以幫助我們更好地了解用戶行為的變化。通過觀察不同階段的實(shí)驗(yàn)結(jié)果，我們可以更準(zhǔn)確地確定新奇效應(yīng)的影響，并確定新設(shè)計(jì)或體驗(yàn)所帶來的真正效果。

參考資料：
https://www.invespcro.com/blog/calculating-sample-size-for-an-ab-test/
https://www.eyeofcloud.com/abtest-widget/124.html
https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/
https://towardsdatascience.com/how-to-set-the-minimum-detectable-effect-in-ab-tests-fe07f8002d6d

查看全文

http://www.aloenet.com.cn/news/762.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡