|
Post by account_disabled on Apr 15, 2024 23:04:20 GMT -5
长话短说 我认为(没有数据)您应该通过考虑每个变体如果您选择该变体您将损失的金额来决定何时结束 A/B 测试。如果您看到可接受的交易,请接受并结束测试!一般来说,随着收集的样本越多,所提供的交易往往会变得更好。我认为什么是“可接受的”应该取决于外部因素,例如运行测试的时间、队列中下一个 A/B 测试的兴奋因素以及变体的相对可维护性。 “您可能损失的金额”是与其他最佳变体相比,该变体的转化率在最坏情况下下降的情况。我将“最坏情况”定义为事情没有这么糟糕的概率为 95%。如果你保守的话,98%+。随着您收集更多数据,每个变体的“最坏情况”变得更加现实。一旦变体的最坏情况对您来说是可以接受的 - 要么是因为即使是最坏的情况也是一种收益(巨大的成功!),或者因为这是一个可以接受的小损失并且您已经失去了耐心(以前在草率的圈子中被称为无效结果) ) - 您应该结束测试并使用该变体。 请注意:如果您没有实施正确的统计数据,那么上述建议可能会带来灾难性的后果! 简介 - Freelancer 的数据 在 Freelancer.com,我们进行了大量的 A/B 测试。通过相互测试想法并观察真实的人们的反应,我们在网站的可用性方面取得了很大的进步(并避免了偶尔的倒退!)。我们的客户用脚 瑞士 移动电话号码 投票,我们可以了解新的表格是否确实使发布项目变得更容易,或者我们可以检查我们的新配对算法是否实际上正在帮助真实的人找到最合适的自由职业者。 我们是一家快节奏、数据驱动的公司。在过去 8 小时内,我们为内部仪表板自动生成了 3,000 多个图表。我们的数据科学家轮流梳理这些内容,并在每日统计电子邮件中呈现结果,这通常会设定当天的讨论议程。 A/B 测试的贝叶斯分析非常适合我们。我们可以随时检查测试结果。如果有很好的结果,我们可以提前结束测试并继续下一个测试。或者,我们可以让测试运行的时间比计划的时间长一些,以期取得显着的结果。 我们也可以直接回答“变体 B 比变体 A 更好的概率是多少?”之类的问题。当您做出业务决策时,这是一个比“两种变体同等有效并且观察到的结果偶然出现的概率是多少?”更直接有用的问题,这是原假设检验中通常提出的问题。 但是贝叶斯论与(非顺序)频率论的争论已经够多了!你可以在很多 地方重温这场辩论 。本文的目的是介绍一个在分析 A/B 测试时要问的新问题(对我来说,也许对你来说)。 在本文中,我将假设您正在对伯努利过程进行建模,即每个样本要么转换,要么不转换。您的对比测试可以涉及两个或多个变体。 首先,我回顾一下贝叶斯 A/B 测试评估的最常见问题,并指出它不能优雅地处理空结果。然后我讨论解决这个问题的一个简单方法(“降低你的标准”)。然后我更进一步,评估我主观上认为更“老板”并且对制定业务决策(“进行交易”)更有用的数量。在热烈的讨论之后,我给出了每个问题的数学公式(“数学”),然后以数值实现的概要(“代码”)作为结束。
|
|