Подготовка к тестированию Прежде чем запустить эксперимент, нужно сделать несколько подготовительных шагов.
- Определитесь с видом тестирования.
- Рассчитайте размер выборки, доверительный интервал и мощность.
- Рассчитайте длительность эксперимента.
- Подготовьте инструментарий для тестирования.
- Убедитесь в чистоте эксперимента.
- Настройте системы аналитики.
- Настройте сегменты для тестирования.
Давайте разберем все шаги по порядку.
1. Определитесь с видом тестирования
Выберите, какой вариант тестирования подойдет вам.
Вот несколько возможных вариантов:
- A/B-тестирование.
- MVT (мультивариативное тестирование).
- Ухудшающее A/B-тестирование.
- A/A/B-тестирование.
В нашем примере мы рассмотрим самый часто используемый из вариантов — A/B-тестирование.
2. Рассчитайте размер выборки, доверительный интервал и мощность
Перед запуском определите, сколько пользователей нужно привлечь на каждый из вариантов А/B-теста, чтобы данные в итоге получились статистически значимыми.
Воспользуемся
калькулятором Эвана Миллера для расчёта выборки (смотрите скриншот ниже).
В «Baseline conversion rate» указываем конверсию контрольной версии, в нашем случае 2%.
В «Minimum Detectable Effect» указываем на сколько процентов увеличится конверсия контрольной версии, в нашем случае на +1%.
Significance level α (уровень доверия) — это уровень риска, который вы принимаете при ошибках первого рода (отклонение контрольной версии теста, если она верна), обычно α = 0.05.
Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью.
Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.
Statistical power 1−β (статистическая мощность) — это ошибки второго рода, вероятность того, что мы на выборке примем тестовую версию, если на самом деле она верна (шанс обнаружить эффект, если он на самом деле есть). При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить отклонения от контрольной версии. Если вы не знаете, какой процент показателя стоит указать, оставьте значения по умолчанию (80%).
В итоге мы понимаем, что для корректного теста нам нужно по 3 292 пользователей на каждый из вариантов А/B-теста.