Сколько вариаций нужно проверить в A/B тестировании?

Проблема множественных сравнений

Если проверять несколько вариаций одновременно, можно столкнуться с общей ошибкой первого рода.

  • Критерий Фишера
  • Поправка Бонферрони
  • Ожидаемая доля ложных отклонений гипотез
  • Поправка Шидака

Что если увеличить число вариаций?

Google тестировал 41 оттенок синего. У такого метода принятия решений есть как сторонники, так и ненавистники.

Что если уменьшить число вариаций?

Многие эксперты склоняются к тестированию малого числа вариаций — кто-то исходя из математических доказательств, приведенные выше в статье, другие используют это как средство оптимизации стратегии. Один момент: с поправками ошибок первого рода тестировать большое количество вариаций почти всегда дольше. Можно работать строго в рамках итеративного подхода, где вы будете изучат поведение пользователя очень пристально и тестировать одновременно одну или пару вариаций. Возможно, ваша компания давно не проводила тестирования, а вы хотите продемонстрировать быстрые успехи, не вникая в тонкости ANOVA или увеличение вероятности ошибок первого рода.

Ошибки выборки

Когда выборка неправильно распределяется случайным образом или пользователи видят несколько вариаций в тестировании, возникает ошибка выборки.

Трафик и время

Необходимо также учитывать трафик и время. Сколько времени занимает создать 10 существенно различных вариаций? С каким трафиком придется иметь дело и как долго вы будете проводить достоверное тестирование?

А где же золотая середина?

Я спросил доктора Джулию Энгельман, главу отдела данных и аналитики в Web Arts/konversionsKRAFT, как они решают, сколько вариаций тестировать. Энгельман заявила, что универсального ответа дать нельзя.

Факторы, определяющие количество вариаций

Советовать читателям этой статьи тестировать 41 оттенок цвета или, наоборот, выбрать одну единственную вариацию, было бы неправильно. У каждого сайта своя аудитория, конверсии, прибыль, трафик и т. д., так же, как и у каждой компании своя структура, политика и рабочие процессы. Здесь нужен дифферинцированный подход.

Относитесь к своим ресурсам внимательно

Помимо трафика, вы должны отвечать за ваши индивидуальные ресурсы и эффективность организации. Сколько времени займет у вашей команды дизайнеров и разработчиков внести масштабные изменения по сравнению с пошаговым тестированием (как 41 оттенок синего)? На первое уйдет очень много времени, тогда как на второе — почти ничего.

Заключение

Если у вас нет времени все это читать, резюмирую: одного универсального ответа на вопрос заголовка нет. У меня нет любимого метода, я всегда за те варианты, которые приносят лучший результат. Он зависит от трафика, конверсии, аудитории, корпоративной культуры и процесса работы. Тем не менее, математика — не ограничивающий фактор в целом. Более того, выбор стоит делать исходя из приведенных выше факторов. Ради тестирования большего количества вариаций нужно убирать пределы идей, потому что вы всегда думаете, что сработает, а что — нет. Если различия между вариациями большие, то шансы на победу велики. Ограничивая вариации, вы «загрязняете» выборку, трафик и затраты на время и ресурсы.

--

--

Идеи, которые нас вдохновляют, видео-интервью и переводы исследований, которые были нам полезны в процессе работы. http://blog.aic.ru/

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
aic blog

aic blog

1.2K Followers

Идеи, которые нас вдохновляют, видео-интервью и переводы исследований, которые были нам полезны в процессе работы. http://blog.aic.ru/