Почему A/B-тесты дают неправильные результаты?

Сейчас практически все знают, что такое A/B-тесты, или сплит-тесты, но никто не знает, почему многие из них дают бесполезные результаты. Конечно, некоторые A/B-тесты приносят плоды. Вы наверняка часто слышали: «Компания Х повысила конверсию на 38 % благодаря сплит-тестированию». А сколько было неудачных тестов? AppSumo показал, что только 1 из 8 тестов приводит к результатам. Кайзер Фунг, специалист по статистике в Vimeo, считает, что 80–90 % A/B-тестов, которые он проводил, принесли незначительные результаты.

Где обещанный скачок конверсии на 38 %?

Что же происходит? Где тот обещанный скачок на 38 % и похвала от начальства?

Не расстраивайтесь! Серьёзных результатов от A/B-тестов можно добиться только после того, как вы по-настоящему разберётесь в алгоритме работы сплит-тестов.

A/B-тест

Учтите, что практически никто не садится и не пишет сообщения в блоге о трёх вариантах тестов, которые не принесли результатов в конверсии. Это означает, что результаты статистически неверные и не позволяют сделать выводы из эксперимента.

Предположим, что вы бросаете две монеты, двадцать раз каждую. «Монетка А» падает орлом вверх 12 раз. «Монетка B» 9 раз. Вы же не понесётесь всем рассказывать, что нашли монетку, которая на 33 % успешнее приземляется?! Итак, показатель вариативности получается совершенно случайно, а не статистически. Теперь, если вы подбросите каждую монетку ещё 180 раз и «Монетка А» упадёт орлом 120 раз, а «Монетка B» 90 раз, то маркетологи сделают вывод: есть тенденция…

Конечно, две одинаковые монеты не имеют особых различий. Это может показаться довольно глупым экспериментом. Но он демонстрирует, почему сплит-тесты дают неточные результаты. Мы тратим время на тестирование гипотез, не имеющих существенных различий, и в результате имеем дело со статистически неверной информацией. Получается, что большая часть вины лежит на тех, кто производит множество глупых кейсов и экспериментов.

И если кого и винить, то это глупый пример с кнопкой

Эксперимент сплит-тестов с кнопками разных цветов — это простой пример, который превосходно объясняет концепцию теста. У одной части аудитории кнопка «КУПИТЬ» зелёного цвета, а у другой красного. Вы запускаете тест и смотрите, у какой кнопки более высокий уровень конверсии.

И правда в том, что некоторые компании действительно проводят этот эксперимент и получают значимые результаты для улучшения продаж.

Но я считаю, это бесполезная трата времени.

Смена темы письма не даёт ощутимых результатов

Ещё один пример от Mixpanel, системы для аналитики поведения пользователей. Компания редко посылает электронные письма по общему списку подписчиков. Обычно они уведомляют только о выходе новых статей подписчиков блога. Но после обновления платформы было решено сделать массовую рассылку и заодно провести сплит-тест. Тема первого письма: «Почему 15 миллионов пользователей недостаточно хороши для такого пустякового мобильного приложения?». Потом маркетологи вспомнили, что упоминание бренда может увеличить уровень открытия, и темой второго письма стала фраза: «Mixpanel — почему 15 миллионов пользователей недостаточно хороши для такого пустякового мобильного приложения?». Два вида писем разослали сотням тысяч пользователей. Результаты были следующие: в письме без названия компании процент открытия составил 22,75 %, с названием компании — 22,73 %. Различие 0,02 %. Разница — 20 открытий. Вывод был один: надо более серьёзно подходить к проведению тестов.

Как исправить ситуацию?

Можно провести тестирование с совершенно различными темами письма. Например, у Mixpanel следующим вариантом стало кардинальное изменение подхода к созданию темы: «Как QuizUp превратился в самую популярную игру-викторину в истории?». Такое яркое различие тем могло бы привести к более значительным различиям в статистических данных. Но как применить полученные данные? Возможно, маркетологи выяснили бы, какие темы больше нравятся получателям рассылки. Но так ли важна эта информация? Несомненно, этот тест был выстроен плохо, так как не являлся частью глобальной стратегии оптимизации маркетинговых каналов или пользовательского опыта читателей.

Если перед началом очередного сплит-теста вы сможете сформулировать правильные задачи, которые будут частью глобальной маркетинговой стратегии, то получите несомненно хорошие результаты. Вы хотите повысить число подписчиков, увеличить конверсию, средний чек или жизненный цикл клиента. Если вы знаете, как повышение процента открытий емейл-рассылки связано с показателями конверсии и среднего чека, то сможете эффективно организовать все тесты. Казалось бы, очевидные вещи, но многие забывают об этом.

Хари Ананс, сооснователь стартапа по поиску работы Jobr, рассказал о проведении А/В-тестов с целью приобретения новых пользователей: «Мы хотели увеличить количество новых пользователей, для чего определили два важнейших шага и создали несколько вариантов для каждого теста, дабы обеспечить достаточную эффективность. После проверки всех вариантов на приемлемом количестве трафика мы смогли оптимизировать поток и повысить конверсию на 225 %».

Неслучайно этот случай оказался столь показательным. Это был глубоко продуманный эксперимент, являющийся частью всеобщей стратегии проверки значимых аспектов продукта. У маркетологов было достаточно трафика, времени и вариантов, чтобы получить статистически достоверные результаты.

Итак, если вам надоели бессмысленные результаты и вы жаждете роста конверсии на 38 %, то вот ответ: потратьте достаточное количество времени, чтобы создать продуманные А/В-тесты, — и вы получите долгожданные результаты.

Источник: blog.mixpanel.com
Поделиться статьёй
Подписаться на рассылку