Alexa.com и оценка аудитории российских сайтов

17.09.2009


Alexa.com — один из сервисов user-centric метода измерения аудитории сайтов. Сервис американского производства, но примечателен тем, что в отличие от своих аналогов-земляков, типа Compete.com, измеряет аудиторию по всему миру, а не только в США. При этом среди российских специалистов распространено мнение, что данным Alexa о российских сайтах нельзя доверять, поскольку панель Alexa нерепрезентативна для российской интернет-аудитории. Чтобы разобраться, так ли это, я отправил сообщение паре сотрудников Alexa, но ответа не получил. Так что остается только самому изучить вопрос.

Итак, как устроена Alexa. Во-первых, это тулбар, который пользователи по всему миру добровольно устанавливают на свои браузеры. Пользователи, установившие себе тулбар, формируют панель респондентов — информацию об всех их посещениях Alexa сохраняет в своей базе. Поскольку пользователей тулбара Alexa много, по закону больших чисел их посещения хорошо репрезентуют посещения всей аудитории Интернета. То есть если некоторый сайт посетили 1% всех пользователей тулбара Alexa, то можно считать, что данный сайт посетили 1% всей мировой интернет-аудитории. Зная размер интернет-аудитории во всем мире, можно затем вычислить охват этого сайта. Дальше начинаются нюансы.

Нюанс первый. В любых панельных исследованиях важным этапом является процедура нормализации или «взвешивания» панели респондентов. Это означает, что если, например, во всей интернет-аудитории (в терминах статистики это называется генеральной совокупностью) доля мужчин составляет 45%, а в панели респондентов — 60%, то необходимо хитрыми коэффициентами уменьшить «вес» мужчин в панели. В противном случае панель будет нерепрезентативна. К этой процедуре «взвешивания» панели Alexa и есть больше всего претензий. В хелпере Alexa говорится лишь о том, что процедура «взвешивания» проводится:

Alexa’s ranking methodology corrects for a large number of potential biases and calculates the ranks accordingly. We normalize based on the geographic location of site visitors. We correct for biases in the demographic distribution of site visitors. We correct for potential biases in the data collected from our Alexa Toolbar to better represent those types of site visitors who might not use an Alexa Toolbar.

… но никаких подробностей, на основании чего она проводится, нет (еще и с английским языком, здесь, кажется, не всё ладно). Короче, отсутствие информации традиционно вызывает недоверие.

Нюанс второй. Alexa выдает данные по доле среднесуточной интернет-аудитории, которая посетила конкретный сайт, и по доле просмотров страниц данного сайта от просмотров страниц всех сайтов в мире. То есть никаких абсолютных значений, типа 100 тыс. посетителей в сутки и 500 тыс. просмотров страниц в сутки, Alexa нам не сообщает.
089

Чтобы получить абсолютные значения нужно умножить проценты Alexa на некоторый коэффициент, который неизвестен.

Итак, моя цель:

  1. Понять, можно ли использовать данные Alexa при оценке аудитории сайта. Это полезно, когда нужно оценить аудиторию сайта, на котором не установлены публичные счетчики, типа Liveinternet или Mail.ru (например, какая аудитория у respectiva.ru?)
  2. Получить коэффициенты, с помощью которых можно конвертировать данные Alexa в реальные числа охвата и просмотров страниц.

Собственно, это было вступление. А теперь основная часть — как все это сделать.

Я взял 50 крупных русскоязычных сайтов с большой долей российской аудитории, для которых была доступна статистика LiveInternet. Выбирал я эти сайты достаточно случайно, стараясь брать сайты разной тематики и не брать совсем уж маленькие по аудитории, для которых данные Alexa будут некорректны просто в силу самой методики user-centric исследования (почему это так, можно почитать здесь).

Дальше для каждого из этих сайтов я собрал данные по среднесуточному охвату и среднесуточным просмотрам страниц в Alexa и в LiveInternet за август 2009 года. Выглядит это так:

Сайт Среднесуточный охват Среднесуточные просмотры страниц
Alexa LiveInternet Alexa LiveInternet
torrents.ru 0,2890% 871 481 0,03517% 13 861 488
gismeteo.ru 0,1284% 702 154 0,00503% 2 731 216
rian.ru 0,1023% 370 164 0,00376% 1 240 876
lenta.ru 0,1032% 368 642 0,00729% 2 472 466
radikal.ru 0,2197% 347 552 0,00986% 1 963 783
kinopoisk.ru 0,0892% 313 359 0,01615% 5 787 695
smotri.com 0,0384% 303 699 0,00515% 5 118 086
infox.ru 0,0588% 272 883 0,00201% 842 128
kp.ru 0,0697% 271 540 0,00294% 1 102 879
championat.ru 0,0669% 245 861 0,00657% 3 006 710
sport-express.ru 0,0618% 240 266 0,00539% 3 104 865
kinozal.tv 0,0452% 192 732 0,00734% 3 675 938
newsru.com 0,0522% 179 002 0,00203% 856 457
irr.ru 0,0326% 175 389 0,00574% 3 976 652
sportbox.ru 0,0336% 170 288 0,00288% 2 129 798
drom.ru 0,0241% 169 981 0,00452% 6 230 756
e1.ru 0,0226% 157 891 0,00391% 4 623 329
utro.ru 0,0302% 151 689 0,00103% 466 449
inosmi.ru 0,0308% 141 277 0,00123% 492 760
wmj.ru 0,0222% 130 493 0,00164% 1 049 358
aif.ru 0,0266% 128 230 0,00058% 282 245
sports.ru 0,0366% 114 970 0,00446% 1 485 686
ag.ru 0,0277% 110 926 0,00254% 923 841
stopgame.ru 0,0194% 108 745 0,00075% 483 400
izvestia.ru 0,0249% 106 475 0,00075% 448 543
afisha.ru 0,0366% 102 201 0,00259% 758 773
3dnews.ru 0,0220% 100 565 0,00075% 408 012
woman.ru 0,0219% 94 772 0,00147% 580 190
kommersant.ru 0,0279% 90 562 0,00123% 462 900
lastfm.ru 0,0300% 84 816 0,00246% 999 774
kleo.ru 0,0132% 79 108 0,00070% 731 203
job.ru 0,0194% 78 573 0,00189% 915 713
sovsport.ru 0,02% 78 362 0,00091% 499 376
ng.ru 0,0157% 74 830 0,00052% 242 834
rb.ru 0,0175% 70 411 0,00062% 235 737
tnt-tv.ru 0,0171% 65 860 0,00168% 724 007
dom2.ru 0,0142% 61 283 0,00188% 916 797
euro-football.ru 0,0138% 59 165 0,00074% 348 269
moskva.fm 0,0175% 56 233 0,00101% 381 471
gotovim-doma.ru 0,0103% 56 190 0,00068% 459 631
101.ru 0,0083% 55 583 0,00034% 300 304
wday.ru 0,0097% 54 312 0,00049% 303 649
cosmo.ru 0,0121% 52 766 0,00163% 634 295
expert.ru 0,0154% 51 079 0,00048% 143 476
svyaznoy.ru 0,0074% 44568 0,00061% 400 095
myjane.ru 0,0094% 42 449 0,00036% 205 342
kino-teatr.ru 0,0115% 39 819 0,00092% 305 700
travel.ru 0,0141% 39 566 0,00049% 145 870
medkrug.ru 0,0067% 38 151 0,00020% 137 157
myvi.ru 0,0091% 36 088 0,00084% 179 875

Torrents.ru и Gismeteo.ru я сразу отбросил, потому что они резко выбиваются по своему охвату из остальной группы сайтов.

Дальше рассуждения такие. Вообще говоря, и Alexa и LiveInternet дают оценку одного и того же параметра (для простоты буду говорить пока только про охват). Это значит, что между охватом по Alexa и охватом по LiveInternet должна существовать линейная зависимость, которую можно изобразить так:

  • Y = A*X + S(X),

где X — охват по Alexa, Y — охват по LiveInternet, S(X) — некая случайная ошибка, которая возникает из-за различий в методиках измерения охвата в Alexa и в LiveInternet. Причем математическое ожидание (среднее значение) ошибки S(X) равно нулю, а дисперсия (разброс) зависит от охвата — чем больше охват, тем больше дисперсия, и наоборот (здесь опять-таки помним, что для слишком маленького или слишком большого охвата сравнение Alexa и LiveInternet вообще некорректно). Коэффициент A — это и есть искомый коэффициент, с помощью которого можно конвертировать данные Alexa в абсолютные значения (в данном случае в значения охвата по LiveInternet).

Чтобы суть линейной зависимости стала совсем понятна, изобразим значения охвата наших сайтов на графике.
090
Видно, что все точки группируются в окрестностях прямой линии, выходящей из начала координат. Есть, правда, два сайта, которые от этой прямой удалены значительно — это radikal.ru (фото- хостинг) и smotri.com (видео-хостинг), но на это пока можно не обращать внимание.

Коэффициент A оцениваем, как выборочное математическое ожидание случайной величины. Это будет такая формула:

  • Оценка A = Сумма по всем сайтам из наше выборки ( Yi / Xi ) / Количество сайтов в выборке

где i — порядковый номер сайта в выборке. Xi и Yi — охват сайта по Alexa и по LiveInternet, соответственно.

Получаем, A = 445,6 млн

Если исключить из выборки сайты radikal.ru и smotri.com, то A будет равен 444,3 млн, то есть практически не изменится.
Теперь нужно оценить дисперсию случайной ошибки S(X). Это нужно для того, чтобы при конвертации значений охвата Alexa в охват LiveInternet получить не только среднее значение, но и интервал значений, в котором наиболее вероятно будет находиться реальный охват сайта.

Дисперсия, напоминаю, зависит от охвата. Соответственно, вычислять ее нужно не по всей выборке сайтов, а по отдельным группам сайтов с наиболее близким значением охвата. Я это сделал так:

  1. Отсортировал список сайтов по убыванию охвата (см. таблицу выше)
  2. Взял первые десять сайтов из списка
  3. Рассчитал средний охват LiveInternet по этим десяти сайтам
  4. Рассчитал выборочную дисперсию по этим десяти сайтам по формуле:
    Сумма ( Yi – A*Xi )2 / 10
  5. Рассчитал среднеквадратическое отклонение (квадратный корень из дисперсии, полученной на предыдущем шаге)
  6. Сместил десятку сайтов вниз на одну позицию в списке и повторил алгоритм с 3-го шага

Как раз в этом случае сильные отклонения от среднего значения у сайтов radikal.ru и smotri.com сильно испортили картину, так что я их тоже исключил из выборки.

Результат получился следующий. В модели линейной зависимости данных LiveInternet от данных Alexa с вероятностью 68% реальное значение среднесуточного охвата отклоняется от среднего на +/-20% для сайтов с большим охватом (больше 100 тыс. в сутки) и на +/-30% для сайтов с меньшим охватом (меньше 100 тыс. в сутки). Если же брать вероятность 95% (почти наверняка), то отклонение для больших сайтов будет уже +/-40%, для сайтов поменьше — +/-60%. Это, вообще говоря, очень большое отклонение.

Дальше можно эту модель улучшать, сделав, например, такое наблюдение — у наиболее недооцененных Алексой сайтов, e1.ru и drom.ru, крайне низкая по сравнению с другими сайтами доля зарубежного охвата и охвата в центрально-европейском части России. С другой стороны, у переоцененного по сравнению с данными LiveInternet сайта afisha.ru наибольшая доля пользователей в московском регионе и вообще центрально-европейской части России. То есть, можно предположить, что Alexa лучше репрезентирует западную часть России, чем восточную.

Для среднесуточных просмотров страниц получается:
091

  • A = 52,56 млрд
  • Отклонение с 68% вероятностью составляет до +/-50%, даже если исключить drom.ru и radikal.ru, имеющие наибольшие отклонения от среднего. Соответственно, если брать 95% вероятность, то отклонение будет до +/-100%, то есть, фактически, данный метод можно использовать только для оценки сверху — позволяет оценить просмотры страниц в терминах «у сайта не больше N просмотров страниц»

Выводы из всего этого можно сделать такие:

  • Данные Alexa можно использовать для грубой оценки среднесуточного охвата российских сайтов. При этом нужно помнить, что чем меньше охват сайта, тем выше ошибка Alexa — я бы не брался оценивать таким способом сайты с охватом меньше 30 тыс. посетителей в сутки. Коэффициент преобразования среднесуточного охвата Alexa в LiveInternet = 445,6 млн (помним, что этот коэффициент был рассчитан на данных за август 2009 года и что с течением времени он может меняться).
  • Данные Alexa нельзя использовать для оценки просмотров страниц сайта — ошибка измерения слишком велика. И это, кстати, легко объяснимо, учитывая какое распределение имеют, обычно, глубина и частота посещения сайтов. Тем не менее, для оценки сверху можно брать коэффициент преобразования = 52,56 млрд и еще умножать полученный результат на два.

Комментарии (4)

  1. Дмитрий Шишалов:

    Алекса – это пользователи 60 млн в россии
    LI – это уникальные куки 300 млн в россии
    сравнивать не совсем корректно

  2. Алексей! Большое спасибо за качественно-развернутый технический анализ! Еще раз спасибо.
    С уважением, Игорь Шевцов.

  3. Спасибо, Алексей.
    У меня регулярно не хватало доказательств почему alexa.com мало применима для России.
    Как правило, на нее ссылаются крупные сайты с закрытой статистикой, например, сайты, где основной трафик от встроенных форумов.

  4. В качестве альтернативы Алексе можете попробовать наш сервис Нетчарт. У нас похожая схема исследований, но панель исключительно русскоязычная (порядка 40к пользователей в день онлайн).

Оставить комментарий