Закон распределения вероятностей частоты поисковых запросов и принятие решений SEO

Автор: Смирнов М.В.
Закон распределения вероятностей частоты поисковых запросов и принятие решений SEO
Аннотация

О преимуществах и эффективности продвижения сайтов по низкочастотным (НЧ) запросам сказано много. Многие интернет-сервисы предлагают НЧ продвижение и "на пальцах" показывают достоинства это подхода. Вместе с тем, вопрос "почему НЧ продвижение выгоднее?", остается не раскрытым, и не имеет доказательства на формальном уровне. В статье исследованы законы распределения поисковых запросов и показано, что рассматриваемая функциональная зависимость является экспоненциальной. Даны практические примеры эмпирической классификации запросов по распределению вероятностей. Вероятностная экспонета стремиться с своей асимптоте тем быстрее, чем больше "хвост" менее популярных запросов. Функция распределения переходов на сайт с ПС так же характеризуется экспоненциальным распределением.

Введение

Доминирующей характеристикой, используемой при оптимизации Интернет ресурсов под ПС, является классификация поисковых запросов по частости. Как известно, в зависимости от уровня популярности запросов в ПС, они разделяются на: ВЧ, СЧ и НЧ запросы*). И хотя это деление весьма условно, от правильного разбиения зависит оптимальное составление семантического ядра сайта, учет поведенческих факторов при работе с поисковыми системами, стратегия и параметры контекстной рекламы, принятие решений в сфере поисковой оптимизации и поискового маркетинга в целом. В свою очередь, размер трафика и его конверсионность в значительной степени обусловлена правильностью составления семантического ядра. Чем бóльшее пространство запросов покрывает семантическое ядро, тем больше вероятность перехода на сайт. Расшерение семантического ядра достигается за счет НЧ запросов.

Среди оптимизаторов и по мнению многих пользователей сети Интернет принято считать, что точных количественных характеристик, относящих запрос к одному из возможных подразделов по частоте появления не существует. И это правильно. Большинство [1] сеошников придерживаются следующего разбиения запросов по частоти: 1-1000 — НЧ запросы; 1000-10 000 — СЧ запросы; 10 000 и выше — ВЧ запросы. Отметим, что такое деления не является линейным, линейным будут показатели степени: 103, 104, 105 итд.

Целью статьи является эмпирическая оценка закона распределения поисковых запросов пользователей к поисковой системе и принятие оптимального решения на основе этого закона. Популярность (частость повторения) поисковых запросов не зависит от ПС, реализуется лишь благодаря активности пользователей Интернет, и характеризуется законом вероятности распределения случайного события. Под случайном событием понимается выполнение поискового запроса при вводе в форму поиска определенного слова, фразы, семантики слов и фраз.

*) В контекстной рекламе такое деление называется классификацией по конкурентоспособности слов.

1. Немного теории [2]

На рисунке 1 представлены два графика экспоненциальной функции f(x) и F(x). На верхнем графике рис. 1a показан экспоненциальный (показательный) закон распределения случайной величины x - плотность вероятности p(x) при выполнении условии ∑p(x)=1 для всех x. На нижнем графике рис. 1b представлена функция распределения F(x) вероятности экспоненциального распределения.

Экспоненциальный (показательный, Пуассона) закон распределения случайной величины

Рис.1a. Экспоненциальный (показательный, Пуассона) закон распределения случайной величины.


Функции распределения вероятности экспоненциального распределения

Рис.1b. Функции распределения вероятности экспоненциального распределения.

Параметром вероятностного распределения на рис.1 является величина λ. Математическое ожидание случайной величины экспоненциального распределения M[x]=1/λ, а дисперсия D[x]=1/λ2. Отметим, что плотность вероятности p(0)=1/λ и при этом λ = соnst, λ > 0. Показательный закон распределения вероятностей p(x) встречается в задачах [2], связанных с потоком случайных событий x, например в телефонии, в задачах оценки времени безотказной работы устройств и механизмом и др.

2. Экспериментальная статистика и SEO

Экспериментальная статистика появляется в результате измерения и обработки выборочных данных. В нашем случае, число обращений пользователей к поисковой системе с определенными запросами будет представлять собой дискретную последовательность слов и словосочетаний, которую удобнее упорядочить (ранжировать) по возрастанию или убыванию. Примером может служить сервис подбора слов ПС Yandex - Wordstat.Yandex. Подобные сервисы предлагают Google, Rambler, Yooho и др. ПС. На скриншоте ниже (рис.2) показана дискретная последовательность словосочетаний "Что искали со словом «комнатная антенна»", которую можно получить с помощью Wordstat.Yandex.

Дискретная последовательность словосочетаний Wordstat.Yandex

Рис.2. Дискретная последовательность словосочетаний Wordstat.Yandex.


Временной интервал (отрезок времени) измерений частости запросов пользователей к поисковой системе равен одному месяцу: T=30 дней. В первом столбце рис.2 расположены всевозможные значения (варианты) случайной величины x, а во втором – числа ni, т. е. частоты появления i-го значения. Такую таблицу называют вариационной (таблица вариантов) [3]. Всего в таблице "Что искали со словом «комнатная антенна»" m строк, число которых в данном конкретном случае составило m=676 значений. Максимальное значение равнялось 25 010 , минимальное - 5. По выборкам из таблицы на рис.2 построим эмпирическую функцию распределения F(x) как это показано на рис.3.

Эмпирическая функция распределения словосочетаний «комнатная антенна»

Рис.3. Эмпирическая функция распределения словосочетаний «комнатная антенна» (по данным Wordstat.Yandex).

Эмпирическую функцию плотности распределения случайного события оценим как частоты появления i-го значения - ni. На рис.4 показана кривая эмпирической функция плотности распределения словосочетаний «комнатная антенна», где вместо вероятностей p(x) вычислены относительные частоты ni/n, где n=∑ni.

Эмпирическая функция плотности распределения случайного события

Рис.4. Выборочная функция плотности распределения случайного события.

Внешний вид распределений на рис.1b и рис.3 указывает на их принадлежность к ансамблю экспоненциальных функций, отличающихся параметром λ. В результате вычислений можно определить выборочное среднее s=(∑ni)/m, которое обычно используется как оценка математического ожидания M[x]. Раз так, то оценкой параметра λ может служить величина обратная выборочному среднему или выборочная оценка плотности n0/n, которая, как видно из графика на рис.4, равна 0.24. Обратная величина составит значение 4.15 и будет характеризовать интенсивность запросов на интервале времени T дней.

3. Эмпирическая классификация запросов и принятие решений.

Задача 1. Определить вариацию (интервал) запросов таблицы на рис.2, вероятность появления которых будет не менее 50%. Решение. Воспользуемся эмпирической функции распределения F(x) на рис.3. Условие классификации будет выглядеть как сумма значений ∑F(x)≤0.5. Этому значению будет соответствовать строка номер 12 в таблице на рис.2: «антенна телевизионная комнатная» с частотой повторения запросов 1 483. Интервал запросов составит 98% строк, начиная с номера 12 по m-1.

Задача 2. Определить запросы из таблицы на рис.2, интервал которых составит 90% всех запросов, начиная с номера i по m-1. Искомое значение будет равно i=0.1m=77. Решение. Используя эмпирическую функцию pi(x) на рис.4 можно утверждать, что с вероятностью pi(x)=ni/n около 20% произойдет выбор 90% всех запросов таблицы на рис.2, начиная с запроса «какую купить комнатную антенну» с частотой повторения запросов 171.

Задача 3. Определить вероятность появления запросов таблицы на рис.2, если частота повторения запросов не превышает значения 103. Решение. Из таблицы на рис.2 находим номер варианта i=16 поискового запроса «комнатная антенна для цифрового телевидения dvb t2» с частотой повторения запросов 986. Используя эмпирическую функцию распределения F(x) на рис.3 определим сумму ∑F(x>xi). Результат вычисления вероятности составит около 60%.

4. Оценка закона распределения переходов с поисковых систем.

Статистическая оценка переходов на пользовательский сайт по запросам с ПС является важным элементом анализа при проведении SEO. Подобную статистику предоставляют Yandex.Metrica, Google.Analitic, Liveinternet и многие другие ресурсы Интернет. На рисунке 5 показана месячная статистика переходов с ПС на коммерческий сайт petromramor.ru. Семантическое ядро (рис.5) представлено m=492-мя вариациями ключевых слов и словосочетаний с 75%-м преобладанием низкочастотников.

Упорядоченная статистика  переходов с ПС за один месяц (Google, Yandex, Mail.ru, Rambler)

Рис.5. Упорядоченная статистика переходов с ПС за один месяц (Google, Yandex, Mail.ru, Rambler).

Внешний вид вариационного ряда на рис.5 показывает, что представленная функциональная зависимость относиться к экспоненциальной. Разумеется требуется более строгое обоснование данного утверждения (например по критерию хи-квадрат), что выходит за рамки настоящего исследования. Несложные вычисления ni/n, представленные выше, позволяют получить эмпирическую функцию распределения F(x), которая представлена на рис. 6.

Эмпирическая функция распределения переходов с ПС для сайта petromramor.ru

Рис.6. Эмпирическая функция распределения переходов на комерческий сайт с ПС для сайта petromramor.ru.

Распределение на рис.6 характеризуется параметром λ=0.13 и асимптотически стремится к 1. Чем ближе значение параметра λ вероятностного распределения к единице, тем быстрее функция F(x) приближается к своей асимптоте (рис.7). Последнее будет говорить о преобладании низкочастоных (менее популярных) словосочетаний в семантическом ядре. Иными словами при стремлении λ→1 будет происходить "удлинение хвоста" выборочных распределений за счет увеления числа менее популярных запросов. Если "хвост" выборочного распределения p(x) рассматривать как отдельный интервал ni/n, то можно ожидать, что функция p(x) на этом интервале будет стремиться к равномерному распределению вероятностей переходов с ПС(рис.8).

Графики зависивости эмпирическая функция распределения от параметра лямбда

Рис.7. Графики зависивости эмпирическая функция распределения F(x) от параметра λ.


Хвост выборочного распределения вероятностей p(x)

Рис.8. "Хвост" выборочного распределения вероятностей p(x) переходов с ПС, приведенных на рис.5.

Таким образом, можно утверждать, что, чем большее количество менее популярных словосочетаний (заданной тематики: антенны, окна, поликлиники итд.) седержится в семантическом ядре, тем выше вероятность перехода с ПС на пользовательский сайт. Действительно, "советы профессионалов низкочастотного продвижения" подтверждают, что продвижение по длинному вариационному ряду менее популярных запросов дает больше переходов с ПС, чем продвижение по меньшему числу вариаций более популярных [4]. Практической иллюстрацией этого вывода служат примеры эмпирической классификации запросов и принятие решений на основе распределения вероятностей (задачи 1-3, в разделе 3).

Выводы.
  1. Популярность поисковых запросов не зависит от ПС и характеризуется экспонециальным законом вероятности.
  2. Функция распределения вероятностей стремиться с своей асимптоте F(x)→1 тем быстрее, чем больше "хвост" менее популярных запросов.
  3. Эмпирическая функция распределения переходов на сайт по запросам с ПС так же характеризуется экспонециальным законом вероятности.
  4. По наперед заданной вероятности можно определить интервал популярности запросов.
  5. По наперед заданному интервалу популярности запросов можно оценить верятность появления поисковых запросов.
  6. Интервал менее популярных запросов ("хвост" экспоненциального закона) характеризуется близким к равноверному распределению вероятностей.
  7. НЧ-расширение семантического ядра (сотни и тысячи словосочетаний) часто приводит к повторяемости словосочетаний. Повторяемость или «каннибализация ключевых слов»[5] приводит к падению позиций в выдаче и сниженю трафика. Чтобы избежать негативные последствия «каннибализации» целесообразно применять алгоритм оценивания сходства поисковых фраз, обеспечивающий инвариантность к перестановке слов.

Литература, источники.
  1. ВЧ СЧ НЧ, ВК СК НК. Конверсия. - http://www.semonitor.ru/manual/16.2-keyword-popularity.html
  2. Королюк В.С., Портенко Н.И.,Скороход А.В., Турбин А.Ф. Справочник по теории вероятностей и математической статистике. — М.: Наука, 1985. — 640 с.
  3. Клентак Л.С. Элементы теории вероятностей и математической статистики. Самара: Изд-во Самар.гос.аэрокосм.ун-та, 2013. – 156 с. (http://www.ssau.ru/files/education/uch_posob/Элементы%20теории-Клентак%20ЛС.pdf)
  4. Советы профессионалов низкочастотного продвижения. - http://azbyka-pro.ru/?p=1001
  5. "Что сделать, чтобы ваш сайт появился и поднялся в поисковиках" - https://umi.ru/blog/kak_podnyat_sait_v_poiskovikah/


Статьи:
1. Программное обеспечение. Цифровая голография. Скрытые водяные знаки. Распознавание образов.
2. Инвариантная оценка сходства двух строковых переменных методом "Трех-Множеств"
3. On-line вычисление коэффициента Джаккарда (javascript)
4. Регистрация и восстановление цифровых голограмм в традиционных носителях информации на бумажной и пластиковой основе
5. Распределение вероятностей частоты поисковых запросов