Получить предложение
для твоего сайта





Главная / Статьи / Ссылочный антиспам

Ссылочный антиспам

Теория и практика. Зачем поисковики борются со ссылочным спамом?

Затем, что любой спам снижает качество поисковой выдачи любой поисковой системы. Ссылочный спам направлен на борьбу с сайтами и страницами, чьи позиции были получены не естественным образом, с целью манипуляции алгоритмами поисковика.

PageRank

Едва ли не первым алгоритмом, направленным на борьбу со спамом, но не ссылочным, а с текстовым является алгоритм PageRank от Google.

PR(A)=(1-d)+d(PR(T_1 )/C(T_1 ) +⋯+PR(T_n )/C(T_n ) ), где

PR(A) – вес страницы A;

PR(T_n) – вес страницы, ссылающейся на страницу A;

C(T_n) – число ссылок со страницы T_n;

d – коэффициент затухания, обычно принимается равным 0,85;

1-d – элемент телепортации.

Принцип работы PageRank можно описать следующим образом:

Представим, что у нас есть «Путешественник» перемещающийся по ссылкам в интеренете случайным образом. Он с равной вероятностью может либо перейти по следующей ссылке (одной из) на странице, либо телепортироваться в произвольное место. Вероятность перехода по ссылке и есть PageRank.


Опираясь на формулу не сложно понять, что нужно для манипуляции PageRank:

  • страница T_n имеет высокий вес;
  • страница T_n имеет мало исходящих ссылок;
  • на страницу A ссылается большое количество страниц T_n;
  • расстояние между страницами должно быть равно 1 (с каждой ступенью удаления, вес уменьшается в 0,85 раза).

Кроме того, можно сделать вывод относительно ссылок, размещаемых на вашей странице:

  • ссылки не отнимают вес у страницы, на которой они находятся;
  • при добавлении каждой дополнительной ссылки со страницы, смежные ссылки передают меньший вес.

По иронии судьбы PageRank, направленный на борьбу с текстовым спамом, положил начало эпохе ссылочного спама. Для борьбы с этим видом спама применяется множество алгоритмов, которые описываются в данной статье.

TrustRank

Задача алгоритма обнаружить страницы и сайты, которые вероятнее всего являются спамом, а также те, которые вероятнее всего являются достойными.

Алгоритм основан на полуавтоматическом обнаружении, хороших, не спамных страниц. Алгоритм полагается на утверждения:

  • хорошие документы редко ссылаются на плохие;
  • та тщательность, с которой владельцы хороших документов ставят ссылки на другие документы, обратно пропорциональна количеству этих ссылок.

Принцип работы следующий:

1. На основе инвертированного PageRank, вычисленного не по количеству входящих, а наоборот – по количеству исходящих ссылок со страницы, выбираются те сайты, для которых этот показатель оказался наибольшим.

2. Для этих сайтов производится ручная оценка по принципу (в оригинальном алгоритме указано, что достаточно разметить буквально 200 сайтов с помощью экспертной оценки, для того, чтобы можно было оценить WEB в целом):

0 – спамный

1 – достойный

3. Далее производится распространение TrustRank по следующему принципу:

чем дальше от источника – тем TrustRank меньше, причем степень уменьшения равна количеству шагов от источника;

TrustRank разделяется поровну между всеми исходящими ссылками.

Алгоритм TrustRank был разработан и внедрён в 2004 году.

Примечание: Описан алгоритм использованный Yahoo. Другие поисковые системы могут использовать близкие алгоритмы. Подтверждением этого может служить использование алгоритма Hilltop, приобретённого Google в 2003 году.

Высоким TrustRunk обладают:

  • сайты из каталогов Yaca и Dmoz;
  • сайты имеющие большой возраст;
  • сайты размещающие только уникальный контент;
  • сайты, тщательно отбирающие ссылки для размещения в своём контенте.

Задумывались ли вы когда-нибудь, почему Википедия присутствует вверху выдачи по подавляющему большинству поисковых запросов, при этом новые статьи могут практически не иметь ни внутренних, ни внешних ссылок? Потому, что ей фактически вручную присвоен очень высокий уровень доверия.

Topic-sensitive PageRank

Помимо алгоритмов, описанных выше, поисковая система вычисляет вес, передаваемый по ссылкам, с учётом тематики страницы–донора.

Подробно прочитать про алгоритм можно в исходнике, поскольку примерный принцип работы, я думаю, очевиден.

Интересна только одна деталь: для каждой тематики создаётся вектор. Таким образом между разными тематиками можно рассчитать близость этих векторов. Другими словами, для получения тематической близости, не обязательно использовать идентичные тематики.

В таблице представлены данные – близость между векторами, рассчитанное в оригинальном исследовании. 0 – бесконечно удалены, 1 – совпадают.

Манипуляция на основе факторов, учитываемых алгоритмом может осуществляться:

  • покупкой ссылок на тематически совпадающих донорах с высоким PR;
  • на тематически близких донорах с высоким PR.

BrowseRank

Еще одним инструментом поисковых систем является BrowseRank.

Отличие от PageRank состоит в структуре ссылочного графа. В технологии PageRank ребрами графа служат ссылки, а узлами – документы. В BrowseRank применён другой подход: ребрами являются переходы между документами, а узлами по-прежнему остаются сами документы.

BrowseRank можно назвать своего рода гибридом между поведенческими и ссылочными факторами.

В BrowseRank используется информация о продолжительности пребывания пользователя на странице, факт перехода на другой документ и способ этого перехода: прямой ввод а адресную строку, либо переход по ссылке.

Откуда поисковики могут брать эту информацию?

Предлагаю подумать:

  • зачем поисковикам нужны собственные бары (Яндекс-Бар);
  • зачем поисковики разрабатывают собственные браузеры, а также вкладывают миллионы долларов на их продвижение (Google Chrome).

Накручивать BrowseRank не рекомендуется, поскольку поисковики обладают множеством естественных данных.

  • во-первых, у поисковика есть граф кликов сайта донора и накрутка приведёт к его перекосу;
  • во-вторых, накруточные сервисы часто «палятся», так например пользователи популярного Userator оставляют за собой «след» в виде источника перехода Userator.ru.

Источник: seonews.ru

Другие статьи

Новости

Google объявил, что Открытый каталог (DMOZ) больше не используется в качестве одного из источников для ...

Мэри Микер, известный веб-аналитик и партнёр венчурной компании Kleiner Perkins Caufield and Byers, представила отчёт ...

Google не понижает сайты за ссылки на страницы с ошибкой 404. Об этом сообщает TheSemPost ...

Google закрывает поддержку Поиска для сайтов. Об этом сообщила пресс-служба компании. Google Site Search – ...