Ахтунг ! АГС-30 на позиции !

Опубликовал 20 Декабрь 2009 в рубрике Яндекс. Комментарии: 2

Это очень длинный пост, не забудьте вскипятить кофе и приготовить поесть :)

А теперь, пожалуй, начнем. Итак, Яндекс не хочет удовольствоваться прежними результатами, и там решили ожесточиться еще больше. В связи с этим придумана новая тулза под названием АГС-30, приспособленная для еще более эффективного кошения говносайтов. Я уже видел публикации, тьма их размещается на форумах, и как всегда, все усиленно гадают, кто виноват и что делать :)

Виноваты, разумеется, ГС, которые забивают выдачу (хотя я не сказал бы, что их стало намного больше, вроде так же), а делать надо нормальные сайты, конечно :)  В Яндексе говорят, что теперь новый АГС-30 будет учитывать более 100 факторов, по которым можно отличить ГС от нормального сайта. И тема поста будет именно про эти факторы.

Моя теория факторов АГС-17 и АГС-30

1. Контент

Не секрет, что «БГС» (то есть «быстро-гс» :) – это ГС, которые набивают за несколько часов), создаются при помощи синонимайзинга и машинного рерайта. Поэтому контент данных говносайтов имеет определенные свойства, а именно – неестественное распределение частоты слов, которое в корне отличается от естественного. Яндекс (и другие ПС) умеет различать эту частотность. Значит, на основе этого АГС-30 может прищучить сайт.

Теперь скан – если скан выложен на ГС как есть, то нетрудно догадаться, что и он имеет особенности: определенные пропорции в распределении опечаток и символов. Яндекс знает и это, причем с год назад масса сайтов с таким контентом успешно сидела в топе некоммерческой тематики, аж две штуки на первом и втором местах. В ТОП 30 – 50 была еще куча их. Значит, неподготовленный скан может служить причиной для внимания АГС-30 к вашему сайту. Копипьяст – все ясно.

2. Структура сайта

Глупо думать, что АГС-17 и АГС-30 прищучивают сайты за то, что они живут на бесплатных движках (есть такая бредовая теория). А вот со структурой можно поразмыслить. Попробуем сделать это и зададим себе вопрос: имеет ли ГС определенные особенности структуры, которые позволяют предположить, что это ГС ?

- Все страницы второго уровня. Возможно, но ведь есть сайты по 5-10 страниц второго уровня и больше вообще ничего нет (сайт-визитка бывает такой). Это ведь не ГС ? Значит, это не 100 % определяющий фактор.

- Еще одна особенность, и она уже не такая безобидная для АГС-30. Эта особенность – пустые разделы, а также ссылки, ведущие в никуда. На нормальном сайте не может быть пустых разделов и тупиковых внутренних ссылок, вебмастер обычно строго за этим следит, так что это явный и 100 % признак ГС.

- Третий признак ГС (прошу учитывать, что это моя теория, я не знаю, так ли это, просто логика и дедукция)… Итак, третий признак ГС – это отсутствие исходящих с сайта ссылок (кроме Сапы). Любителя кричать «Бред ! Яндекс не знает, какая ссылка с Сапы, а какая нет !» – прошу удалиться :) Ибо Яндекс знает (если ссылка на автомате, во всяком случае). Если вы не понимаете, как он знает, вспомните основы PHP и то, каким образом параметры PHP работают при просмотре страницы браузером (а робот Яндекса смотрит страницы через свой браузер, и больше того, браузер – это почти вся сущность робота). На сайте обычно есть хотя бы одна исходящая ссылка (на многостраничном). Если исходящих вообще 0, то это тоже может служить одним из факторов, но в этом я точно не уверен. Помним, что некоторые ГС попадают под АГС-17 и АГС-30 еще до продажи в Сапе.

- Одинаковый размер публикаций. Понятно, что это неестественно, и бывает только тогда, когда контент делит машина на отрезки, скажем, по 1 400 символов.

- Совсем нет картинок. Конечно, это не наверняка, но сайт из 500 страниц без единой картинки – это подозрительно.

Прошу заметить, что в основе фильтров АГС-17 и АГС-30 Яндексом заложено отсеивание сайтов «не пригодных для пользователя», поэтому, соотвественно, необходимо учитывать саму «пригодность», что мы сейчас и делаем. Теперь следующий фактор:

3. Обновления

Вспомним: как вебмастер обновляет сайт, предназначенный для людей ? Вот, например, блог, на котором вы сейчас находитесь. Я могу написать вчера один пост, сегодня – три поста, завтра – вообще ни одного, послезавтра – два поста. То есть обновление сайта проходит неравномерно, и в нем нет определенной частотности. То есть теоретически нельзя получить алгорим частотности обновлений моего блога за период N машинным способом, так ?

А если, задумавшись на пару минут, вспомнить о том, что большинство обновляемых ГС работает по схеме  x=ab, где a – количество периодов добавления (на оси абсцисс), b – количество добавленных статей (на оси ординат). То есть это линейная функция, и ее график – прямая. Х (общее количество статей) возрастает линейно в течение всего периода. Каждый период (день) на ГС добавляется некоторое постоянное количество статей (например, одна). 

Естественно, линейная зависимость легко просчитывается роботом. А что будет, если значения a и b не постоянны, и, более того, вообще не равны ? Если в день добавляется 3 статьи, а через неделю – еще 6, а потом еще 12, через день – еще три ? В таком случае график не будет равномерным,  и зависимость изменится с линейной на экпоненциальную !

Разумеется, робот умеет отличать эти зависимости (просчитать их может быстрее, чем я напишу слово «зависимости» :) , но дело в том, что ведь для определения того, как обновляется сайт, требуется сбор данных на отрезке времени, а это огромные вычислительные мощности ! Надо ли это Яндексу ?

Но это еще не все, поскольку вас ожидает следующая, более загадочная часть поста про АГС-30, и она находится по этой ссылке  :)


К записи оставлено 2 коммент.

Согласен со всем выше сказанным, но яндекс заявил, что онуитывает аж 100 факторов. Хорошо было бы их поискать, или хотя бы повысказываь свои предположения :)

Вся штука в том, что дело не в 100 факторах, а в их совокупности. Какие именно факторы «криминальные» – вот что важно.



Ваш комментарий !