Это очень длинный пост, не забудьте вскипятить кофе и приготовить поесть
А теперь, пожалуй, начнем. Итак, Яндекс не хочет удовольствоваться прежними результатами, и там решили ожесточиться еще больше. В связи с этим придумана новая тулза под названием АГС-30, приспособленная для еще более эффективного кошения говносайтов. Я уже видел публикации, тьма их размещается на форумах, и как всегда, все усиленно гадают, кто виноват и что делать
Виноваты, разумеется, ГС, которые забивают выдачу (хотя я не сказал бы, что их стало намного больше, вроде так же), а делать надо нормальные сайты, конечно :) В Яндексе говорят, что теперь новый АГС-30 будет учитывать более 100 факторов, по которым можно отличить ГС от нормального сайта. И тема поста будет именно про эти факторы.
Моя теория факторов АГС-17 и АГС-30
1. Контент
Не секрет, что «БГС» (то есть «быстро-гс»
– это ГС, которые набивают за несколько часов), создаются при помощи синонимайзинга и машинного рерайта. Поэтому контент данных говносайтов имеет определенные свойства, а именно – неестественное распределение частоты слов, которое в корне отличается от естественного. Яндекс (и другие ПС) умеет различать эту частотность. Значит, на основе этого АГС-30 может прищучить сайт.
Теперь скан – если скан выложен на ГС как есть, то нетрудно догадаться, что и он имеет особенности: определенные пропорции в распределении опечаток и символов. Яндекс знает и это, причем с год назад масса сайтов с таким контентом успешно сидела в топе некоммерческой тематики, аж две штуки на первом и втором местах. В ТОП 30 – 50 была еще куча их. Значит, неподготовленный скан может служить причиной для внимания АГС-30 к вашему сайту. Копипьяст – все ясно.
2. Структура сайта
Глупо думать, что АГС-17 и АГС-30 прищучивают сайты за то, что они живут на бесплатных движках (есть такая бредовая теория). А вот со структурой можно поразмыслить. Попробуем сделать это и зададим себе вопрос: имеет ли ГС определенные особенности структуры, которые позволяют предположить, что это ГС ?
- Все страницы второго уровня. Возможно, но ведь есть сайты по 5-10 страниц второго уровня и больше вообще ничего нет (сайт-визитка бывает такой). Это ведь не ГС ? Значит, это не 100 % определяющий фактор.
- Еще одна особенность, и она уже не такая безобидная для АГС-30. Эта особенность – пустые разделы, а также ссылки, ведущие в никуда. На нормальном сайте не может быть пустых разделов и тупиковых внутренних ссылок, вебмастер обычно строго за этим следит, так что это явный и 100 % признак ГС.
- Третий признак ГС (прошу учитывать, что это моя теория, я не знаю, так ли это, просто логика и дедукция)… Итак, третий признак ГС – это отсутствие исходящих с сайта ссылок (кроме Сапы). Любителя кричать «Бред ! Яндекс не знает, какая ссылка с Сапы, а какая нет !» – прошу удалиться
Ибо Яндекс знает (если ссылка на автомате, во всяком случае). Если вы не понимаете, как он знает, вспомните основы PHP и то, каким образом параметры PHP работают при просмотре страницы браузером (а робот Яндекса смотрит страницы через свой браузер, и больше того, браузер – это почти вся сущность робота). На сайте обычно есть хотя бы одна исходящая ссылка (на многостраничном). Если исходящих вообще 0, то это тоже может служить одним из факторов, но в этом я точно не уверен. Помним, что некоторые ГС попадают под АГС-17 и АГС-30 еще до продажи в Сапе.
- Одинаковый размер публикаций. Понятно, что это неестественно, и бывает только тогда, когда контент делит машина на отрезки, скажем, по 1 400 символов.
- Совсем нет картинок. Конечно, это не наверняка, но сайт из 500 страниц без единой картинки – это подозрительно.
Прошу заметить, что в основе фильтров АГС-17 и АГС-30 Яндексом заложено отсеивание сайтов «не пригодных для пользователя», поэтому, соотвественно, необходимо учитывать саму «пригодность», что мы сейчас и делаем. Теперь следующий фактор:
3. Обновления
Вспомним: как вебмастер обновляет сайт, предназначенный для людей ? Вот, например, блог, на котором вы сейчас находитесь. Я могу написать вчера один пост, сегодня – три поста, завтра – вообще ни одного, послезавтра – два поста. То есть обновление сайта проходит неравномерно, и в нем нет определенной частотности. То есть теоретически нельзя получить алгорим частотности обновлений моего блога за период N машинным способом, так ?
А если, задумавшись на пару минут, вспомнить о том, что большинство обновляемых ГС работает по схеме x=ab, где a – количество периодов добавления (на оси абсцисс), b – количество добавленных статей (на оси ординат). То есть это линейная функция, и ее график – прямая. Х (общее количество статей) возрастает линейно в течение всего периода. Каждый период (день) на ГС добавляется некоторое постоянное количество статей (например, одна).
Естественно, линейная зависимость легко просчитывается роботом. А что будет, если значения a и b не постоянны, и, более того, вообще не равны ? Если в день добавляется 3 статьи, а через неделю – еще 6, а потом еще 12, через день – еще три ? В таком случае график не будет равномерным, и зависимость изменится с линейной на экпоненциальную !
Разумеется, робот умеет отличать эти зависимости (просчитать их может быстрее, чем я напишу слово «зависимости»
, но дело в том, что ведь для определения того, как обновляется сайт, требуется сбор данных на отрезке времени, а это огромные вычислительные мощности ! Надо ли это Яндексу ?
Но это еще не все, поскольку вас ожидает следующая, более загадочная часть поста про АГС-30, и она находится по этой ссылке
Согласен со всем выше сказанным, но яндекс заявил, что онуитывает аж 100 факторов. Хорошо было бы их поискать, или хотя бы повысказываь свои предположения
Вся штука в том, что дело не в 100 факторах, а в их совокупности. Какие именно факторы «криминальные» – вот что важно.