Сегодня Мэтт Катс, ведущий инженер Google, рассказал в блоге Google о том, как они борятся с сайтами-мусором, которые многие называют мини-сайтами или фермами контента, чтобы те не попадались в поисковой выдаче Google.

“Веб-спам – это мусор, который вы видите в результатах поиска, когда сайты пытаются нечестными путями получить более высокую позицию в списке относящихся к запросу сайтов или иными путями нарушающие правила поискового движка.

За последние несколько месяцев мы проиндексировали огромное количество хорошего контента, но и немало спама. Это было для нас настоящим испытанием, в ответ на которое мы запустили переделанный классификатор документов, который труднее обмануть в попытке достичь более высокую релевантность нечестными путями.

Новый классификатор лучше обнаруживает спам на отдельных страницах – например, частое повторение любимых спамерами слов и обрывистых словосочетаний, которые вы наверняка не раз видели в саморекламирующих коментариях на засыпанных спамом сайтах.

Мы также проверяем работу еще нескольких других модификаций. Одно из них, например, отлавливает сайты, ворующие содержимое других сайтов – целиком, или даже разбавляя его небольшой долей оригинального контента.

Мы продолжаем исследовать новые способы борьбы со спамом, в том числе – позволить пользователям сообщать о спамерских и низкосортных сайтах. По мере того, как “чистый вебспам” отходит на второй план, внимание перенацеливается на так называемые “фермы контента” – сайты, содержащие низкокачественный, “разбавленный” контент.

В 2010 мы применили 2 изменения алгоритма поиска, связанные с сайтами низкого качества. Тем не менее, ответная реакция пользователей абсолютно ясна: люди требуют еще более жестких действий в отношении сайтов такого рода.”

Это может вылиться в неприятности для компаний вроде Demand Media, которая занимается созданием “ферм контента” и тех компаний, которые создают “мини-сайты” в надежде залезть повыше в списке результатов поиска.

С другой стороны, к счастью для таких компаний, Google – не единственный поисковый движок, хотя он и занимает 60% рынка.