Дублированный или повторяющийся контент — это контент, повторяющий большие блоки информации в рамках одного или нескольких доменов. Содержание документов либо очень близко по смыслу, либо полностью наследуется. В дублированном контенте нет ничего страшного, если он не создается с целью повлиять на рейтинг сайта в поисковой системе. Разбираемся, когда дублированный контент влечет ответственность.
Больше о дублированном контенте в Справке Google.
Почему дублированный контент плох для SEO:
- появление сомнительных URL в выдаче
- размытие ссылочного веса
- расход краулингового бюджета
- ранжирование копии выше оригинала
Рассмотрим каждый из пунктов подробнее
Сомнительные URL в поисковой выдаче
Представим, что одна и та же страница доступна по адресам:
- site.com/content
- site.com/page/?utm_content=brand&utm_medium=social
- site.com/news/content
Мы не знаем, какой из этих адресов Google покажет в результатах выдачи. Пользователи охотнее кликают по сайтам с человекопонятными URL.
Размытие ссылочного веса
Если один и тот же контент доступен по нескольким URL-адресам, то каждая страница может получать ссылки.
К примеру, одно и то же руководство может быть доступно в блоге и архиве, в разделе обучения и в разделе инструкций. Страницы будут показывать практически идентичный контент. На какую из них сошлется в следующий раз другой сайт, предсказать невозможно.
Если такое происходит в рамках одного сайта, то, как правило, Google объединяет такие страницы в кластеры. Алгоритм определит лучшую версию в кластере, которую будет показывать в поисковой выдаче. Кластеризации подлежат также все характеристики объединенных страниц, в том числе и ссылочного веса.
Однако случается так, что в выдачу попадают оба URL’а с одного сайта. В таком случае, стоит предположить, Google не объединяет ссылочный вес страниц.
Если дублированный контент появляется на других доменах, то это грозит потерей ссылочной массы.
Расход краулингового бюджета
Краулинговый бюджет — это количество URL, которые хочет и может просканировать Googlebot за один раз.
Поиск обнаруживает новые страницы на сайте по ссылкам с существующих страниц. Робот также переобходит известные ему страницы, чтобы проверить изменения. Страницы с дублированным контентом создают дополнительную нагрузку на робота. А это определяет скорость и частоту обхода. Поэтому индексация и переиндексация страниц замедляется.
Копия контента ранжируется выше оригинала
Если вы разрешаете перепубликовывать контент с вашего сайта, то будьте готовы к тому, что поиск может показать в выдаче копию выше оригинала. При этом абсолютно не важно, каким образом заимствован контент (с разрешением или без).
И такие случае достаточно частые.
Вы теряете заслуженный трафик.
Применяет ли Google санкции за дублированный контент
В Справке Google четко указано, что в тех случаях, когда поисковая система определяет намерение повлиять на рейтинг сайта через дублирование контента, Google может понизить или исключить сайт из индекса:
Основные рекомендации Google сводятся к следующему:
- всегда обсуждайте правила синдикации (перепубликации) контента на чужих ресурсах — дело в том, что для конкретного запроса конкретного пользователя Google покажет наиболее подходящий именно этому человеку поисковый ответ, и в некоторых случаях страница с заимствованным контентом может оказаться выше оригинала. Вы можете потребовать поставить ссылку на оригинальный материал либо скрыть копию от индексации при помощи noindex
- избегайте шаблонных текстов в структуре сайта — не стоит на каждой странице товара писать условия доставки, возврата и обмена, достаточно поставить ссылки на соответствующие страницы
- создавайте разнообразный контент — если сайт предлагает услуги в разных городах, то не стоит постить на страницах один и тот же контент, меняя только название города. Лучше продумать и дополнить контент важной информацией для жителей именно этого региона. Если таких страниц не много, то их и вовсе стоит объединить в одну.
Как найти дублированный контент в сети
Вы понятия не имеете, какая часть контента вашего сайта “гуляет по сети”. Ситуация становится напряженнее, если вы обнаружите, что сайт, скопировавший ваш контент, появляется выше в результатах выдачи.
Такое часто случается с новыми сайтами. Причина очевидна: контент копируют более авторитетные сайты. Авторитетность вводит Google в заблуждение, заставляя принять копию за оригинал.
Либо вес такого параметра как “уникальность” намного ниже веса факторов авторитетности в формуле ранжирования.
Найти дублированный контент можно через поиск и при помощи специальных инструментов.
Для поиска через Google достаточно небольшой цитаты в кавычках. В результатах поиска вы увидите сайты, на которых введенная цитата употребляется в точном вхождении.
Такой метод подойдет небольшим сайтам. Для крупных информационных проектов необходимы специальные инструменты, которые проверят наличие дублей в сети для интересующих страниц.
Как правило, в результате проверки вы обнаружите сайты сомнительного происхождения, любительские, сайты-однодневки. Они не представляют опасности, так как маловероятно, что попадут в поле видимости пользователей в поиске.
Если же копия обнаружена на авторитетном сайте, то в таком случае можно:
- связаться с редакцией и потребовать поставить ссылку на оригинал
- потребовать скрыть от индексации страницу с помощью noindex или удалить страницу
Крайняя мера: подать жалобу в Google на удаление материала, нарушающего авторские права. Для Яндекса такая опция отсутствует.
Другой вариант повлиять на сайт (в случае отсутствия должной реакции) — обратиться к хостинг-провайдеру сайта с жалобой и указанием ссылок на оригинал и копию. Специалисты рассмотрят обращение и примут решение.
Поисковая система не может заблокировать или удалить страницу, но может исключить ее из индекса.
Выводы
Дублированный контент не так безобиден, как кажется.
Случайный дублированный контент в пределах одного сайта не может причинить существенный ущерб: никто не станет исключать сайт из индекса, пересматривать рейтинг. Тем более, что часто дублируется далеко не основной контент, а технический (к примеру, абзац об авторском праве).
Однако если повторяющийся контент применяется с целью повлиять на результаты выдачи, как метод оптимизации ресурсов (экономия бюджета на контент, сил и времени), то это может привести к жестким санкциям.
Посмотрите на крупные сайты, типа ixbt / habr и прочие монстры, где сотни комментов и даже есть 1000+ (на хабре) — у них все комменты на старнице одной без пагинации. Так и делай… Лучше выводить одной страничкой или делать комменты отдельной старницей, так тоже у многих — что даже иногде правильнее для SEO — так как комменты могут повлиять на разбавку ключевых слов на статье.
Спасибо, надо подумать… Изначально они были на одной странице, это я уже пагинацию для удобства комментаторов прикрутил, а то простыня нереальная получается. С другой стороны под статьей комменты постоянно обновляются, соответственно ПС видят обновления на странице, мб это тоже хорошо…
Это все хорошо, но как быть в таком случае?
У меня на сайте ко многим статьям есть от сотни до тысячи больших хороших комментариев. Соответственно они разбиты на десятки страницы (по 20 на страницу) с линками типа …/comment-page-52/comment-51306.
В статьях разумеется есть тег «canonical», который указывает URL статьи на всех страницах комментов. В результате все страницы с комментами выбрасываются из индекса как не каноничные.
А хотелось бы, чтобы комменты индексировались и участвовали в выдаче, ведь там много вопросов и ответов, которые ищут другие пользователи и могли бы прийти на них из поиска.
Получается, что комменты у меня это отдельный огромный контент, который гораздо больше чем сами статьи, хотя они у меня по 15-30 тыс.зн.
Как быть в таком случае?