Основы SEO: что такое ошибки сканирования?

Ошибки сканирования возникают, когда поисковая система пытается добраться до страницы на вашем сайте, но терпит при этом неудачу. Сначала разберемся с понятием «сканирование». Это процесс, при котором поисковая машина старается посетить каждую страницу сайта с помощью робота.Поисковый робот получает ссылку на ваш сайт и начинает искать на нем все публичные страницы. Бот обходит страницы, индексирует весь контент для использования в Google, плюс добавляет все ссылки на этих страницы к набору страниц, которые нужно потом обойти.

ошибки сканирования

Ваша главная цель, как владельца веб-сайта – убедиться, что поисковый робот сможет добраться до всех страниц на ресурсе. В противном случае процесс возвращает сообщение, которое мы называем ошибкой сканирования.

Ваша задача заключается в том, чтобы убедиться, что каждая ссылка на сайте ведет на актуальную страницу. Это можно сделать через код ответа 301 «Редирект», но страница по этой ссылке должна всегда возвращать ответ от сервера об успешном запросе 200 ОК.

Google делит ошибки сканирования на две группы:

1. Ошибки сайта. Их наличие означает, что робот не может обойти весь сайт.

2. Ошибки URL. Тоже не самое приятное открытие. Но так как каждая из этих ошибок связана с определенным адресом, их легче выявлять и исправлять.

Разберем подробнее каждую группу ошибок.

Ошибки сайта

Ошибки сайта – это все ошибки обхода, которые мешают поисковой машине получить доступ к сайту. Причин может быть много, к самым распространенным относятся следующие:

  • 1. Ошибки DNS. Означает, что поисковая машина не может связаться с вашим сайтом. Другими словами, это говорит, например, что на ваш сайт не могут зайти посетители. Обычно такая проблема является временной.

    Google вернется на веб-сайт позже и, так или иначе, просканирует его. Если вы увидели сообщение об ошибке обхода контента в Google Search Console, вероятно, Google два-три раза попробовал попасть на сайт и до сих пор не смог это осуществить.

  • 2. Ошибки сервера. Если вы обнаружили в консоли ошибки сервера, это значит, что робот не смог получить доступ к сайту. Возможно, был превышен интервал ожидания для запроса. Например, поисковая машина попробовала посетить сайт, но загрузка заняла так много времени, что сервер вернул сообщение об ошибке.

    Ошибки сервера также возникают, когда в коде есть недочеты, мешающие загрузке страниц. Это также может означать, что на ваш ресурс зашло так много посетителей, что сервер не может обработать все запросы. Большинство ошибок этого вида возвращаются как код ответа 5хх, вроде 500 или 503

  • 3. Ошибка роботов. Перед сканированием робот Google пробует прочитать файл robots.txt, чтобы увидеть, есть ли какие-то области на сайте, которые не нужно индексировать. Если робот не может обнаружить robots.txt, Google отложит обход контента, пока не получит доступ к этому файлу. Поэтому всегда убеждайтесь в доступности последнего.

Это был перечень ошибок, связанных с доступом ко всему сайту. Теперь рассмотрим, какие ошибки сканирования могут возникать на конкретных страницах.

Ошибки URL

Как уже говорилось, ошибки URL-адреса связаны с ошибками обхода, которые происходят, когда робот пытается сканировать конкретные страницы на сайте. При обсуждении ошибок URL в первую очередь вспоминают про ошибки обхода контента 404 – «Страница не найдена».

Как можно чаще проверяйте сайт с помощью инструментов Google Search Console или Bing webmaster, чтобы вовремя исправить такие проблемы.

Если страница или объект на странице действительно удалены навсегда, измените код ответа 404 на 410 (страница удалена). Если у вас есть такой же контент на другой странице, используйте код ответа 301 (редирект). Убедитесь, что ваша карта сайта и внутренние ссылки содержат актуальную информацию.

Как показывает практика, большинство этих ошибок вызываются внутренними ссылками. Так что в основном это ваши ошибки. Если в какой-то момент вы удаляете страницу с сайта, скорректируйте или удалите все ведущие на нее ссылки. Они уже бесполезны.

Если оставить подобную ссылку неизменной, робот найдет её и, перейдя, обнаружит тупик (ошибку 404 «Страница не найдена»). Вы должны регулярно проверять актуальность внутренних ссылок на своем сайте.

Помимо этих общих проблем, для конкретного адреса может возникнуть ошибка DNS или сервера. Проверьте адрес чуть позже, чтобы посмотреть, исчезла ошибка или нет. Обязательно используйте функцию «Сканировать как Google», и отметьте ошибки, которые нужно исправить, в Google Search Console (если вы пользуетесь этим инструментом).

Особые ошибки URL

Есть несколько ошибок URL-адресов, которые возникают только на сайтах определенного типа. Вот почему хочется перечислить их отдельно:

1. Ошибки мобильных URL-адресов. Связаны с ошибками сканирования страниц на мобильных устройствах (например, смартфонах). Если у вас сайт с отзывчивым дизайном, этого не должно случиться. Если вы поддерживаете отдельный мобильный поддомен вида m.example.com, вероятность возникновения проблемы повышается.

Например, её могут вызвать неактуальные переадресации с версии ресурса для настольных систем на мобильный сайт. Или вы могли заблокировать часть мобильного сайта строчкой в файле robots.txt.

2. Ошибки вредоносного ПО. Если вы сталкиваетесь с ошибками вредоносного ПО в отчете, это означает, что Яндекс или Гугл нашли по указанной ссылке опасный код. Это может означать, например, что обнаруженная там программа «собирает защищенную информацию или выполняет разрушительные действия в общем» (Википедия). Вам нужно проанализировать указанную страницу и удалить вредоносный код.

3. Ошибки в новостях Google. Очень специфические ошибки, полный список которых можно найти в документации Гугл. Вы можете столкнуться с этими ошибками сканирования, если ваш сайт есть в Google News. Они варьируются от отсутствия заголовка до сообщений, что ваша страница, скорее всего, не содержит новостного контента. Обязательно проверьте актуальность этих сообщений самостоятельно, если они относятся к вашему проекту.

Исправление ошибок сканирования

Итак, если вы сталкиваетесь с ошибками сканирования, обязательно их исправляйте. Эта процедура должна стать частью обязательных работ по обслуживанию вашего ресурса, как и регулярная проверка на наличие подобных проблем.

Для облегчения задачи можно попробовать поискать специальные инструменты (плагины, программы, сервисы), которые позволяют предупредить ошибки обхода, например, при удалении страницы.

Об использовании одной из таких программ можно посмотреть в видеоуроке на странице ошибка протокола https, где подробно показан весь процесс исправления ошибок url-адресов.

 

Поделиться с друзьями
Эдуард Бунаков

Здравствуйте! Я специалист cms-систем, автор серии обучающих курсов по созданию сайтов на cms-Joomla, WordPress, интернет-магазинов на Opencart.

Оцените автора
( Пока оценок нет )
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.