Файл robots.txt WordPress – пример отличного SEO

139

Файл robots.txt – очень мощный файл, если вы занимаетесь поисковым продвижением сайта. В то же время он должен использоваться с осторожностью. Это файл позволят спрятать от поисковых систем определенные файлы и папки, но очень часто это не то, что вы хотели сделать.За годы своего существования поисковые системы, особенно Google, во многом изменили свои алгоритмы обхода веб-ресурсов, поэтому лучшие из старых методов уже не актуальны. Ниже мы расскажем о лучших методах работы с robots.txt сегодня и причинах, по которым эти методы можно считать лучшими.

Google полностью обрабатывает ваш сайт

Google больше не глуповатый младенец, который просто выбирает на сайте html-код, игнорируя таблицы стилей и код JavaScript. Теперь он сканирует все и отображает страницы сайта полностью.

Это означает, что запрещать Google доступ к файлам CSS или JavaScript – не очень хорошее решение. Поэтому не блокируйте доступ к этим файлам на своем сайте.

Старая практика блокирования доступа к директориям с плагинами и wp-includes уже не работает. Вот почему для WordPress 4.0 лучше использовать «заплатки», которые удаляют wp-includes/.* из файла robots.txt, поставляемого по умолчанию с WordPress.

$output .= "Disallow: $path/wp-includes/\n";

Множество тем также используют асинхронные запросы к JavaScript, так называемый язык AJAX, чтобы добавлять на страницу контент. По умолчанию WordPress раньше блокировал и эти запросы. В версии WordPress 4.4 эта проблема была устранена.

Файл robots.txt игнорирует значение ссылки

Очень важно помнить вот о чем. Если вы блокируете URL-адреса на сайте с помощью robots.txt, поисковые машины не зайдут на эти страницы. Это также означает, что они не смогут выдать значение ссылки, указывающей на этот адрес.

Поэтому если у вас есть часть сайта, которую вы не хотите показывать в результатах поиска, но на которую есть много ссылок с других страниц, не используйте robots.txt. Вместо этого используйте директивы «noindex», «follow» метатега robots. Они позволят поисковым машинам корректно выдавать значение ссылок для этих страниц в контексте всего сайта.

Пример файла robots.txt для WordPress

Так что же должно быть в вашем файле robots.txt? Вы больше ничего не блокируете! Вы не блокируете директорию /wp-content/plugins/, так как плагины могут обращаться к JavaScript или CSS, которые нужны Google для отображения страницы.

Также вы не блокируете директорию /wp-includes/, так как по умолчанию много тем WordPress используют JavaScripts, расположенный в этих директориях.

Также не блокируйте папку /wp-admin/.
Причина простая: если вы заблокируете доступ к этой папке, но где-то случайно к ней обратитесь, люди все равно смогут сделать простой запрос [inurl:wp-admin] в Google и найти ваш сайт. Этот тип запросов относится к любимым запросам хакеров и злоумышленников.

Гораздо более аккуратным решением для того, чтобы поисковые системы не показывали страницы администрирования WordPress в результатах поиска, будет использование HTTP-заголовка X-Robots-Tag.

Что вам нужно сделать со своим файлом robots.txt?

Вам нужно войти в панель Google Search Console и в окне «Сканирование» использовать опцию «Просмотреть как Googlebot» нажать на кнопку «получить и отобразить»:

Затем посмотреть что получилось:

Если то, что вы увидите, не похоже на вид вашего сайта в привычном браузере, или при сканировании выдаются ошибки и предупреждения, удалите в файле robots.txt строчки, которые блокируют доступ к проблемным частям сайта.

Нужно ли ссылаться на карту сайта из robots.txt?

Ссылаться на XML карту сайта из robots.txt немного абсурдно. Вам нужно будет вручную добавить их в инструменты Google Search Console и Bing Webmaster Tools, и удостовериться, что через robots.txt выдается обратная информация о XML-карте. Поэтому нет смысла в обязательном добавлении такой ссылки.

Источник

Сделай сайт

Google полностью обрабатывает ваш сайт

Файл robots.txt игнорирует значение ссылки

Пример файла robots.txt для WordPress

Что вам нужно сделать со своим файлом robots.txt?

Нужно ли ссылаться на карту сайта из robots.txt?