Файл robots.txt для сайта WordPress

pic1

Приветствую вас, дорогие читатели!

Сегодня расскажу вам о правильной настройке robots txt для сайта wordpress. Это очень важная вещь, которая должна быть на каждом сайте и которая способна значительно повлиять на индексацию вашего сайта, причём как в лучшую так и в худшую сторону. Здесь всё зависит от того насколько правильно вы всё сделаете.

Вы ведь не хотите, чтобы из-за каких то двух-трёх неправильно написанных строк в robots.txt ваш сайт опустился в выдаче?
Тогда читайте статью до конца.

Зачем вообще нужен robots.txt?

До появления CMS для поисковых роботов процесс индексации выглядел достаточно просто. Он просто приходил на ваш сайт и сканировал все HTML страницы которые там есть, а затем заносил их к себе в базу для последующей обработки.

После появления CMS данный процесс значительно усложнился в первую очередь потому, что в папке вашего сайта на хостинге появилось огромное количество файлов движка, которые не содержат никакого ценного контента для поискового робота. И среди этой кучи файлов с кодом бедному роботу нужно найти те две – три статьи, которые вы опубликовали, и которые, по вашему мнению, должны попасть в выдачу.

Можете представить, сколько лишней работы приходится проделывать роботу и сколько мусора может попасть в выдачу?

С целью хоть как то упростить индексацию был придуман robots.txt, который содержит в себе набор команд, с описанием тех папок, которые не нужно индексировать, а также указывающей поисковому роботу путь к карте сайта, о важности которой мы поговорим в одной из следующих статей.

Что представляет собой файл robots.txt?

Это простой текстовый файл с расширением .txt, который можно создать при помощи программы Блокнот или любой другой. Данный файл размещается в корне вашего сайта wordpress, то есть в той папке, куда вы загружаете все файлы сайта, где у вас находятся папки wp-content, wp-admin и так далее.

Названия должно быть обязательно написано строчными символами вот так: «robots.txt».

Какие команды должен содержать данный файл для WordPress?

  1. 1.User-agent: — здесь вы указываете для какого поискового робота предназначен данный набор команд.

    Возможные значения:

    • Yandex
    • GoogleBot
    • Mail.ru
    • Aport и некоторые другие.

    Если вы не хотите прописывать команды для каждого поискового робота, то можете поставить значение «*»
    Это будет означать, что данные команды должны выполняться для всех роботов.

    Должно получиться так:
    User-agent: *

  2. 2.Disallow: команда запрещающая индексировать определённый файлы или папки.

    Например:
    Disallow: /wp-login.php
    Disallow: /wp-register.php

  3. 3.Sitemap: указывает ссылку на карту сайта.

    Например: http://impuls-web.ru/sitemap.xml

  4. 4.Host: здесь указывается домен вашего сайта без http://

    Например: Host: impuls-web.ru

Как должен выглядеть robots txt для сайта wordpress?

Каждая CMS имеет свою структуру файлов и папок, поэтому для каждой из них нужно создавать свой robots.txt.

Для сайта WordPress robots.txt обычно выглядит так:

robots.txt

Файл с данным кодом можно скачать по ссылке ниже и загрузить к себе на сайт

Только не забудьте вместо impuls-web.ru подставить домен вашего сайта.
Обратите внимание, что в данном файле прописаны команды только для роботов яндекса и всех остальных. Google в последнее время не обращает особого внимания на этот файл и индексирует всё подряд, поэтому писать команды для него не имеет смысла.

Важно также не запретить ничего лишнего, так как это может привести к проблемам с индексацией и как следствие понижению позиций сайта в выдаче.

Как проверить robots.txt

Это можно сделать через яндекс-вебмастер. Для этого нужно:

  1. 1.Перейти по ссылке https://webmaster.yandex.ru/robots.xml (Анализ robots.txt)
  2. 2.В поле «Имя хоста» введите домен вашего сайта и нажмите на кнопку «Загрузить robots.txt с сайта»
  3. проверка robots.txt
  4. 3.Нажимаем на кнопку «Проверить» и смотрим на результат. Если не возникло никаких ошибок, то результат будет выглядеть приблизительно так как на скриншоте ниже
  5. проверка robots.txt
  6. 4.В идеале ещё бы проверить главную страницу, страницу категорий, страницу записей и другие типы страниц wordpress и убедиться что они могут нормально индексироваться. Для этого нужно взять ссылки на эти страницы и добавить их в пункт «Список URL»
  7. список URL
  8. 5.Нажимаем кнопку «Проверить»
  9. результаты проверки robots.txt
  10. 6.Смотрим результат. Все добавленные вами страницы должны быть разрешены.
  11. проверка результатов

Заключение

Использование robots.txt на сайте wordpress позволяет упростить поисковому роботу процесс индексации за счёт того что вы сами указываете ему какие файлы нужно индексировать, а какие нет. Но не стоит этим злоупотреблять и пытаться перехитрить робота запрещая ему индексировать дубли страниц, к примеру, или какие то страницы с контентом, которые вы бы не хотели чтобы он индексировал.

Поисковые роботы стали более обученные и обмануть их не так то просто. Они все равно будут сканировать запрещённые в robots.txt файлы и папки, но будут уделять им меньшее значение и обрабатывать по другим алгоритмам. Поэтому если среди этих файлов он найдёт страницы, которые похожи на страницы с контентом, то он всё равно поместит их выдачу, несмотря на ваши запреты.

Вывод: использовать robots.txt у себя н сайте стоит, но запрещайте в нём только папки и файлы движка. Страницы с контентом в данном файле запрещаться не должны. Это может привести к неправильной обработке роботом полученных данных и возникновению проблем с индексацией.

Надеюсь, что у вас не возникнет никаких проблем ни с созданием и проверкой данного файла, ни с индексированием в целом! Желаю вам успехов в этом деле и если вам есть что сказать или спросить по данной теме – не стесняйтесь и пишите мне через комментарии! Я обязательно отвечу на все ваши вопросы.

Также подписывайтесь на рассылку, чтобы не пропустить ничего интересного.

С уважением Юлия Гусарь

Подписаться на рассылку

Читайте также:

comments powered by HyperComments

2 комментария

  1. Здравствуйте, Юля! Отличный  и полезный блог у Вас получился. Правда в этой статье в первой верхней картинке вместо содержания  robots.txt код скрипта отображается, а на файлик так хочется посмотреть ))))

    • Здравствуйте, Светлана! Спасибо Вам большое за то что обратили моё внимание на этот глюк. WordPress после обновления позаменял мне некоторые картинки с одинаковыми названиями. До этого у него такой проблемы не было. Ещё раз спасибо!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_bye.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_good.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_negative.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_scratch.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_wacko.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_yahoo.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_cool.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_heart.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_rose.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_smile.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_whistle3.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_yes.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_cry.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_mail.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_sad.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_unsure.gif 
http://impuls-web.ru/wp-content/plugins/wp-monalisa/icons/wpml_wink.gif