Приветствую вас, дорогие читатели!
Сегодня расскажу вам о правильной настройке robots txt для сайта wordpress. Это очень важная вещь, которая должна быть на каждом сайте и которая способна значительно повлиять на индексацию вашего сайта, причём как в лучшую так и в худшую сторону. Здесь всё зависит от того насколько правильно вы всё сделаете.
Вы ведь не хотите, чтобы из-за каких то двух-трёх неправильно написанных строк в robots.txt ваш сайт опустился в выдаче?
Тогда читайте статью до конца.
Навигация по статье:
Зачем вообще нужен robots.txt?
До появления CMS для поисковых роботов процесс индексации выглядел достаточно просто. Он просто приходил на ваш сайт и сканировал все HTML страницы которые там есть, а затем заносил их к себе в базу для последующей обработки.
После появления CMS данный процесс значительно усложнился в первую очередь потому, что в папке вашего сайта на хостинге появилось огромное количество файлов движка, которые не содержат никакого ценного контента для поискового робота. И среди этой кучи файлов с кодом бедному роботу нужно найти те две – три статьи, которые вы опубликовали, и которые, по вашему мнению, должны попасть в выдачу.
Можете представить, сколько лишней работы приходится проделывать роботу и сколько мусора может попасть в выдачу?
С целью хоть как то упростить индексацию был придуман robots.txt, который содержит в себе набор команд, с описанием тех папок, которые не нужно индексировать, а также указывающей поисковому роботу путь к карте сайта, о важности которой мы поговорим в одной из следующих статей.
Что представляет собой файл robots.txt?
Это простой текстовый файл с расширением .txt, который можно создать при помощи программы Блокнот или любой другой. Данный файл размещается в корне вашего сайта wordpress, то есть в той папке, куда вы загружаете все файлы сайта, где у вас находятся папки wp-content, wp-admin и так далее.
Названия должно быть обязательно написано строчными символами вот так: «robots.txt».
Какие команды должен содержать данный файл для WordPress?
- 1.User-agent: — здесь вы указываете для какого поискового робота предназначен данный набор команд.
Возможные значения:
- Yandex
- GoogleBot
- Mail.ru
- Aport и некоторые другие.
Если вы не хотите прописывать команды для каждого поискового робота, то можете поставить значение «*»
Это будет означать, что данные команды должны выполняться для всех роботов.Должно получиться так:
User-agent: * - 2.Disallow: команда запрещающая индексировать определённый файлы или папки.
Например:
Disallow: /wp-login.php
Disallow: /wp-register.php - 3.Sitemap: указывает ссылку на карту сайта.
Например: //impuls-web.ru/sitemap.xml
- 4.Host: здесь указывается домен вашего сайта без http://
Например: Host: impuls-web.ru
Как должен выглядеть robots txt для сайта wordpress?
Каждая CMS имеет свою структуру файлов и папок, поэтому для каждой из них нужно создавать свой robots.txt.
Для сайта WordPress robots.txt обычно выглядит так:
Файл с данным кодом можно скачать по ссылке ниже и загрузить к себе на сайт
Важно также не запретить ничего лишнего, так как это может привести к проблемам с индексацией и как следствие понижению позиций сайта в выдаче.
Как проверить robots.txt
Это можно сделать через яндекс-вебмастер. Для этого нужно:
- 1.Перейти по ссылке https://webmaster.yandex.ru/robots.xml (Анализ robots.txt)
- 2.В поле «Имя хоста» введите домен вашего сайта и нажмите на кнопку «Загрузить robots.txt с сайта»
- 3.Нажимаем на кнопку «Проверить» и смотрим на результат. Если не возникло никаких ошибок, то результат будет выглядеть приблизительно так как на скриншоте ниже
- 4.В идеале ещё бы проверить главную страницу, страницу категорий, страницу записей и другие типы страниц wordpress и убедиться что они могут нормально индексироваться. Для этого нужно взять ссылки на эти страницы и добавить их в пункт «Список URL»
- 5.Нажимаем кнопку «Проверить»
- 6.Смотрим результат. Все добавленные вами страницы должны быть разрешены.
Заключение
Использование robots.txt на сайте wordpress позволяет упростить поисковому роботу процесс индексации за счёт того что вы сами указываете ему какие файлы нужно индексировать, а какие нет. Но не стоит этим злоупотреблять и пытаться перехитрить робота запрещая ему индексировать дубли страниц, к примеру, или какие то страницы с контентом, которые вы бы не хотели чтобы он индексировал.
Поисковые роботы стали более обученные и обмануть их не так то просто. Они все равно будут сканировать запрещённые в robots.txt файлы и папки, но будут уделять им меньшее значение и обрабатывать по другим алгоритмам. Поэтому если среди этих файлов он найдёт страницы, которые похожи на страницы с контентом, то он всё равно поместит их выдачу, несмотря на ваши запреты.
Надеюсь, что у вас не возникнет никаких проблем ни с созданием и проверкой данного файла, ни с индексированием в целом! Желаю вам успехов в этом деле и если вам есть что сказать или спросить по данной теме – не стесняйтесь и пишите мне через комментарии! Я обязательно отвечу на все ваши вопросы.
Также подписывайтесь на рассылку, чтобы не пропустить ничего интересного.
С уважением Юлия Гусарь
Здравствуйте, Юля! Отличный и полезный блог у Вас получился. Правда в этой статье в первой верхней картинке вместо содержания robots.txt код скрипта отображается, а на файлик так хочется посмотреть ))))
Здравствуйте, Светлана! Спасибо Вам большое за то что обратили моё внимание на этот глюк. WordPress после обновления позаменял мне некоторые картинки с одинаковыми названиями. До этого у него такой проблемы не было. Ещё раз спасибо!
Подскажите, пожалуйста. В поиск попадают фотографии из галереи медиафайлов и Яндекс ругается на отсутсвие description. Стоит ли закрывать их в роботсе (тем более, что Гугл пишет, что будет индексировать картинки) или оставить и заполнить мета-теги?
А туда попадают именно сами медиафайлы или страницы с медиафайлами, то есть для каждого медиафайла создаётся своя страница с отдельной ссылкой. Если страницы, то лучше настроить редирект со страниц вложений. Вот статья по этой теме //impuls-web.ru/a-vy-ustranili-problemu-s-wordpress-attachment/
Спасибо большое, Юлия. Почитал. Буду пробовать
И Вам спасибо! Успехов Вам!